Busca avançada
Ano de início
Entree

Estudo e desenvolvimento de métodos para detecção e correção automática de erros e inconsistências em corpora sintaticamente anotados

Processo: 13/18090-6
Modalidade de apoio:Bolsas no Brasil - Pós-Doutorado
Vigência (Início): 01 de janeiro de 2014
Vigência (Término): 31 de julho de 2016
Área do conhecimento:Interdisciplinar
Pesquisador responsável:Charlotte Marie Chambelland Galves
Beneficiário:Pablo Picasso Feliciano de Faria
Instituição Sede: Instituto de Estudos da Linguagem (IEL). Universidade Estadual de Campinas (UNICAMP). Campinas , SP, Brasil
Vinculado ao auxílio:12/06078-9 - A língua portuguesa no tempo e no espaço: contato linguístico, gramáticas em competição e mudança paramétrica, AP.TEM
Bolsa(s) vinculada(s):14/17172-1 - Estudo e aplicação de formalismos gramaticais explícitos na detecção de inconsistências em treebanks, BE.EP.PD
Assunto(s):Aprendizado computacional   Controle da qualidade   Linguística computacional
Palavra(s)-Chave do Pesquisador:Aprendizagem de Maquina | controle de qualidade | Corpus sintaticamente anotado | correção automática | detecção de anomalia | Gramática de Adjunção de Ávore | Linguística Computacional

Resumo

Este projeto tem como objetivo central o estudo - para aplicação e avanço no desenvolvimento - de métodos computacionais utilizados para a detecção e correção automática de erros e inconsistências em corpora sintaticamente anotados (treebanks), tais como o algoritmo proposto por Kato & Matsubara (2010), baseado na Gramática Síncrona de Substituição de Árvore (Shieber & Schabes, 1990). Vinculada ao Projeto Temático "A língua portuguesa no tempo e no espaço: contato linguístico, gramáticas em competição e mudança paramétrica" (FAPESP 12/06078-9), esta pesquisa vem se somar aos esforços da frente de trabalho para ampliação e consolidação do Corpus Tycho Brahe (CTB), na medida em que o estudo será feito e aplicado sobre o corpus. Como resultado da pesquisa, espera-se (i) o desenvolvimento de um método de detecção e correção automática de inconsistências com resultados melhores que os propostos até o momento; (ii) a inclusão do método como parte do processo de anotação sintática e sua aplicação ao CTB para disponibilização de uma versão revisada do corpus (em sua extensão atual); e, finalmente, (iii) com base na análise dos principais tipos de erros recorrentes detectados pelo método, a atualização das orientações de anotação sintática para melhor preparação da equipe de revisores.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Matéria(s) publicada(s) em Outras Mídias (0 total):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)