Busca avançada
Ano de início
Entree

Revisão de sumários baseada em conhecimento: transformando extratos multidocumento em abstracts

Processo: 15/01450-5
Linha de fomento:Bolsas no Exterior - Pesquisa
Vigência (Início): 15 de setembro de 2015
Vigência (Término): 14 de setembro de 2016
Área do conhecimento:Linguística, Letras e Artes - Linguística - Teoria e Análise Lingüística
Pesquisador responsável:Ariani Di Felippo
Beneficiário:Ariani Di Felippo
Anfitrião: Ani Nenkova
Instituição-sede: Centro de Educação e Ciências Humanas (CECH). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Local de pesquisa : University of Pennsylvania, Estados Unidos  
Assunto(s):Revisão de texto   Sumarização automática multidocumento   Processamento de linguagem natural

Resumo

Diante da grande quantidade de informação textual disponível principalmente na web, a Sumarização Automática Multidocumento (SAM) tem ocupado lugar de destaque no Processamento Automático das Línguas Naturais (PLN) ao facilitar o acesso à informação. Originada em meados de 1990, o objetivo da SAM é produzir um único sumário (resumo) a partir de uma coleção de textos sobre certo assunto. Para o português, as pesquisas começaram somente 2011. Apesar de incipientes, os sistemas/métodos que envolvem o português igualam-se ao estado-da-arte e, em alguns casos, superam os resultados obtidos para outras línguas. De modo geral, as aplicações de SAM caracterizam-se por produzirem extratos, sumários compostos por sentenças selecionadas integralmente dos textos-fonte. Apesar da evolução das estratégias de seleção de sentenças, os sumários extrativos ainda apresentam uma série de problemas relativos à informatividade e qualidade linguística. Nesse cenário, propõe-se identificar, com base em corpus, estratégias de abstração ou reescrita para a revisão de sumários automáticos. Tais estratégias, uma vez codificadas em regras, visam generalizar e especializar conteúdo dos extratos em um processo de pós-edição. A generalização e a especialização são operações de condensação bastante abrangentes em escopo (intersentencial ou intressentencial), nível (lexical, sintagmático, oracional ou sentencial) e mecanismo linguístico (p.ex: troca ou inserção de palavras, transformação sintática, etc.). Com isso, objetiva-se avançar a SAM do português em direção à abstração, tornando os extratos mais naturais e com menos problemas de informatividade e qualidade linguística. (AU)