Busca avançada
Ano de início
Entree

Descrição e análise do fenômeno da contradição para a sumarização automática multidocumento

Processo: 13/12521-5
Linha de fomento:Bolsas no Brasil - Iniciação Científica
Vigência (Início): 01 de setembro de 2013
Vigência (Término): 31 de agosto de 2014
Área do conhecimento:Linguística, Letras e Artes - Linguística - Teoria e Análise Lingüística
Pesquisador responsável:Ariani Di Felippo
Beneficiário:Naira Lícia da Silva
Instituição-sede: Centro de Educação e Ciências Humanas (CECH). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Assunto(s):Sumarização automática multidocumento   Contradição

Resumo

Na Sumarização Automática Multidocumento (SAM), subárea do Processamento Automático das Línguas Naturais (PLN), busca-se produzir automaticamente um sumário (ou resumo) a partir de uma coleção de textos, provenientes de fontes distintas, que abordam um mesmo assunto. Os sumários multidocumento mais difundidos são os genéricos que, elaborados para uma audiência ampla, veiculam o conteúdo principal da coleção de forma coerente e coesa. Para produzi-los, os sistemas precisam processar textos-fonte que, por tratarem do mesmo assunto, apresentam grande quantidade de informações repetidas e, por serem de fontes distintas, podem apresentar várias informações contraditórias. A identificação da redundância entre os textos-fonte é essencial, pois a informação mais redundante é tida como a principal da coleção e, portanto, selecionada para compor o sumário. A identificação das informações contraditórias, por sua vez, faz-se importante porque a ausência de contradição é um dos fatores que garantem a informatividade e a coerência dos sumários. Diante da relevância, vários métodos automáticos para detectar a redundância e distinguir os diferentes níveis de similaridade têm sido propostos a partir do estudo de corpus. A contradição, no entanto, é um fenômeno multidocumento ainda pouco investigado, ao menos no cenário da SAM. Assim, objetiva-se investigar esse fenômeno em um corpus multidocumento em português. Inserindo-se no projeto SUSTENTO (FAPESP 2012/13246-5/ CNPq 483231/2012-6), cujo objetivo é o de gerar subsídios linguísticos para a SAM em português, este projeto visa especificamente descrever e analisar os casos de contradição em corpus para identificar estratégias que possam subsidiar a detecção da contradição por sumarizadores automáticos multidocumento.