Busca avançada
Ano de início
Entree

Avaliação de regras de reescrita para referências a pessoas em sumários automáticos multidocumento

Processo: 17/15344-8
Linha de fomento:Bolsas no Brasil - Iniciação Científica
Vigência (Início): 01 de outubro de 2017
Vigência (Término): 30 de setembro de 2019
Área do conhecimento:Linguística, Letras e Artes - Linguística
Pesquisador responsável:Ariani Di Felippo
Beneficiário:Luana Fonseca Cristini
Instituição-sede: Centro de Educação e Ciências Humanas (CECH). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Assunto(s):Linguística computacional   Ontologia (ciência da computação)   Sumarização automática multidocumento

Resumo

Na Sumarização Automática Multidocumento (SAM), busca-se produzir um único sumário a partir de um conjunto de textos que tratam de um mesmo assunto. Por serem construídos segundo métodos extrativos, tais sumários (denominados extratos) são compostos pela justaposição de sentenças extraídas integralmente dos textos-fonte, o que gera inúmeros problemas de coesão e coerência. Alguns desses problemas ocorrem no nível das entidades nomeadas, como a ocorrência de "primeira menção sem explicação", "menção subsequente com explicação", "acrônimo sem explicação" e outros. Uma estratégia para o tratamento desses problemas consiste em reescrever as menções em uma fase de pós-edição dos sumários automáticos. Para tanto, Di Felippo (2016) caracterizou as cadeias de correferência que contém menções a entidades nomeadas do tipo pessoa e organização em um corpus de sumários humanos produzidos a partir de coleções de textos jornalísticos e propôs regras computacionalmente tratáveis para a reescrita das referências a esses dois tipos de entidades. Neste trabalho, pretende-se avaliar o potencial dessas regras para melhorar a qualidade linguística dos sumários automáticos multidocumento. A avaliação consistirá na reescrita manual das menções a entidades do tipo pessoa em sumários automáticos segundo as referidas regras e posterior comparação manual das versões original e reescrita dos sumários. Com isso, objetiva-se avançar a SAM do português em direção à abstração, tornando os extratos mais naturais e com menos problemas de informatividade e qualidade linguística. Ressalta-se que esta proposta se insere no projeto Sustento, que obteve financiamento da FAPESP entre 2012 e 2014 (#2012/13246-5) e consiste em um desdobramento da pesquisa de pós-doutorado realizado pela orientadora entre 2015-2016 (FAPESP #2015/01450-5). (AU)