Bolsa 15/01450-5 - Revisão de texto, Sumarização automática multidocumento - BV FAPESP
Busca avançada
Ano de início
Entree

Revisão de sumários baseada em conhecimento: transformando extratos multidocumento em abstracts

Processo: 15/01450-5
Modalidade de apoio:Bolsas no Exterior - Pesquisa
Data de Início da vigência: 15 de setembro de 2015
Data de Término da vigência: 14 de setembro de 2016
Área de conhecimento:Linguística, Letras e Artes - Linguística - Teoria e Análise Lingüística
Pesquisador responsável:Ariani Di Felippo
Beneficiário:Ariani Di Felippo
Pesquisador Anfitrião: Ani Nenkova
Instituição Sede: Centro de Educação e Ciências Humanas (CECH). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Instituição Anfitriã: University of Pennsylvania, Estados Unidos  
Assunto(s):Revisão de texto   Sumarização automática multidocumento   Processamento de linguagem natural
Palavra(s)-Chave do Pesquisador:especialização | generalização | regra de reescrita | Revisão | sumário abstrativo | sumário extrativo | Sumarização automática multidocumento | Processamento Automático de Línguas Naturais

Resumo

Diante da grande quantidade de informação textual disponível principalmente na web, a Sumarização Automática Multidocumento (SAM) tem ocupado lugar de destaque no Processamento Automático das Línguas Naturais (PLN) ao facilitar o acesso à informação. Originada em meados de 1990, o objetivo da SAM é produzir um único sumário (resumo) a partir de uma coleção de textos sobre certo assunto. Para o português, as pesquisas começaram somente 2011. Apesar de incipientes, os sistemas/métodos que envolvem o português igualam-se ao estado-da-arte e, em alguns casos, superam os resultados obtidos para outras línguas. De modo geral, as aplicações de SAM caracterizam-se por produzirem extratos, sumários compostos por sentenças selecionadas integralmente dos textos-fonte. Apesar da evolução das estratégias de seleção de sentenças, os sumários extrativos ainda apresentam uma série de problemas relativos à informatividade e qualidade linguística. Nesse cenário, propõe-se identificar, com base em corpus, estratégias de abstração ou reescrita para a revisão de sumários automáticos. Tais estratégias, uma vez codificadas em regras, visam generalizar e especializar conteúdo dos extratos em um processo de pós-edição. A generalização e a especialização são operações de condensação bastante abrangentes em escopo (intersentencial ou intressentencial), nível (lexical, sintagmático, oracional ou sentencial) e mecanismo linguístico (p.ex: troca ou inserção de palavras, transformação sintática, etc.). Com isso, objetiva-se avançar a SAM do português em direção à abstração, tornando os extratos mais naturais e com menos problemas de informatividade e qualidade linguística. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)