Busca avançada
Ano de início
Entree

Avaliação de estratégias de sumarização humana multidocumento

Processo: 12/22843-7
Linha de fomento:Bolsas no Exterior - Estágio de Pesquisa - Mestrado
Vigência (Início): 01 de março de 2013
Vigência (Término): 30 de abril de 2013
Área do conhecimento:Linguística, Letras e Artes - Linguística - Teoria e Análise Lingüística
Pesquisador responsável:Ariani Di Felippo
Beneficiário:Renata Tironi de Camargo
Supervisor no Exterior: Diana Maria de Sousa Marques Pinto dos Santos
Instituição-sede: Centro de Educação e Ciências Humanas (CECH). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Local de pesquisa : University of Oslo (UiO), Noruega  
Vinculado à bolsa:11/05003-2 - Investigação de estratégias de sumarização humana multidocumento, BP.MS
Assunto(s):Processamento de linguagem natural   Sumarização automática multidocumento

Resumo

Aplicações computacionais capazes de tratar adequadamente a incrível quantidade de informação disponível atualmente, principalmente na web, têm se tornado cada vez mais necessárias. A sumarização automática multidocumento (SAM) é uma dessas aplicações, na qual, a partir de um conjunto de documentos que tratam de um mesmo assunto, produz-se um único sumário. Essa tarefa surgiu como uma extensão natural da tradicional sumarização monodocumento, a qual visa à elaboração de um sumário a partir de um documento apenas. A Sumarização Automática (SA) monodocumento tem sido muito explorada por vários autores, enquanto que a SAM é uma tarefa atual. Apesar do interesse pela SAM ser recente, alguns sistemas já foram desenvolvidos, inclusive para o português do Brasil, baseados em métodos superficiais e profundos de sumarização. A SAM, entretanto, não conta com estudos sobre a sumarização humana multidocumento (SHM), diferentemente da SA monodocumento, a qual desencadeou uma série de estratégias recorrentes de seleção de conteúdo. Apesar de haver indícios de como a SHM é feita, desconhecem-se tentativas de caracterização linguística dos sumários multidocumento. Assim, propôs-se, com base em análise de corpus, caracterizar o processo de SHM com vistas à geração de subsídios para a SAM e contribuição à Linguística Descritiva. Essa caracterização aconteceu, primeiramente, pela seleção de um corpus monolíngue, multidocumento, alinhado em nível semântico/discursivo, que contém sumários humanos, e pela realização da tarefa de alinhamento sentencial dos sumários a seus textos-fonte. Posteriormente, caracterizaram-se os sumários quanto à seleção de conteúdo, por meio de alguns atributos linguísticos, com o intuito de se observar estratégias de seleção de conteúdo que humanos comumente utilizam. A etapa de identificação dessas estratégias e formalização das mesmas está em andamento, com previsão para término em dezembro de 2012. Neste projeto, objetiva-se realizar a avaliação das estratégias humanas de seleção de conteúdo que atualmente estão sendo identificadas. Existem diversos métodos de avaliação que avaliam sistemas de SA, os quais podem ser utilizados para a avaliação das estratégias humanas de seleção de conteúdo. Especificamente, esses métodos podem viabilizar a avaliação da qualidade e informatividade de sumários automáticos multidocumento gerados a partir das estratégias humanas de seleção de conteúdo identificadas. Para tanto, pretende-se investigar os diferentes métodos da literatura para selecionar um ou mais métodos pertinentes. (AU)