Busca avançada
Ano de início
Entree

Modelo de representação distribuída de textos com capacidade de evoluir continuamente

Processo: 17/09387-6
Modalidade de apoio:Auxílio à Pesquisa - Regular
Vigência: 01 de setembro de 2017 - 29 de fevereiro de 2020
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação
Pesquisador responsável:Tiago Agostinho de Almeida
Beneficiário:Tiago Agostinho de Almeida
Instituição Sede: Centro de Ciências em Gestão e Tecnologia (CCGT). Universidade Federal de São Carlos (UFSCAR). Campus de Sorocaba. Sorocaba , SP, Brasil
Pesquisadores associados:Renato Moraes Silva
Assunto(s):Inteligência artificial  Aprendizado computacional  Processamento de linguagem natural  Categorização de textos 
Palavra(s)-Chave do Pesquisador:Aprendizado de Máquina | Categorização de texto | Processamento de Linguagem Natural | Inteligência Artificial

Resumo

O aumento no volume de dados não-estruturados produzidos pela humanidade motivou a utilização de máquinas para executar tarefas que antes eram tradicionalmente realizadas por humanos, tais como tradução, transcrição, análise de opinião, entre outras. Apesar de existir dezenas de métodos de categorização de textos disponíveis, um desafio ainda em aberto é encontrar uma representação computacional capaz de capturar o significado semântico dos textos e aumentar continuamente o vocabulário, bem como evoluir o conhecimento a respeito das relações existentes entre termos e sentenças. Com os modelos de representação existentes, alterações nos padrões dos textos não são rapidamente refletidas no modelo que os representa computacionalmente. Portanto, em cenários nos quais o padrão textual é dinâmico e altera-se com frequência, os modelos de representação disponíveis demandam longo tempo e custo de adaptação. Nesse contexto, o cenário de textos curtos e ruidosos, comumente presente na comunicação por texto via web e smartphones, é uma das aplicações que demanda modelos incrementais, pois termos novos podem surgir o tempo todo, tais como símbolos, gírias e abreviações. Assim, este projeto de pesquisa propõe utilizar técnicas não-supervisionadas de agrupamento e redes neurais recorrentes para criar um modelo computacional de representação de texto capaz de aprender continuamente, associando novos termos a grupos de termos já conhecidos, permitindo que termos ainda não vistos tenham relevância e sejam compreendidos pelo modelo existente. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas (6)
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
LOCHTER, JOHANNES V.; SILVA, RENATO M.; ALMEIDA, TIAGO A.; YAMAKAMI, AKEBO; WANI, MA; KANTARDZIC, M; SAYEDMOUCHAWEH, M; GAMA, J; LUGHOFER, E. Semantic indexing-based data augmentation for filtering undesired short text messages. 2018 17TH IEEE INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND APPLICATIONS (ICMLA), v. N/A, p. 6-pg., . (17/09387-6, 18/02146-6)
SILVA, RENATO M.; SANTOS, RONEY L. S.; ALMEIDA, TIAGO A.; PARDO, THIAGO A. S.. Towards automatically filtering fake news in Portuguese. EXPERT SYSTEMS WITH APPLICATIONS, v. 146, . (18/02146-6, 17/09387-6)
FREITAS, BRENO L.; SILVA, RENATO M.; ALMEIDA, TIAGO A.. Gaussian Mixture Descriptors Learner. KNOWLEDGE-BASED SYSTEMS, v. 188, . (18/02146-6, 17/09387-6)
LOCHTER, JOHANNES V.; SILVA, RENATO M.; ALMEIDA, TIAGO A.. Multi-level out-of-vocabulary words handling approach. KNOWLEDGE-BASED SYSTEMS, v. 251, p. 11-pg., . (18/02146-6, 17/09387-6)
BITTENCOURT, MARCIELE M.; SILVA, RENATO M.; ALMEIDA, TIAGO A.. ML-MDLText: An efficient and lightweight multilabel text classifier with incremental learning. APPLIED SOFT COMPUTING, v. 96, . (18/02146-6, 17/09387-6)
LOCHTER, JOHANNES, V; PIRES, PEDRO R.; BOSSOLANI, CARLOS; YAMAKAMI, AKEBO; ALMEIDA, TIAGO A.; IEEE. Evaluating the impact of corpora used to train distributed text representation models for noisy and short texts. 2018 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN), v. N/A, p. 8-pg., . (17/06495-2, 17/09387-6)

Por favor, reporte erros na lista de publicações científicas utilizando este formulário.
X

Reporte um problema na página


Detalhes do problema: