Busca avançada
Ano de início
Entree

Aprendendo representações através de modelos generativos profundos em vídeo

Resumo

A geração automática de mídia (ou síntese) é um campo que teve um incremento incrível nos últimos anos, com o advento de modelos generativos profundos. Atualmente, as redes neurais podem criar textos, imagens e vídeos com base em rótulos de classes ou outras mídias. A tarefa comum é gerar conteúdo. No entanto, podemos aproveitar as representações das características aprendidas sobre essas tarefas para entender sua relevancia e como uma fonte de interpretabilidade. Ou seja, quais características são relevantes para a criação de conteúdo diferente e como podemos interpretar o que os modelos estão aprendendo ou a que estão prestando atenção. Neste projeto, propomos investigar como aprender representações eficientes e ricas para dados de vídeo com base em tarefas geradoras profundas. Nós nos concentramos em dois problemas específicos para aprender representações eficazes. A primeira é a transferência semântica entre modalidades de dados, em particular vídeo e linguagem (escrita). E o segundo é o desemaranhamento dentro do mesmo domínio, isto é, diferentes variações e modalidades dos dados. A separação da semântica (intra e interdomínio) nos permitirá entender melhor o tipo de recursos que são aprendidos pelas diferentes arquiteturas nessas tarefas. Nosso objetivo é treinar os modelos geradores profundos em diferentes tarefas de reconstrução de vídeo e estudar suas capacidades de aprendizagem. Vamos realizar experimentos nos conjuntos de dados de benchmark existentes para os problemas específicos. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio:
Matéria(s) publicada(s) em Outras Mídias (0 total):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
SANTANDER, MIGUEL RODRIGUEZ; ALBARRACIN, JUAN HERNANDEZ; RIVERA, ADIN RAMIREZ. On the pitfalls of learning with limited data: A facial expression recognition case study. EXPERT SYSTEMS WITH APPLICATIONS, v. 183, NOV 30 2021. Citações Web of Science: 0.
SAIRE, DARWIN; RIVERA, ADIN RAMIREZ. Empirical Study of Multi-Task Hourglass Model for Semantic Segmentation Task. IEEE ACCESS, v. 9, p. 80654-80670, 2021. Citações Web of Science: 0.

Por favor, reporte erros na lista de publicações científicas escrevendo para: cdi@fapesp.br.