Busca avançada
Ano de início
Entree

Letras clássicas digitais: interligando línguas antigas ao português e aprimorando um modelo automático de alinhamento de tradução

Processo: 22/09490-0
Modalidade de apoio:Auxílio à Pesquisa - Programa eScience e Data Science - Regular
Vigência: 01 de fevereiro de 2023 - 31 de julho de 2025
Área do conhecimento:Linguística, Letras e Artes - Linguística - Linguística Aplicada
Pesquisador responsável:Anise de Abreu Goncalves D'Orange Ferreira
Beneficiário:Anise de Abreu Goncalves D'Orange Ferreira
Instituição Sede: Faculdade de Ciências e Letras (FCL). Universidade Estadual Paulista (UNESP). Campus de Araraquara. Araraquara , SP, Brasil
Pesquisadores associados: Chiara Palladino ; Fernando Brandão dos Santos ; Marco Aurélio Scarpino Rodrigues ; Maria Celeste Consolin Dezotti ; Michel Ferreira dos Reis ; Tariq Yousef
Bolsa(s) vinculada(s):23/09296-1 - Alinhamento de tradução e anotação em treebank de sentenças do primeiro livro dos Discursos de Epicteto, BP.TT
23/02108-5 - Produzindo dados de alinhamento de tradução, manual e automática pelos textos de Aristóteles, Heródoto e Platão., BP.IC
23/01965-1 - Edição digital e treinamento de dados para modelo de alinhamento de tradução automático: "Sobre o Inacreditável" de Paléfato e Heráclito., BP.TT
Assunto(s):Tradução literária  Letras clássicas  Língua grega clássica  Língua portuguesa 
Palavra(s)-Chave do Pesquisador:alinhamento de tradução manual | alinhamento grego antigo-português (GRC-POR) | letras clássicas digitais | modelo de alinhamento automático de tradução | plataforma de alinhamento de tradução Ugarit | traduções alinhadas grego antigo-português | Línguas Clássicas

Resumo

O objetivo desta proposta é realizar um projeto de colaboração entre a área de Letras Clássicas (Grego Antigo) e a área da Computação/ Humanidades Digitais, i.e., em parceria com o desenvolvedor Tariq Yousef (U. Leipzig) e a humanista digital Chiara Palladino (Furman U.). O papel na universidade sede nesta parceria internacional é o de criar dados para treinamento (data-training) com tarefas de Alinhamento de Tradução (ATs) grego antigo-português (GRC-POR), que geram pares de unidades lexicais bilíngues para avaliar o modelo multilíngue em contexto, Classical BERT, na criação de ATs automáticos em treinamento para o português do Brasil. Para os ATs, a equipe local de formados ou em formação em Língua Grega usará corpora provenientes de projetos individuais ou escolares, elaborando os ATs manuais e corrigindo ATs automáticos por meio da plataforma UGARIT. Os textos digitalizados nas duas línguas são autorizados para uso e serão alinhados manual e/ou automaticamente no nível lexical ou frasal, gerando TAs (traduções alinhadas), corrigidas recursivamente. As ações que envolvem o procedimento são: A. Traduções do grego antigo ao português podem ser i) novas em elaboração com alinhamento manual ou treebanking; ii) oriundas de arquivos TXT sujos ou dependendo de OCR; iii) em revisão; iv) prontas em sentenças paralelas; v) alinhadas manualmente em grego antigo. B. AT automático do corpus traduzido já preparado realizado na plataforma UGARIT que faz a extração do alinhamento. C. Os dados passam por retreinamento recursivo até atingir seu limite estável de correção. O workflow de alinhamento automático no treinamento recursivo envolve: tokenização; embeddings extraction; matriz de similaridade (cosine); extração de alinhamento; refinamento e avaliação (cf. Berti; Palladino; Wright; Yousef (2022). D. O modelo de alinhamento automático é avaliado conforme o Padrão Ouro e as diretrizes de alinhamento atingem seu ponto ótimo. E. As escolhas de tradução são analisadas Em relação ao AT executado manualmente pelos classicistas formados e em formação, eles são orientados pelo pelas atuais diretrizes e tem seu nível de concordância avaliado por meio do coeficiente kappa e de sobreposição. Estarão disponíveis para alinhamento cerca de 10 mil pares de sentenças, incluindo textos de autores de prosa: fábulas, filosofia, história e de poesia épica e dramática. Como resultado serão obtidos a) ATs GRC-POR manuais e semi-automáticos: elaborados com alinhador automático e corrigidos com base em padrão ouro para GRC-POR; b) um corpus alinhado automaticamente no nível lexical, publicado online, exportado e disponível de forma irrestrita para pesquisa e ensino de grego antigo; c) documentação das práticas e análises de AT em POR; d) o aprimoramento do modelo Classical BERT, implementado no alinhador automático UGARIT, avaliado e destinado ao público-alvo POR, com os dados treinados disponíveis em servidores de dados, como GitHub e Zenodo. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)