Busca avançada
Ano de início
Entree

Sistema inteligente para análise de jurisprudência usando técnicas modernas de aprendizado profundo aplicadas ao processamento de linguagem natural

Processo: 20/09753-5
Modalidade de apoio:Auxílio à Pesquisa - Pesquisa Inovativa em Pequenas Empresas - PIPE
Vigência: 01 de março de 2021 - 31 de março de 2022
Área do conhecimento:Engenharias - Engenharia Elétrica
Pesquisador responsável:Rodrigo Frassetto Nogueira
Beneficiário:Rodrigo Frassetto Nogueira
Empresa Sede:Neuralmind Inteligência Artificial Ltda
CNAE: Desenvolvimento de programas de computador sob encomenda
Desenvolvimento e licenciamento de programas de computador customizáveis
Município: Campinas
Pesquisadores associados: Fábio Capuano de Souza ; Israel Campiotti ; Roberto de Alencar Lotufo
Auxílios(s) vinculado(s):22/01640-2 - QUEST - sistema de busca e agregação de informações baseado em técnicas Zero-Shot, AP.PIPE
Bolsa(s) vinculada(s):21/05099-1 - Implementação de um sistema de busca para a análise de jurisprudência e construção da interface de anotação do dataset de avaliação, BP.TT
21/02480-6 - Implementação de um sistema de busca para a análise de jurisprudência e construção da interface de anotação do dataset de avaliação, BP.TT
Assunto(s):Processamento de linguagem natural  Aprendizagem profunda  Aprendizado computacional  Jurisprudência  Análise de dados 
Palavra(s)-Chave do Pesquisador:Aprendizado profundo | Jurisprudência Jurídica | Modelos de Linguagem pré-treinados | Sistemas de Busca Legal | Sistemas de perguntas e respostas | Aprendizado de máquina e processamento de linguagem natural

Resumo

Neste projeto, investigaremos a automação da análise de jurisprudência, que consiste em encontrar informações que suportam uma decisão favorável (ou desfavorável) a um caso em questão. A tarefa da análise de jurisprudência é fundamental para se obter um bom resultado em um processo jurídico, auxiliando na decisão estratégica e minimizando riscos. Contudo, é uma tarefa onerosa, devido ao grande volume de documentos que precisam ser analisados. Um sistema acurado que automatize parcialmente ou totalmente esta tarefa tem a possibilidade de reduzir o tempo e os custos processuais, além de aumentar a eficácia da argumentação do caso, possibilitando a adoção da melhor estratégia para aquele caso concreto. Para construir esse sistema, vemos como promissora a utilização de sistemas modernos de processamento de linguagem natural, que tiveram um enorme progresso nos últimos anos, principalmente devido aos avanços em métodos de aprendizado profundo. Entretanto, sua aplicação a tarefas especializadas, como a análise de jurisprudência, não é trivial devido à escassez de dados em português para treinar esses modelos, principalmente dados no domínio jurídico. Nossa solução para este problema será utilizar métodos de transferência de conhecimento de modelos pré-treinados em textos de domínio geral em inglês (que são abundantes) para a tarefa da análise de jurisprudência em português, cuja disponibilidade de dados de treinamento é baixa. Mais especificamente, o projeto tem como objetivo responder a seguinte pergunta: dado que há uma variedade de modelos pré-treinados em inglês e com excelente desempenho em tarefas de domínio geral, qual a forma mais eficaz de adaptar esses modelos para a tarefa de análise de jurisprudência em português do Brasil? A resposta a essa pergunta nos possibilitará desenvolver e aplicar sistemas de processamento de linguagem natural à novas tarefas da área jurídica de maneira rápida e barata. As técnicas de transferência de conhecimento que iremos investigar incluem: 1) tradução automática de conjunto de dados de treino do inglês para o português; 2) tradução automática em tempo de inferência de entradas e saídas de modelos treinados em inglês; 3) transferência de conhecimento e vocabulário de baixo custo; 4) pré-treinamento em corpus jurídico brasileiro. A avaliação da eficácia desses métodos será feita na tarefa de análise de jurisprudência, tanto em inglês quanto em português. O dataset em português será construído durante este projeto e será um subproduto que poderá ser utilizado em projetos futuros. Os resultados dos experimentos descritos acima nos orientarão sobre a melhor metodologia para se desenvolver o sistema. Do ponto de vista econômico, o melhor cenário é aquele em que sistemas existentes treinados em corpora e tarefas abundantes desempenham eficazmente em corpus e tarefas específicas sem nenhuma alteração. O pior cenário é quando um novo sistema precisa ser desenvolvido praticamente do zero para cada nova tarefa. Acreditamos que, na prática, os métodos para desenvolver esses sistemas se situam entre os dois cenários, porém a identificação de qual é o esforço total necessário é uma das questões que iremos responder com este projeto. O conhecimento adquirido nesse projeto nos orientará no desenvolvimento de futuros produtos de processamento de linguagem natural para a área jurídica. Esta pesquisa pode ser considerada também como um primeiro passo no desenvolvimento de sistemas para Jurimetria. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
BONIFACIO, LUIZ; ABONIZIO, HUGO; FADAEE, MARZIEH; NOGUEIRA, RODRIGO; ACM. InPars: Unsupervised Dataset Generation for Information Retrieval. PROCEEDINGS OF THE 45TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL (SIGIR '22), v. N/A, p. 6-pg., . (22/01640-2, 20/09753-5)

Por favor, reporte erros na lista de publicações científicas utilizando este formulário.
X

Reporte um problema na página


Detalhes do problema: