RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa

Eduardo Augusto Santos Garcia, Nádia Félix Felipe da Silva, Juliana Resplande Sant'Anna Gomes, Hidelberg Albuquerque, Ellen Souza, Felipe Siqueira, Eliomar Araújo de Lima, André Carlos Ponce de Leon Ferreira de Carvalho

Published: 2024, Last Modified: 17 Aug 2025Linguamática 2024EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: Resumo Este trabalho investiga a aplicação do Processamento de Linguagem Natural (PLN) no contexto jurídico para a língua portuguesa, enfatizando a importância de adaptar modelos pré-treinados, como o RoBERTa, a partir de corpora especializados no domínio jurídico. Compilamos e pré-processamos um corpus jurídico em português, o corpus "LegalPT", abordando os desafios da alta duplicação de documentos em corpora jurídicos e medindo o impacto dos hiperparâmetros e da inicialização de embeddings. Experimentos revelaram que o pré-treinamento em dados jurídicos e em dados gerais resultou em modelos mais eficazes para tarefas jurídicas, com o nosso modelo, intitulado RoBERTaLexPT, superando modelos maiores treinados em corpora genéricos e outros modelos jurídicos de trabalhos relacionados. Também agregamos um benchmark jurídico, o benchmark "PortuLex". Este estudo contribui para melhorar as soluções de PLN no contexto jurídico brasileiro, fornecendo modelos aprimorados, um corpus especializado e um conjunto de dados de referência. Para fins de reprodutibilidade, disponibilizaremos o código, os dados e os modelos relacionados.