Diplomatrix-BR: Um Corpus Paralelo de Redações de Autoria Humana e de LLMs no Concurso de Diplomacia Brasileira

Rodrigo Cavalcanti, Gabriela Casini, Gabriel Assis, Livy Real, Daniela Vianna, Paulo Mann, Aline Paes

Published: 2025, Last Modified: 06 Feb 2026STIL 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: Resumo Modelos de Língua de Larga Escala (LLMs) avançaram significativamente na geração de textos coerentes e bem estruturados, mas a avaliação de suas saídas ainda representa um desafio, especialmente em geração aberta e de alto nível. Esse problema é ainda mais evidente em línguas menos representadas, como o português, em que os benchmarks existentes costumam ser restritos em escopo e domínio. Apresentamos o Diplomatrix-BR, um novo benchmark baseado em redações do exame de admissão à carreira diplomática no Brasil (CACD), acompanhado de suas notas oficiais atribuídas por avaliadores humanos e de textos gerados por LLMs sobre os mesmos temas. Aplicamos uma variedade de métricas linguísticas e automáticas para comparar produções humanas e de modelos, oferecendo indícios sobre se LLMs são capazes de escrever com profundidade real ou se apenas simulam coerência por meio de fluência superficial. O Diplomatrix-BR estabelece as bases para a avaliação da geração em contextos de poucos recursos e de alta complexidade, ao mesmo tempo em que evidencia a fragilidade de métricas automáticas.

External IDs:dblp:conf/stil/CavalcantiCAR0M25