LLMs Não São Garantido - Avaliando LLMs: Métricas, Benchmarks, Técnicas Automáticas e Considerações Éticas

Livy Real, Daniela Vianna, André Luiz da Costa Carvalho, Altigran Soares da Silva

Published: 29 Sept 2025, Last Modified: 11 Jan 2026CrossrefEveryoneRevisionsCC BY-SA 4.0

Abstract: Resumo Os rápidos avanços nos Large Language Models (LLMs) exigem metodologias de avaliação robustas e abrangentes para verificar suas capacidades, confiabilidade e segurança. Este tutorial avançado de 2 horas aprofundar-se-á na multifacetada paisagem da avaliação de LLMs, indo além das métricas tradicionais de PLN, para cobrir benchmarks modernos, abordagens com intervenção humana e técnicas de ponta como "LLM-as-a-Judge''. Discutiremos os desafios de avaliar comportamentos emergentes complexos, precisão factual, raciocínio e considerações éticas como viés e toxicidade. Os participantes obterão insights práticos sobre a seleção de estratégias de avaliação apropriadas e a compreensão das limitações dos métodos atuais, capacitando-os a avaliar criticamente o desempenho de LLMs em vários cenários do mundo real.

External IDs:doi:10.5753/sbbd_estendido.2025.tutorial1