PoSum-Bench: A Benchmark for Evaluating Positional Bias in Conversational Summarization

XU SUN; Lionel Delphin-Poulat; Christèle Tarnec; Anastasia Shimorina

PoSum-Bench: A Benchmark for Evaluating Positional Bias in Conversational Summarization

XU SUN, Lionel Delphin-Poulat, Christèle Tarnec, Anastasia Shimorina

Published: 28 Apr 2026, Last Modified: 29 Apr 2026TALN 2026 ationtravauxpubliésEveryoneRevisionsBibTeXCC BY 4.0

Titre: PoSum-Bench : un benchmark pour l'évaluation du biais positionnel dans la synthèse conversationnelle

Type Of Submission: Recent Work Published in Major International Conference / Travaux publiés récemment dans les conférences majeures internationales

Keywords: positional bias, conversational summarization, evaluation, large language models, benchmark

Mots-cles: biais positionnel, synthèse conversationnelle, évaluation, grands modèles de langue, benchmark

Abstract: Large language models (LLMs) are increasingly used for zero-shot conversation summarization, but often exhibit positional bias---tending to overemphasize content from the beginning or end of a conversation while neglecting the middle. To address this issue, we introduce PoSum-Bench, a comprehensive benchmark for evaluating positional bias in conversational summarization, featuring diverse English and French conversational datasets spanning formal meetings, casual conversations, and customer service interactions. We propose a novel semantic similarity-based sentence-level metric to quantify the direction and magnitude of positional bias in model-generated summaries, enabling systematic and reference-free evaluation across conversation positions, languages, and conversational contexts.

Resume: Les grands modèles de langue (LLMs) sont de plus en plus utilisés pour la synthèse de conversations en zero-shot, mais présentent souvent un biais positionnel, tendant à surreprésenter le contenu situé au début ou à la fin d'une conversation au détriment du milieu. Pour répondre à ce problème, nous introduisons PoSum-Bench, un benchmark complet pour l'évaluation du biais positionnel dans la synthèse conversationnelle, comprenant des jeux de données conversationnelles diversifiés en anglais et en français couvrant des réunions formelles, des conversations informelles et des interactions de service client. Nous proposons une métrique originale au niveau des phrases, fondée sur la similarité sémantique, permettant de quantifier la direction et l'amplitude du biais positionnel dans les résumés générés, offrant ainsi une évaluation systématique et sans référence selon les positions dans la conversation, les langues et les contextes conversationnels.

Submission Number: 105

Loading