Summarization of multimodal presentations with language models. (Résumé de présentations multimodales avec des modèles de langue)

Théo Gigant

Published: 2025, Last Modified: 02 Apr 2026undefined 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: en fr Abstractive summarization of long, multimodal presentations poses unique challenges due to the complexity of integrating diverse modalities (e.g. audio, video, transcript, slides) and synthesizing concise, informative summaries over extended contexts. Recent advancements in language models suggest they are now capable of addressing these challenges, yet comprehensive evaluation for this task remains underexplored.In this thesis, we investigate the ability of multimodal language models to generate abstractive summaries of multimodal presentations, from their modalities, raw and extracted, by leveraging the complementarity and temporal alignment between them.First, we introduce TIB-dataset, a dataset for abstractive summarization of multimodal presentations, as well as its subset TIB-benchmark, targeted towards evaluation.They comprise 9,100+ multimodal presentations from academic conferences with extracted transcripts and key frames, alongside with their reference summaries.Second, we propose the Importance-based Relevance (IbR) score, a reference-free evaluation metric designed to assess the relevance of summaries without reliance on reference summaries, as part of a suite of metrics intended for fine-grained evaluation of abstractive multimodal summarization.Third, we conduct a comprehensive analysis of multimodal language models, comparing their performance across various unimodal and multimodal input settings using audio, video, or derived modalities such as transcripts or slides.Our experiments result in a comparison of cost-effectiveness of these settings, contrasting evaluation scores with token sequence lengths.These contributions provide a foundation for future research on efficient multimodal summarization systems.TIB-dataset, TIB-benchmark, IbR metric and our multimodal representation toolkit are released publicly to foster reproducibility and innovation in this emerging area. Le résumé abstractif de présentations longues et multimodales pose des défis uniques en raison de la complexité émergeant de l'intégration de modalités variées (e.g. audio, vidéo, transcription, diapositives) et la création de résumés concis et informatifs sur de longs contextes.Les avancées récentes dans les modèles de langue suggèrent qu'ils sont désormais capables de relever ces défis, mais une évaluation complète pour cette tâche reste encore insuffisamment explorée.Dans cette thèse, nous étudions les capacités des modèles de langue multimodaux à produire des résumés abstractifs à partir des différentes modalités de présentations multimodales, brutes et extraites, en tirant parti de la complémentarité et de l'alignement temporel entre ces modalités.Tout d'abord, nous introduisons TIB-dataset un jeu de données pour le résumé abstractif de présentations multimodales, ainsi que son sous-ensemble TIB-benchmark, pensé pour l'évaluation.Ils sont constitués de plus de 9100 présentations multimodales issues de conférences académiques, avec des transcriptions et des images clés extraites, accompagnées de leurs résumés de référence.Ensuite, nous proposons le score Importance-based Relevance (IbR), une métrique d'évaluation sans référence conçue pour évaluer la pertinence des résumés sans dépendre de résumés de référence, dans le cadre d'un ensemble de métriques qui a pour but de permettre une évaluation fine du résumé abstractif multimodal.Troisièmement, nous menons une analyse approfondie des modèles de langue multimodaux, comparant leurs performances sous différents formats d'entrée unimodaux et multimodaux utilisant l'audio, la vidéo, ou des modalités dérivées comme les transcriptions ou les diapositives.Nos expériences conduisent à une comparaison du rapport coût-efficacité de ces formats, contrastant les scores d'évaluation avec les longueurs des séquences de tokens.Ces contributions fournissent une base solide pour les recherches futures sur les systèmes de résumé multimodal. TIB-dataset, TIB-benchmark, la métrique IbR ainsi que notre ensemble d'outils pour la représentation multimodale sont publiés librement afin de favoriser la reproductibilité et l'innovation dans ce domaine émergent.