Study of the multimodal understanding of vision-language transformer models. (Étude de la compréhension multimodale des modèles transformeurs vision-langage)

Emmanuelle Salin

Published: 2023, Last Modified: 17 Mar 2026undefined 2023EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: en fr The fields of Natural Language Processing and Computer Vision have experienced strong growth during the last few years, leading to the emergence of foundation models. These models aim to learn general representations using a large amount of data. The Transformer architecture has played a major role in the development of such models. Based on the attention mechanism, the Transformer architecture enables the pretraining of models on large-scale datasets. These models can then be adapted to many tasks in different domains. However, monomodal models lack grounding in real-world experiences. Thus, they have difficulties associating language to other modalities, such as vision. This has resulted in a growing interest in multimodal machine learning. Vision-language models based on the Transformer architecture, in particular, have enabled significant improvement over previous state-of-the-art in multimodal machine learning. Those models are pre-trained on textual, visual and multimodal pretext tasks, using multimodal datasets, usually made of (text, image) pairs. They learn multimodal representations that can serve as a basis in vision-language applications. However, the fast-paced development of vision-language transformers has left little time for a deeper study of those models. Indeed, we still have a poor understanding of how design choices affect their skills and generalization abilities. We also lack insight into what information these models should be able to extract for real-world multimodal applications. In this thesis, our goal is to reach a better understanding of vision-language models, through the lens of transformer-based models. In particular, we study the ability of those models to learn multimodal representations that can be a basis for a wide range of vision-language tasks. We also focus on how different pre-training choices can impact their performances. The methods we develop in this thesis are also aimed at the study of general-purpose vision-language models, irrespective of their architecture. We first provide an overview of vision-language multimodality in machine learning. In particular, we introduce and compare a number of vision-language transformer models to provide hindsight on the current advances of the field. Then, we question the current methods used to evaluate vision-language transformers. We argue that rather than evaluating such models on a few complex tasks, it would be interesting to get a better apprehension of their general multimodal understanding. To that end, we propose to consider granular multimodal capabilities of vision-language models, and make a first attempt at a taxonomy of vision-language capabilities. Subsequently, we develop evaluation tasks and datasets to probe state-of-the-art vision-language transformers on specific textual, visual and multimodal capabilities. We find that models have difficulty apprehending some concepts at a multimodal level, such as object position. Finally, we elaborate different pre-training protocols to study how design choices affect the performances of vision-language models on those capabilities. Les domaines du traitement du langage naturel et de la vision par ordinateur ont connu une forte croissance au cours des dernières années, ce qui a conduit à l’émergence de modèles de fondation. Ces modèles visent à apprendre des représentations générales en utilisant une grande quantité de données. L’architecture Transformer a joué un rôle majeur dans le développement de ces modèles. Basée sur le mécanisme de l’attention, l’architecture Transformer permet le pré-entraînement de modèles sur de très grands jeux de données, qui peuvent ensuite être adaptés à un large éventail de tâches. Cependant, les modèles monomodaux ont des difficultés à associer le langage à d’autres modalités, telles que la vision. Cela a conduit à un intérêt croissant pour l’apprentissage automatique multimodal. Les modèles vision-langage basés sur l’architecture Transformer, en particulier, ont permis des améliorations significatives par rapport à l’état de l’art en apprentissage automatique multimodal. Ces modèles sont pré-entraînés sur des tâches prétextes textuelles, visuelles et multimodales, en utilisant des jeux de données multimodaux, généralement composés de paires (texte, image). Ils apprennent des représentations multimodales qui peuvent servir de base à un large éventail d’applications vision-langage. Cependant, le développement rapide des transformeurs vision-langage a laissé peu de temps pour une étude plus approfondie de ces modèles. En effet, nous comprenons encore mal comment les choix de conception affectent les compétences de ces modèles. Nous ne savons également pas précisément quelles informations ces modèles doivent apprendre à extraire pour être utiles aux applications vision-langage concrètes. À travers cette thèse, notre objectif est de parvenir à une meilleure compréhension des modèles vision-langage, à travers le prisme des modèles basés sur les transformeurs. En particulier, nous étudions la capacité de ces modèles à apprendre des représentations multimodales qui peuvent servir de base à un large éventail de tâches vision-langage. Nous nous concentrons aussi sur la façon dont différents choix de pré-entraînement peuvent avoir un impact sur leurs performances. Les méthodes que nous développons ont également pour but d’aider à l’étude de futurs modèles vision-langage, indépendamment de leur architecture. Nous commençons par donner un aperçu du domaine de la multimodalité vision-langage. En particulier, nous présentons la diversité des modèles de transformeurs vision-langage pour donner du recul sur les avancées actuelles du domaine. Ensuite, nous remettons en question les méthodes actuellement utilisées pour évaluer les transformeurs vision-langage. Nous soutenons que plutôt que d’évaluer ces modèles sur quelques tâches complexes, il serait intéressant de mieux appréhender la compréhension multimodale générale de ces modèles. Ainsi, nous proposons d’examiner les compétences multimodales de ces modèles. Pour cela, nous créons une taxonomie des compétences multimodales en multimodalité vision-langage. Ensuite, nous développons des tâches d’évaluation et des jeux de données pour sonder les transformeurs vision-langage sur des compétences textuelles, visuelles et multimodales. Nous constatons que ces modèles ont des difficultés à appréhender certains concepts à un niveau multimodal, comme la position des objets. Enfin, nous élaborons différents protocoles de pré-entraînement afin d’étudier comment les choix de conceptioninfluencent les performances des modèles vision-langage.

External IDs:dblp:phd/hal/Salin23