Leveraging Transformer-Based Language Models to Bridge the Gap Between Language and Specialized Domains. (Exploiter les Modèles de Langage Basés sur les Transformers pour Combler le Fossé entre le Langage et les Domaines Spécialisés)

Published: 01 Jan 2024, Last Modified: 11 May 2025undefined 2024EveryoneRevisionsBibTeXCC BY-SA 4.0
Abstract: en fr The era of transformer-based language models has led the way in a new paradigm in Natural Language Processing (NLP), enabling remarkable performance across a wide range of tasks from both fields Natural Language Understanding (NLU) and Natural Language Generation (NLG). This dissertation delves into the transformative potential of transformer-based language models when applied to specialized domains and languages. It comprises four distinct research endeavors, each contributing to the overarching goal of enhancing language understanding and generation in specialized contexts.To address the scarcity of non-English pretrained language models in both general and specialized domains, we explore the creation of two language models JuriBERT and GreekBART. JuriBERT is a set of French legal domain-specific BERT models tailored to French text, catering to the needs of legal professionals. JuriBERT is evaluated on two French legal tasks from the court of cassation in France. The findings underscore that certain specialized tasks can be better addressed with smaller domain-specific models compared to their larger generic counterparts. We equally introduce GreekBART, the first Greek Seq2Seq model. Being based on BART, these models are particularly well-suited for generative tasks. We evaluate GreekBART's performance against other models on various discriminative tasks and assess its capabilities in NLG using two Greek generative tasks from GreekSUM, a novel dataset introduced in this research. We show GreekBART to be very competitive with state-of-the-art BERT-based multi-lingual and mono-lingual language models such as GreekBERT and XLM-R.We dive next into the domain of semantics by leveraging the transformer-based contextual embeddings to solve the challenging problem of Word Sense Induction (WSI). We propose a novel unsupervised method that utilizes invariant information clustering (IIC) and agglomerative clustering to enrich and cluster the target word representations. Extensive evaluation on two WSI tasks and multiple pretrained language models demonstrates the competitiveness of our approach compared to state-of-the-art baselines.Finally, we introduce Prot2Text framework, a multi-modal approach for generating proteins’ functions in free text by combining three modalities: protein structure, protein sequence and natural language. Prot2Text advances protein function prediction beyond traditional classifications. Integrating Graph Neural Networks (GNNs) and Large Language Models (LLMs) in an encoder-decoder framework. Empirical evaluation on a multi-modal protein dataset showcases the effectiveness of Prot2Text, offering powerful tools for function prediction in a wide range of proteins. L'ère des modèles de langage basés sur des 'transormers' a ouvert la voie à un nouveau paradigme dans le traitement du langage naturel (NLP), permettant des performances remarquables dans un large éventail de tâches dans les domaines de la compréhension du langage naturel (NLU) et de la génération du langage naturel (NLG). Cette thèse se penche sur le potentiel de transformation des modèles de langage basés sur les 'transformers' lorsqu'ils sont appliqués à des domaines et des langues spécialisés. Elle comprend quatre projets de recherche, chacun contribuant à l'objectif global d'amélioration de la compréhension et de la génération du langage dans des contextes spécialisés.Pour répondre à la rareté des modèles de langue non anglophones pré-entraînés dans les domaines généraux et spécialisés, nous explorons la création de deux modèles de langue : JuriBERT et GreekBART. JuriBERT est un ensemble de modèles BERT spécifiques au domaine juridique français, et qui répondent aux besoins des professionnels juridiques. JuriBERT est évalué sur deux tâches juridiques françaises provenant de la cour de cassation en France. Les résultats soulignent que certaines tâches spécialisées peuvent être mieux traitées avec de petits modèles spécifiques à un domaine qu'avec leurs homologues génériques de plus grande taille. Nous présentons également GreekBART, le premier modèle Seq2Seq grec. Basés sur BART, ces modèles sont particulièrement bien adaptés aux tâches génératives. Nous évaluons les performances de GreekBART par rapport à d'autres modèles sur diverses tâches discriminatives et évaluons ses capacités en NLG en utilisant deux tâches génératives grecques de GreekSUM, un nouvel ensemble de données introduit dans cette recherche. Nous montrons que GreekBART est très compétitif par rapport auz modèles linguistiques multilingues et monolingues basés sur BERT, tels que GreekBERT et XLM-R.Nous examinons ensuite le domaine de la sémantique en tirant parti des répresentation vectorielle contextuelles basées sur les 'transformer' pour résoudre le problème de l'induction du sens des mots (WSI). Nous proposons une nouvelle méthode non supervisée qui utilise le regroupement d'informations invariantes (IIC) et le regroupement agglomératif pour enrichir et regrouper les représentations des mots cibles. Une évaluation approfondie sur deux tâches WSI et de multiples modèles de langage pré-entraînés démontre la compétitivité de notre approche par rapport l'état de l'art.Enfin, nous présentons Prot2Text, une approche multimodale permettant de générer des fonctions de protéines en texte brut en combinant trois modalités : la structure des protéines, la séquence des protéines et le langage naturel. Prot2Text fait progresser la prédiction des fonctions des protéines au-delà des classifications traditionnelles. Prot2Text intégre des réseaux neuronaux graphiques (GNN) et des large modèles de langage (LLM) dans un cadre codeur-décodeur. Une évaluation empirique sur un ensemble de données protéiques multimodales montre l'efficacité de Prot2Text, qui offre des outils puissants pour la prédiction de la fonction d'une large gamme de protéines.
Loading