Detection, linking and interpretation of science-related claims and their contexts from online discourse. (Détection, liage, et interprétation d'énoncés scientifiques et leurs contextes à partir de discours en ligne)
Abstract: en fr Scientific discourse, as seen on social media and in news articles, has been shown to compromise the accuracy of scientific findings. Complex scientific claims are uttered in the form of short, digestible, and often inaccurate snippets. This phenomenon has led to online scientific debates being uninformed and has conduced to controversy and polarization. Examples include social media discussions about global health pandemics or climate change.To address this challenge, this thesis focuses on the study of scientific online discourse processing, an emerging research field at the intersection of Natural Language Processing (NLP) and Information Retrieval (IR). It is developed in four parts:The first part motivates the necessity for robust definitions, ground-truth corpora and methods for scientific online discourse processing. We present a survey of existing literature where we highlight key remaining challenges and how they are addressed by this thesis.The second part lays the foundation for developing and evaluating robust methods for scientific online discourse processing. We provide the first hierarchical and domain-agnostic definition, annotation framework, and expert-annotated corpus that includes various forms of scientific online discourse, including claims and references.. We also provide the first task formalization and baseline models for the detection and differentiation between scientific claims, references, and research contexts.The third part focuses on scientific web claims, a subcategory of scientific online discourse. We present the first in-depth analysis of the linguistic characteristics of scientific web claims. We also run the first empirical evaluation of the performance of language models on scientific web claims in multiple fact-checking-related tasks.The fourth part focuses on scientific citations from the web, another subcategory of scientific online discourse. We provide the first task formalization and baseline models for (1) flagging social media posts that formulate scientific claims without citing corresponding references, and (2) retrieving the original scientific publications informally referred to by social media posts.Through a unified definition, multiple ground-truth corpora, empirical task formalizations, and baseline methods and models, this thesis aims to lay the foundation for the study of scientific online discourse processing as a distinct, well-defined field of NLP/IR research. Il a été démontré que le discours scientifique, tel qu’il est observé sur les réseaux sociaux et dans les articles de presse, compromet l’exactitude des résultats scientifiques. Des affirmations scientifiques complexes sont exprimées sous forme de fragments textuels courts, digestes et parfois inexacts. Ce phénomène conduit à des débats scientifiques en ligne mal informés et favorise la controverse et la polarisation. Les discussions sur les réseaux sociaux concernant les pandémies de santé mondiale ou le changement climatique en sont des exemples.Pour faire face à cette problématique, cette thèse se concentre sur l’étude du traitement du discours scientifique en ligne, un domaine de recherche émergent à l’intersection du Traitement Automatique du Langage Naturel (TALN) et de la Recherche d’Information (RI). Elle est développée en quatre parties :La première partie motive la nécessité de construire des définitions robustes, des corpus de référence et des méthodes computationnelles pour le traitement du discours scientifique en ligne. Nous présentons un état de l’art où nous mettons en évidence les principaux défis actuels et la manière dont cette thèse les aborde.La deuxième partie établit les bases nécessaires au développement et à l’évaluation de méthodes robustes pour le traitement du discours scientifique en ligne. Nous fournissons la première définition hiérarchique du discours scientifique en ligne non spécifique à un domaine. Cette définition permettra la construction d’un corpus de référence annoté par des experts qui inclut diverses formes de discours scientifique en ligne, y compris les énoncés scientifiques (assertions scientifiques pouvant être vraies ou fausses) et les références scientifiques. Nous proposons également la première tâche de classification ainsi que les premiers modèles de référence pour la détection et la différenciation entre les énoncés scientifiques, les références scientifiques et les contextes de recherche scientifique.La troisième partie se concentre sur les énoncés scientifiques en ligne, une sous-catégorie du discours scientifique en ligne. Nous présentons la première analyse approfondie des caractéristiques linguistiques des énoncés scientifiques en ligne. Nous effectuons également la première évaluation empirique des performances des modèles de langage sur les énoncés scientifiques en ligne dans plusieurs tâches liées à la vérification des faits (fact-checking).La quatrième partie porte sur les citations scientifiques en ligne, une autre sous-catégorie du discours scientifique en ligne. Nous proposons deux nouvelles tâches de classification et de recherche d’information ainsi que des modèles de référence pour (1) signaler les publications sur les réseaux sociaux qui formulent des affirmations scientifiques sans citer de références correspondantes, et (2) rechercher les publications scientifiques originales auxquelles les publications sur les réseaux sociaux font référence de manière informelle.À travers une définition unifiée, de multiples nouveaux corpus de référence, des nouvelles tâches empiriques ainsi que des méthodes et modèles de référence, cette thèse vise à établir les bases nécessaires à l’étude du traitement du discours scientifique en ligne en tant que sous-domaine distinct et bien défini de la recherche en TALN/RI.
External IDs:dblp:phd/hal/Hafid24
Loading