Semantic Representation and Computation of Mathematical Formulas for Plant Phenomics Data Exploitation. (Représentation sémantique et calcul de formules mathématiques pour l'exploitation des données phénomiques des plantes)

Published: 01 Jan 2023, Last Modified: 12 Aug 2025undefined 2023EveryoneRevisionsBibTeXCC BY-SA 4.0
Abstract: en fr Knowledge Graphs (KGs) have become central to managing diverse datasets across fields like agriculture, biomedical, environmental, and social sciences. Semantic Web (SW) technologies excel at representing taxonomic knowledge in these KGs. However, scenarios involving numerical relationships with algebraic operations or unit conversions are less addressed, yet hold potential to enhance KG data. For instance, consider the Body Mass Index (BMI) computation, which relies on weight and height properties. This can enrich a KG with derived data. Similarly, deriving the Vapour Pressure Deficit (VPD) from air temperature and relative humidity is valuable. While experts understand these formulas, they are often implemented in ad-hoc programming languages, limiting reuse and reproducibility. This thesis explores Semantic Web approaches to represent and compute these numerical relationships. We identify current limitations in representation, computational methods, and expressivity. To tackle these challenges, we propose a Semantic Web-based framework with the following goals: (i) Represent mathematical formulas in line with Linked Open Data (LOD) and FAIR principles, to enhance adoption and reproducibility. (ii) Enable on-demand execution of numerical relationships, recognising that materialising results is infeasible for large and diverse KGs. (iii) Express mathematical formulas using KG data in the form of quantity values, leveraging semantic resources and metadata like unit ontologies. (iv) Facilitate aggregations within mathematical formulas, acknowledging that much of this numerical data operates on multiple scales. We evaluate this framework on KGs from the agriculture and plant phenomics domain, the focus of this thesis, as well as on more established Semantic Web KGs like DBpedia. Key words: Semantic Web, Mathematical Knowledge, Numerical Relationships, Mathematical Formulas, Agriculture, Plant Phenomics, Knowledge Graphs. Les Graphes de Connaissances (KGs) ont émergé comme une structure de données cruciale pour traiter des ensembles de données variés contenant des informations numériques provenant de domaines divers tels que l'agriculture, la biomédecine, l'environnement et les sciences sociales. Les technologies du Web Sémantique (SW) offrent un moyen efficace de représenter les connaissances taxonomiques au sein de ces KGs. Cependant, certains scénarios, tels que les relations numériques impliquant des opérations algébriques ou des conversions d'unités, qui ont le potentiel d'enrichir les données des KGs, ne sont pas bien traités. Par exemple, considérons l'Indice de Masse Corporelle (IMC) d'une personne, qui peut être calculé à partir de son poids et de sa taille pour enrichir le KG initial. De même, le Déficit de Pression de Vapeur (DPV) dans l'atmosphère peut être dérivé de la température de l'air et de l'humidité relative. Bien que les experts connaissent ces formules mathématiques, elles sont souvent mises en œuvre dans des langages de programmation ad hoc, limitant leur réutilisabilité et leur reproductibilité. Dans cette thèse, nous explorons diverses approches du Web Sémantique pour représenter et calculer ces relations numériques. Nous identifions des limites dans les approches actuelles, notamment en termes de représentation, de méthodes de calcul et d'expressivité. Pour relever ces défis, nous proposons un cadre basé sur le Web Sémantique avec les objectifs suivants : (i) Représenter les formules mathématiques en respectant les principes de Données Liées Ouvertes (LOD) et FAIR (Findable, Accessible, Interoperable, and Reusable) pour améliorer l'adoption et la reproductibilité. (ii) Permettre l'exécution à la demande des relations numériques, en reconnaissant que la matérialisation des résultats est inenvisageable pour les KGs volumineux et hétérogènes. (iii) Exprimer les formules mathématiques à l'aide de données des KGs sous forme de valeurs de quantité, en exploitant les ressources sémantiques et les métadonnées, telles que les ontologies d'unités. (iv) Faciliter les agrégations au sein des formules mathématiques, en reconnaissant que la plupart de ces données numériques fonctionnent sur des échelles multiples. Dans ce travail, nous évaluons ce cadre sur des KGs du domaine de l'agriculture et de la phénomique végétale, où cette thèse est menée, ainsi que sur des KGs du Web Sémantique plus traditionnels comme DBpedia.
Loading