Étude de transférabilité de clés pour un liage explicable de données entre graphes de connaissances

Thibaut Soulard, Fatiha Saïs, Joe Raad

Published: 2025, Last Modified: 01 Apr 2026Rev. Ouverte Intell. Artif. 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: Résumé (VO) Abstract Le liage de données dans les graphes de connaissances est un problème crucial et de longue date ; il consiste à déterminer des liens d’identité entre les descriptions des entités de deux graphes désignant une même entité du monde réel (e.g., même personne, même livre, même protéine). Les clés, qui sont des sous-ensembles de propriétés permettant d’identifier chaque instance dans un graphe, sont des éléments importants pour la découverte de ces liens d’identité. L’approche classique de liage de données fondée sur les clés consiste à découvrir un ensemble de clés dans chaque graphe, et d’appliquer ensuite une procédure de fusion des ensembles de clés obtenues. Cependant, cette approche peut conduire à la réduction du nombre de clés valides dans les deux graphes et peut parfois être très coûteuse en temps de calcul. Nous proposons dans ce travail une nouvelle approche de liage de données fondée sur le transfert de clés découvertes sur un graphe source vers un graphe cible impliqué dans la tâche de liage de données. Ce transfert s’appuie sur un alignement de propriétés connues a priori et sur le calcul de métriques permettant de valider la qualité des clés transférées vers le graphe cible. Nous avons conduit des expérimentations sur plusieurs jeux de données extraits du web de données (DBpedia, Wikidata et YAGO) afin d’évaluer la qualité du liage de données et le gain en temps de calcul obtenu grâce au transfert de clés. Data linking in knowledge graphs is a crucial and long-standing problem; it involves determining identity links between the descriptions of entities in two graphs designating the same real-world entity (e.g. the same person, the same book, the same protein). Keys, which are subsets of properties that identify each instance in a graph, are important elements in the discovery of these identity links. The traditional approach of key-based data linking is to discover a set of keys in each graph, and then apply a fusion procedure to the sets of keys obtained. However, this approach can lead to a reduction in the number of valid keys in both graphs and can sometimes be very computationally expensive. In this work, we propose a new data linking approach based on the transfer of keys discovered on a source graph to a target graph involved in the data linking task. This transfer is based on an alignment of properties known a priori and on the computation of metrics to validate the quality of the keys transferred to the target graph. We have carried out experiments on several datasets extracted from the web of data (DBpedia, Wikidata and YAGO) in order to evaluate the quality of the data linking and the gain in computing time obtained thanks to the transfer of keys.

External IDs:dblp:journals/roia/SoulardSR25