Multiparameter topological persistence for machine learning. (Persistance topologique multiparamétrée pour l'apprentissage statistique)
Abstract: en fr The recent advances in data acquisition have generated increasingly complex and intricate datasets. This made it crucial for data scientists to have access to efficient, specialized and robust tools for data analysis, capable of recovering salient, meaningful and succinct information. Topological Data Analysis (TDA), a data analysis tool derived from algebraic topology, aims at generating powerful descriptors by recovering topological and geometrical features from suchdata sets. Due to their topological nature, mathematically grounded approaches like persistent homology (PH) enjoy several desirable properties, including robustness with respect to noise and isometries, such as rotations or translations. More precisely, PH infers topology through thevariations of a continuous function f : T → R, where T is a topological space to analyze. However, while well known when f is real-valued, the theory in the multivariate case, wheref takes its values in R^n, is significantly wilder, which can be problematic in various applications. For instance, in single cell biomedical research, immunofluorescence images tracks the concentration of hundreds of proteins via markers, and are in particular harder to analyze when only considering one-dimensional functions. This motivated the development of theso-called multiparameter persistent homology (MPH) that naturally extends PH to multivariate functions. However, although MPH encodes significantly more information than its one parameter counterpart PH, its inherent mathematical complexity can be challenging for both interpretationand computation, creating a significant barrier for most practitioners.In this thesis, we ambition to make MPH practical for data science. To that end, we first provide descriptors, derived from MPH and show that they are provably robust and differentiable. They integrate seamlessly in practice into existing machine learning models and pipelines, providing relevant and mathematically robust descriptors for data science. They can be used directly as features for training machine learning models, or indirectly to optimize machine learning pipelines so that they satisfy prior topological constraints. Furthermore, one key feature of these descriptors is that they are interpretable, i.e., they identify specific regions in datasets that are associated to corresponding topological structures. Finally, we also provide a user-friendly and efficient Python library to compute the descriptors and methods developed in this thesis. Les récents progrès dans l'acquisition de données ont généré des ensembles de données de plus en plus complexes et élaborés. Pour les experts, ceci impose d'avoir accès à des outils spécialisés, efficaces et robustes pour l'analyse de données, capables d'extraire des informations significatives et succinctes. L'analyse topologique des données (Topological Data Analysis (TDA) en anglais), un outil d'analyse de données dérivé de la topologie algébrique, vise à générer des descripteurs puissants en résumant des caractéristiques topologiques et géométriques à partir de ces ensembles de données. En raison de leur nature topologique, des approches fondées mathématiquement comme l'homologie persistante (ou persistent homology (PH) en anglais) bénéficient de plusieurs propriétés souhaitables, comme la robustesse face au bruit ou aux isométries, telles que les rotations ou les translations. Plus précisément, la PH infère la topologie à travers les variations d'une fonction continue f : T → R, où T est un espace topologique à analyser. Cependant, bien que la théorie soit bien connue lorsque f est à valeurs réelles, le cas multivarié, où f prend ses valeurs dans R^n est bien plus complexe, ce qui peut poser problème dans diverses applications. Par exemple, dans la recherche biomédicale sur les cellules uniques, les images d'immunofluorescence tracent la concentration de centaines de protéines via des marqueurs, et sont particulièrement plus difficiles à analyser lorsque l'on ne considère que des fonctions unidimensionnelles. Cela a motivé le développement de l'homologie multipersistante (ou multiparameter persistent homology (MPH ) en anglais), qui étend naturellement la PH aux fonctions multivariées. Toutefois, bien que la MPH encode significativement plus d'informations que son équivalent à un paramètre, la PH et sa complexité mathématique inhérente peut poser des défis à la fois en termes d'interprétation et de calcul, créant ainsi une barrière significative pour la plupart des utilisateurs. Dans cette thèse, nous ambitionnons de rendre la MPH pratique pour la science des données. À cette fin, nous proposons d'abord des descripteurs dérivés de la MPH et démontrons qu'ils sont prouvablement robustes et différentiables. Ils s'intègrent sans encombre en pratique aux modèles ou pipelines d'apprentissage statistique existantes, fournissant des descripteurs pertinents et mathématiquement robustes pour la science des données. Ces descripteurs peuvent être utilisés directement comme caractéristiques pour l'entraînement de modèles d'apprentissage automatique, ou indirectement pour optimiser ces pipelines afin qu'ils respectent des contraintes topologiques préexistantes. De plus, une caractéristique clé de ces descripteurs est qu'ils sont interprétables, c'est-à-dire qu'ils identifient des régions spécifiques dans les ensembles de données qui sont associées à des structures topologiques correspondantes. Enfin, nous fournissons également une librairie Python facile d'utilisation et performante pour calculer les descripteurs et les méthodes développés dans cette thèse.
External IDs:dblp:phd/hal/Loiseaux24
Loading