Comparing high-dimensional data: interpretable two-sample testing by variable selection. (Comparaison de données à haute dimension: tests à deux échantillons interprétables par sélection de variables)
Abstract: en fr High-dimensional data is everywhere, and the amount and quality of this data keep increasing, even though analysing it remains time-consuming. Two-sample testing is a common method for comparing two datasets, but it often does not provide enough information for humans to understand, intuit, and comprehend the results. In this thesis, we investigate variable selection for comparing a pair of high-dimensional datasets, enabling humans to gain insights without time-consuming analysis work. The variable selection is performed during two-sample testing and identifies the variables (or dimensions) responsible for the discrepancies between the two distributions. We focus on Maximum Mean Discrepancy (MMD), which is a distance metric between probability distributions, and an optimisation problem of its estimator. This problem optimizes the Automatic Relevance Detection (ARD) weights in a kernel function. The kernel function is defined for individual variables to maximise the power of the MMD-based test. We extend this optimisation problem into the variable selection task by adding sparse regularisation. Since this regularisation term requires an arbitrary parameter, we develop algorithms to find appropriate regularisation parameters. Furthermore, we address a variable selection problem with a set of high-dimensional time-series data. Our main aim is to identify important variables that reflect the differences between two probability distributions. To accomplish this, we have devised an algorithm for selecting variables from pairs of time-series data. The algorithm divides a set of time steps into a certain number of buckets and applies a variable selection method for each bucket. We empirically show that MMD-based variable selection methods are a suitable approach for this task. Finally, we demonstrate that a model parameter calibration task, which involves estimating a suitable parameter for a black-box model (e.g., an intractable simulation model), can be conducted in a human-in-the-loop style by introducing the MMD-based variable selection method. The calibration method employs Kernel ABC of which distance metric is an optimized MMD estimator. Overall, this work provides advancements in variable selection methods, significantly improving the interpretability and efficiency of high-dimensional data analysis in various applications. Les données de haute dimension sont omniprésentes, et leur quantité ainsi que leur qualité continuent d’augmenter, bien que leur analyse reste chronophage. Le « Two-Sample Testing » est une méthode courante pour comparer deux ensembles de données, mais il ne fournit souvent pas suffisamment d’informations pour que les humains puissent comprendre et interpréter les résultats de la comparaison par le Two-Sample Testing. Cette thèse étudie la sélection de variables pour comparer une paire de données de haute dimension, permettant ainsi aux humains d’obtenir un aperçu sans avoir à effectuer des travaux d’analyse longs et fastidieux. La sélection de variables est réalisée lors du Two-Sample Testing et permet d’identifier les variables (ou dimensions) responsables des écarts entre les deux distributions de probabilités. Cette thèse porte sur « Maximum Mean Discrepancy » (MMD), une métrique de distance entre deux distributions de probabilités, ainsi que sur un problème d’optimisation de MMD estimateur. Ce problème optimise les paramètres de « Automatic Relevance Detection » (ARD) dans une « Kernel fonction ». La fonction objective vise à maximiser l’approximation de la « Test Power » du test basé sur la MMD. Nous étendons ce problème d’optimisation à la sélection de variables (sélection de caractéristiques) en ajoutant une « sparse régularisation ». Étant donné que cette régularisation nécessite un hyperparamètre arbitraire, nous développons des algorithmes permettant de déterminer automatiquement les paramètres de régularisation optimaux. De plus, nous abordons un problème de sélection de variables avec un ensemble de données temporelles de haute dimension. Le principal objectif est d’identifier les variables importantes dans une paire de séries temporelles, qui reflètent les différences entre deux distributions de probabilité. À cette fin, nous avons développé un algorithme de sélection de variables pour une paire de séries temporelles. Enfin, nous démontrons qu’une calibration de paramètres de modèle, qui consiste à estimer un paramètre adapté à un modèle « Black-Box » (par exemple, un modèle de simulation intractable), peut être réalisée avec l’intervention humaine en utilisant la méthode de sélection de variables basée sur la MMD. La calibration de modèle avec l’intervention humaine est une approche efficace lorsque le modèle Black-Box nécessite des coûts computationnels élevés, que ce soit en termes de puissance de calcul ou de temps.
Loading