Keywords: Imputation des données manquantes, Valeurs SHAP, Forêts aléatoires, Évaluation de la qualité des données
Abstract: Les valeurs manquantes représentent un problème omniprésent dans les jeux de données réels, affectant sévèrement la fiabilité des analyses de données et des modèles
prédictifs. Bien que de nombreuses techniques d’imputation existent — allant de méthodes statistiques simples à
des approches avancées d’apprentissage automatique telles
que missForest — la plupart imputent systématiquement
toutes les valeurs manquantes sans évaluer la fiabilité de
l’imputation. Cela entraîne des estimations biaisées et une
propagation des erreurs, en particulier lorsque les imputations reposent sur des informations insuffisantes ou
déjà imputées. Nous présentons MisShapForest, un nouveau cadre combinant missForest avec l’explicabilité basée
sur SHAP afin de quantifier la fiabilité de chaque valeur
imputée. Notre méthode n’impute les valeurs manquantes
que lorsque les prédictions sont soutenues par des caractéristiques non manquantes suffisamment informatives ; dans
le cas contraire, les lignes sont écartées. En exploitant les
valeurs SHAP, nous identifions quelles caractéristiques influencent significativement chaque imputation et vérifions
leur fiabilité. Des expériences menées sur plusieurs jeux de
données de référence (Adult, Credit, Ecoli, Heart Disease
et Parkinson), avec différents taux de valeurs manquantes,
montrent que notre approche surpasse systématiquement
missForest standard ainsi que les méthodes d’imputation
classiques sur les lignes imputées de manière fiable, en obtenant des erreurs d’imputation plus faibles et une robustesse améliorée lorsque le taux de valeurs manquantes augmente. Ce travail souligne l’importance d’intégrer l’explicabilité dans les chaînes de prétraitement de données pour
une imputation fiable des valeurs manquantes.
Email Sharing: We authorize the sharing of all author emails with Program Chairs.
Data Release: We authorize the release of our submission and author names to the public in the event of acceptance.
Submission Number: 1
Loading