MisShapForest : Imputation Fiable des Données Manquantes par MissForest Amélioré avec SHAP

Published: 18 Apr 2026, Last Modified: 18 Apr 2026IC 2026 OralEveryoneRevisionsCC BY 4.0
Keywords: Imputation des données manquantes, Valeurs SHAP, Forêts aléatoires, Évaluation de la qualité des données
Abstract: Les valeurs manquantes représentent un problème omniprésent dans les jeux de données réels, affectant sévèrement la fiabilité des analyses de données et des modèles prédictifs. Bien que de nombreuses techniques d’imputation existent — allant de méthodes statistiques simples à des approches avancées d’apprentissage automatique telles que missForest — la plupart imputent systématiquement toutes les valeurs manquantes sans évaluer la fiabilité de l’imputation. Cela entraîne des estimations biaisées et une propagation des erreurs, en particulier lorsque les imputations reposent sur des informations insuffisantes ou déjà imputées. Nous présentons MisShapForest, un nouveau cadre combinant missForest avec l’explicabilité basée sur SHAP afin de quantifier la fiabilité de chaque valeur imputée. Notre méthode n’impute les valeurs manquantes que lorsque les prédictions sont soutenues par des caractéristiques non manquantes suffisamment informatives ; dans le cas contraire, les lignes sont écartées. En exploitant les valeurs SHAP, nous identifions quelles caractéristiques influencent significativement chaque imputation et vérifions leur fiabilité. Des expériences menées sur plusieurs jeux de données de référence (Adult, Credit, Ecoli, Heart Disease et Parkinson), avec différents taux de valeurs manquantes, montrent que notre approche surpasse systématiquement missForest standard ainsi que les méthodes d’imputation classiques sur les lignes imputées de manière fiable, en obtenant des erreurs d’imputation plus faibles et une robustesse améliorée lorsque le taux de valeurs manquantes augmente. Ce travail souligne l’importance d’intégrer l’explicabilité dans les chaînes de prétraitement de données pour une imputation fiable des valeurs manquantes.
Email Sharing: We authorize the sharing of all author emails with Program Chairs.
Data Release: We authorize the release of our submission and author names to the public in the event of acceptance.
Submission Number: 1
Loading