Avaliando as Limitações e Potenciais do Algoritmo k-Vizinhos Mais Próximos (kNN) na Imputação de Dados Clínicos

Izadora Monken Ganem, Guilherme D. Bianco, José Carlos Serufo Filho, Luciano Lima, Leonardo Rocha, Marcos André Gonçalves

Published: 29 Sept 2025, Last Modified: 21 Jan 2026CrossrefEveryoneRevisionsCC BY-SA 4.0
Abstract: Resumo A qualidade dos dados é crucial para a eficácia das soluções de Aprendizado de Máquina na saúde, sendo a ausência de valores um problema crítico e comum. Este estudo compara os métodos de imputação MissForest e MICE aplicados a dados clínicos de mais de 16.000 pacientes com COVID-19, destacando a precisão superior do MissForest, associada a alto custo computacional. Propomos um imputador baseado em KNN, otimizado para este contexto. Embora menos preciso, a eficiência computacional foi significativamente melhor. Uma análise mostrou que o desempenho do KNN é influenciado pela similaridade de vizinhança e entropia local. Em cenários homogêneos, o KNN se mostrou competitivo, sugerindo seu potencial para estratégias de imputação híbridas que combinem eficiência e robustez.
Loading