Infraestructura para el uso responsable de datos de salud en Argentina: construcción de capacidades y comunidades en torno a datos sensibles.

31 Jul 2023 (modified: 01 Aug 2023)InvestinOpen 2023 OI Fund SubmissionEveryoneRevisionsBibTeX
Funding Area: Capacity building / Construcción de capacidad
Problem Statement: Los datos de Historias Clínicas Electrónicas (HCE) pueden ser útiles para que quienes gestionan la Salud Pública mejoren el acceso de la población a los servicios sanitarios. Sin embargo, el análisis de estos datos requiere de la infraestructura y seguridad adecuadas por incluir información personal sensible de la ciudadanía. El Fondo de Infraestructura IOI permitiría continuar el trabajo del equipo de uso responsable de datos de salud, parte del proyecto ARPHAI (http://www.ciecti.org.ar/arphai/) que comenzó a mejorar algoritmos de anonimización de las HCE y generar guías y recomendaciones para las comunidades de Ciencia de Datos (CD) en Salud y de Gestión de la Administración Pública argentinas. A diferencia del proyecto Catalyst (http://tiny.cc/Catalyst), del que algunas participamos y que proveerá infraestructura para comunidades en Latinoamérica y África usando nubes no soberanas, los datos sensibles requieren por ley infraestructura local. Nuestro objetivo es sostener la infraestructura para el procesamiento y almacenamiento de los datos y así continuar con las investigaciones y la construcción de comunidad y capacidades de ARPHAI. Se documentará cómo acceder a los servidores y se capacitará sobre el uso de los mismos para quienes se unan formalmente a ARPHAI. Además, se especificarán los requisitos para manejar datos sensibles de salud y se disponibilizarán documentación y capacitación para quienes utilicen este tipo de datos principalmente en la gestión pública.
Proposed Activities: Las actividades a desarrollarse son las siguientes: 1) Equipamiento y mantenimiento (12/23-07/25): adquisición de discos duros y GPUs para el almacenamiento y cómputo de las investigaciones realizadas por integrantes de ARPHAI. Esta infraestructura la gestiona el Centro de Cómputo de Alto Desempeño (CCAD) de la Universidad Nacional de Córdoba (Argentina). El CCAD sostuvo el trabajo de ARPHAI bajo estrictas medidas de seguridad y normativa local durante los 2 años previos en los que se contó con financiamiento. 2) Desarrollo de documentación: a) Introducción al uso responsable de datos sensibles (01/24-07/24). Se desarrollará un documento con recomendaciones para la manipulación responsable de datos sensibles en los proyectos de investigación, como resultado de la experiencia previa del equipo. Este material será difundido por los distintos canales de comunicación como redes sociales y newsletter de ARPHAI y otros circuitos de difusión del ecosistema regional de Salud Digital (gobierno, academia, comunidades). b) Acceso y uso de servidores (07/24-12/24). Se elaborará un manual que detalle protocolos seguros de acceso al servidor y procesamiento de los datos y se sistematizarán las medidas de seguridad necesarias para la manipulación de datos de salud. Además, se incluirán recomendaciones para los procesos de ingreso (onboarding) y egreso (offboarding) de quienes se integren a la comunidad ARPHAI detallando el uso correcto de los servicios disponibles y se precisarán los requerimientos para la manipulación de los datos. Esta documentación está destinada a las personas que se integren a la comunidad ARPHAI. La documentación generada en los ítems 2) a) y b) tendrá licencia CC BY y será puesta a disposición de otras comunidades, con especial énfasis en las de personas gestoras de la administración pública y en las de ciencia de datos de salud argentinas. 3) Desarrollo y dictado de capacitaciones: a) Uso responsable de datos sensibles (08/24-07/25). Como complemento de la documentación generada en la actividad 2)a), se generará un tutorial con modalidad virtual y presencial abierto a la comunidad general y destinado principalmente a personas gestoras o investigadoras locales. b) Acceso a servidores para personas de la comunidad ARPHAI (01/25-07/25). Capacitación destinada a miembros de la comunidad ARPHAI con acceso a datos. Se desarrollarán los procesos de ingreso (onboarding) y egreso (offboarding) con el detalle del uso correcto de los servicios disponibles y se precisarán los requerimientos para la manipulación de los datos. Esta capacitación complementa la aprobación del curso NIDA Clinical Trials Network (https://gcp.nidatraining.org/) y la firma de un convenio de confidencialidad. Para el punto 3 se precisará una plataforma virtual de reuniones (por ejemplo: Zoom) y salas equipadas para los encuentros presenciales incluídas en el marco del proyecto ARPHAI. Se estima para cada una de las capacitaciones una duración aproximada de 3 horas.
Openness: La documentación y los materiales de las capacitaciones generadas en el marco de este proyecto contarán con licencia CC BY, estarán disponibles en el repositorio de ARPHAI (https://github.com/ARPH-AI/) y serán difundidos para un mejor aprovechamiento. La capacitación de “Introducción al uso responsable de datos sensibles” será gratuita y abierta a las comunidades de CD e IA en Salud y de Gestión de la Administración Pública de Argentina y se espera impartir un mínimo de dos ediciones previas a la finalización del proyecto. Estas capacitaciones serán presenciales y virtuales. Las últimas, serán grabadas y se disponibilizarán en alguna plataforma de video. Los datos de las HCE por ser sensibles, no pueden ser abiertos. No obstante, los modelos y las metodologías que sean producto de las investigaciones realizadas en el marco de este proyecto se disponibilizarán con licencias abiertas en tanto no expongan datos sensibles de la ciudadanía. El objetivo de este proyecto es generar capacidades, comunidad y mejorar la infraestructura de almacenamiento y procesamiento de datos sensibles para continuar el trabajo con HCE comenzado en ARPHAI. Este proyecto, de ser seleccionado, permitirá además la ampliación de la comunidad científica de ARPHAI ya que habilitará un camino ordenado de participación para la inclusión de nuevos equipos de trabajo, una vez que cumplan con el proceso de ingreso (onboarding) y las capacitaciones asociadas a la manipulación de datos sensibles y servidores.
Challenges: Los desafíos que esperamos enfrentar en cuanto a la realización de este proyecto se pueden dividir en dos categorías: los relacionados a la apertura y los propios de los problemas políticos y económicos de Argentina (lugar donde está enmarcado este proyecto). A diferencia de lo que sucede con otro tipos de datos, los datos de salud son extremadamente sensibles y están sujetos a normativas nacionales e internacionales de protección específica. Es por ello que este proyecto no tiene como objetivo hacer públicos estos datos, ya que esto iría en contra de los derechos de las personas titulares de los mismos. La no disponibilidad pública de los datos representa un desafío para generar una comunidad abierta. Sin embargo, es mucho lo que podemos aportar en relación a procesos y modelos abiertos, muy necesarios para personas interesadas en trabajar con este tipo de datos, sin publicar los datos de investigación. Por otro lado, en la coyuntura Argentina, es difícil prever los costos de materiales y servicios en un contexto inflacionario (115,6% anual) y con una política económica inestable y compleja que complica la importación de equipamiento, más aún en un año de elecciones presidenciales. Esto además provoca que más personas dedicadas a la investigación migren a ámbitos privados dificultando la posibilidad de sostener la comunidad científica en general, incluyendo a la de ARPHAI.
Neglectedness: El proyecto ARPHAI surgió gracias al cofinanciamiento recibido en el período 10/2020-3/2023 por parte del Centro Internacional de Investigaciones para el Desarrollo de Canadá y de la Agencia Sueca de Cooperación Internacional para el Desarrollo. Actualmente, ARPHAI se sostiene únicamente por la participación de integrantes que cuentan con salarios de universidades u organismos gubernamentales argentinos de entre U$S500 y U$S1000. Esta financiación es insuficiente para mantener ARPHAI que ya no cuenta con fondos propios. ARPHAI aplicó a otros financiamiento (por ejemplo, Salud Investiga, Digital Infrastructure Incubator, AI4PEP) aunque solo se obtuvo la primera, ninguna de las tres contempla gastos específicos para infraestructura, como sí es el caso de ORFG Open Scholarship Seed Awards o los Data Futures Lab Infrastructure Fund de Mozilla a las que nos presentaremos en los actuales llamados. En Argentina no hay muchas fuentes de financiamiento que contemplen específicamente los costos de infraestructura. Aquellas en las que puede destinarse presupuesto a infraestructura, como las del Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), son de un total aproximado de 5144 dólares por dos años. Este valor es otorgado en pesos argentinos (115,6% de inflación anual) y al tener retrasos en los desembolsos pautados, el monto total es drásticamente devaluado, lo cual hace muy difícil la compra efectiva de equipamiento tecnológico, usualmente importado.
Success: El éxito del proyecto podrá ser medido por los siguientes indicadores: *Indicadores de proceso/avance: -Se realizó la adquisición de los equipos para la mejora de la infraestructura del proyecto. -Los documentos fueron efectivamente realizados en el tiempo establecido y fueron disponibilizados al equipo o a la comunidad en general. -Se realizaron al menos dos capacitaciones sobre uso responsable de datos sensibles a las comunidades de CD en Salud y de Gestión de la Administración Pública argentinas en el período establecido. *Indicadores de resultados: -Evidencia de una mejora efectiva en la infraestructura de datos del Proyecto ARPHAI (aumento de la velocidad de procesamiento y aumento del almacenamiento) respetando todas las especificaciones de seguridad. -Indicadores relacionados a que los materiales generados sean difundidos y distribuidos en distintos ámbitos y sean accedidos por personas interesadas: a) la cantidad de personas capacitadas en el uso responsable de datos sensibles, b) la cantidad de comunidades/ámbitos que difunden los documentos c) elaborados la cantidad de accesos al repositorio (https://github.com/ARPH-AI/) y la cantidad de descargas de los documentos d) la cantidad de menciones de los productos en distintos canales de comunicación -Indicadores de ampliación de la comunidad ARPHAI: a) cantidad de proyectos (aumenta) b) cantidad personas investigadoras vinculadas (aumenta)
Total Budget: 16610
Budget File: pdf
Affiliations: -
LMIE Carveout: Este proyecto está integrado por personas investigadoras en Argentina y tiene como objetivos principales adquirir infraestructura local para garantizar la continuidad de ARPHAI y comunicar y capacitar en el uso responsable de datos. ARPHAI es pionero en el uso secundario de datos de salud para la investigación y la gestión, utilizando servicios locales. Es crucial sostener la comunidad para que su experiencia no se vea desaprovechada por falta de financiamiento. Las dificultades económicas del país hacen que la transformación digital y la capacitación en nuevas tecnologías queden relegados, por eso estos proyectos vinculados a la gestión pública tienen un impacto mayor por el alcance indirecto sobre la ciudadanía. Además, con las adaptaciones adecuadas, resultan útiles a nivel regional.
Team Skills: El grupo de investigación surge a partir del proyecto ARPHAI cuyo objetivo es aplicar métodos de Inteligencia Artificial (IA) y CD en HCE para predecir brotes epidemiológicos en Argentina, donde es un proyecto de referencia. Somos un equipo con un fuerte compromiso por la ciencia abierta (CA) y las comunidades de práctica. Hemos participado con varios roles en diversas cohortes de OLS (https://openlifesci.org/) y entre otras, contribuimos en RLadies BA, MetaDocencia (MD, https://www.metadocencia.org/). Dra. Veronica Xhardez: Coordinadora técnica de ARPHAI. Es investigadora del Área de Economía Digital y Ciencia de datos del Centro Interdisciplinario de Estudios en Ciencia, Tecnología e Innovación. Dra. Laura Alonso Alemany: co-coordinó el equipo de Fenotipos Computables de HCE de ARPHAI. Es especialista en Procesamiento del Lenguaje Natural (PLN). Dra. Laura Ación: co-directora de MD e investigadora de CONICET. Tiene experiencia en Bioestadística aplicada a la investigación clínica y en la construcción de comunidades y capacidades de CA. Es co-investigadora de Catalyst. Dra. Sabrina López: becaria postdoctoral de CONICET. Aplica PLN para la anonimización de HCE. Tiene experiencia en datos de HCE de salud de diversos organismos públicos de Argentina. Dra. Mariela Rajngewerc: becaria postdoctoral de CONICET. Su proyecto se basa en desarrollar y evaluar métodos para la detección y mitigación de sesgos en modelos de anonimización de HCE.
Submission Number: 134
Loading