Clasificación automática de textos con términos de vocabularios controlados provistos por Tematres a través de entrenamiento de modelos con aprendizaje de máquina.

31 Jul 2023 (modified: 01 Aug 2023)InvestinOpen 2023 OI Fund SubmissionEveryoneRevisionsBibTeX
Funding Area: Capacity building / Construcción de capacidad
Problem Statement: En diferentes ámbitos profesionales como ser medicina, ciencias de la educación, justicia, se precisa realizar la indización de documentos a partir de un vocabulario controlado gestionado. Los vocabularios controlados constituyen un tipo específico de sistema de organización del conocimiento (SOC), delimitan y formalizan un dominio estableciendo los términos que lo conforman, el alcance conceptual de los términos y las relaciones que los articulan. Se trata de dispositivos de mediación social que basan su productividad y agencia en su capacidad para referenciar de manera no ambigua un conjunto de referentes en el contexto de un dominio y articularlos a través de una una red coherente de relaciones léxico-semánticas. El uso de un asistente de clasificación de textos permite agilizar esta tarea para los usuarios que deben realizarla manualmente. En este caso los usuarios pasan a validar los términos propuestos y en todo caso pueden agregar o quitar los que deseen. Para estas soluciones existe una herramienta llamada Annif (https://annif.org/) para la cual se deben realizar entrenamientos a partir de corpus de textos en cada implementación específica. Existe el desafío de la gestión de términos en diferentes idiomas. Para esto se propone crear un entrenamiento en 3 idiomas sobre una temática específica y dejarlo público a la comunidad de Annif a fin de promover las experiencias específicas multi-idioma de las cuales no hemos encontrado entrenamientos de acceso libre.
Proposed Activities: Se propone seleccionar una temática específica de la medicina publicada en la biblioteca virtual de la salud (BVS) que se encuentren relacionadas con el vocabulario de los Descriptores de Ciencias de la Salud Multilingue (DeCS/MeSH - https://decs.bvsalud.org/es/sobre-decs/) Se realizará una extracción de en lo posible al menos 5000 documentos etiquetados en terminología DeCS/MeSH en cada idioma (español, portugues, inglés) referidos a la temática seleccionada (por ejemplo “Medicina Pediátrica”). Junto con los documentos y los vocabularios en 3 idiomas gestionados con la herramienta de código libre Tematres (https://vocabularyserver.com/web/) se procederá a crear los corpus de entrenamientos. Específicamente las tareas son: Implementación en laboratorio de la herramienta Annif en su última versión. Selección de la temática a entrenar de acuerdo a la calidad de los resultados de búsqueda que se observen en https://pesquisa.bvsalud.org/portal/ Extracción de documentos fulltext con sus metadatos desde el portal de bvsalud. Sanitización de los resultados obtenidos para entrenarlos. Entrenamiento de los modelos de la misma temática en 3 idiomas diferentes (un modelo para cada idioma) Publicación en repositorio abierto de los modelos entrenados, junto con el proceso utilizado, la documentación de referencia. Redacción de la documentación para el uso de los casos (en inglés) Publicación de las mediciones de calidad de los entrenamientos de acuerdo a los estándares propuestos por Annif a partir de conjuntos de datos de entrenamiento, test y evaluación. Exposición del caso en listas de distribución. Se estima un plazo de ejecución de 45 días corridos como cronograma.
Openness: El objetivo del proceso es generar un entrenamiento vinculado a vocabularios controlados, todo en multi-idioma y basado en herramientas de código libre. Este caso al ser publicado luego en las listas de usuarios de Annif proporciona una herramienta concreta de fácil uso, ya que lo más complejo es obtener y procesar los corpus, y adicionalmente muy dificil encontrar casos de datos entrenados de la misma temática, con un mismo vocabulario en más de un idioma. Esta facilitación permite que los usuarios que se encuentran en uso de la herramienta Annif puedan realizar pruebas rápidas a partir de la descarga de un caso concreto de modelos pre entrenados listos para usar. Como expertos relacionados también al mundo académico, participamos anualmente de diferentes exposiciones en seminarios y congresos específicos donde exponemos estas soluciones para su promoción.
Challenges: El desafío principal se encuentra en la obtención de un corpus de calidad en los 3 idiomas, pero por el volumen de documentos que cuenta BVSalud vemos posibilidad de tener buena calidad de entrenamiento. Al ser medible la calidad del mismo, esto permite publicar los indicadores de calidad para los usuarios del producto Annif.
Neglectedness: No hemos realizado solicitud de financiamiento para este tipo de entrenamientos. En otros casos hemos realizado entrenamientos como inversión de tiempo personal pero no en 3 idiomas para el mismo entrenamiento.
Success: El éxito del caso se mide por la respuesta a la difusión que tengamos del mismo, la cantidad de descargas del entrenamiento en el repositorio, y la calidad del entrenamiento obtenida.
Total Budget: 6360
Budget File: pdf
Affiliations: Para los entrenamientos de corpus con Annif, hemos creado un proyecto publicado en https://mole.guru el cual no cuenta actualmente con una organización de respaldo específica sino que resulta ser un proyecto de soluciones propuestas por los miembros del equipo.
LMIE Carveout: El proyecto se encuentra principalmente asociado a la localidad de Ciudad Autónoma de Buenos Aires, Argentina. País que no pertenece a LMIEs
Team Skills: Diego Ferreyra https://www.linkedin.com/in/perfildiegoferreyra Es el autor de la herramienta Tematres y desarrollador original de la misma así como dueño de su patente. Con formación en Bibliotecología, Linguista y desarrollador PHP Gabriel Kulevicius https://www.linkedin.com/in/gabrielkulevicius/ Es Analista Universitario en Computación por la UBA, con experiencia de más de 20 años en la implementación de aplicaciones de código libre en PHP, principalmente CMSs y LMSs.
How Did You Hear About This Call: Word of mouth (e.g. conversations and emails from IOI staff, friends, colleagues, etc.) / Boca a boca (por ejemplo, conversaciones y correos electrónicos del personal del IOI, amigos, colegas, etc.)
Submission Number: 171
Loading