Reconocimiento automático de autor vía aprendizaje de máquina

Dr. Gerardo Eugenio Sierra Martínez; Tonatiuh Hernández García

Reconocimiento automático de autor vía aprendizaje de máquina

Dr. Gerardo Eugenio Sierra Martínez, Tonatiuh Hernández García

08 Jul 2019 (modified: 05 May 2023)RIIAA 2019 Conference SubmissionReaders: Everyone

TL;DR: Método para reconocer al autor de un texto con 98% de precisión, vía aprendizaje de máquina

Keywords: procesamiento de lenguaje natural, estilometría, reconocimiento automático de autor, lingüística forense

Abstract: Proponemos un sistema de reconocimiento automático de autor que utilizando como entrada un número variable de documentos de autoría comprobada pertenecientes a un autor X mide automáticamente la longitud de los párrafos, el número de palabras utilizadas por párrafo y las ocurrencias de cuatro signos ortográficos (.,;:). El uso de estas características es inconsciente, fuera del control del autor y plasma el estilo único de cada autor como una huella digital escrita. Al comparar las medidas estilométricas entre dos autores distintos son completamente distintas, las medidas son simila res al comparar dos o más documentos del mismo autor. Las medidas por párrafo son etiquetadas con el nombre correspondiente a su autor y utilizadas para entrenar un algoritmo DecisionTree que es capaz de identificar al autor (o autores) de un documento con un 98% de precisión. Este sistema es escalable: se puede entrenar para reconocer un número elevado de autores, su debilidad es que requerimos por lo menos treinta párrafos por autor para realizar el entrenamiento. Lo óptimo es usar más de cincuenta párrafos de temática variada para conseguir un buen rendimiento. La precisión de este método no se ve afectada por el género de los textos y reduce el número de características necesarias para la identificación, tomando como referencia el sistema SAUTEE (GIL, UNAM) que usa 26 y que utilizando una Support Vector Machine reconoce el autor con 69% de precisión. Hemos probado la efectividad de este método resolviendo el problema de autoría de ¡El Móndrigo! un texto que difama al movimiento estudiantil del 68, compuesto por informes policiales y ensamblado por distintos autores. Entrenando al algoritmo con documentos de autoría probada de cinco autores sospechosos hemos descubierto al autor con 98% de precisión. Sobre ello, versan los experimentos que presentamos.

0 Replies

Loading