Automatic Recognition of Medieval Scientific Arabic Manuscripts: Dataset Creation and Large Language Models Evaluation

Ismail El Jamiy; Guillaume Loizelet; Farah Benamara; Nabil Hathout

Automatic Recognition of Medieval Scientific Arabic Manuscripts: Dataset Creation and Large Language Models Evaluation

Ismail El Jamiy, Guillaume Loizelet, Farah Benamara, Nabil Hathout

Published: 28 Apr 2026, Last Modified: 29 Apr 2026TALN 2026 ationtravauxoriginauxEveryoneRevisionsBibTeXCC BY 4.0

Titre: Reconnaissance automatique de manuscrits arabes scientifiques médiévaux : Création d'un jeu de données et évaluation de grands modèles de langues

Type Of Submission: Original Work / Travaux de recherche originaux

Keywords: Handwritten Text Recognition, Arabic Historical Documents, Large Language Models

Mots-cles: Reconnaissance de texte manuscrit, Documents historiques arabes, Grand modèle de langue

Abstract: The digitization of Arab scientific heritage presents a significant challenge for the analysis of these documents due to the spatial complexity of the writing (cursive script, diacritics, ligatures). Despite recent advances, these manuscripts often remain indecipherable for current artificial intelligence models. In this article, we present an evaluation of state-of-the-art methods on a new manually edited and annotated corpus: Al-Bīrūnī's al-Qānūn al-Masʿūdī, a major treatise on mathematical astronomy, comparable to Ptolemy's Almagest and written around 1030. We present the methodology used to construct the corpus, then detail the approach implemented for digitizing this manuscript. The latter takes the form of a unified pipeline based on large language models whose input is a raw image and whose output is a digitized text. Comparing the results obtained by different models, ranging from generalist multilingual models to Arabic-centered models and specialized OCR models, highlights the limitations of current systems when faced with the specificities of ancient scientific texts and allows us to identify guidelines for developing automatic recognition systems for these manuscripts.

Resume: La numérisation du patrimoine scientifique arabe constitue un défi important pour l'analyse de ces documents, en raison de la complexité spatiale de l'écriture (cursivité, diacritiques, ligatures). Malgré les progrès récents, ces manuscrits demeurent souvent indéchiffrables pour les modèles d'intelligence artificielle actuels. Dans cet article, nous présentons une évaluation de méthodes de l'état de l'art sur un nouveau corpus édité et annoté manuellement : al-Qānūn al-Masʿūdī d'Al-Bīrūnī, un traité majeur d'astronomie mathématique, comparable à l’Almageste de Ptoléméeaux et écrit aux alentours de 1030. Nous présentons la méthodologie de construction du corpus, puis détaillons l'approche mise en place pour la numérisation de ce manuscrit. Cette dernière prend la forme d'un pipeline unifié à base de grands modèles de langue dont l'entrée est une image brute et la sortie un texte numérisé. La comparaison des résultats obtenus par différents modèles allant de modèles généralistes multilingues à arabocentrés, en passant par des modèles OCR spécialisés met en lumière les limites des systèmes actuels face aux spécificités des textes scientifiques anciens et permet d'identifier des lignes directrices pour développer des systèmes de reconnaissance automatique de ces manuscrits.

Submission Number: 97

Loading