Automatic PDF Document Classification with Machine Learning

Sócrates Llácer Luna, Darío Garigliotti, Fernando Martínez-Plumed, Cèsar Ferri Ramirez

Published: 2024, Last Modified: 25 Jan 2025IDEAL (1) 2024EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: Universitat Politècnica de València (UPV) faces challenges in managing its Alfresco document repository, which contains 600,000 PDF files, of which only 100,000 are correctly categorised. Manual classification is laborious and error-prone, hindering information retrieval and advanced search capabilities. This project presents an automated pipeline that integrates optical character recognition (OCR) and machine learning to efficiently classify documents. Our approach distinguishes between scanned and digital documents, accurately extracts text and categorises it into 51 predefined categories using models such as BERT and RF. By improving document organisation and accessibility, this work optimises UPV’s document management and paves the way for advanced search technologies and real-time classification systems.