Evaluación comparativa de modelos OCR y LLMS para el procesamiento inteligente de facturas escaneadas
Author/s: Valderrama Martínez, Julio
Advisor/s: Díaz Vico, David
Date of defense: 2025/10
Type of content:
TFM
Abstract:
La digitalización de documentos ha incrementado la necesidad de automatizar el procesamiento de facturas de suministros (electricidad, agua y gas), tradicionalmente gestionadas de
forma manual con riesgo de errores, altos costes y tiempos prolongados. Este Trabajo Fin
de Máster aborda este reto mediante el diseño, implementación y evaluación de un sistema
automatizado que combina técnicas de Reconocimiento Óptico de Caracteres (OCR) con modelos de lenguaje multimodales de última generación (LLMs), integrados en una arquitectura
basada en microservicios y orquestada con n8n y PostgreSQL.
El proyecto siguió un enfoque experimental y comparativo, evaluando modelos líderes como
GPT-4o, Gemini 2.5 Flash y Claude Sonnet 4, junto con soluciones comerciales como Azure AI Document Intelligence. El sistema incorpora un flujo completo: ingesta automática de
facturas desde Google Drive, preprocesamiento condicional (PDF a imagen), extracción estructurada mediante prompts diseñados con precisión y almacenamiento en base de datos
relacional.
Un aporte clave es el microservicio ocr-evaluator, que permite calcular métricas de desempeño (precisión, recall y F1-score) e indicadores de coste y eficiencia temporal, contrastando
automáticamente los resultados con un ground truth curado manualmente. Los experimentos
muestran que la combinación de OCR y LLMs supera ampliamente a los métodos tradicionales, logrando más del 95 % de precisión en campos críticos y reduciendo significativamente
la intervención manual. Asimismo, se demostró que el diseño del prompt influye directamente
en la obediencia del modelo y en la calidad de la extracción.
En conclusión, la solución propuesta no solo mejora la eficiencia y reduce errores humanos,
sino que también establece un marco reproducible para la evaluación objetiva de tecnologías
OCR/LLM, ofreciendo criterios sólidos para la toma de decisiones en entornos empresariales.
Files in this item
Size: 10.45Mb
Format: PDF
Type of content:
TFM






