Evaluación comparativa de modelos OCR y LLMS para el procesamiento inteligente de facturas escaneadas
Autor/es: Valderrama Martínez, Julio
Director/es: Díaz Vico, David
Palabra/s clave: OCR; LLMs; Ingeniería de prompts; Extracción de información; Automatización documental
Fecha de defensa: 2025/10
Tipo de contenido:
TFM
Resumen:
La digitalización de documentos ha incrementado la necesidad de automatizar el procesamiento de facturas de suministros (electricidad, agua y gas), tradicionalmente gestionadas de
forma manual con riesgo de errores, altos costes y tiempos prolongados. Este Trabajo Fin
de Máster aborda este reto mediante el diseño, implementación y evaluación de un sistema
automatizado que combina técnicas de Reconocimiento Óptico de Caracteres (OCR) con modelos de lenguaje multimodales de última generación (LLMs), integrados en una arquitectura
basada en microservicios y orquestada con n8n y PostgreSQL.
El proyecto siguió un enfoque experimental y comparativo, evaluando modelos líderes como
GPT-4o, Gemini 2.5 Flash y Claude Sonnet 4, junto con soluciones comerciales como Azure AI Document Intelligence. El sistema incorpora un flujo completo: ingesta automática de
facturas desde Google Drive, preprocesamiento condicional (PDF a imagen), extracción estructurada mediante prompts diseñados con precisión y almacenamiento en base de datos
relacional.
Un aporte clave es el microservicio ocr-evaluator, que permite calcular métricas de desempeño (precisión, recall y F1-score) e indicadores de coste y eficiencia temporal, contrastando
automáticamente los resultados con un ground truth curado manualmente. Los experimentos
muestran que la combinación de OCR y LLMs supera ampliamente a los métodos tradicionales, logrando más del 95 % de precisión en campos críticos y reduciendo significativamente
la intervención manual. Asimismo, se demostró que el diseño del prompt influye directamente
en la obediencia del modelo y en la calidad de la extracción.
En conclusión, la solución propuesta no solo mejora la eficiencia y reduce errores humanos,
sino que también establece un marco reproducible para la evaluación objetiva de tecnologías
OCR/LLM, ofreciendo criterios sólidos para la toma de decisiones en entornos empresariales.
Ficheros en el ítem
Tamaño: 10.45Mb
Formato: PDF
Tipo de contenido:
TFM






