MultimodalBioQA: Un framework agéntico con explicabilidad incorporada que integra grandes modelos de visión y lenguaje con procesamiento de lenguaje natural para question answering biomédico multimodal
Author/s: Angulo Diaz, Johanna Cristina
Advisor/s: Yeste, Víctor
Date of defense: 2025-07
Type of content:
TFM
Abstract:
Los sistemas de question answering biomédico actuales enfrentan limitaciones en explicabilidad,
lo que obstaculiza su adopción en entornos clínicos donde la interpretabilidad
es fundamental para la toma de decisiones médicas basadas en evidencia.
Se desarrolló MultimodalBioQA, un sistema multimodal que integra procesamiento
textual y visual con capacidades de explicabilidad (XAI). El módulo textual implementa
búsqueda híbrida combinando bases de datos vectoriales locales (PubMedBERT 768D) con
consultas en tiempo real a PubMed API, utilizando GPT-4o para extracción de evidencia
científica a nivel de oración. El módulo visual emplea un modelo LLaVA-LLaMA 3 8B
con fine-tuning LoRA especializado para análisis de imágenes médicas.
La contribución principal es el sistema de explicabilidad integrado que combina cuatro
métodos complementarios: GradCAM, Attention Maps, Integrated Gradients y mapeo
concepto-región con bounding boxes mediante técnicas de segmentación automática. Esta
integración permite generar respuestas fundamentadas con trazabilidad completa desde
la evidencia hasta la conclusión.
La arquitectura integra múltiples componentes: LLaVA-LLaMA 3 8B, GPT-4o, BiomedNLP
- PubMedBERT, Segment Anything Model (SAM), bases de datos vectoriales
RAG, y APIs UMLS/MeSH y PubMed. El sistema se implementa como una arquitectura
multiagente con LlamaIndex, coordinada mediante un Writer Agent central que sintetiza
respuestas diferenciadas según el tipo de consulta biomédica.
La evaluación en competencias internacionales demostró rendimiento competitivo: los
módulos textual y visual del sistema obtuvieron desempeño top 10 en BioASQ Tarea 13B
e ImageCLEFmed Caption 2025, confirmando su efectividad en comparación con sistemas
de instituciones de investigación consolidadas a nivel mundial.
Este trabajo contribuye al desarrollo de sistemas de IA médica interpretable mediante
la integración de explicabilidad multimodal desde el diseño, estableciendo una base técnica
para futuras herramientas de apoyo clínico que combinen precisión con transparencia en
el análisis de información biomédica.
Files in this item
Name: TFM_Johanna-Angulo.pdf
Size: 15.43Mb
Format: PDF
Type of content:
TFM






