Sistema inteligente de búsqueda y coincidencia basado en Vector Stores
Author/s: Buitrago Roa, Lina Marcela
Advisor/s: Coca López, Nicolás
Date of defense: 2025/10
Type of content:
TFM
Abstract:
Esta tesis aborda la brecha que impide a las PYMEs acceder a búsqueda semántica y multimodal de nivel empresarial. Se propone y valida una arquitectura de referencia open-source basada en PostgreSQL + pgvector que integra búsqueda léxica (BM25), vectorial (HNSW), fusión por RRF y RAG-to-SQL orquestado con LangChain. Se emplean embeddings de texto (E5, JE3,GTE) e imagen (CLIP) y se evalúa el sistema sobre una muestra operativa (≈15.000 ítems) del dataset FooDI-ML, utilizando etiquetas estructurales como proxy de relevancia.
El plan de evaluación combina métricas proxy-based (1-NN, Silhouette, ARI/NMI, Label Consistency@K), multimodales (Recall@K, MRR, separación de pares) y de búsqueda híbrida (Hybrid Recall y Filter-Separation). Los resultados muestran que E5 ofrece mejor estructura local y Recall@K con filtros, mientras que GTE/JE3 aportan mayor separación útil para re-ranking. En multimodal, la dirección imagen-texto supera a texto-imagen. La solución opera en CPU en tiempo real (la GPU se limita al backfill offline), manteniendo costes bajos.
Se concluye que la arquitectura propuesta es técnica y económicamente viable para PYMEs y se aporta una “receta” operativa (candidatos híbridos,fusión RRF, re-ranking ligero, multimodal, RAG-to-SQL), junto con líneas futuras.
Files in this item
Size: 1.572Mb
Format: PDF
Type of content:
TFM






