Desarrollo de algoritmos bioinformáticos para el manejo automático de hallazgos secundarios en datos genómicos
Author/s: Urrutia Lafuente, Edurne
Advisor/s: Pérez Florido, Javier
Keyword/s: Secuenciación de nueva generación; Hallazgos secundarios; Medicina genómica; Algoritmos bioinformáticos; Python
Date of defense: 2023-11
Type of content:
TFM
Abstract:
La secuenciación de nueva generación (NGS) es una herramienta fundamental en el estudio de enfermedades genéticas. Sus implicaciones van más allá de la enfermedad primaria, ya que permiten la identificación de hallazgos secundarios (de riesgo personal, reproductivo y farmacogenético), que pueden tener un impacto relevante en el manejo clínico del paciente. Por tanto, el desarrollo de algoritmos bioinformáticos dirigidos a su manejo es un paso importante hacia la implementación de la genómica en la práctica médica. Sin embargo, hasta ahora no se han descrito herramientas para el manejo específico de hallazgos secundarios.
Objetivos: El objetivo de este Trabajo Final de Máster consiste en el desarrollo de una herramienta bioinformática destinada al manejo automático de hallazgos secundarios en datos genómicos.
Material y métodos: La herramienta, desarrollada en Python y operable desde la línea de comandos, procesa archivos de variantes genómicas en formato Variant Calling Format (VCF) y permite seleccionar las categorías de hallazgos secundarios mencionadas. Además, se pueden configurar parámetros como el ensamblaje de referencia, el modo de ejecución, el nivel de evidencia para las interpretaciones y un archivo de términos de la ontología del fenotipo humano (HPO). La herramienta se apoya en InterVar y la base de datos ClinVar, y el flujo de trabajo incluye la preparación de la herramienta, la normalización del archivo VCF, la extracción de variantes genómicas en genes específicos de cada categoría mediante la intersección con archivos Browser Extensible Data (BED) y la ejecución de los módulos propios de cada categoría para la anotación e interpretación de variantes patogénicas o probablemente patogénicas. El último paso consiste en la generación de informes en formato Excel, separando los hallazgos por categorías. Además, la herramienta se validó utilizando datos genómicos con hallazgos secundarios previamente identificados en el proyecto NAGEN1000.
Resultados: La validación de la herramienta demostró su capacidad para identificar hallazgos secundarios en datos genómicos del proyecto NAGEN1000, respaldando su eficacia en las tres categorías de hallazgos secundarios.
Conclusiones: El desarrollo de esta herramienta representa un avance en la medicina genómica y la atención médica personalizada. Las limitaciones actuales identificadas se completan con líneas de mejora futuras, como la inclusión en un docker.
Files in this item
Size: 1.146Mb
Format: PDF
Type of content:
TFM