Material de la sesión técnica sobre los datos genómicos en el Ámbito de la Salud que organizamos el pasado 8 de octubre de 2.015
Postgrado en BI :
http://informatica1.eug.es/es/estudios/postgrados/postgrado-en-business-intelligence-2015-2016
Desde la presentación de los resultados del Proyecto Genoma Humano en el año 2000, son muchos los avances y el impacto que los estudios genómicos están teniendo en la sociedad. Cada día las noticias nos muestran cómo estos estudios están aportando información muy valiosa para la prevención y el tratamiento de enfermedades y el momento de su aplicación de forma habitual en los centros de salud es cada día más cercano. Dado el gran volumen de estos datos y la confidencialidad con que hay que gestionarlas, la genómica supone un reto para la Informática de la Salud y su tratamiento se apoya en tecnologías de Business Intelligence (BI) y BigData.
Jordi Rambla, del Centro de Regulación Genómica (CRG), gestiona el Archivo Europeo del Genoma-fenómeno (EGA), de alcance mundial y con sedes en Barcelona y Cambridge. http://ega.crg.eu
9. Afshinnekoo et al.,
Geospatial Resolution of Human and Bacterial Diversity with City-Scale Metagenomics, CELS
(2015), http://dx.doi.org/10.1016/j.cels.2015.01.001
10. ¿Datos genómicos?
• Muestras
– Pacientes vs. Controles
– Tumores vs. Somàtic
– Padres vs. hijos (family trios)
– En el futuro:
• Seguimiento vital
• Microbiomas
• Tipos de datos
– DNA genómico (~100GB a
30x)
– Exoma (1,5% ~ 6 GB a 40x)
– Transcriptoma
• RNA-Seq (~3 GB)
• Expresión de genes
– “All together”
• GET (Genome + Exome +
Transcriptome)
– Epigenética
– Genome Wide Analysis
Studies (GWAS)
– Paneles de variantes
seleccionadas
13. El proceso
> QC de los datos
– Calidad no uniforme
> Mapear los datos al genoma
de referencia
> Detectar variantes
– Base estadística
– Importancia del contexto
> Efecto (clínico) de las
variantes
> Visualizar la información
14.
15. Limitaciones
> Coste
> de secuenciar (Standford: 17k$ por persona incl. análisis)
> de analizar (Standford: 100 horas por genoma)
> de almacenar (capacidad y gestión)
> De la tecnología
> Falsos positivos/falsos negativos
> Ciencia en movimiento (aún estamos aprendiendo)
> Relacionar genotipo (~genética) y fenotipo
(~enfermedad)
> Descripción unificada de les características de los
pacientes
17. Personalized/Precision Medicine
> Permite identificar riesgos/predisposición a
enfermedades
> Permite identificar incidencias concretas en las
vías metabólicas y actuar en la causa “real”
> Evitando efectos secundarios “inútiles”
> ¿Ahorro?
> ¿Se trata de una inversión a medio plazo?
> “El médico será menos artista y más científico”,
“las TIS serán más necesarias para agregar los
datos”
18. Aspectos éticos
> Algunos derivan de la potencia del test
> Incidental findings
> Compartimos genética con nuestros familiares
> Relacionados con la confidencialidad
> Identificación de personas
> El paciente/usuario como propietario de los
datos
> Derecho a “retracción”
23. En el postgrado: Modelos de DW
Otros
datos
Informes
Cuadros de
mando
Consultas
Adhoc
Hojas de
cálculo
Deleg
ERP
Cli Mktg Fras.
Datawarehouse
24. Elementos de una solución de BI (5)
DDS
Área de
Staging
Data
Quality MDB
Control +
Auditoría
ETL +
DQ
ETL
Staging
Correcciones
BBDD
Control
Aplicaciones BI
Informes
Cuadros de mando
Consultas Adhoc
Tablas dinámicas
Hojas de cálculo
Sistemas
origen
242015 Postgrado en BI
25. - 25 -
*Note: Representative diagram – not all integrations are shown
Big picture type solution for ‘AMC’ genomics initiatives
RI Analytics & Care DeliverySource Data
Clinical Trials,
Registries,
Internal/External
Results
Biobanks
LIMS
‘Omics
Platforms
(CLC Bio)
Clinical EMRs
& Claims
Labs
Partner
Clinical data
Master Data Management
MPI/Provider
Scientific
Reference
Terminology
Reference
Common
Services MPI HPCRef Data Mgmt HubSecurity Collaboration Portal Storage
Data Trust
Research Trust
Data Warehouse /
Research Stores
Clinical
Research
Omics
ETL
Data
Curation
Data De-
Identification
Data Workflow/
Enhancement
Closed Loop
Translational Research
Applications
Statistical Analysis
R SPSS SAS
ResearchPortal
Research Open Source
i2b2
tranSMART/
Sample Explorer
Extended Systems
Study
Recruitment
Manager
Omics/Cohort
Explorer
Honest Broker
Data Pipeline
Research
Information
Exchange
File Store
e.g. genomics (BAM, VCF, CEL)
Publications, PDF, Pathology
Research
Data Marts
26.
27. European Genome-phenome Archive
> Archivo seguro, a largo plazo, para datos
humanos que requieren acceso controlado
> Datos actuales
> ~800.000 ficheros
> ~2 Petabytes (… y creciendo)
> 1.144 estudios (ICGC, UK10K, RD, WTCCC…)
> 463 cáncer, 44 neurología, 96 cardiovasculares…
> 220 WGS, 230 exomas, 77 epigenética, 186 GWAS…
> 153 cohortes, 108 famílias, 35 mellizos…
33. En resumen…
> Los “datos genómicos” son muy diversos
> Hay condiciones y limitaciones claras
> El mercado empuja fuerte
> “Lo peor está por venir”
> BI es imprescindible por la amplia
dimensionalidad de los datos
> No sólo el BI clásico, si no también el
“moderno” que se apoya en BigData