the 10k big data in brain imaging of valencia region
TRANSCRIPT
Caracterización de Estructuras Cerebrales de la Población de la Comunidad Valenciana
10K - BDBI 4 CV
Jorge Isnardo Altamirano, MSc.María de la Iglesia Vayá, PhD.Ángel Fernández-Cañada Vilata, MSc.
The 10K Big Data in Brain Imaging of Valencia Region
● Caso de uso dentro del Banco digital de Imagen Médica de la Comunidad Valenciana (BIMCV).
● BIMCV: repositorio orientado a favorecer avances tecnológicos en imagen médica que proporciona servicios de cobertura tecnológica para proyectos I+D.
El proyecto 10K y BIMCV
basado en cbrain
Objetivos del Banco digital de Imagen Médica de la Comunidad Valenciana
● Desarrollar e implementar estrategias para prevenir y/o tratar efectivamente las enfermedades mediante una infraestructura de investigación en imagen asociada a grandes estudios poblacionales (Big Data).
● Proporcionar recursos, datos, y herramientas para realizar estudios epidemiológicos avanzados en imagen.
Big Data en imagen cerebral poblacional
● Big Data: conjuntos de datos muy grandes y complejos, los cuales son inviables de procesar con las herramientas TIC habituales.
● Cada estudio de investigación publicado genera en término medio 20 GB de información sin incluir los datos generados durante el procesamiento y el análisis estadístico.
Arquitectura de BIMCV
● Se trata de una instancia de XNAT.
¿Qué es XNAT?
● XNAT es una plataforma software de código abierto cuya finalidad es la de ayudar a llevar a cabo la investigación basada en imágenes.
● Permite importar, archivar, procesar y distribuir de forma segura las imágenes y los datos de sus estudios y/o proyectos de investigación.
¿Por qué XNAT?
● Plataforma software de código abierto.
● Funcionalidades básicas esenciales implementadas.
● Comunidad involucrada.
Ventajas de XNAT
● Al publicarse en abierto su código es posible introducir modificaciones particulares.
● Ofrece las herramientas básicas que cualquier proyecto de investigación basado en análisis de imagen puede necesitar inicialmente.
● Cuenta con documentación actualizada.
● Su curva de aprendizaje es media-baja.
● La comunidad que lo sustenta es activa.
Desventajas de XNAT
● Para su correcto uso y/o funcionamiento precisa de un equipo mixto (informático / investigador).
● Parte de la documentación orientada al desarrollo de nuevas funcionalidades no es muy precisa.
The 10K Big Data in Brain Imaging of Valencia Region
● Caso de uso basado en las imágenes neurológicas del Biobanco del Sistema de Salud Pública de Valencia.
● Objetivos:
o Mejorar la infraestructura, datos, metodologías y algoritmos para analizar y controlar la evolución de diferentes enfermedades neurológicas.
o Realizar avances en el procesamiento posterior de las imágenes neurológicas.
The 10K Big Data in Brain Imaging of Valencia Region
● Comparación del grosor cortical y estructura del volumen con sus valores de referencia.
The 10K Big Data in Brain Imaging of Valencia Region
● Fase 1: Recepción de las imágenes en bruto.
● Fase 2: Almacenamiento de las imágenes.
● Fase 3: Parcelación y segmentación de estructuras cerebrales.
● Fase 4: Modelado poblacional (Obtención de parámetros de normalidad)
● Fase 5: Visualización y cuantificación referencial (Brain Imaging Geographic Information System of Valencia Region)
Fase 1: Recepción de las imágenes en bruto
● Departamentos de Salud de la Comunitat Valenciana:
o Dpto. 17: H. Universitario San Juan de Alicante.
Fase 1: Recepción de las imágenes en bruto
Query/Retrieve, or Q/R for short, is the DICOM service for searching images on the PACS and getting a copy of them to the workstation where they can be displayed.
Fase 1: Recepción de las imágenes en bruto
22419 imágenes | abril_201430532 imágenes | agosto_201476496 imágenes | diciembre_2014_enero_201545852 imágenes | julio_201436980 imágenes | junio_201417385 imágenes | marzo_201419692 imágenes | mayo_201415558 imágenes | noviembre_2014_parte_131469 imágenes | noviembre_2014_parte_241470 imágenes | octubre_201432570 imágenes | septiembre_2014
Total: 370423 imágenes (127 GB)
Fase 2: Almacenamiento de las imágenes
● Lectura de las cabeceras DICOM de las imágenes recibidas (scripts python, librería pydicom)
o Descartar imágenes:
▪ corruptas (no se pueden leer)▪ no deseadas (modality != MR)▪ patient_id no accesible y no numérico.▪ patient_name no accesible.▪ study_description no accesible.
o De-identificación de las imágenes válidas.
o Eliminación de cualquier símbolo no deseado de las etiquetas protocol_name y/o series_description (Evita problemas posteriores en XNAT)
* Los scripts permiten la incorporación de nuevos sujetos aun después de haber procesado la primera tanda de imágenes sin empezar desde cero.
Fase 2: Almacenamiento de las imágenes
● Creación de un índice de sujetos (Para saber qué información se tiene realmente)
o 509 Subjects.
o 525 MR Sessions.
o 16 Subjects with 2 MR Sessions.
Fase 2: Almacenamiento de las imágenes
Fase 2: Almacenamiento de las imágenes
● Organización de las imágenes en directorios por patient_id.
Fase 2: Almacenamiento de las imágenes
● Envío de las imágenes a XNAT.
o Anonimización de las tags del estándar DICOM del nivel de aplicación básica del perfil de confidencialidad:
▪ DICOM PS3.6 2015a - Data Dictionary.
▪ DICOM PS3.15 2015a - Security and System Management Profiles.
● E Attribute Confidentiality Profiles (which attributes should be anonymized)
http://dicom.nema.org/medical/dicom/current/output/
Fase 2: Almacenamiento de las imágenes
Anonimizaciónde metadatos.
Fase 2: Almacenamiento de las imágenes
Defacing.
Fase 2: Almacenamiento de las imágenes
● Generación de las sentencias para el envío automatizado (DicomRemap, scripts das, DicomEdit language)
Fase 3: Parcelación y segmentación de estructuras cerebrales
● recon-all: Performs all, or any part of, the FreeSurfer cortical reconstruction process.
Fase 3: Parcelación y segmentación de estructuras cerebrales
La importancia de cómputo
Operaciones matemáticas muy complejas que requieren de hardware específico.
The faster, the better!
Pero obviamente más caro y con más inconvenientes (calor)
chinese bitcoin mining farm
Fase 4: Modelado poblacional (Obtención de parámetros de normalidad)
● Empleando lenguajes de programación tales como ‘R’.
- Por ejemplo para hallar diferencias significativas entre grupos entre una o varias variables de interés.
● En esta etapa se vuelve a justificar la existencia de un equipo mixto (investigador / estadístico / informático).
Fase 5: Visualización y cuantificación referencial● Brain Imaging Geographic Information System of Valencia Region.
Gracias por su atención