mineria de datos en salud - introducción -
TRANSCRIPT
MINERÍA DE DATOS EN SALUD: INTRODUCCIÓN(DATA MINING IN HEALTHCARE )
Jairo Cesar Alexander 2017
MINERÍA DE DATOS - DATA MINING
• Procesos para descubrir patrones en grandes conjuntos de datos
* Dengue grave en Colombia
PARA QUÉ USAMOS LA MINERÍA DE DATOS?
Predecir
• Utilizar algunas variables o campos en una base de datos para predecir valores desconocidos o futuros.
Comprender
• Encontrar o visualizar patrones que describan la información (interpretables o entendibles por el profesional y el usuario lo mas importante)
* Hipotiroidismo congénito en Colombia
EJEMPLO: MINERÍA DE DATOS EN SALUD
• 70 indicadores de salud en Colombia monitorizados en tiempo real , congeneración de puntos de alarma y pronósticos automáticos vía web(sistema simplepero funcional creado por el autor en pc de escritorio en software KNIME)
Nivel de atención Enfoque de
el nivel de
Intervención
Acciones practicas gracias a la minería de datos (ejemplos) Impacto
global a
largo
termino
Primer nivel de
atención
Promoción
de la salud
Prevención
Tratamiento
Rehabilitaci
ón
Enviar mensajes de texto PERSONALISADOS recordando la vacunación
de los niños
Las mamas pueden saber si las demás mamas están vacunado a sus
hijos y los médicos están al tanto.
seguir una epidemia (ejem H1N1) en tiempo real.
llamar proactivamente a alguien con riesgo alto de IAM
retroalimentar (útilmente)al medico en tiempo real en la consulta diaria
con analítica de toda la información suministrada
Dx de toda la población automática , en tiempo real , para todos, y
para la acción ya .
alto
Segundo nivel de
atención
Tratamiento retroalimentar al medico con medicamentos que nunca se reclaman en
farmacia
Gerencia puede evaluar la efectividad, eficiencia, eficacia de los ttos.
Evaluación del seguimiento de los protocolos recomendados por Min
Salud. Integración de información inter institucional de uso practico.
Detección de fraude concierta enfermedad de alto costo que se
aumento de repente un 200%, conformaciones de redes reales.
medio
Tercer nivel de
atención
Tratamiento Evaluacion de el riesgo de readminisión a UCI de un paciente
Responder a preguntas :Que tto tiene mas eficiencia?
Existe una nueva patología en nuestra población?
Como les va a otros usuarios como este medicamento?
Como les va a otros colegas con este medicamento?
bajo
EJEMPLO :DETECCION DE FRAUDE EN HEMOFILIA
EJEMPLOS ÚTILES DE PREDICCIÓN
• Estratificar a los pacientes en grupos de alto, medio o bajo riesgo. clave para el éxito de cualquier iniciativa de gestión de salud de la población.
• Para pacientes que llevan mucho riesgo ,sería más barato enviarles de forma preventiva un médico ,en lugar de esperar que ese paciente entre por urgencias
TRANSICIÓN NECESARIA
SISTEMA DE SALUD BASADO EN ATENCIÓN DE URGENCIAS CENTRADO EN EL ASEGURAMIENTO FINANCIERO
A
SISTEMA DE SALUD BASADO EN PROMOCIÓN DE LA SALUD Y PREVENCIÓN DE LA ENFEREMDAD CENTRADO EN LA SALID DE EL USUARIO
RETOS - MINERÍA DE DATOS EN SALUD
• Como analizar todas las historias clínicas , todos los registros farmacéuticos, cirujas , procedimientos, interconsultas, y evolución DE FORMA INTEGRADA para: promover la salud, prevenir la enfermedad , evaluar y mejorar los tratamientos rehabilitación, etc
• Como lo hago en tiempo real, y para todos…(notificación nacional e institucional automática en tiempo real – algoritmos de revisión, verificación) todos significa retroalimentación desde el usuario -medico al sistema y del sistema hasta el medico - usuario, también epidemiologia en tiempo real para todos.
• Como usar las redes sociales para mis objetivos
TANTA INFORMACIÓN PARA QUE ? PARA QUIEN ?
Dx individual Dx poblacional
Evaluación individual y E. poblacional
Terapéutica individual
y poblacional
y manejo de riesgo
Retroalimentación usuario y
generador de información
REDES SOCIALES
• COMERCIO (CERVECERAS TABACALARES)
• BANCA
• SECTOR POLITICO
• TELECOMUNICACIONES
• AEROLINEAS
• OTROS 30 SECTORES y hasta la delincuencia …
Y NOSOTROS QUE ?
FASES DE LA MINERÍA (CRISP-DM):
• (1) Comprensión del negocio (fenómenos de salud – las causas…..)
• (2) La comprensión de Datos (estadística)
• (3) Preparación de Datos (integración)
• (4) Modelado
• (5) Evaluación
• (6) El despliegue
FUENTES DE DATOS
• Bases de datos relacionales
• Bases de datos multidimensionales (DW)
• Bases de datos transaccionales
• Series temporales, secuencias y data streams
• Datos estructurados
• Datos espaciales y espaciotemporales
• Textos e hipertextos (p.ej. Web Redes sociales)
• Bases de datos multimedia (p.ej. Imágenes, microscopia RX etc.)
TAREAS DE LA MINERIA DE DATOS-SALUD
• Caracterización: descriptiva, necesidades, prioridades
• Asociación: poblaciones similares, riesgo,
• Clasificación: diagnostico
• Análisis de grupos: inferencia
• Evolución y tendencias (en espacio-GIS o tiempo -series temporales –predicción, interpolación, perspectivas, escenarios)
• Análisis de desviaciones o anomalías: fraude, brotes, picos, respuesta a políticas, o programas, impacto.
ADVERTENCIA
Todas las técnicas estadísticas se basan en la suposición de que los patrones
existentes continuarán en el futuro.
(o de que existen patrones)
COMO SE EVALUACIÓN LA MINERÍA
Precisión
Claridad
Integración
16
QUE MÉTODO SELECCIONO?
• Existe una gran cantidad de métodos oherramientas clasificadas de acuerdo asu uso habitual. La selección de unmétodo depende de muchos factores:el contexto, la pertinencia, ladisponibilidad de los datos históricos, elgrado de precisión deseable, el períodode tiempo que se prevé, el costo /beneficio de la previsión, el tiempodisponible para realizar el análisis, perosobre todo de lo que necesitorealmente.
Necesidad Conjunto Metodos Ejemplo
Visualizar Visualización Grafica de líneas
Grafica de pastel
Series de tiempo
Joint point
Describir las tendencias
del acné en Colombia y
si hay puntos de quiebre
estadísticamente
significativos, y mostrar
porcentajes por genero y
grupos de edad.
Predecir Clasificación Arbol C&R, QUEST, CHAID, C 5.0, Regresión,
lineal, logística, Cox, redes neuronal,
maquina de vectores, redes bayesianas,
lineal mixto generalizado, ARIMA, KNN,
Pre método PCA/Análisis factorial, filtros
Predecir la evolución de
la leishmaniosis en
Colombia para los
próximos 10 años.
Encontrar
patrones
Asociación A priori, CARMA, CARMA secuencial, reglas. Buscar una serie de
procesos con altas tasa
de eventos de riesgo.
Segmentar Clusters K medias, Kohonen Agrupar la población por
riesgo, detectar atípicos
en una población.
SELECCIÓN DEL MÉTODO ADECUADO : FÁCIL
MUCHOS MÉTODOS
• Árboles de Decisión
• Clasificación de Bayes
• Mínimos cuadrados ordinarios
• Regresión logística
• Máquinas de Vectores Soporte
• Métodos Ensemble
• Algoritmos de agrupación
• Análisis de Componentes Principales
• Análisis de Componentes Independientes
• Descomposición de valor singular
• Redes Neuronales Artificiales.
• Algoritmos Genéticos.
• Vecino más Cercano.
• otros
DESCRIPCIÓN DE ALGUNOS MÉTODOS
MÉTODOS• Árboles de decisión.
Herramientas analíticasempleadas para eldescubrimiento de reglas yrelaciones.
Se construye partiendo elconjuntos de dos (CART) omás (CHAID).
Cada subconjunto a su vezes particionado.
Se continua hasta noencontrar diferenciassignificativas de influencia.
Son modelos caja abierta,permiten interpretación
21
MÉTODOS• Reglas de asociación.
Derivan de un tipo deanálisis que extraeinformación porcoincidencias.
Permite descubrircorrelaciones en lossucesos de la base dedatos.
Usa reglas del tipo SI...ENTONCES.
Permiten interpretacióndel experto
22
MÉTODOS• Redes neuronales.
Son capaces de detectar y aprender patrones y características de los datos.
Una vez adiestradas las redes pueden hacer pronósticos, clasificaciones y segmentación.
Son modelos cajasnegras
23
MÉTODOS• Algoritmos genéticos.
Hacen uso de técnicas dereproducción (mutación ycruce) para ser utilizadaspara búsqueda yoptimización.
Se parte de una poblacióninicial, y se alteraoptimizándola.
Esta herramienta se usa enlas primeras fases de laminería .
24
MÉTODOS• Lógica difusa.
Surge de la necesidad de modelar la realidad de forma mas exacta, evitando el determinismo y exactitud.
Permite el tratamientode grises mas allá delblanco y negro
Trata la existencia debarreras difusas osuaves entre grupos.
Genera y usa reglastipo: SI x es y en talgrado entonces z ental grado
25
MÉTODOS
• Redes bayesianas.
Permiten aprender sobre relaciones de dependencia y causalidad.
Permiten combinar conocimiento de datos.
Evitan el sobre-ajuste de datos.
Permiten el manejo de bases de datos incompletas, al igual que las redes neuronales y la lógica difusa.
Aprovechan el conocimiento previo.
26
MÉTODOS• Series temporales.
Estudian variables a travésdel tiempo para quepartiendo de eseconocimiento y con elsupuesto de no cambiospoder realizar predicciones.
Se basan en ciclos,tendencias y estaciones.(reconoce el azar)
Se puede aplicar enfoqueshíbridos entre métodosanteriores, o con otro tipode variables.
27
* Del trabajo del autor las tendencias del bajo peso al nacer en Colombia y los ciclos económicos
Fin
Medico Michel de Nôtre-Dame también llamado Nostradamus