big data, una soluzione per imbrigliare il patrimonio informativo sociosanitario regionale un...

Big Data, una soluzioneper imbrigliare il patrimonioinformativo sociosanitarioregionale

Un opportunità di creare nuovo valore dalle attività di “data integration” sui dati amministrativi provenienti dal Sistema

Informativo SocioSanitario Regionale e disponibili nell’infrastruttura di “data warehousing” dedicata.

Mercoledì 5 giugno 2013Aula 1, Polo Economico e Giuridico,Università di Udine, via Tomadini 30/a, [email protected]

Punto di vista

Il S.S.R. ha circa 20.0001 dipendenti e1.200.000 cittadini che interagiscono avario titolo con il sistema.

1 Conto annuale 2009 MEFPersonale in servizio al 31 dicembre

Sistema Informativo Sanitario Regionale

Approccio classico

Due principali sistemi interoperabili all’interno del S.I.S.S.R.

Clinici

Controllo diGestione

Epidemiologi

Enti di Ricerca

Istituzioni

Decisori

Operatori

StrutturaDistrettuale

AssistenzaDomiciliare

R.S.A. eHospice

StrutturaOspedaliera

MMG ePLS

StrutturaPrivata

SportelloC.U.P.

GESTIONE degli eventi(registrazione del dato)

ANALISI dei fenomeni(interrogazione)

Percorso di cura Percorso del dato

Processo di trasformazione del dato

Principali attori nei sistemi di data warehousing: Operatore

generatore del dato, responsabile della qualità Tecnico sistema informatico operazionale

«Ricevitore» analogico -> digitale, responsabile automatizzazione requisiti utente

manutentore del sistema, custode del dato e del valore semantico (relazioni)

Mediatori e Trasformatori Tecnico di data warehousing Analista e data manager (epidemiologo e statistico)

Fruitore finale Interprete (pianificatore / controller)

SISTEMI

OPERAZIO

NALI

SISTEMI

DIREZIO

NALI

Sistema GEO-Integrato

Sistema federato

Infrastruttura Direzionale

Accessibile con diversi livelli di profilatura da tutti gli utenti del SISSR.Basato su criteri di eleggibilità delle fonti: rilevanza, qualità, completezza, copertura.Condivisione regionale di dati e strumenti -> cooperazione informativa (stesse informazioni per diversi scopi).

II° LIVELLOFONTI DATI O.D.S. I° LIVELLO

DIREZIONALI VERTICALI25 DWH

D.M.

Pubblicazione

Query & Reporting

REPOSITORYEPIDEMIOLOGICO

Data ManagementEsterne

SISSR

E.T.L.

Back-end Front-end

Patrimonio informativo su DB: 2.400 tabelle 2.000 milioni di records

Contenuto informativo

Tabelle: 50Colonne: 1.100Records: 15.095.430

Patrimonio informativo

Fonti secondarie: Esenti, Assisti incarico, Gestione ricettari,..Dizionari: geografici, struttura, prescrittori, classificazioni,..

Fonti

prim

arie

Sistema Sanitario geo-integrato su alcuni decenni di dati

Approccio deterministico

Es. i percorsi di malattia nella popolazioneI soggetti entrano nella finestra di rilevazione in base ai criteri di selezione

nascita

tempo

X X XXinfartuato

R-410 AD VC

Inizio follow-up Fine follow-up

X=evento sanitario

nascitaX X X X X

morte

diabetico

R-250 E-P20F-A10A

SDO PHX

VC PS

E’ un approccio strettamente analitico, limitato all'esame di ciascuna patologia lungo una precisa scansione temporale. Si determina l’appartenenza ad un gruppo patologico in base agli eventi occorsi.

Registro Diabete

Fonti utilizzate:In origine: anagrafe, farmaceutica, ricoveri, ambulatoriale, esenzioni

Modello di rilevazione:Totalmente automatico (algoritmo) da R.R.M.D.Follow-up per integrazione con R.R.M.D

Nuovo algoritmo - ESAMI DI LABORATORIOHbA1c (emoglobina glicata)GlicemiaCurva da carico (OGTT)MicroalbuminuriaAlbumina urineCreatinina urineRapporto albumina/creatininaAlbuminuriaColesterolo totaleColesterolo HDLTrigliceridiColesterolo LDLAc anti-insula Ac anti-InsulinaC-PeptideAnti-GADAnti-protein tirosin fosfatasi (IA-2)Ac anti-tirosina kinasiAc anti-tireoperossidasi (TPO)Ac anti transglutaminasi (TTG)

Ricovero con (DIAINT_COD>="250" AND DIAINT_COD<"251" ) oppure esenzione con ESENZ_COD_ALPHA in ('P20','013') oppure prescrizione di ≥ 3 farmaci con FARMA_ATC_COD_1_LIV = "A" AND FARMA_ATC_COD_2_LIV = "10" AND (FARMA_ATC_COD_3_LIV = "A" OR FARMA_ATC_COD_3_LIV = "B" ) in 365 giorni oppure specialistica ambulatoriale con ≥ 2 prestazioni con Codice Nomenclatore:90.28.1 (emoglobina glicata) in 365 giorni oppure ≥ 1 prescrizione farmaceutica e ≥ 1 emoglobina glicata nello stesso anno.

Il concetto di patocenosi1

PATOCENOSI«Insieme (qualitativamente e quantitativamente definito degli stati patologici) malattie presenti in una data popolazione in un determinato periodo”.» Grmek .

La frequenza e la distribuzione di ogni malattia (epidemiologia) dipende, oltre che da diversi fattori endogeni ed ecologici, dalla frequenza e dalla distribuzione di tutte le altre malattie all’interno della stessa popolazione. In una patocenosi i rapporti fra le malattie possono essere di simbiosi, antagonismo, indifferenza.

1Coniato nel 1969 da Mirko Drazen Grmek (Krapina, 9 gennaio 1924 – Parigi, 6 marzo 2000) medico e scrittore croato naturalizzato francese che si è dedicato allo studio dei rapporti che intercorrono tra la malattia ed evento sociale.

L’individuazione delle diverse patocenosi permette di seguirne l'evoluzione nel tempo, studiandone la dinamica e verificando l'influsso che su di essa hanno fattori di rottura dell’equilibrio (es. AIDS).

Popolazione

Fattori endogeni (es. eriditarietà)

Fattori esogeni(es. clima, cultura)

Malattie

PATOCENOSI(stato di salute della popolazione)

FrequenzaIntensità

Un primo risultato dell’infrastruttura

SanitàAmbiente Trasporti

Sociale

Il superamento della logica settoriale

Si raccolgono i dati giusti?

Si raccolgono i dati di cui si dispone piuttosto di quelli di cui si ha bisogno.

I dati «inutili» che archiviamo oggi possono aiutarci in futuro, ad esempio gli studi di coorte:

Coorte (aperta) di tutti i nuovi nati a partire dal 01.01.1989 individuati tramite i certificati di assistenza al parto (CEDAP).Coorte (chiusa) «post bellica dei sopravvissuti» nati prima del 01.01.1946 e vivi al 01.01.2000.

Le nuove esigenze

Il sistema informativo sociosanitario regionale è un sistema (+) complesso e in continua crescita, per il quale non è più sufficiente utilizzare tecniche analitiche classiche sul dominio principale.

Nuovi funzionalità richieste:Supportare processi di arricchimento con acquisizioni informative esogene al SISSR (acquisizione dei dark data)Attuare analisi d’insieme per cercare e correlare informazioni (imbrigliare i dati), mediante metodologie statistiche e computazionali adeguateMinimizzare la distanza (ETL) tra la fase analitica e di pubblicazione operando in tempo reale sui dati («always on»)Individuare un modello organizzativo e architetturale adeguato a supportare gli obiettivi dell’alta direzione

Report McKinsey - The ‘big data’ revolution in healthcare

Definisce cinque vie potenziali sulle quali rivedere l’intera catena del valore per la sanità che determinano una revisione delle modalità di raccolta, classificazione ed uso dei dati:Right Living, Right Care, Right Provider, Right Value, Right Innovation.

Range di funzionalità per i Big Data

La soluzione BigData

Il DWH classico consente descrivere o di determinare cause e dipendenze su porzioni informative (subsetting).Il Big Data è una tecnologia additiva al sistema classico di data warehousing, che si differenzia per tipologia di team e di strumenti, per ottenere risultati in modo rapido con costi contenuti su sistemi complessi di dati.Questioni aperte relative all’utilizzo in produzione:

Come integrare Big Data con i sistemi tradizionali di BI e DW?Quali sono le differenti piattaforme tecnologiche per Big Data?Come usare Big Data per dare valore al sistema?Chi è responsabile in azienda dei Big Data?Quali competenze acquisire?

Il team di progetto

Considerate le caratteristiche innovative della soluzione, la conduzione ed implementazione del progetto richiede competenze tecniche e metodologiche adeguate di:

“business analyst” per l’individuazione delle esigenze direzionali a diretto contatto con l’utente finale;“data scientist” che si incarichi di trattare e valutare l’insieme informativo;“ system & data warehouse administrator ” per la raccolta dei dati.

Rischi collegati

I principali rischi di fallimento relativi all’implementazione della soluzione sono derivati:

dalla mancanza di chiare esigenze di business, dovute alla difficolta di comprendere quali informazioni (non solo amministrative) mettere a fattor comune;dalla difficoltà di adottare un modello organizzativo trasversale che prevede un’elevata interattività tra l’analista e l’utilizzatore direzionale finale;dalla difficoltà di accesso a nuovi dati.dalla mancanza di competenze del team di lavoro, in grado ad esempio di «inventarsi» le fonti e di correlarle a possibili impieghi innovativi.

Grazie per l’attenzione

Insiel S.p.A. [email protected]

«Fra alcuni anni, il lavoro più ambito sarà quello degli statistici: la capacità di prendere dei dati, comprenderli, elaborarli, estrarne valore, visualizzarli, comunicarli»

Hal Varian, Responsabile economico di Google

big data, una soluzione per imbrigliare il patrimonio informativo sociosanitario regionale un...

Documents