better data. archimede e l’integrazione delle fonti di dati - giuseppe garofalo
TRANSCRIPT
5 Marzo
2007
13-14 December Luxembourg
Better Data.
Il Progetto Archimede e l’integrazione delle
fonti di dati
Convegno
Dati migliori per comunità intelligenti Lecce, 30 ottobre 2015
Giuseppe Garofalo
Istituto Nazionale di Statistica
Dipartimento per i censimenti e gli archivi amministrativi e statistici |
5 Marzo
2007
Riduzione dei costi:
• diminuzione della raccolta
“diretta” dei dati
• eliminazione delle
ridondanze nei processi
Il processo di modernizzazione dell’Istat
Incremento dell’offerta
informativa in termini:
• quantitativi
• qualitativi – quadri informativi
più ampli capaci di rispondere
alle domande con un
approccio multidimensionale
contraddizione
Multiple integrated microdata
collection: eterogeneità e variabilità
(anche nel tempo) delle fonti utilizzate
per la produzione di informazioni
statistiche.
Approccio “per funzioni centralizzate”
a supporto a supporto di tutti i processi
statistici e abbandono dei processi a
“silos” (per singoli domini stat.)
SISTEMA INTEGRATO DEI MICRODATI (SIM)
Repository dei dati amministrativi acquisiti dall’Istituto,
organizzato con lo scopo di supportare i processi di produzione statistica dell'Istat.
Favorisce l’utilizzo di dati individuali, privi degli identificativi diretti,
mantenendo inalterate le potenzialità informative derivanti dal processo di integrazione
SIM LUOGHI
INDIVIDUI
SIM
INDIVIDUI
SIM
RELAZIONI
TRA
INDIVIDUI
SIM LUOGHI
UNITA’
ECONOMICHE
SIM UNITA’
ECONOMICHE
SIM
RELAZIONI
TRA UNITA’
ECONOMICHE
SIM
RELAZIONI
INDIVIDUI
UNITA’
Individui Unità
Anagrafi Comunali XAnagrafi Consolari XAnagrafe Tributaria X XPermessi di soggiorno XBanca Dati Reddituale - MEF XStudi di settore XModello UNICO X XModello 730 XModello 770 X XAnagrafe degli studenti XAnagrafe degli studenti universitari XAnagrafe personale doc. e non doc. delle scuole X XAnagrafe personale doc. e non doc. delle università X X
Arch. INPS Emens (UNIMENS)/Parasubordinati/Cassa
integrazione/Lav. agricoltura/Artigiani e
commercianti/ Autonomi dell’agr./Lav Domestici
X X
Archivi INAIL X XArch. Ex-INPDAP ed Ex-ENPALS X XCedolini stipendiali (MEF) X XCasellario dei pensionati XANF/Maternità XMobilità/Disoccupazione/LSU XRegistro delle Imprese XSoci delle Imprese X XPersone con cariciche sociali X XBilanci delle Imprese X
Camerali
SottosistemiTipologia delle fonti
Fiscali
Lavoro
Welfare
Formazione
Anagrafici
Sistema Integrato di Microdati (SIM)
Sistema Integrato di Microdati (SIM)
SIM N. Fonti / Records
Individui 50 (600mln records)
Unità 42 (65mln records)
Luoghi individui 25
Luoghi unità 30
Relazioni individui 3
Relazioni unità 7
Relazioni individui_unità 12
100 mln di codici individui
10 mln di codici unità
15.000 variabili
INDIVIDUI
UNITA’
LUOGHI
INDIVIDUI
LUOGHI
UNITA’
Mobilità
SIM percorsi informativi
Rel
IND/UN
Rel.
fra
IND
Rel.
fra
UN
FONTI
AMM
Concilazione
Lavoro
Famiglia
Rapp
di
Lavoro
Sbocchi
professionali
Mobilità
Occupaz.
Progetto ARCHivio Integrato di Microdati
Economici e DEmografici (ARCHIMEDE)
Obiettivo: ampliamento dell’offerta informativa dell’ISTAT mediante produzione di collezioni di dati elementari di tipo longitudinale e crossection, da rendere disponibili all’utenza, utili alla ricerca sociale ed economica, alla programmazione territoriale e settoriale, alla valutazione delle politiche pubbliche a livello nazionale, regionale e locale. (Delibera 12/ DGEN del 18/01/2013)
Sfruttamento dei contenuti informativi di fonti amministrative
«integrate» presenti in SIM.
Progetto ARCHIMEDE
Replicabili
(industrializzati) Documentati
• qualità
• contenuti
Territorio: Informazioni geo referenziate
Tempo: Informazioni longitudinali
Progetto ARCHIMEDE – Caratteristiche
Sistema Integrato dei
Microdati
Progetto Archimede
Esplora
Produce
Output informativi statistici
Collezioni di microdati integrati
Collezioni di macrodati
Utenti interni Utenti esterni
Livello di
autonomia
degli utenti
Progetto ARCHIMEDE 8
• Fare riferimento ad un insieme di unità che possono
non rappresentare l’universo di una specifica
popolazione
• Utilizzare dati amministrativi di SIM anche non trattati
statisticamente
• Integrare anche basi informative fornite da utenti
esterni (es. Comuni/Regioni)
• Utilizzare concetti non necessariamente coerenti con
la statistica ufficiale (es. Regolamenti europei)
Progetto ARCHIMEDE – Caratteristiche
Progetto ARCHIMEDE 9
Dati Amm. e Processi di Produzione Statistica
Uso “Diretto” delle Fonti Amministrative
• Realizzazione di Registri Statistici
• Stime di variabili per domini di
interesse
Uso “Indiretto” delle Fonti Amministrative
• Miglioramento di processi di produzione
(disegno campionario)
• Informazione ausiliaria nella fase di
controllo dei dati
USO DEI DATI AMMINISTRATIVI
SOSTITUZIONE
della Ind. STAT:
SUPPORTO
alla Ind. STAT:
USO DEI DATI AMMINISTRATIVI NEL PROGETTO ARCHIMEDE
SCOUTING dell’informazione disponibile
• Ampliamento dell’offerta informativa
PRODUZIONE
di nuove
“tipologie” di
informazione
statistica
Progetto ARCHIMEDE 23
SCOUTING
I “dati” esistono, e sono depositati in
maniera integrata in SIM ed è
l’esplorazione dell’informazione
disponibile a identificare l’informazione
statistica che può soddisfare un bisogno.
• Le definizioni e le classificazioni possono
essere determinate all’interno del
processo di esplorazione e quindi non
fissate a priori (outputs non strettamente
vincolati ai sistemi di regolamentazione
europei).
• L’adeguatezza dell’informazione prodotta
rispetto agli schemi concettuali statistici
può essere valutata solo ex-post.
Caratteristiche: modifica nel paradigma
Progetto ARCHIMEDE
Progetto Archimede – Attività Sperimentali
1. Popolazioni che insistono su di un territorio Analisi delle Mobilità sul territorio • Realizzazione Sis. Inf. Persons&Places (Matrici origine/destinazione per ambiti terr.)
• Identificazione delle tipologie di «city users»: Residenti, Temporaneamente dimoranti e Pendolari
2. Precarietà lavorativa – Analisi delle caratteristiche di un universo di individui definiti «lavoratori
precari» osservandone le trasformazioni nel tempo (analisi longitudinale delle transizioni)
• Concetti di atipicità e professionalità (elementi oggettivi)
• Tipologie contrattuali utilizzate in forma impropria (P.IVA monocommittenti / Tirocini e stages)
3. Condizioni Socio-economiche delle famiglie - Classifica le famiglie secondo le dimensioni:
• Tipologia della famiglia, Reddito , Condizione lavorativa, Istruzione
4. Percorsi di istruzione/formazione/abbandono/inserimento lavorativo
• Giovani di età 14-29 anni, residenti in Italia o non residenti ma con segnali di studio e/o lavoro in
Italia
Progetto ARCHIMEDE
Progetto archimede inserito nel PSN 2014-2016:
sperimentazione «valutativa» sulle tre basi realizzate da parte degli uff. di stat. compartecipanti
- Comuni di Firenze, Bologna, Brescia, Trieste, Modena, Milano
- Regioni e Prov. Autonome
23 Novembre 2015
Conclusione della valutazione e Seminario di “chiusura” della speriment.
13
Precarietà lavorativa
Sistema informativo longitudinale per
l’analisi delle caratteristiche economico-
lavorative e aspetti socio-demografici dei
«lavoratori precari»
•Concetto multidimensionale
-> Misura dipendente dalla disponibilità di fonti
Definizione adottata:
Lavoro precario:
(a) lavoro dipendente a termine
(b) rapporti di collaborazione
(c) lavoro autonomo connesso ad attività aventi caratteristiche di subordinazione
=> Lavoratore precario: chi svolge esclusivamente lavori definiti «precari»
• Occupati intero territorio nazionale
• Periodo di riferimento: anni 2010, 2011, 2012, 2013 - mese di ottobre
• Aspetti lavorativi e reddituali
• Analisi TRASVERSALE, LONGITUDINALE, TERRITORIALE
• Focus sulla monocommittenza tra i lavoratori autonomi
• Fonti utilizzate:
• E-Mens (INPS)
• DMAG
• Ex ENPALS
• CIG - Pagamento diretto
• Interinali
• Parasubordinati
• Fonti su lavoratori indipendenti
• Posizioni Assicurative Ex INPDAP (INPS)
• Autonomi Agricoltura
• Lavoratori Domestici
• BDR MEF - Modelli Unico/730/770
• INAIL – PAT / DNA
Precarietà lavorativa: contenuti e fonti
14 Progetto ARCHIMEDE
Analisi trasversale e flussi entrate/uscite
Condizione Prestazione lavorativa V.a.
(Migliaia)
% V.a.
(Migliaia)
%
Dip.te T. Ind.to - Full time 11.793 52,6% 843 627 11.629 52,0%
Dip.te T. Ind.to - Part time 2.361 10,5% 247 264 2.577 11,5%
Autonomi 5.221 23,3% 405 366 5.189 23,2%
Totale 19.375 86,4% 1.495 1.257 19.395 86,8%
Altro dipendente 81 0,4% 6 1 8 0,0%
Dip.te T. determinato 1.868 8,3% 493 559 1.796 8,0%
Collaboratori 428 1,9% 114 123 392 1,8%
Lav.ri Domestici 664 3,0% 147 240 751 3,4%
Totale 2.960 13,2% 753 922 2.939 13,2%
Totale 22.417 100,0% 2.255 2.180 22.342 100,0%
Occupati ottobre 2011 Uscite
(Migliaia)
Entrate
(Migliaia)
Occupati ottobre 2012
Stabile
Precario
Precarietà lavorativa: risultati
15 Progetto ARCHIMEDE
Ottobre 2011 (%)
Ottobre 2012 (%)
STABILE
Autonomi e
dip.ti non CIG
STABILE
Dip.ti in CIG
Altro
dipendente
PRECARIO
Dip.ti
PRECARIO
Collab.ri
PRECARIO
Domestici Totale
Totale
(in migliaia)
STABILE - Autonomi e
dip.ti non in CIG 95,9% 2,4% 0,0% 1,5% 0,1% 0,0% 86,6% 17.468
STABILE - Dip.ti in CIG 38,1% 56,9% 0,2% 4,7% 0,1% 0,0% 2,0% 412
Altro dipendente 58,6% 1,3% 6,7% 3,9% 0,2% 0,4% 0,4% 75
PRECARIO - Dip.ti 32,3% 1,0% 0,0% 65,3% 0,9% 0,4% 6,8% 1.375
PRECARIO - Collab.ri 16,2% 0,1% 0,0% 10,5% 72,9% 0,3% 1,6% 315
PRECARIO - Domestici 2,5% 0,0% 0,0% 1,6% 0,1% 95,7% 2,6% 517
Totale 86,6% 3,4% 0,0% 6,1% 1,3% 2,5% 100,0% 20.162
Totale (in migliaia) 17.462 676 7 1.238 269 511 20.162
Analisi longitudinale e transizioni
Precarietà lavorativa: risultati
16 Progetto ARCHIMEDE
17
Focus su lavoro autonomo economicamente dipendente
Fonti principali Contenuti informativi utilizzati
Agenzia Entrate – Modello 770 Reddito da lavoro autonomo percepito da
ciascun committente
Agenzia Entrate – Modello Unico-730 Reddito da lavoro autonomo complessivo
colui che, titolare o non di P.Iva, senza dipendenti, in un determinato periodo
di tempo, ha svolto attività di lavoro esclusivamente autonome percependo dal
committente principale un reddito superiore all’80% del suo guadagno da
lavoro complessivo (principio dell’80%).
Lavoratori autonomi Popolazione analizzata
Mono committenti
Incidenza % Mono committenti
Di cui donne Popolazione analizzata
Mono committenti
Titolari di P.Iva 1.241 416 33,5% 31,9% 34,0% Non titolari di P.Iva 1.126 936 83,1% 56,5% 57,0%
Quadro 2012 (v.a. in migliaia)
18
Integrazione con fonte MIUR – Iscrizioni a corsi scolastici e universitari:
• il 22,5% dei percettori non titolari di P.Iva è iscritto ad un corso di istruzione;
• solo l’1,9% dei titolari di P.Iva risulta iscritto ad un corso di istruzione.
Titolari di P.Iva Non titolari di P.Iva Monocommittenti Pluricommittenti Totale Monocommittenti Pluricommittenti Totale
Età media 43,6 43,4 43,5 35,0 37,0 35,3
Focus su lavoro autonomo: risultati
Analisi per età
Titolari di P.Iva Non titolari di P.Iva Mono
committenti Pluri
committenti Totale
Mono committenti
Pluri committenti
Totale
Reddito percepito annuo mediano (in euro)
20.547 25.981 24.653 784 3.668 1.020
Analisi reddituale
Integrazione di microdati di
fonte amministrativa per
consentire di classificare tutte
le famiglie in un determinato
territorio rispetto alle loro
condizioni socio-economiche.
Tipologia familiare
Reddito
Istruzione
Mercato del lavoro
Caratteristiche delle famiglie: struttura del
nucleo familiare sulla base delle relazioni
parentali dei membri che lo compongono
Reddito: composizione e quantificazione della
struttura del reddito complessivo di una famiglia
Istruzione: caratteristiche del percorso
educativo e formativo
Mercato del lavoro: descrizione delle
caratteristiche dell’occupazione dei componenti
delle famiglie
Condizioni Socio Economiche delle famiglie: obiettivo
19
Dimensioni
Progetto ARCHIMEDE
Condizioni Socio Economiche delle famiglie: fonti principali
Fonte Ente
titolare
Contenuti informativi
utilizzabili
Liste Anagrafiche Comunali (LAC) Comuni Italiani Caratteristiche anagrafiche degli individui
Dimensione familiare e tipo di famiglia
Censimento Popolazione ISTAT Livello di istruzione
Banca Dati Redditi MEF Redditi dei contribuenti Irpef
Quadro Contribuenti Minimi (Modello
Unico PF)
Agenzia delle
Entrate Reddito dei contribuenti minimi
Casellario Centrale dei Pensionati INPS
Redditi da pensione
Percettori di pensioni assistenziali, condizione
di disabilità
Trattamenti Monetari Non Pensionistici INPS Indennità di Disoccupazione/Mobilità/LSU,
LPU
Anagrafe Studenti delle Scuole MIUR Iscrizione a cicli di istruzione
Anagrafe Studenti Universitari MIUR Iscrizione a cicli di istruzione
Archimede – Sottoprogetto Precarietà
lavorativa ISTAT
Tipologia occupati, tipologia e durata
contrattuale
20 Progetto ARCHIMEDE
Condizioni Socio Economiche delle famiglie: output
Sperimentazione anno 2011: 5 Comuni campione → 204.296 fam. Bologna
→ 93.172 fam. Brescia
→ 185.023 fam. Firenze
→ 84.637 fam. Modena
→ 107.033 fam. Trieste
Replicazione anni 2012/2013: tutti i comuni 60 mil. individui,
25 mil. di famiglie
db individui
200 variabili
db famiglie
70 variabili
21
1 € 500 mila €
Reddito mediano equivalente (redditi 2012)
14,7 mila € 15.866€
Condizioni Socio Economiche delle famiglie: analisi reddituale
Comune di
Bari
Comune di
Lecce
Regione
Puglia
Italia 14,8 mila €
11,6 mila €
13,2 mila €
per la tipologia familiare: Monogenitore
11,5 mila €
Reddito mediano
16.791€
13.201€
15.704€
12,964€ Provincia di
Lecce
Condizioni Socio Economiche delle famiglie: indicatori
Percentuale di famiglie con…
27 22 23
9
32
36
27
30
11
35 33
30
22
7
33
30
26 28
8
36
0
5
10
15
20
25
30
35
40
Redditoequivalente basso
Intensità di lavoromolto bassa
Giovani adulti acarico di altricomponenti
Monoreddito conminori
Almeno ungiovane 15-29 che
non studia nèlavora
Italia Puglia Lecce Bari
24 Progetto ARCHIMEDE
Persons & Places: obiettivi
Costruire matrici comunali
origini/destinazioni della mobilità
della popolazione per lavoro e
studio
- Quantificare le popolazioni di un territorio e i city users:
• Popolazione insistente
• Popolazione dinamica in ingresso / in uscita
• Popolazione statica
• Lavoratori, studenti, residenti
- Costruire indicatori di utilizzo del territorio
Popolazione INSISTENTE in Ck
Popolazione
pendolare periodica
di Ck che è
temporaneamente
dimorante in Ci
…che per
lavoro/studio
alloggia per
periodi più o meno
lunghi in Ci
Popolazione
Pendolare giornaliera
di Ck che è
Giornalmente
Presente in Ci
…che per
lavoro/studio si
reca giornalmente
in Ci
Popolazione ISCRITTA in anagrafe di Ck
Pop.ne NON ISCRITTA in anagrafe di
Ck (altri comuni, estero)
…che risiede e/o
lavora/studia nel
comune di
residenza
anagrafica Ck
Dinamica in uscita da Ck Statica Dinamica in uscita da Ci
in entrata in Ck
Popolazione statica
in Ck
Popolazione
pendolare periodica/
giornaliera di Ci che è
temporaneamente
dimorante/
giornalmente presente
in Ck
…che per periodi
più o meno lunghi
per lavoro/studio
si reca in Ck
Persons & Places: esigenze conoscitive
…
25 Progetto ARCHIMEDE
Popolazione INSISTENTE in Ck
Persons & Places. Italia, dicembre 2012 (v.a. in migliaia)
Persons & Places: risultati – luogo di origine
26
Localizzazione
principale degli
individui
Occupati
(segnale dicembre
2012)
Universitari
(segnale dicembre
2012)
Studenti
(segnale dicembre
2012)
Assenza di
segnali
Lavoro/Studio
a dicembre
2012
Totale
Totale
Incidenza
% pop.ne
dinamica
Totale
Incidenza
% pop.ne
dinamica
Totale
Incidenza
% pop.ne
dinamica
Residenza Anagrafica
(iscritti in anagrafe) 20.490 51,2 1.439 79,7 7,032 26,6 32.020 60.981
Domicilio fiscale (non
iscritti in anagrafe) 204 50,3 23 29,7 44 32,2 571 842
Altri soggetti (residui
del processo) 81 100,0 7 100,0 17 100,0 90 194
Totale 20.775 51,4 1.469 79,0 7.092 26,8 32.681 62.018
Progetto ARCHIMEDE
Lavoratori in entrata nel Comune di LECCE. Anno 2012
Persons & Places: risultati - dinamismo in entrata
27 Progetto ARCHIMEDE
Lavoratori in uscita dal Comune di LECCE. Anno 2012
Persons & Places: risultati - dinamismo in uscita
28 Progetto ARCHIMEDE
Percorsi formativi / inserimento lavorativo
29
Tracciare tutti gli eventi di istruzione/formazione,
abbandono e lavoro registrati nelle fonti
amministrative disponibili in modo da poter
ricostruire la storia di ciascuna unità a partire dal suo
status iniziale
Giovani di età 14-29 anni, residenti in Italia o non residenti ma con segnali
di studio e/o lavoro in Italia
Popolazione di riferimento
Caratteristiche
demografiche: genere, età,
residenza, cittadinanza, titolo
di studio
• Archimede – Persons &
Places
• Censimento Popolazione
2011
Iscrizione a corsi di istruzione:
tipo di scuola/corso,
frequenza/abbandono, esito
esame finale
• MIUR - Anagrafe Studenti
delle Scuole, Esiti, Anagrafe
Studenti Universitari, Lauree
• REGIONI (Form.
Professionale
Tipo di occupazione, tipologia e
durata contrattuale, regime orario,
numero posizioni, intensità lavorativa
mensile, redditi
• Archimede – Precarietà lavorativa
• Banca dati reddituale
• REGIONI (Tirocini extra cur.,
apprendistato)
30
Popolazione 14-29 anni, di cui: 10.215
- Residenti
(fonte censimento) 9.890
- Con segnali di istruzione e/o lavoro
nel corso dell’anno, di cui: 7.180
Individui con
segnali di
istruzione e
occupazione:
223
- - Studenti Scuola (fonte MIUR) 2.675
- - Studenti Università (fonte MIUR) 1.552
- - Occupati (fonte DB precarietà) 3.176
Percorsi formativi / inserimento lavorativo: risultati Italia 2011
Sperimentazione regione Lombardia: selezione di tutti coloro che
risiedono in Lombardia o, che pur essendo residenti altrove, hanno
segnali di studio/lavoro in Lombardia (1,7 mln di individui)
31
%
Età
Percorsi formativi / inserimento lavorativo: risultati Lombardia - Focus 1
Senza segnali nel 2011 e nel 2012
(137 mila individui)
32
%
Età
Nota: la quota di stranieri sui «senza segnali» corrisponde a circa il 37% (sul totale è circa il 18%).
Percorsi formativi / inserimento lavorativo: risultati Lombardia - Focus 1
Senza segnali nel 2011 e nel 2012
(137 mila individui)
33
Tipo di
formazione
Incidenza delle transizioni
studio-lavoro sul totale degli
studenti
Scuola 2,5
IeFP 6,2
Università 5,1
Tirocinio 23,8
Mista 10,9
Media 3,9
Percorsi formativi / inserimento lavorativo: risultati Lombardia - Focus 2
Transizioni formazione – lavoro
(23 mila individui)
- Verso l’esterno dell’Istituto:
- Diffusione microdati ad un livello di aggregazione territoriale fine
- Messa a disposizione di Enti Pubblici di basi di microdati per
l’analisi di sottopopolazioni di interesse (schematizzazione delle
popolazioni a cui sono rivolti interventi e politiche pubbliche)
- Possibilità di identificare strumenti omogenei – indicatori – fra le
varie realtà territoriali a supporto alla comparazione territoriale
- Verso l’interno dell’Istituto:
- Esplorazione/identificazione di segnali delle fonti amministrative
utili ai processi statistici.
- Ponte fra statistiche sulle imprese e statistiche sugli
individui/famiglie
- Sperimentazione di nuove metodologie di integrazione e di analisi
- Possibilità di analizzare fenomeni per «popolazioni» diverse
Progetto Archimede – Punti di forza
Progetto ARCHIMEDE
Progetto Archimede – Aspetti critici (o non ancora risolti)
Tempi di disponibilità delle fonti integrate
«Distanza» con output statistici «simili»
e
Valutazione della qualità degli output diffusi
Criteri / Strumenti di comunicazione/diffusione
Possibilità di sperimentazioni sulle fonti
Progetto ARCHIMEDE
Quali rischi?
Progetto ARCHIMEDE
• Dal punto di vista della conoscenza:
Illusione informativa
• Dal punto di vista statistico:
Moltiplicazione dei «rumori»
• Dal punto di vista della privacy:
De-anonimizzazione
Grazie per l’attenzione