csi-piemonte consorzio sistemi informativi provincia comune di torino di torino analisi dei cluster...

23
CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del Analisi dei cluster sui dati del « Censimento dell’Agricoltura 2000 » « Censimento dell’Agricoltura 2000 » della Regione Piemonte della Regione Piemonte Jean Michel Bosco Jean Michel Bosco

Upload: malvolio-lolli

Post on 02-May-2015

217 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

CSI-PiemonteConsorzio Sistemi Informativi

Provincia Comune di Torino di Torino

Analisi dei cluster sui dati del Analisi dei cluster sui dati del « Censimento dell’Agricoltura 2000 » « Censimento dell’Agricoltura 2000 »

della Regione Piemontedella Regione Piemonte

Jean Michel BoscoJean Michel Bosco

Page 2: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

2

AgendaAgenda

Contesto e obiettiviContesto e obiettivi

Organizzazione dei datiOrganizzazione dei dati

Esplorazione e trasformazione dei datiEsplorazione e trasformazione dei dati

Definizione del modello Definizione del modello

Interpretazione dei risultatiInterpretazione dei risultati

Organizzazione e planningOrganizzazione e planning

Page 3: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

3

Contesto e obiettiviContesto e obiettivi

Vison, Obiettivi e Strategia

La vision globale del progetto :Valorizzare il Data Mining in seno al CSIRendere i dati ‘intelligenti’Problematiche del Progetto :Definire degli indicatori statisticiApplicare una segmentazione (Clustering)Modello predittivo (Scoring) se sarà disponibile l’accesso ai Database ORACLEObiettivi : Regrouper en segments homogènes les agriculteurs de la région Piémont Definire una visione globale dell’attività per alimentare una riflessione strategica. Rilevare i bisogni del cliente

Disponibilità dei dati

Sistemi informativi per l’agricolura:I dati del censimento sono organizzati in un Data Warehouse I dati finanziari ed economici sono allocati sui server di produzione ORACLE e non sono stati considerati nell’analisiL’applicativo Web http://www.regione.piemonte.it/capu/jsp/index.jsp per l’analisi multidimensionale DocumentazioneGlossarioScheda del CesimentoNorme di classificazione degli AgricoltoriAccesso all’informazione Accesso ai Data Server di Produzione e di sSviluppo con SAS Connect e SAS E.Guide

Page 4: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

4

Organizzazione dei datiOrganizzazione dei dati

Nome de la table Nb identifiants

Nbde lignes

Nb variables

1. base_azi 120965 120965 53

2. capo_azienda 120965 120965 4

3. contoterz 120965 120965 2

4. utilizzazione_terreno

120863798443 7

5. manodopera_familiare

119712

296338 2

6. mezzi_meccanici 104734 337330 1

7. mez_tec

100176373367 3

8. lavaro_terr

88788386592 6

9. impianti 87029 165586 3

10.prod_comm 85623 177705 5

11.irrigazione

47279240379 2

12.allevamento

42541153577 4

13.vite 40622 118235 7

14.ricovero 38642 52736 2

15.prod_qual 21372 32319 2

16.latte 14616 47667 3

17.altra_manodopera

54328761 2

      108

data base_imp2000_2 ;set datiodd.base_imp2000 ;LIV123_IMP=(SUBSTR(COD_LIV1,1,2) ||'.' ||

SUBSTR(COD_LIV2,1,2) ||'.' ||SUBSTR(COD_LIV3,1,2)) ;

Run ;

PROC TRANSPOSE DATA=base_imp2000_2 OUT=base_imp2000_3(LABEL="Transposed datiodd.base_imp2000") NAME=Source LABEL=Label ;

BY z_cod_azienda ;ID LIV123_IMP ;VAR CAPACITA ;

RUN ;

data base_imp2000_n (keep =z_cod_azienda CAP_IMP_M3 CAP_IMP_KG CAP_IMP_M2) ;

set base_imp2000_3;CAP_IMP_M3=

sum(_28D01D01,_28D01D02,_28D02D03,_28D02D04,_33D03 D03,_29D04D06,_33D02D02,_33D04D04) ;

CAP_IMP_KG= sum(_29D01D01,_29D01D02,_29D02D03,_29D03D04,_29D03 D05,_30D03D03) ;

CAP_IMP_M2 = sum(_28D03D05,_33D01D01) ;

label CAP_IMP_M3= 'volume capacita impianti';

label CAP_IMP_KG= 'peso capacita impianti';

label CAP_IMP_M2= 'spazio capacita impianti';run ;

Definizione della granularità delle tavole SAS applicando la PROC TRANSPOSE Scelta delle variabili valorizzate per il maggior numero di Aziende (76 variabili su 108) Trattamento dei « missing »

Page 5: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

5

Esplorazione e trasformazione dei datiEsplorazione e trasformazione dei dati

Ridefinizione delle classi per le variabili nominali (ordinali) Assegnazione di una classe (9) alle proporzioni più basse

Page 6: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

6

Esplorazione e trasformazione dei datiEsplorazione e trasformazione dei dati Transformazione logaritmica delle variabili intervallari Esclusivamente per le variabili la cui distributizione migliora

Page 7: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

7

Definizione del modello Definizione del modello

Segmentazione non significativa con la proc Fastclus, legata alla distribuzione delle variabili Le Reti Neurali non supervisionate restituiscono una segmetazione meglio definita Il test dei campioni aleatori confermano i risultati ottenuti con le SOM/Kohonen

Page 8: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

8

Interpretazione dei risultatiInterpretazione dei risultati

18154

27693Grandi colture

39983

35135Orti familiari

Risultati SOM/KOHONEN (reti neurali non supervisionate) : segmentazione in 4 Cluster

Page 9: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

9

Interpretazione dei risultatiInterpretazione dei risultatiComparazione dei cluster in funzione delle variabili utilizzate

4

3

Page 10: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

10

Interprétation des résultatsInterprétation des résultatsComparazione dei cluster in funzione delle variabili utilizzate

Page 11: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

11

Interpretazione dei risultatiInterpretazione dei risultatiComparazione dei cluster 3 e 4

Page 12: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

12

Interpretazione dei risultatiInterpretazione dei risultati

Valore Vendita in funzione della zona geografica e della superfice utilizzata : correlazionesignificativa per le aziende site in pianura

Page 13: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

13

Interpretazione dei risultatiInterpretazione dei risultati

CLUSTER

CARATTERISTICHE

Cluster 4 :

27693 azienda

Aziende: Grandi culture superfici destinate ai seminativi

Site in pianuraes sur les plaines

Propietari affittano parte dei terreni

Il capo azienda è giovane con molte giornate di lavoro

Significativo apporto della mano d’opera familiare

Le superifici utilizzate sono le più importanti

Utilizzo dei mezzi meccanici

Capacità degli impianti in volume e spazio sopra la media

Transformano i prodotti

Vendono principalmente agli industriali

Economicamente rilevanti

Cluster 3 :

35135 azienda

Azienda de petite culture mixte (culture maraîchère)

Installé es surtout sur les montagnes

Possèdent des superficies gratuites, mais loue nt aussi et parfois propriétair es

le dirigeant est plus vieux en moyenne avec des jours de travails moins élevés

une main d ’œuvre familiale non significative

les superficies utilisées sont les moins importantes

la superficie « orti familia ri » et celle des bois les plus importantes

La moitié d’entre elles ne sont pas de la classe CEE

Ne s’adresse nt pas aux organisations associatives pour l’utilisation des moyens

mécaniques

Consomme nt à peu près la moitié de son produit

Economiquement les moins importantes

Page 14: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

14

Interpretazione dei risultatiInterpretazione dei risultati

CLUSTER

CARATTERISTICHE

Cluster 4 :

27693 azienda

Azienda de grande culture avec des terres arables (seminativio)

Installé es sur les plaines

propriétaire s et loue nt une partie de leurs superficie

le dirigeant est plus jeune en moyenne avec des jo urs de travails élevés

une main d ’œuvre familiale significative

les superficies utilisées sont les plus importantes

utilise nt plus les moyens mécaniques

capacité en espace et en volume les plus importantes

Transforme nt plus ces produits agricoles

vend ent plus aux industriels

Economiquement les plus importantes

Cluster 3 :

35135 azienda

Aziende: Piccole colture (colture ortofrutticole)

Site in montagna

Lavorano superfici gratuite, in parte minore le affitano o sono proprietari.

Il capo azienza è in genere di età più alta della media, con poche giornate lavorative est plus

Mano d'opera familiare poco significativa

Le superfici ultizzate sono scarsamente rilevanti

Più significative le superfici destinate agli orti familiari e ai boschi

La metà delle aziende appartenenti a questo gruppo non rientrano nella classe CEE

Non si rivolgono ad organizzazioni assocciative per i mezzi tecnici

Consumano all’incirca la metà dei loro prodotti

Economicamente poco importanti

Page 15: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

15

Interpretazione dei risultatiInterpretazione dei risultati

CLUSTER

CARATTERISTICHE

Cluster 2 :

18154 azienda

Aziende accostabili al gruppo Grandi Colture

Colture arboricole permanenti

Specilizzati in viticoltura

Localizzate soprattutto in collina, e in parte in pianura

Forte capacità di trasformazione dei prodotti

Aderiscono a società cooperative

Vendono buona parete dei prodotti alle organizzazioni associative, ma non ai contrattuali

Sono in prevalenza Proprietari

Cluster 1 :

39983 azienda

Azienda proche des azienda de petite culture mixte

Installées surtout sur les montagnes en partie

Vendent aux consommateurs

Majoritairement propriétaires

Page 16: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

16

Interpretazione dei risultatiInterpretazione dei risultati

CLUSTER

CARATTERISTICHE

Cluster 2 :

18154 azienda

Azienda proche des azienda de grande culture

culture permanente arboricole relativement la plus importante

spécialisées dans la viticulture

Installées sur les collines en partie

Capacité de transformation des produits agricoles importante

Adhèrent aux sociétés coopératives et de producteurs

Vendent la totalité de ses produits aux organisations associatives, mais ne vend

pas aux contractuels

Majoritairement propriétaires

Cluster 1 :

39983 azienda

Aziende con caratteristiche simili al gruppo Orti Familiari

Localizzati soprattutto in montagna e in parte in collina

Vendono direttamente al consumatore

Hanno terreni di Proprietà

Page 17: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

17

Interpretazione dei risultatiInterpretazione dei risultati

ATTIVITà CLASS_AZIENDA(120965)

1(39983)

2(18154)

3(35135)

4(27693)

ALLEVAMENTO(42541)

33,77% 13,36% 16,29% 36,39%(33,78%)

VITE(40622)

43,58% 37,98% 11,06% 7,38%

LATTE(14616)

29,34% 9,28% 4,54% 56,83%

AGRITURISMO(596)

22,48% 39,09% 9,40% 29,03%

Ripartizione delle attività in funzione dei cluster

Vendono di più rispetto al cluster 1

Page 18: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

18

Interpretazione dei risultatiInterpretazione dei risultati

ATTIVITà CLASS_AZIENDA(120965)(42541)(40622)

1(39983)

2(18154)

3(35135)

4(27693)

ALLEVAMENTO(42541)

33,77%(37,97%)

13,36%(14,04%)

16,29%(16,98%)

36,39%(31,01%)

VITE(40622)

43,58%(33,11%)

37,98%(19,69%)

11,06%(26,30%)

7,38%(20,91%)

LATTE(14616)

29,34% 9,28% 4,54% 56,83%

AGRITURISMO(596)

22,48% 39,09% 9,40% 29,03%

Ripartizione delle attività in funzione dei cluster

Il gruppo 1 resta leader,ma sefuito dal gruppo 3

Page 19: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

19

29 azienda su 120965 29 azienda su 120965 hanno tutti i crediti hanno tutti i crediti (1 1 1 1)(1 1 1 1)

111355 azienda su 111355 azienda su 120965 120965 che non hanno creditoche non hanno credito(0 0 0 0)(0 0 0 0)

Interpretazione dei risultatiInterpretazione dei risultatiRipartizione del tipo di credito per l’intera popolazione

Page 20: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

20

29 azienda sur 120965 29 azienda sur 120965 ont eu tous les 4ont eu tous les 4Crédits (1 1 1 1)Crédits (1 1 1 1)

111355 azienda sur 111355 azienda sur 120965 120965 n’ont rien comme créditn’ont rien comme crédit(0 0 0 0)(0 0 0 0)

Interpretazione dei risultatiInterpretazione dei risultatiRipartizione del tipo di credito per l’intera popolazione

EEAA EEAA__NN MMAA MMAA__NN 00 11 00 11 00 11 00 11

EEffffeeccttiiff

XX XX XX XX 111111335555 XX XX XX XX 664400 XX XX XX XX 33991199 XX XX XX XX 5566 XX XX XX XX 772288 XX XX XX XX 8844 XX XX XX XX 110044 XX XX XX XX 77 XX XX XX XX 33227733 XX XX XX XX 5599 XX XX XX XX 663300 XX XX XX XX 99 XX XX XX XX 5588 XX XX XX XX 44 XX XX XX XX 1100 XX XX XX XX 2299

Page 21: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

21

29 azienda sur 120965 29 azienda sur 120965 ont eu tous les 4ont eu tous les 4Crédits (1 1 1 1)Crédits (1 1 1 1)

111355 azienda sur 111355 azienda sur 120965 120965 n’ont rien comme créditn’ont rien comme crédit(0 0 0 0)(0 0 0 0)

Interpretazione dei risultatiInterpretazione dei risultatiRipartizione del tipo di credito per l’intera popolazione

EEAA EEAA__NN MMAA MMAA__NN 00 11 00 11 00 11 00 11

EEffffeeccttiiff

XX XX XX XX 111111335555 XX XX XX XX 664400 XX XX XX XX 33991199 XX XX XX XX 5566 XX XX XX XX 772288 XX XX XX XX 8844 XX XX XX XX 110044 XX XX XX XX 77 XX XX XX XX 33227733 XX XX XX XX 5599 XX XX XX XX 663300 XX XX XX XX 99 XX XX XX XX 5588 XX XX XX XX 44 XX XX XX XX 1100 XX XX XX XX 2299

Test d’associazione tra 2 variabili :La coppia (1,1) contribuisce in modo più significativo alla statistica del Khi-2, le V di Cramer vicina a 0, quindi esiste un’associazione debole tra le due variabili

Test d’associazione tra CL_UDE(classe economica)e i 2 tipi di credito : rifiuto di Ho, dunque associazione, Ma la correlazione di Spearman si avvicina a 0, il chè implica une associazione debole

Page 22: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

22

24 Mai

Page 23: CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della

23

Organizzazione e PlanningOrganizzazione e Planning