appunti di “statistica descrittiva” · x f = frequenza associata alle modalità f/n = frequenza...

22
Appunti di “Statistica descrittiva” di Davide Benza Introduzione al corso (su aula web di Imperia ci sono i testi degli appelli passati) “Appunti di probabilità”, fino a pag. 100, + “argomenti di statistica descrittiva” + “temi svolti” (editi da ECIC). In tutto l’anno accademico dall’alto hanno deciso che è possibile dare soltanto 3 prove, con deroga +1 se siamo alla tesi. La prova scritta riguarderà descrittiva e probabilità e non è possibile svolgere una soltanto delle 2 per arrivare al 18. Chi passa per misericordia lo scritto deve presentarsi all’orale. Introduzione sulla statistica descrittiva: Lunedì 19/02/07 Tratta gli indici che descrivono un fenomeno, ovvero la composizione della variabilità della realtà. La rappresentazione sintetica (per esempio quella svolta dall’ISTAT) è realizzata mediante grafici, tabelle etc. che riassumono, appunto, questi fenomeni. La statistica mono-dimensionale affronta un fenomeno alla volta. L’unità statistica è il soggetto o il gruppo di soggetti oggetto di studio. N = popolazione totale (es.: 40 persone) X = oggetto di studio (es.: colore degli occhi) n = modalità = il modo in cui si esprime la mutabile (es.: 4: verde, blu, nero, castano) f = frequenza = quante volte si ripete una modalità F = frequenza cumulata (= f i + f i+1 ) I fenomeni si dividono in 2 categorie: 1) variabile: quantitativo (es.: il tempo) si manifesta in intensità o distanze 2) mutabile: qualitativo (es.: colore degli occhi) si manifesta in modalità a. ordinale (si può ordinare; es.: insufficiente, buono, cattivo) b. non ordinale (non si può ordinare) X f = frequenza associata alle modalità f/N = frequenza relativa Castano 15 15/40 Blu 5 5/40 Verde 10 10/40 Nero 10 10/40 TOTALE n = 4 N = 40 40/40 = 1 Nel relativo grafico a torta o a istogrammi l’ordine è irrilevante. Formalizziamo (formalizzare significa rappresentare in maniera generica una frequenza): X f x1 x2 xi xn f1 f2 fi fn Proprietà: n i=1 fi = N = somma delle frequenze = f1 + f2 + … n i=1 f/N = 1 Tutto quello che non dipende da i può essere portato fuori dalla sommatoria, in questo caso N: 1/N f (se non scrivo i=1 e n nel simbolo di sommatoria, è sottinteso). Esempio: i X = giudizio f assoluta f/N % Fi F/N 1 Insufficiente 10 10/60 10 2 Sufficiente 20 20/60 10+20 = 30* 3 Buono 20 20/60 50 4 Ottimo 10 10/60 60 TOTALE 60 1 100% 150 * 30 sono i soggetti che hanno una votazione sufficiente. Nota: il calcolo della frequenza non si può fare per le mutabili: a livello operativo, si potrebbero definire, per esempio, le frequenze dei colori degli occhi, ma facendo una media non avrebbe senso. Formula generale della frequenza cumulata: Fi i j=1 f Esempio: F 3 = 50 Meno si arrotonda meno c’è sintesi. Nella tabella di frequenza, quindi, si ricorre a classi di intervalli (es.: altezza da 1,60 a 1,65: se misurassimo tutte le altezze al milionesimo di millesimo di millimetro sarebbe una funzione continua). Bisogna stare attenti però che le classi di intervallo siano omogenee, altrimenti sulla stessa popolazione si possono generare risultati diversi o falsati. Altre volte le classi di intervallo sono volutamente disomogenee in quanto ai fini della ricerca è preferibile ordinarle in questo modo (es.: persone da 10 a 20, da 20 a 40 e da 40 a 70). Per la rappresentazione grafica delle classi di intervallo normalmente si ricorre agli istogrammi. X fi i = ampiezza fi/i = densità 160 165 55 15 55/15 4 165 170 45 5 45/5 = 9 TOTALE 100 20 f/N 150 165 170 x Attenzione a non cadere nell’errore di non considerare l’ampiezza di un intervallo. Se gli intervalli sono disomogenei è necessario rapportarli per renderli omogenei.

Upload: phamnga

Post on 16-Feb-2019

219 views

Category:

Documents


1 download

TRANSCRIPT

Appunti di “Statistica descrittiva” di Davide Benza Introduzione al corso (su aula web di Imper ia ci sono i testi degli appelli passati) “Appunti di probabilità” , fino a pag. 100, + “argomenti di statistica descrittiva” + “ temi svolti” (editi da ECIC). In tutto l’anno accademico dall’alto hanno deciso che è possibile dare soltanto 3 prove, con deroga +1 se siamo alla tesi. La prova scritta riguarderà descrittiva e probabilità e non è possibile svolgere una soltanto delle 2 per arrivare al 18. Chi passa per misericordia lo scritto deve presentarsi all’ orale.

Introduzione sulla statistica descr ittiva: Lunedì 19/02/07 Tratta gli indici che descrivono un fenomeno, ovvero la composizione della variabilità della realtà. La rappresentazione sintetica (per esempio quella svolta dall’ ISTAT) è realizzata mediante grafici, tabelle etc. che riassumono, appunto, questi fenomeni. La statistica mono-dimensionale affronta un fenomeno alla volta. L’unità statistica è il soggetto o il gruppo di soggetti oggetto di studio. N = popolazione totale (es.: 40 persone) X = oggetto di studio (es.: colore degli occhi) n = modalità = il modo in cui si esprime la mutabile (es.: 4: verde, blu, nero, castano) f = frequenza = quante volte si ripete una modalità F = frequenza cumulata (= f i + f i+1) I fenomeni si dividono in 2 categorie:

1) variabile: quantitativo (es.: il tempo) → si manifesta in intensità o distanze 2) mutabile: qualitativo (es.: colore degli occhi) → si manifesta in modalità

a. ordinale (si può ordinare; es.: insufficiente, buono, cattivo) b. non ordinale (non si può ordinare)

X f = frequenza associata alle modalità f/N = frequenza relativa Castano 15 15/40 Blu 5 5/40 Verde 10 10/40 Nero 10 10/40 TOTALE n = 4 N = 40 40/40 = 1 Nel relativo grafico a torta o a istogrammi l’ordine è irrilevante. Formalizziamo (formalizzare significa rappresentare in maniera generica una frequenza): X f x1 x2 … xi … xn

f1 f2 … f i … fn

Proprietà: ∑n

i=1 fi = N = somma delle frequenze = f1 + f2 + … ∑n

i=1 f/N = 1 Tutto quello che non dipende da i può essere portato fuori dalla sommatoria, in questo caso N: 1/N ∑f (se non scrivo i=1 e n nel simbolo di sommatoria, è sottinteso). Esempio: i X = giudizio f assoluta f/N % Fi F/N 1 Insufficiente 10 10/60 … 10 … 2 Sufficiente 20 20/60 … 10+20 = 30* … 3 Buono 20 20/60 … 50 … 4 Ottimo 10 10/60 … 60 … TOTALE 60 1 100% 150 … * 30 sono i soggetti che hanno una votazione ≤ sufficiente. Nota: il calcolo della frequenza non si può fare per le mutabili: a livello operativo, si potrebbero definire, per esempio, le frequenze dei colori degli occhi, ma facendo una media non avrebbe senso. Formula generale della frequenza cumulata: Fi ∑i

j=1 f Esempio: F3 = 50 Meno si arrotonda meno c’è sintesi. Nella tabella di frequenza, quindi, si ricorre a classi di intervalli (es.: altezza da 1,60 a 1,65: se misurassimo tutte le altezze al milionesimo di millesimo di millimetro sarebbe una funzione continua). Bisogna stare attenti però che le classi di intervallo siano omogenee, altrimenti sulla stessa popolazione si possono generare risultati diversi o falsati. Altre volte le classi di intervallo sono volutamente disomogenee in quanto ai fini della ricerca è preferibile ordinarle in questo modo (es.: persone da 10 a 20, da 20 a 40 e da 40 a 70). Per la rappresentazione grafica delle classi di intervallo normalmente si ricorre agli istogrammi. X fi ∆i = ampiezza fi/∆i = densità 160 → 165 55 15 55/15 ≈ 4 165 → 170 45 5 45/5 = 9 TOTALE 100 20

f/N

150 165 170 x

Attenzione a non cadere nell’errore di non considerare l’ampiezza di un intervallo. Se gli intervalli sono disomogenei è necessario rapportarli per renderli omogenei.

Lezione pomer idiana: Gli indici di posizione Cerchiamo di eleggere una modalità a modalità tipica, cioè scegliere quella che sintetizza meglio la popolazione. Esistono:

o Medie empiriche (si deducono dalla definizione): moda, mediana o Medie analitiche (risultano da elaborazioni matematiche): media geometrica, armonica, aritmetica e quadratica 1) la moda: calcolabile sia su mutabili sia su variabili, rappresenta la modalità con frequenza assoluta più alta.

X f castano biondo rosso

10 3 2 15

2) la mediana (della distribuzione): non è applicabile alle mutabili non ordinali, in quanto è necessario sfruttare l’ordinabilità dei caratteri per trovare il valore con frequenza cumulata relativa = 0,5.

N = 100; n = 4; Mo(X) = “superiori” ; fmo = 40 Posizione della mediana: se n pari: n/2, se dispari: (n+1)/2 X fi F F/N = f cumulata relativa % Elementari 20 20 0,2 20% Medie 20 40 0,4 40% Superiori 40 80 0,8 80% Università 20 100 1 100%

Me(X) = “Superiori” , perché racchiude il soggetto che è al centro della distribuzione. Se fossimo esattamente al 50% teoricamente non esisterebbe mediana. Innanzitutto si cerca la classe mediana e modale, poi la moda e la mediana. La classe modale, se le densità non sono omogenee, è quella con frequenza più alta. Con riferimento all’esercizio precedente (pag. 1 in fondo) 165 → 170 è la classe modale, la Mo(X) =167,5 (cioè la semi-somma, insomma la media). La classe mediana: 150 → 165. Sul libro c’è una “mega-formulazza” geometrica con dimostrazione. F Per trovare la mediana si fa la proporzione: 0,72 (35 – 25):(Me – 25)=(0,72 – 0,42):(0,5 – 0,42) → Me – 25 = 0,8/0,3 → Me = 27,6667 0,5 Se si ipotizza un’equidistribuzione è sufficiente: (35 – 25)/(Me – 25) → Me = 27,6667 0,42 La mediana non risente dei dati anomali, cioè gli outliars, a differenza della media.

25 Me 35 x 3) la media ar itmetica: formalmente è: = µ(X) = M(X)

Anche qui si deve far attenzione alle classi di intervallo. Domanda di salvataggio per l’orale: “ le proprietà della media” :

A. è un indice perfettamente centrato o baricentrato. Qui introduciamo il concetto di distanza/scarto: xi – I → →scarto tra i-esima intensità ed una costante I (è la “solita” costante di Gini, la vedremo anche nell’equazione del Chisini):

I è baricentrato se gli scarti > 0 non eccedono quelli < 0, cioè se il loro valore si compensa. La media è l’unico indice che gode di questa proprietà, a meno che gli altri indici non corrispondano proprio alla media stessa. In poche parole: 5 + 6 + 7 = 6 + 6 + 6. Sul libro c’è lo sviluppo della formula.

Lezione del 20/02/07 B. minimizza la distanza della distribuzione di frequenze.

La distanza tra le coordinate reali ed il punto rappresentato dalla costante è la perdita di informazione, che va minimizzata (da geometria): d(X,I) = = min. Per minimizzare posso togliere la √, tanto minimizzandone il contenuto la minimizzerei comunque. Ora aggiungo e sottraggo la media (si approfondisca sul libro): ∑(xi – µ+µ – I)2 fi = ∑[(xi – µ)+(µ – I)]2 f = ∑(x – µ) f = 0 se e solo se I = µ.

C. mantiene costante la somma delle intensità. X f xf 2 3 4

1 2 1 4

2 6 4 12

D. gode della proprietà di linearità (y = a + bx): µ(a + bx) = a + bµ(x). (Sul libro ce ne sono 2 ma la 2a comprende la 1a) X f xf 15 20 25 300

2 4 2 1

2 6 8 9

4) la media armonica: quando esiste una relazione del tipo: v = s/t = velocità = spazio/tempo, la media aritmetica non è adatta a calcolare la velocità media di un percorso, in quanto la sovrastima. L’ indice I si sostituisce alle varie velocità, assumendo quindi una velocità costante, ed il risultato ottenuto è denominato: media armonica delle velocità parziali ponderate per gli spazi percorsi = I = La media armonica mantiene costante non la somma delle intensità ma la somma dei reciproci delle intensità (1/x non x).

5) la media quadratica: ad una superficie possiamo far corrispondere la misura lineare li = √si pari al lato di un quadrato corrispondente. Per trovare il lato medio di una serie di superfici possiamo utilizzare la media quadratica = l = Mq = . Generalizzando: I = . Ciò che si mantiene inalterato stavolta è la somma della superficie totale. Nota: se anche vi fosse un rettangolo o un cerchio piuttosto che un quadrato,

comunque considereremmo il lato medio come se tutti fossero quadrati. produttoria 6) la media geometr ica: si pensi, in capitalizzazione composta al tasso medio di rendimento:

Elaborando si ottiene: ln(Mg) = 1/N ∑ ni=1 fi ln(xi) →

Mo(X) = “castano” ; fmo = frequenza modale = 10 Attenzione: non confondere! Mo(X) ≠ fmo 3 e 2 costituiscono la perdita di informazione o danno. Se non avessimo castano biondo etc. ma delle classi di intervallo (per esempio delle altezze) avremmo una classe modale (per esempio: 160-170 cm.) rappresentata dal suo valore centrale (165) e sarebbe necessario tener conto dell’ampiezza dell’ intervallo.

Me(X) = 12/4. Chisini disse: se si sostituisce a ciascuna intensità un valore costante I, cioè x = I, I = µi, la somma rimane inalterata. Ciò crea una perdita di informazione.

µx = 1/N ∑Ni=1 xi fi

∑ni=1 (xi – I) fi = 0.

√∑ni=1 (xi – I)2 fi

Ma = N/∑ni=1 (1/xi) fi.

√∑ i l i2 fi / N Mq = √1/N ∑n

i=1 xi2 fi

Mg = N√Πni=1xi fi

Mg = exp 1/N ∑ ni=1 fi ln(xi) .

(xi+1 – xi):(Me – xi)=(Fxi+1 – Fxi):(F0,5 – Fxi)

Lezione del giorno 26/02/07 A volte il problema può essere che la variabile osservata sia legata ad un’altra variabile vincolante. Esempio 1: S = P * Q = spesa = prezzo * quantità. Si vuol calcolare l’ I(X) che mantenga costante il livello di vendite. I(x) = N/(∑

Ni=1 1/xi) = Ma(X) = media armonica dei prezzi.

Esempio 2: N = numeri di esercizi in cui sono stati venduti Y prodotti con prezzi di vendita X distinti. Si vuol calcolare il prezzo medio di vendita I(X) che mantenga costante il fatturato: I(x) = ∑

Ni=1 xi yi / ∑

Ni=1 yi: media aritmetica dei prezzi xi ponderati per le quantità yi.

Esempio 3: calcolare ora il valore medio I(x) che lasci inalterata la quantità: I(x) = ∑ N

i=1 si / (∑ N

i=1 si/xi): media armonica dei prezzi xi ponderati per la spesa si. A seconda del vincolo iniziale cambia il risultato finale e la media da utilizzare.

La media analitica detta anche media potenziata racchiude tutti gli altri indici: tutte le medie sinora trattate sono casi particolari estratti dalla famiglia delle medie potenziate di ordine: r (µ(r)) → µ(r) = (µr)

1/r per cui:

Esercizio in classe Calcolare la previsione per il 2007 con il tasso medio d’ incremento (media geometrica), in capitalizzazione composta (vedi matematica finanziaria). T f 2001 2002 2003 2004 2005 2006 2007

100 110 90 115 130 150 ?

La perdita di informazioni La perdita di informazioni di ordine 0 è sempre una frequenza:

Calcolare i principali indici: Moda, Mediana, Media, quindi la Perdita di informazioni. X fi Fi 162 168 170 172 177 185

3 5 10 6 4 2 30

3 8 18 24 28 30

Perdita di ordine 2: L2(x) = ∑ni=1|xi – I|2 fi

Perdita di ordine r: Lr(x) = ∑ni=1|xi – I|r fi

La dispersione Essa è la manifestazione concreta che la mutabilità (attitudine ad esprimersi con modalità differenti) o variabilità (distanza tra fenomeni quantitativi) di un fenomeno ha espresso all’atto dell’osservazione:

• assoluta: o nel caso della mutabilità comporta difformità tra le unità; o nel caso della variabilità comporta distanza tra le unità.

• relativa: o nel caso della mutabilità comporta difformità dall’ indice di posizione; o nel caso della variabilità comporta distanza dall’ indice di posizione.

162 168 170 172 177 185

30 L0(x)

x

. . . . . .

160 170 180

25

20

15

L0(x)

x

Armonica Geometrica

Aritmetica

Quadratica

o se r = – 1 → Ma = media armonica o se r = 0 → Mg = media geometrica o se r = 1 → µ = media aritmetica o se r = 2 → Mq = media quadratica

Rispettano tutte la condizione di equivalenza del Chisini e la condizione di internalità di Cauchy.

100(1 + i) 100K = 150 100 (1 + i)5 = 150 (1 + i)5 = 150/100 = 1,5 1 + i = 5√1,5 → i = (5√1,5)/1,084 = 0,084 Allo scritto difficilmente troveremo un testo che chieda “si calcoli la media armonica”…

Mo(x) = 170 fmo = 10 Me(x) = 170 (perché 18 “ tiene il 15” ) µ = 171,2 L0(x) = N – fi(x) L1(x) = ∑n

i=1|xi – I| fi

1) La perdita di informazioni di ordine 0 viene minimizzata dalla moda. 2) La perdita di ordine 1, cioè L1(x) = ∑N

i=1|xi – I|, viene minimizzata dalla mediana. (sul libro vecchio pag. 23, volendo, c’è la dimostrazione). 3) la perdita di ordine 2 viene minimizzata dalla media aritmetica.

171,2 4) se r = 0 si genera una forma indeterminata, allora semplicemente si sostiene che tenda a zero, quindi tutto tenderà a zero (meno importante per lo scritto).

Analisi della mutabilità assoluta (γ) La frazione di dispersione teorica massima D è: 0 ≤ D’ = D – Dmin ≤ 1 con Dmin = 0 diventa normalizzata: 0 ≤ D’ = D / Dmax ≤ 1 Dmax – Dmin Esiste anche l’ indice di Shannon Ψ, ma non verrà chiesto all’ esame. Una misura del grado di dispersione delle mutabili proposta in letteratura è γ' (normalizzato) = γ / (1 – 1/n) (compreso tra 0 ed 1) (infatti l’ indice max = 1 – 1/n)

o L’equidistribuzione delle frequenze individua la condizione di massima dispersione: γ ha valore massimo. o La massima concentrazione individua la condizione di dispersione nulla: γ ha valore minimo.

Analisi della mutabilità relativa (δ) È una misura normalizzata che quantifica il grado di difformità della mutabile dall’ indice (nel nostro caso la Moda). X fi Piedi Bus Auto

1 14 15 30

Metto 19/30 al denominatore per normalizzare: δ’ = [(30–15)/30]/(19/30) = 15/19 = Mo/max difformità = δmax = (N – f(Mo)min)/N dove f(Mo)min è il più piccolo numero intero maggiore di N/n (“motivo del +1” ). Analisi della variabilità assoluta (∆) (pag. 56 vecchio libro) X fi 175 180 185

1 1 1 3

Si definisce distanza tra due unità la quantità |xi – xj|. Si definisce misura di variabilità assoluta un opportuno indice delle distanze tra le singole unità. Si definisce differenza quadratica media ∆ la media quadratica delle distanze intercorrenti tra le misurazioni, la cui formula non citiamo (se proprio volessimo sono a pag. 59 del libro vecchia versione), perché si utilizza sempre la seguente: (se N è grande → ∆ = σ √2) dove σ è lo scarto quadratico medio (che rivedremo più sotto). Analisi della variabilità assoluta normalizzata È il valore massimo teorico che l’ indice ∆ avrebbe potuto assumere: (xn = xultimo; x1 = xprimo) La condizione di massima variabilità assoluta consiste nel caso in cui le frequenze si presentano associate ai valori estremi della distribuzione ed equidistribuite (cioè ∆max si ottiene, per esempio, se distribuisco così: 15, 0, 0, 0, 0, 15, altrimenti è = ∆). Lezione del 5 Marzo 2007: Analisi de “ la variabilità relativa” (pag. 63 vecchio libro) È un opportuno indice I di posizione delle quantità di = |xi – µ|, che quantifica la distanza della variabile dalla propria media aritmetica. Per affrontare il calcolo della varianza per prima cosa si calcola, dunque, la media aritmetica. Poi tutti gli scarti da essa, ponderati per le frequenze associate: Vediamo ora, invece, una formula che semplifica i calcoli, perché permette di evitare di calcolare tutti gli scarti: esprimibile anche come: La radice quadrata della varianza, o scarto quadratico medio σ, rappresenta la media quadratica delle distanze intercorrenti tra le singole misurazioni e la loro media aritmetica; esso mantiene la dimensionalità del fenomeno oggetto di studio (cioè l’unità di misura; es.: i Kg., i litri etc.). Analisi de “ la variabilità relativa normalizzata” (argomenti per l’orale, ma spesso c’è negli esercizi del libro) (σ2 / σ2

max) Quando ci troviamo di fronte ad unità di misura disomogenee o diverse per natura o valor medio, si può trasformare la variabile in numero puro, dividendola per la propria media aritmetica. Tale divisione porta al coefficiente di variazione il rapporto tra scarti quadratici medi e µ. Per normalizzare σ2 occorre calcolare, invece, il valore massimo teorico che esso può assumere, cioè nel caso teorico in cui le frequenze siano associate ai valori estremi, nel rispetto del vincolo di conservazione della media aritmetica, che individua la massima dispersione e variabilità relativa alla media aritmetica. In questi casi si rende spesso necessaria un’approssimazione ai numeri interi. Risulta così: Un caso particolare è quello in cui tutto è trasferito su un unico soggetto, lasciando gli altri a 0: x1 = 0 = min, mentre il max è la ∑tot.

La concentrazione (ricordarsi di ordinare in ordine crescente i dati in tabella, altrimenti il grafico risulterebbe tutto sballato) Caratteristica fondamentale è la trasferibilità (cioè l’attitudine a concentrarsi su poche o molte unità) dell’ intensità globale (per esempio, il reddito è trasferibile). La concentrazione è misurata dal = Area OABCDO / Area OEDO con 0 ≤ R ≤ 1 Dove: E = (N – 1) / N = 99%

D = intensità cumulate normalizzate F/N = frequenze cumulate normalizzate OD = retta di equidistribuzione → concentrazione nulla

Lezione del giorno 15/10/07: La forma delle distr ibuzioni I momenti centrali sono tutte le medie. L’ indice centrato tiene conto degli scarti delle intensità e la media (per l’orale). µ0 = 1 (il trattino indica che l’ indice è centrato) µ1 = 1/N∑n

i=1 (xi – µ)f i → baricentratura = qualunque sia la distribuzione è sempre 0. µ2 = σ2: la varianza è il momento centrale di ordine 2. In generale, si definisce momento centrale di ordine r: con r > 0

La moda è l’auto, la frequenza modale è 15. La frazione di soggetti difformi dalla moda è 1+14 = 15. La frequenza minima associabile al valore modale, cioè il minimo perché esista la moda, è: N/n + 1 = f(Mo)min = 30/3 +1 = 11 (altrimenti sarebbe a-modale, cioè senza moda). δmax = (30 – 11)/30 = 19/30 = massima difformità dalla Moda teorica.

|175 – 180| = 5 → (32 – 3) / 2 = 3 → numero κ di possibilità di coppie differenti individuabili |175 – 185| = 10 |180 – 185| = 5 In formula: Distanza euclidea: √|xi – xj|2

D D

.B .A .C

O 0,4 0,7 0,9 1 F/N E F

δ’ = (N – f(Mo))/N = N – f(Mo) = (N – f(Mo)min)/N N – f(Mo)min = N – f(Mo) . N – (N/n + 1)

l’ indice γ di Gini = ∑nt=1 fi/N (1 – fi/N)

δ’ = δ / δmax

(N2 – N) /2

∆ = σ √2 √N/(N – 1)

var ianza = σ2 = 1/N ∑ns=1 |xs – µ|2 fs

σ2 = 1/N ∑ni=1 xi

2 f i – µx2

(c.v. = σ/µ):

σ2max

= µ (x1 + xn) – x1xn – µ2

rapporto di Gini R = A / Amax =

1/N∑ xi f i – 1/Nµ∑f i = 0:

µr = 1/N∑ni=1 (xi – µ)r f i = µ (X – µ)r

∆max ≈ |xn – x1| / √2

σ2 = µ2 – µx2 = (x2f)/N – µx

2

Il modello fondamentale proposto in letteratura per argomentazioni di natura scientifica e probabilistica (che sia rappresentato sotto forma di curve o di istogrammi costruiti con infiniti intervalli di ampiezza infinitesima) è quello della c.d. Curva Normale o di Gauss (la Gaussiana):

La simmetria/asimmetria φ(x) è simmetrica rispetto alla media se φ(µ – κ) = φ(µ + κ). Come misura della asimmetria si utilizza, il 1° indice utile dispari, l’ indice γ1 di Pearson: γ1 = µ[(X – µ)/σ]3 = µ3 / σ

3 In caso di normalità l’ indice di Pearson vale 0 e, per la sussistenza della condizione di simmetria, tutti i momenti centrali di ordine dispari (se esistenti) devono essere nulli. Vedere su AulaWeb la prova dell’8 Giugno 2006. La curtosi È la diversa eccedenza degli scarti assoluti dalla media (come nella differenza tra la figura tratteggiata e quella con la linea continua nel

grafico di cui sopra) e si misura con l’ indice di curtosi di Pearson γ2, che è come l’ indice γ1, ma elevato alla 4a anziché alla 3a. La curtosi determina l’ampiezza grafica della gaussiana. Se è=3 la distribuzione è normocurtica, se>3 leptocurtica, se<3 platicurtica. Lezione del 13/3/7 o del 15/10/07: Inizio della statistica descr ittiva bidimensionale (pag. 91 libro vecchio) y1 y2 … yj … ym Tot x1 f11 f12 … f1j … f1m f1. x2 f21 f22 … f2j … f2m f2. … … … … … … … … xj f i1 f i2 … f ij … f im f i. … … … … … … … … xn fn1 fn2 … fnj … fnm fn. Tot f.1 f.2 … f.j … f.m N

Formalizzazione di una tabella a doppia entrata: X|y è la variabile condizionata e Y|x la condizionante (si legge x condizionato da

y o dato y). I totali delle colonne e delle righe sono dette distribuzioni marginali. Le medie saranno anche chiamate medie condizionate, le varianze varianze condizionate etc. Il termine generico è f ij.

Scomposizione monodimensionale X f(x) Y f(x) x1 f1. y1 f.1

x2 f2. y2 f.2 … … … … xj f i. yj f.i … … … … xn fn. ym f.m N

N

Media di x = µx = 1/N ∑ni=1 xi f i.

Media di y = µy = 1/N ∑mj=1 yj f.j

→ →

Media di x condizionato y = µ (X|yj) = 1/f.j ∑ni=1 xj f ij (per ogni j che va da 1 a m)

Media di y condizionato x = µ (Y|xi) = 1/f i. ∑m

j=1 yj f ij (per ogni i che va da 1 a n) Varianze condizionate: σ2 (X|yj) = 1/f.j ∑

ni=1 [xi – µ(X|yj)]

2 f ij (j=1, …,m) σ2 (Y|xi) = 1/f i. ∑m

j=1 [yj – µ(Y|xi)]2 f ij (i=1, …,n)

Ovviamente rimangono valide le scomposizioni già viste della varianza. Ricordarsi che nella bidimensionale è fondamentale riportare i pedici. Lezione del 19/3/7: L ’ indipendenza stocastica (pag. 99 del libro vecchio) Tabella a doppia entrata (di partenza): 8 1 1 10 10 15 5 30 12 24 24 60 30 40 30 100

1) verifico se c’è indipendenza stocastica oppure connessione, costruendo la tabella di indipendenza stocastica: a. moltiplico tra loro le corrispondenti distribuzioni marginali e le divido per N b. il valore ottenuto è il valore di frequenza teorica che darebbe indipendenza stocastica c. lo verifico per tutte le righe e le colonne (tutti i punti)

10 * 30 / 100 = 3 4 3 10 9 12 9 30 18 24 60 * 30 / 100 = 18 60 30 40 30 100

2) sottraggo alla tabella di partenza (a doppia entrata) quella stocastica e ottengo la c.d. tabella delle contingenze: 8 – 3 = 5 1 – 4 = – 3 1 – 3 = – 2 0 10 – 9 = 1 15 – 12 = 3 5 – 9 = – 4 0 12 – 18 = – 6 0 24 – 18 = 6 0 0 0 0 0 Essa rappresenta la distanza tra la tabella reale di partenza e quella teorica di indipendenza stocastica.

3) misuro il grado di connessione: (l’ indice W di MORTARA dal 2007 non è più in programma) PEARSON-PIZZETTI:

a. Sommo C2ij / Y*ij = valori delle contingenze al quadrato diviso le frequenze teoriche di indipendenza stocastica → trovo χ2

(punto 2 al quadrato fratto punto 1) 52 / 3 = 8,3 (–3)2 / 4 = 2,25 4 / 3 = 1,3 11,85 1 / 9 = 0,1 9 / 12 = 0,75 16 / 9 = 1,7 2,55 (–6)2 / 18 = 2 0 2 4 10,4 3 5 18,4 = χ2

O 95 100 105 109

0.04

0.08

0.12

1 –½[(x – µ)/σ]2 con: γ1 = 0 φ(x) = e con: –∞ < x < +∞

σ√2π Se γ1 = 0 simmetria se γ1 > 0 asimmetria positiva γ1 < 0 asimmetria negativa

Momento centrale di ordine 3: µ3 = 1/N∑n

i=1(xi – µ)3f i

b. Normalizzo: i. Posso trovare χ2

max= Nmin:[(n – 1);(m – 1)]N = numero minore tra numero di righe e numero di colonne – 1, moltiplicato per N. In questo caso: (3 – 1)x100 = 200. Questo è un metodo più veloce, ma dà risultati completamente diversi da quello calcolato con la tabella di massima connessione, quindi bisogna successivamente ricordarsi di normalizzare sempre secondo questo indice. Altrimenti:

ii. Trovo la tabella di massima connessione (da quest’anno senza il vincolo del rispetto del segno, ma

rispettando il vincolo della conservazione delle distribuzioni marginali, dando + zeri possibili): 10 0 0 10 0 30 0 30 20 10 30 60 30 40 30 100

iii. Trovo χ2max = ∑(Tabella di massima connessione – Tabella di indipendenza stocastica)2

Tabella di indipendenza stocastica (10 – 3)2/3 = 16,333 4 3 9 (10 – 12)2/12 = 27 9 (20 – 18)2/18 = 0,222 (10 – 24)2/24 = 8,166 (30 – 18)2/18 = 8 84,722 = χ2

max Nota: quando c’è lo zero si semplifica ed il risultato corrisponde al numero della tabella di indipendenza stocastica: (0 – Tabella di indipendenza stocastica)2/ Tabella di indipendenza stocastica = tabella di indipendenza stocastica.

iv. Controllo: χ2max dev’esser ≤ N x min [(n – 1);(m – 1)] v. Normalizzazione: χ2/χ2max =18,4/84,722 = 0,217 oppure: 18,4/200 = 0,092

L’ indipendenza in media Una variabile è indipendente in media da un’altra se le sue medie condizionate sono tutte contemporaneamente uguali tra loro e quindi necessariamente uguali alla media non condizionata: µ(Y|x1) = … = µ(Y|xn) = µY Detto in altre parole esiste indipendenza in media di Y da X se e solo se µ(Y|xi) – µY = 0 (con i = 1, …, n) L’ indipendenza in media di una variabile da una seconda non comporta necessariamente l’ indipendenza in media della 2a dalla 1a. L’ interindipendenza in media è la condizione di mutua indipendenza in media di una variabile dall’altra. Teoremi:

• l’ interindipendenza o l’ indipendenza in media è condizione necessaria ma non sufficiente per quella stocastica. • l’ interindipendenza o l’ indipendenza stocastica è condizione sufficiente ma non necessaria per quella in media.

Si definisce grado di dipendenza in media la distanza intercorrente tra le medie condizionate e la media non condizionata, che rappresenta la condizione di indipendenza in media. Si elegge a misura del grado di dipendenza in media della Y dalla X la quantità: σ2

Y = σ2[µ(Y|X)] Scomposizione della var ianza

• La quantità σ2Y, varianza delle medie delle distribuzioni condizionate, è detta varianza spiegata. Rappresenta

quella frazione della varianza totale, σ2Y, spiegata (cioè posseduta) dalle medie condizionate.

• La quantità σ*2Y, media delle varianze delle distribuzioni condizionate, è detta varianza residua. Rappresenta

quella frazione di varianza totale σ2Y, non spiegata dalle medie condizionate:

La varianza totale è data dalla spiegata più la residua: σ2Y = σ2

Y + σ*2Y Da cui: 0 ≤ σ2

Y ≤ σ2Y

I l rappor to di cor relazione η2 Si usa se y è una variabile. È la normalizzazione della varianza, cioè la spiegata sulla totale. È una misura della difformità

delle medie condizionate dalla loro media, ovvero una misura della dispersione della distribuzione delle medie condizionate. È = 1 se la residua = 0, infatti ciò implicherebbe che la spiegata fosse = totale.

• Y è indipendente in media da X se e solo se: σ2Y = 0

• X è indipendente in media da Y se e solo se: σ2X = 0

È la frazione normalizzata di varianza totale spiegata delle medie condizionate. L’ indice γ di Gini e τ di Gini-Goodman-Kruskal (Nota: pi. = fi./N) Si usano se y è una mutabile. Mentre η2 analizzava fenomeni quantitativi, allo stesso modo, con questo indice τY, si analizzano quelli qualitativi. Si rappresenta una misura della difformità delle distribuzioni condizionate dalla distribuzione marginale, calcolando i quadrati delle distanze intercorrenti tra le singole distribuzioni condizionate e la distribuzione marginale. Ricordiamo che, laddove non sussista dipendenza, tutte le distanze sarebbero = 0 → τ = 0. Se per le variabili abbiamo utilizzato la varianza σ2, per le mutabili utilizziamo l’ indice γ di Gini. Es. 3 Temi svolti:

σ2X σ*2

X spiegata residua η

2X = = 1 – = = 1 –

σ2X σ2

X totale totale

γy = γ(Y|xi) = ∑mj=1fi/N(1 – fi/N) Gini: per i caratteri qualitativi (corrisponde alla varianza per i caratteri quantitativi).

Dove, a seconda che si cerchi l’ incidenza di X su Y o Y su X, fi può essere il totale di colonna o di riga: fi.= riga; f.j = col. γMax = 1 – 1/n Gini Massimo teorico γ’ = γ/γMax Gini Normalizzato γ1, γ2, γ3… = γ (per “colonne”) Gini per classi: difformità in dipendenza = dispersione condizionata. Uso fi. non f.j γ* y = ∑n

i=1γ(Y|xi)pi. Gini Residuo: è la sommatoria di tutti i Gini moltiplicati per fi/N, = γ1*totale col1/tot+ γ2*totale col2/tot…quindi è la media ponderata delle misure di dispersione = dispersione residua γy = ∑n

i=1d2(Y|xi.Y)pi. Gini Spiegato. O anche = Gini – Gini residuo.

γY γ*Y spiegato residuo L’ indice di Gini-Goodman-Kruskal è come il rapporto di correlazione η2, ma per le mutabili.

τ2X =

= 1 –

=

= 1 –

È dato infatti dal rapporto tra l’ indice di Gini residuo e l’ indice di Gini totale, oppure da:

γY γY totale totale 1 – Gini residuo/Gini totale (più facile negli esercizi). Misura l’ intensità della dipendenza.

σ*2Y = 1/N∑n

i=1(Y|xi)fi.

La covar ianza (da qui in poi tratteremo sempre variabili)

N X Y (xi – µi)(yi – µy) XY 1 2 3 (2-4,6)(3-10)= 18,2 6 2 4 9 (4-4,6)(9-10)= 0,6 36 3 8 18 (8-4,6)(18-10)= 27,2 144 3 14 30 46 186

La covarianza è la media della sommatoria delle distanze delle 2 variabili dalle proprie medie, tra loro moltiplicate. Si può calcolare nei 2 seguenti modi: 1) σxy= 46/3 = 15,3 oppure: 2) σxy= 186/3 – 30/3 x 14/3 = 15,3

Il coefficiente di correlazione (“ rho greco” ) misura l’ intensità del legame tra le 2 variabili: assume valori estremi in presenza di massimo legame funzionale (diretto quando ρ = 1, inverso se = -1). Detto male, è una specie di

“covarianza normalizzata” . Facendo un esempio, 0,66 corrisponde all’85,2%, non al 66%: 85,2% Nota: se ρ = 0 non significa sempre che non ci sia dipendenza; per esempio:

-1 0 0,66 1 con una retta // asse x, ρ = 0, ma anche con la parabola ρ potrebbe esser = 0. La retta di regressione Nel precedente diagramma relativo alla covarianza, abbiamo aggiunto in azzurro tratteggiato la rappresentazione grafica di una possibile funzione interpolante, atta a sintetizzare la natura della dipendenza della Y dalla X, ed in verde la retta di regressione, atta a sintetizzare la natura della dipendenza in media della Y dalla X: (dove “1” indica il grado della funzione) è l’equazione della retta di regressione, che soddisfa la condizione di accostamento dei minimi quadrati (cioè la distanza minima) d(Y, Y*) = min. Applicando tale condizione in un sistema di derivate parziali, troviamo i coefficienti della retta di regressione: σXY σXY a = µY – µX b = σ2

X σ2X

I l rappor to di cor relazione lineare ρ2 (0 ≤ ρ2 ≤ 1)

Ci si pone ora il problema di misurare la capacità interpolativa della retta di regressione. • La media dei quadrati degli scarti dei valori effettivi yi dai valori teorici 1y* i è detta varianza residua dalla retta

di regressione. Rappresenta quella frazione di varianza totale σ2Y non spiegata (quindi residua) dalla retta di

regressione: • La media dei quadrati degli scarti dei valori teorici 1y* i dalla media µY è detta varianza spiegata dalla retta di

regressione. Rappresenta quella frazione di varianza totale σ2Y spiegata (cioè posseduta) dalla retta di

regressione: La retta di regressione scompone pertanto la varianza totale della variabile dipendente Y in spiegata più residua. (pag. 143 libro vecchio)

• Dividendo la varianza spiegata dalla retta di regressione per la varianza totale di Y si ottiene il rapporto di correlazione lineare ρ2, frazione normalizzata di varianza totale spiegata dalla retta di regressione, che, esprimendo congiuntamente l’attitudine di ognuna delle due variabili ad essere funzione lineare dell’altra, rappresenta una misura dell’ interdipendenza lineare intercorrente tra le due variabili:

Confrontando il rapporto di correlazione η2 con il rapporto di correlazione lineare ρ2 scopriamo che: 0 ≤ ρ2 ≤ η2Y ≤ 1

Il segno di uguale sussiste se e solo se le medie condizionate sono tutte allineate, cioè coincidono con i valori teorici corrispondenti, quindi anche la varianza spiegata dalla retta è uguale alla varianza spiegata.

• L’ indice di dipendenza lineare frazione normalizzata di dipendenza esistente spiegata dalla retta di regressione, rapporta queste 2 grandezze e misura l’attitudine del modello lineare a sintetizzare il grado di dipendenza esistente in relazione al modello funzionale rappresentato dalle medie condizionate.

Se l’ indice è vicino allo 0, la retta di regressione non spiega sufficientemente la dipendenza, quindi bisogna passare al polinomio di grado superiore. Prima analizziamo 3 casi par ticolar i (su 6, gli altri sono da approfondire sul libro vecchio a pag. 149): La per fetta interpolante r ispetto ad y ρ2 = η2

y = 1 e naturalmente: 1δ2Y = ρ2 / η2

y = 1 Esempio: 2 0 0 0 1 0 0 0 3

La varianza residua dalle medie condizionate σ*2 e la varianza dalla retta 1σ*2

Y sono = 0. Trattasi della massima efficacia di sintesi.

La migliore interpolante 0 < ρ2 = η2y < 1 e naturalmente: 1δ

2Y = ρ2 / η2

y = 1 (come sopra) 2 1 0 0 0 0 0 1 3

Le due varianze sono =, ma generate da concetti distinti. Le medie condizionate sono allineate (di cui la retta è la perfetta interpolante). Trattasi del caso di non migliorabilità: c’è residuo ma non è eliminabile.

Situazione migliorabile 0<ρ2<1 e η2Y=1 e naturalmente: 0 ≤ 1δ

2Y = ρ2 / η2

y ≤ 1 2 1 0 0 0 0 0 0 3

Le medie condizionate non sono allineate. La varianza residua dalla retta è diversa da 0: 1σ*2

Y ≠ 0. La varianza residua dalle medie è =0: σ*2 = 0.

0 5 10 µx 15 20 25

Kg Y

X =°C

. . . . . .

µy . Baricentro . . . . . .

. . È una misura atta a quantificare l’ intensità del legame/dipendenza funzionale tra una variabile X ed una Y. È il momento misto centrale di 2° ordine – medie. Se (xi – µi)(yi – µy) è il prodotto degli scarti tra i valori assunti da ogni unità e le rispettive medie → → la covarianza è: σxy = 1/N ∑N

i=1 (xi – µi)(yi – µy) oppure: σxy = 1/N ∑N

i=1 xiyi – µyµx

Il 2° metodo è più semplice: evita di

calcolare tutti gli scarti dalle medie.

.

Si osservi, infine, che, qualora abbia senso, è possibile ricercare anche la retta di regressione che spiega la dipendenza della X dalla Y: a = σXY / σ2

Y b = – (σXY / σ2Y) µY + µX

Altra formulazione retta: y = µy + ρ σy/σx (x – µx) (pag. 139 libro vecchio)

Nota: non si interpreta così: 1/N∑(xy – µyµx) Ma così: (1/N∑xy) – µxµy

E quindi: µxy – µxµy

ρ = σxy / σx σy

1Y* = a + bx

1σ*2Y = σ2

Y – σ2XY / σ2

X

1σ2Y = σ2

XY / σ2X

ρ2 = 1σ2Y / σ2

Y

δ2y = ρ2

y / η2y,

. . .

. . .

Assume, ovviamente, valore positivo in presenza di relazione diretta e negativo se inversa.

. . . .

Nota: Se ρ2 = 0 la retta è parallela all’asse x con y = µ.

La parabola di regressione (y = cx2 + bx + a) • La media dei quadrati degli scarti dei valori effettivi yi dai valori teorici 2y* i è detta varianza residua dalla

parabola di regressione. Rappresenta quella frazione di varianza totale σ2Y non spiegata (quindi residua) dalla

parabola di regressione: Si noti che, rispetto alla definizione fornita per la retta di regressione, a parte la formula, cambia soltanto: 1y* i → 2y* i Stesso dicasi per la varianza spiegata dalla parabola, la cui formula è: Ancora una volta, varianza spiegata + varianza residua = varianza totale. Allo stesso modo, il rapporto di correlazione ora non è più lineare bensì parabolico: 2η

2y e rappresenta la frazione normalizzata di varianza totale σ2

Y spiegata dalla parabola di regressione. Si noti, che, spiegando di più la parabola, il residuo che ne deriva è < rispetto alla retta. L’ indice che ora misura l’attitudine della parabola a sintetizzare il grado di dipendenza è il rapporto di dipendenza parabolico (non più lineare): (come sempre, se non c’è residuo è = 1). Salendo ulteriormente di grado, troveremo, quindi, il valore rη

2y detto rapporto di correlazione polinomiale di grado r.

La regressione multipla lineare (pag. 171 libro vecchio) Se la parabola di regressione fornisce miglioramenti irrilevanti, lo studio della dipendenza può essere approfondito ipotizzando che la variabile Y dipenda da più di una variabile condizionante, passando al piano di regressione multipla, la cui equazione è: Y*XZ = a + bX + cZ. Lo sviluppo dei rapporti tra i determinanti generati dal sistema che ne scaturisce fornisce i coefficienti:

• Il coefficiente a è l’ intercetta del piano sull’asse Y; • Il coefficiente b indica che, posto Z costante, all’aumentare di un’unità della X si riscontra un aumento medio

della Y; • Il coefficiente c indica che, posto X costante, all’aumentare di un’unità della Z si riscontra un aumento medio

della Y. I l modello di grado 0 Integrazione con la lezione del 5 novembre 2007 Formula generica di polinomio: Y = f(x) = a0 + ax + a2x

2 + … + anxn max = n – 1 (es.: se n = 3 → parabola)

Se il grado è 0, significa che la variabile indipendente x non è considerata: y = a0 (ha poco senso è un caso di dottrina). ∑(yi – y* i)

2 = min al posto di y* i sostituisco il polinomio y* i = a0. Pertanto: ∑(yi – a0)

2 = min 1) faccio la derivata y 2) la media è quella costante che rende minima la sommatoria delle distanze → 0y = µy. µy ← è il polinomio di grado 0: non spiega nulla; varianza spiegata = 0σ

2y = 0 → è tutto residuo.

x µσ*2

y = 1/N∑(yi – µy* i)2

0σ2y = 1/N∑(yi – µy)

2 = varianza totale: se il residuo è massimo → varianza totale = varianza residua. Sappiamo che l’ indice di miglioramento r+1ρ

2Y = (rσ*2

y – r+1σ*2y)/rσ*2

y esprime il beneficio che si ottiene nel passare ad un polinomio di grado superiore. Nel caso del passaggio dalla retta alla parabola si passa dal grado 1 al grado 2. In questo caso si passa dal grado 0 al grado 1: (0σ*2

y – 1σ*2y)/0σ*2

y. Poiché abbiamo appena detto che 0σ*2y = σ2

y, (σ2

y – 1σ*2y)/σ

2y = 1σy

2 / σy2 = ρ2 quindi ρ2 è anche considerabile come indice di miglioramento da grado 0 a grado 1.

La regressione e cor relazione parziale Si definisce retta di regressione parziale la retta che spiega il legame lineare tra due variabili X e Y depurate dal legame lineare che hanno dalla Z: ZY = a + bXZ Si definisce coefficiente di correlazione parziale il coefficiente di correlazione esistente tra gli scarti che le variabili X e Y hanno dalle rette di regressione che ne spiegano la dipendenza lineare dalla variabile Z: ZρXY = b(σX/σY) = σXY/(σXσY) Integrazione con la lezione del 12 Novembre 2007: abbiamo studiato y in dipendenza di x e z. Ora vogliamo sapere come si comportano x e y congiuntamente se z è costante. Y = f(x, z). Che differenza c’è con y = f(x)? Z viene contemplata, ma è costante. Per l’orale: cosa sono i residui di x da z? Si ipotizzi di avere y*=f(z); x*=f(z). Calcolo i residui: y – y* ; x – x* (valori teorici – residui). La formula della retta di regressione parziale è: zy = µy + b(x – µx) b, c sono i coefficienti del piano (se siamo fortunati negli esercizi a,b,c potrebbero esser dati) xy = µy + c(z – µZ) y = a + bx + cz retta: y = f(x|z) x = µx z = µz y = a + bx + cµz y = a + bµx + cz. È l’ intersezione di 2 piani → è una retta. Se y = 250 – 7x + 4*3 = 262 – 7x xy = 250 – 7 * 40 + 4z = –30 + 4z Punti che servono per gli esercizi: è come la parabola z = x2, i calcoli sono uguali; in un caso c’è una variabile al quadrato, nell’altro c’è una nuova variabile. Saltare le dimostrazioni delle formule. Ultimo argomento: funzioni linearizzabili Y = a + b1/x non è lineare, ma è linearizzabile → 1/x = w → y = a + bw → lo trasformo in retta (stessa cosa se ci fosse il logaritmo naturale di x: lo pongo = w).

2σ2Y = 1/N∑N

i=1 (a + bxi + cx2i – µY)2

2σ*2Y = 1/N∑N

i=1 (yi – 2y* i)2

2δ2y = 2η

2y / η

2y

Domanda Risposta

Mediana Riordino, Posizione: (N+1)/2 se dispari, N/2 se pari

Indice di variabilità relativa C.v. = σ/µ Spiegare la dipendenza di Y da X. Retta, varianza spiegata della retta Valutare la capacità interpretativa/bontà dell’interpolazione

ρ2

Valore medio di X che lascia invariata la

quantità ∑Ni=1yi

Il vincolo della conservazione della somma è: ∑Ni=1yi = ∑N

i=1f. I dovrà soddisfare la condizione di equivalenza di Chisini. Sostituisco I ad x.

Verificare che I soddisfa le proprietà di una media analitica.

Soddisfa la condizione di equivalenza di Chisini? Sì. E la condizione di internalità di Cauchy se 1 ≤ I ≤ valore max.

Sapendo che la relazione lineare Z=f(X) spiega la dipendenza di Z da X soddisfa la condizione f(0) = 0, si individui f.

Si trova l’equazione Z = (xz/x2)X

Si misuri il grado di dispersione (assoluto e normalizzato)

Indice γ di Gini. γ’ = γ / γmax

dove γmax è il valore che assume l’indice in caso di Equidistribuzione.

La difformità in dipendenza delle classi. Si calcoli l’incidenza della Y da X.

Calcolo γ1, γ2, etc. La media ponderata delle misure di dispersione in ciascuna classe è una misura della dispersione residua γ* . γ = γ – γ* è una misura della difformità spiegata dalle classi. Per ottenere una misura normalizzata, o l’incidenza, si calcoli l’indice τ di GGK

Prevedere il tasso medio di incremento e un’opportuna interpolante.

Valore iniziale(1 + t)n = valore finale. Trovare t. Oppure la retta.

Costruire una situazione di perfetta dipendenza in media biunivoca

Esiste perfetta dipendenza in media di X da Y (η2 = 1) se ad ogni valore di Y corrisponde un solo valore di X. Affinchè ηx

2 = 1 e ηy2 = 1 è necessario che tutti i

dati differiscano tra loro.

Si confrontino le distribuzioni di X condizionate da Y

Se le serie condizionate di X|y non sono direttamente compatibili fra loro e con la marginale in quanto sono caratterizzate da un diverso totale, la comparabilità può essere raggiunta ricorrendo alle frequenze relative.

Si valuti la dipendenza di X da Y e da Z Se caratterizzate da un diverso totale, sono stocasticamente indipendenti. Uso GGK

Si calcoli σ e µ complessivi Calcolare la media totale, quindi la varianza come spiegata + residua. Si confronti la variabilità dei fenomeni attraverso un indice opportuno

C.v. = σ/µ

Si spieghi Y in dipendenza della variabile con cui risulta maggiormente correlata

Confronto ρYX2 e ρYZ

2 e trovo quella maggiormente correlata con Y. Retta di regressione. Se mi chiede il valore che prevede Y = n inserisco n nella formula.

Quale variabile influisce di più sulla X? Se si ipotizza un legame lineare tra le variabili, si può analizzare la dipendenza di tipo funzionale della

variabile X da ciascuna delle altre due variabili, ricorrendo al coefficiente di correlazione ρXY e ρXZ. Per trovarlo, si devono trovare tutte le medie µX, µY, µZ, µXY, µXZ e le covarianze σXY e σXZ e le

varianze σ2 di x, y, z.

Quale modello statistico può prevedere X, con determinate Y e Z?

Piano di regressione multipla, con coefficienti a,b,c. Poi inserisco nella formula del piano i valori dati.

Si confrontino le distribuzioni Si costruiscono le distribuzioni condizionate (numero/totale colonna) e si dice su quali variabili è concentrata la distribuzione.

Si illustrino le condizioni di minima e massima connessione, sia teoricamente, sia costruendo le tabelle di frequenze

La condizione di minima connessine è quella di indipendenza stocastica in cui le distribuzioni condizionate sono tutte, contemporaneamente, uguali fra loro (e quindi uguali alla distribuzione marginale). Le frequenze teoriche in caso di dipendenza stocastica … arrivare a fare Pearson-Pizzetti.

Date le medie, le varianze e le covarianze X Y Z, si individui la retta di regressione, un opportuno indice di bontà

Retta, ρ2 = σYV2 / (σY

2 σV2). Dire quanto spiega.

Dato il piano, se ne valuti la bontà. Rapporto di correlazione lineare multipla: VWηY2 = 1 – VWσ*Y

2/σY2 che esprime la

frazione normalizzata di varianza totale di Y spiegata dal piano di regressione. Per trovare il valore della varianza residua: VWσ*Y

2 = µ2Y – aµ2Y – bµYV – cµYW. Si utilizzano le relazioni esistenti tra momenti e momenti misti: µ2Y = σY

2 + µY2

µYV = σYV + µYµV µYW = σYW + µYµW Si ottiene così YWσ*Y

2 E ottengo anche: VWηY

2 = 1 – VWσ*Y2/σY

2 Dato il piano, si valuti il miglioramento relativo ottenuto introducendo nel modello di regressione multipla una seconda variabile.

Indice di miglioramento multidimensionale: VWρ2Y = (VσY*

2 – VWσY*2)/ VσY*

2 Poiché VσY*

2 = σY*2 (1 – ρ2) si ottiene VWρ2

Y = (VσY*2 – VWσY*

2)/ VσY*2 si trova una

riduzione o un aumento di varianza residua.

Si individui la retta di regressione parziale che spiega Y in funzione di V, in costanza di W.

Essa può essere individuata, ponendo nell’equazione del piano di regressione, la µW = w. Pertanto l’equazione del piano di regressione si riduce alla retta parziale.

Si valuti con opportuno indice la bontà del modello di regressione parziale.

Un opportuno indice per valutare la bontà del modello di regressione parziale è dato dal quadrato del coefficiente di correlazione parziale: Wρ2

YV Si dia un giudizio sulla variabilità di X È utile calcolare la differenza quadratica media (Δ) che indica il grado di difformità

tra le unità statistiche osservate. Δ = σ√2 √(N/N – 1) dove σ=√(µ2 – µ2) Si riportano le elaborazioni utili al calcolo degli operatori statistici presenti nell’equazione: X, f, Xf, X2, X2f. Si ottengono così: µx, µ2(x), σ2x = µ2(x) – µ2(x), σx. Quindi ottengo Δ. Devo normalizzarlo. Per far ciò è utile costruire la tabella di massima variabilità, cioè mettendo metà delle frequenze al primo valore, l’altra metà all’ultimo valore e agli altri mettendo 0. Applicando ancora le formule precedenti, troviamo Δmax da cui Δ/Δmax.

ηY|X2 = ρ2 = 1

[A=0,B=1,C=0] Nel primo caso, la varianza residua dalle medie condizionate σ2* e la varianza residua dalla retta di regressione 1σ

2* sono uguali tra loro ed entrambe uguali a zero. Si è in presenza di una situazione ottima e di massima efficacia della retta di regressione nel sintetizzare la distribuzione.

0< ηY|X2 = ρ2<1

[A=1,B=0,C=1] Le due varianze residue risultano uguali, ma provengono da due concetti diversi. Le medie condizionate sono perciò uguali ai valori teorici e quindi allineate. Caso di non migliorabilità.

Data una tabella a doppia entrata, dire che valore devono assumere A, B, C, in modo che:

ηY|X2 = 1 e ρ2<1

[A=1,B=0,C=0] In questo caso la varianza residua dalle medie condizionate risulta =0, mentre la varianza dalla retta è ≠0. Le media condizionate non sono pertanto allineate. Caso migliorabile.

Si stimi il dato mancante scegliendo il metodo più conveniente tra: media, mediana, interpolante di primo grado tra X e Y.

Si calcoli, media, mediana, retta.

Si esprima un giudizio sulla variabilità di X e di Y.

Normσ2x = σ2x/maxσ2x = σ2x/(µ(x1 + xn) – x1xn – µ2). Commentare se X o Y ha

dispersione >. Quale metodo è più aderente? Il metodo dell’interpolante considera sia X sia Y. Si descriva, con opportuni indici, la posizione e la dispersione della distribuzione distinta per Y.

Y, qualitativo ordinale, può essere sintetizzato dagli indici di posizione moda e mediana (N/2 oppure (N+1)/2). Per valutare la dispersione, possono essere calcolati l’indice γ di Gini = ∑n

j=1(1 – f.j/N) e l’indice normalizzato γ’= γ/γ max. Una misura normalizzata di mutabilità relativa alla moda è data da: δ’ = δ/δmax con δ = (N – f(Mo))/N e con δmax = (N – f(Mo)min)/N

Si individui la distribuzione di frequenze congiunte che esprime la condizione di massima connessione, giustificando la scelta.

Vedi appunti su indipendenza e connessione (fino ad arrivare a Pearson-Pizzetti) sino ad arrivare a GGK.

Si determini la quantità media nel rispetto del vincolo di conservazione della spesa complessiva del totale, riconoscendo il tipo di media.

q = s/p. Chisini.media aritmetica ponderata (in questo caso).

Si misuri l’intensità del legame lineare presente e si individui un’opportuna funzione interpolante

Una misura dell’intensità e del verso (positivo o negativo) del legame è data da ρ. Retta e soliti coefficienti. ρ2 spiega la percentuale di variabilità.

Si effettui uno studio completo della dipendenza di Y da X e Z

Si introduce il modello del piano di regressione coi suoi coefficienti. Un indice di bontà di adattamento ai dati del piano è dato dal rapporto di correlazione multipla lineare: XZηY

2=1 – XZσ2*Y/σ2

Y. Poiché la varianza residua dal piano di regressione multipla è pari a XZσ

2*Y = µ2(y) – aµ2Y – bµYX – cµYZ. Il confronto tra i valori della

varianza residua dalla retta e dal piano di regressione permette di valutare il miglioramento ottenuto introducendo nel modello lineare la variabile Z. A tal fine si calcola l’indice di miglioramento multidimensionale: XZρY

2=(XσY*2 – XZσY*

2)/ XσY*2,

dove XσY*2 = σY

2 – σXY2/σX

2. Dalla lettura dell’indice di miglioramento si evince che l’introduzione di Z ha portato a riduzione/aumento della varianza residua del tot%.

Calcolare la media di X nel rispetto del vincolo di conservazione del tot.

La relazione funzionale che lega il prezzo, la Q e la spesa è: S=XY. Poiché il vincolo di conservazione della spesa totale impone che: ∑n

i=1si=∑ni=1xiyi e la

condizione di equivalenza di Chisini prevede che: ∑ni=1xiyi = ∑n

i=1Iyi, il prezzo medio vale I =∑n

i=1xiyi / ∑ni=1yi

Confrontare la variabilità delle distribuzioni di X, Y, S

Calcolare le medie e le varianze di X, Y e S. Per effettuare il confronto si calcano i coefficienti di variazione: CVX = σX/µX etc. da cui emerge la > variabilità.

Stimare l’eterogeneità. Configurare i casi estremi.

Per stimare l’eterogeneità della mutabile si può ricorrere al calcolo dell’indice di Gini considerando come frequenze “il numero di addetti”. Si ottiene γ. I casi estremi sono la massima concentrazione e l’equi-distribuzione.

Si valuti il tasso medio di variazione. Si spieghi ora la dipendenza attraverso un modello lineare. Si confronti la bontà dei modelli individuati. Si faccia una previsione sulla base dei 2 modelli (inserendo i numeri nelle formule).

Valore iniziale(1 + t)n = valore finale. Dall’andamento del grafico si può capire se il valore se il valore debba esser positivo o negativo. Retta. Per effettuare il confronto, è necessario utilizzare le elaborazioni: XT, 1X, (XT – X)2, (1X – X)2. Il modello lineare risulta essere migliore se la somma degli scarti al quadrato dai valori effettivi risulta essere inferiore rispetto al modello col tasso medio.

Si stimi in modo opportuno il numero di Y, valutando la bontà dell’interpolante.

Retta e ρ2.

Dopo aver calcolato le medie riferite ad ogni X, si valuti la frazione di varianza totale spiegata dalla retta.

Occorre calcolare le medie condizionate delle Y rispetto alle X. La retta interpolante le medie condizionate ha la stessa equazione della retta di regressione: µ(Y|X)= µy + σXY/σ2

X(X – µX). Occorre calcolare 1δ2

Y = ρ2/ηy2.

Dove ηy2 = σ2

Y/σ2Y e dove: σ2

Y = 1/N∑ni=1[µ(y/x) – µY]

2fi. Dopo aver individuato il carattere condizionante (X) e quello condizionato (Y), effettuare uno studio completo della dipendenza di Y da X. E casi limite.

Retta e ρ2. I casi limite che si possono presentare sono:

• ρ=0, che segnala la presenza di in correlazione tra le variabili;

• ρ=1, che segnala la presenza di un legame diretto perfettamente lineare fra le variabili;

• ρ=-1, che segnala la presenza di un legame inverso perfettamente lineare tra le variabili;

• ρ2=η2, che segnala la non migliorabilità del modello di regressione lineare semplice, in quanto le

medie condizionate sono allineate lungo la retta di regressione ma esiste del residuo non eliminabile.

Retta: Y=μy–(σxy/σ2

x)μx + (σxy/σ2

x)x dove: Visto che X è dato, lo inserisco nell’equazione finale e prevedo Y.

Le medie sono: μy=∑Y/N, μX=∑X/N, μXY=∑XY/N

σXY = μXY – μX * μY

σ2

x = ∑X2/N – μX

2

Dati ∑X, ∑Y, ∑X2, ∑Y

2, ∑XY, ∑X

3, ∑X

4, ∑X

2Y

prevedere Y dato X ricorrendo ad un modello lineare. Valutare la bontà del modello individuato.

Per valutare la bontà del modello si calcola il rapporto di correlazione lineare ρ2. Ciò rende necessario calcolare anche la varianza di Y: σ2

Y = ∑Y2/N – μY

2.

ρ2 = σXY2/( σ

2x σ

2Y ). Fare le solite considerazioni: spiega per il tot% etc.

Rifare la previsione ricorrendo al modello parabolico. Valutarne la bontà.

Parabola: si vedano le formule sul formulario. La bontà del modello è fornita dal rapporto di correlazione parabolico: 2ηY

2.

Confrontare l’efficienza dei 2 modelli. Il confronto tra l’efficienza dei 2 modelli è dato dall’indice di miglioramento:

r+1ρ2

Y = (rσ*2

y – r+1σ*2

y)/rσ*2

y

dove: 1σ*2

y = σ2

y (1 – ρ2)

Nozioni di calcolo combinator io (Appunti di Roberto Scarella e Davide Benza) Disposizioni semplici (Dn,k): si definiscono disposizioni semplici di n soggetti tutti distinti di classe k (scelti a k alla volta) tutti i sottoinsiemi che si possono formare con k degli n elementi in modo tale che differiscano tra loro per la natura di almeno uno degli elementi componenti o per l’ordine con cui questi si presentano. Tali disposizioni possono anche essere viste come: a partire da un gruppo n si ottengono sottogruppi di k unità e non è ammessa la ripetizione dell’oggetto. In formula: Dn,k = n!/(n-k)! Esempio 1: disposizione di 4 elementi a gruppi di 3 diversi tra loro per ordine o natura. D4,3 = 4!/(4-3)! = 4!/1! = 24 gruppi Esempio 2: disposizione di 10 elementi a gruppi di 4 diversi tra loro per ordine o natura D10,4 = 10!/(10-4)! = 10! / 6! = (10*9*8*7*6*5*4*3*2*1)/(6*5*4*3*2*1) = 10*9*8*7 = 5040 Permutazioni semplici (Pn): si definiscono permutazioni semplici di n oggetti tutti distinti (Pn) tutti i gruppi che si possono formare con gli n oggetti, in modo tale che differiscano esclusivamente per l’ordine con cui questi si presentano. Pn=n! Esempio1: permutazione di 3 elementi a gruppi di 3 diversi tra loro per l’ordine. Soggetti a,b,c possono formare le seguenti possibili permutazioni: (a,b,c)(a,c,b)(b,a,c)(b,c,a)(c,a,b)(c,b,a). In formula: Pn=n!=3!=6 Esempio2: ci sono 4 posti liberi al cinema, i soggetti A,B,C,D in quanti modi possono disporsi? Pongo n=4 e K=4, non avviene distinzione per natura ma solo per ordine, non ci possono essere ripetizioni, queste particolari disposizioni sono permutazioni semplici e vengono indicate con: Dn,n = Pn = n!= 4! Combinazioni semplici (Cn,k): si definiscono combinazioni semplici di n soggetti tutti distinti di classe k tutti i sottogruppi che si possono formare con k degli n elementi in maniera tale che differiscano tra di loro esclusivamente per la natura di almeno un componente. Cn,k= Dn,k/Pk =coefficiente binomiale = n = n = n!/[k!(n-k)!]

k n-k cioè: Valore sopra! .

Valore sotto! * (Valore sopra – Valore sotto)! Esempio 1: combinazione di 4 elementi a gruppi di 3 diversi per la loro natura. Cn,k= n!/(k!(n-k)!) = 4!/(3!(4-3)!) Esempio 2: combinazione di 4 elementi a gruppi di 4 diversi per la loro natura. Cn,k= 4!/(4!(4-4)!) = 4!/(4!0!)=0!=1 N.B.

Con r ipetizione Disposizioni con r ipetizione (Dr

n,k): si definiscono disposizioni con ripetizione di n soggetti tutti distinti di classe k (scelti k alla volta) tutti i sottoinsiemi che si possono formare con k degli n elementi in modo tale che differiscano tra loro per natura di almeno uno degli elementi componenti, per l’ordine con cui questi si presentano o per la presenza ripetuta di qualche elemento. Dr

n,k = nk Esempio: 3 soggetti (a,b,c) concorrono all’attribuzione di 2 ruoli non alternativi, possibili disposizioni: (a,a)(a,b)(a,c)(b,a)(b,b)(b,c)(c,a)(c,b)(c,c) = Dr

n,k = nk = 32 = 9 Combinazioni con r ipetizione (Cr

n,k): si definiscono combinazioni con ripetizione di n soggetti tutti distinti di classe k (scelti k alla volta) tutti i gruppi che si possono formare con k degli n elementi in modo tale che differiscano tra loro per la natura di almeno uno degli elementi componenti o per la presenza ripetuta di qualche elemento. Cr

n,k=Cn+k-1,k =n+k-1

k Esempio: 5 soggetti (a,b,c,d,e) concorrono all’attribuzione di 3 ruoli senza nessuna limitazione sui ruoli occupati: Cr

n,k = n+k-1 = 5+3-1 = 7! / (3!4!) = 5040/144 = 35

k 3 Permutazioni con r ipetizione (Pr

n;k1,…kh) Si definiscono permutazioni con ripetizione di n oggetti gli ordinamenti che si possono formare considerando distinti i gruppi che differiscono tra loro per la posizione d’ordine di almeno un elemento: n! / k1! * … * kh!

Schema r iassuntivo: Conta l’ordine Conta la natura Contano entrambi

SI (K>n) Prn,k1…kh CR

n,R DRn,k Qualcosa si r ipete?

NO (K≤n) Pn Cn,k Dn,k

Gli eventi casuali Si definisce evento casuale ogni realtà o accadimento (fisico o concettuale) incerto sia perché possibile ma relativo a una osservazione o esperimento non ancora realizzatosi, sia perché possibile ma relativo a una osservazione o esperimento realizzatisi ma di cui non si conosce il risultato, tali eventi spesso vengono definiti come eventi casuali propri. Altre definizioni:

• Evento casuale elementare: ogni possibile esito dell’esperimento. Es: lanciando un dado che esca un numero tra 1 e 6. • Evento certo (Ω): l’evento che si presenta sempre qualunque sia l’esito dell’esperimento. Tale insieme viene

anche chiamato spazio campionario in quanto è l’ insieme di tutti i possibili esiti. • Evento impossibile (∅): l’evento che comunque non può presentarsi nella realizzazione dell’esperimento. • Evento casuale proprio: sottoinsieme dello spazio campionario. Es: nel lancio del dado uscita dei numeri 1,3,5. • Spazio degli eventi (BΩ): collezione di tutti gli eventi possibili per un dato esperimento (lancio dado: esca da 1 a 6).

I l caso del dado Il numero totale degli elementi contenuti nello spazio degli eventi relativo al lancio del dado è dato da tutti i possibili sottoinsiemi che si possono formare dall’ insieme Ω, comprendendo l’ insieme stesso e l’ insieme vuoto. Essi sono: 6 = 1 evento impossibile (∅) 6 = 6 eventi casuali elementari 0 1 6 = 15 possibili coppie di eventi casuali elementari: 6 = evento certo Ω 2 (1,2)(1,3)(1,4)(1,5)(1,6)(2,3)(2,4)(2,5)(2,6)(3,4)(3,5)(3,6)(4,5)(4,6)(5,6) 6 Formula: il numero totale degli eventi generabile da uno spazio campionario finito che contiene n elementi è 2n

Operazioni tra eventi casuali 1) Unione: si definisce evento unione tra due eventi A e B, e si indica con “A∪B”, l’evento che si realizza qualora si

presenti indifferentemente uno degli eventi casuali elementari contenuti negli eventi A o B. L’unione gode delle seguenti proprietà:

o Commutativa: A∪ B ≡ B∪A o Associativa: A ∪ (B∪C) ≡ (A ∪ B) ∪ C ≡ A ∪ B∪ C o Di idempotenza: A ∪ A ≡ A

2) Differenza: si definisce evento differenza, tra due eventi A e B, e si indica con “A−B”, l’evento che si realizza qualora si presenti l’evento A ma non l’evento B. La differenza gode delle seguenti proprietà:

o A − B = 1 o A ∪ B = (A − B) ∪ B = A ∪ (B − A)

3) Intersezione: si definisce intersezione tra due eventi A e B, e si indica con “A∩B”, l’evento che si realizza quando si presentano congiuntamente entrambi gli eventi componenti. L’ intersezione gode delle proprietà:

o Commutativa: A ∩ B = B ∩ A o Associativa: A ∩ (B ∩ C) = (A ∩ B) ∩ C = A ∩ B ∩ C o Di idempotenza: A ∩ A = A o Inoltre: A − (B∩C) = (A−B) ∪ (A−C)

4) Eventi incompatibili: due eventi A e B, si definiscono incompatibili quando manifestandosi l’uno non si presenta l’altro e viceversa. Naturalmente A ∪ B = ∅

5) Eventi complementar i: due eventi si definiscono complementari quando non presentandosi l’uno si presenta l’altro e viceversa. Pertanto due eventi complementari sono anche incompatibili ma non è necessariamente vero che due eventi incompatibili sono complementari. Il complementare dell’ insieme A si indica con A e rappresenta l’ insieme di tutti gli elementi che non appartengono ad A. Proprietà degli eventi complementari:

o A ∪ B = Ω o A ∩ B = ∅ o A ∪ A = Ω o A = (A ∩ B) ∪ (A ∩ B) o 1° legge di De Morgan: A∪B=A∩B o 2° legge di De Morgan: A∩B=A∪B

6) Par tizione dell’ insieme: la collezione di n eventi casuali, A1,A2....,An, rappresenta una partizione dell’evento certo se sono a due a due disgiunti e la loro unione è l’evento certo. Proprietà della partizione degli insiemi:

a. A i ∩ AJ = ∅ n i,j = 1,2,...,n

b. U Ai = Ω i=1

7) Inclusione: un evento si dice incluso (contenuto) in A (B ⊂ A) quando al verificarsi di B si presenta sempre anche A ma non viceversa. Qualunque evento A è incluso nell’evento certo Ω, che viene pertanto definito inclusor maximun, e contiene l’evento impossibile ∅, che viene definito inclusus minimun, cioè:

a. ∀ A ⊂ Ω → A ∪ Ω = Ω A ∩ Ω = A

b. A ⊃ Ω → A ∪ ∅ = A

A ∩ ∅ = ∅ c. Inoltre, se B ⊂ A, allora:

i. A ∪ B = A ii. A ∩ B = B iii. B ⊃ A (⊃ = contiene)

8) Alcune propr ietà degli operator i: a. Transitiva: se A = B e B = C allora A = C b. Distr ibutiva dell’ intersezione r ispetto all’unione: A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∪ C) c. Distr ibutiva dell’unione r ispetto all’ intersezione: A ∪ (B∩C) = (A∪B) ∩ (A∪C)

L ’algebra degli eventi

La coppia (Ω, BΩ) viene definita spazio probabilizzabile, in cui Ω = spazio campionario e BΩ = insieme di un numero finito di n elementi da ω1 a ωn. BΩ è una Algebra di Boole, cioè una classe che possiede le seguenti proprietà: Ω € BΩ A € BΩ => Ā € BΩ

A1, A2, …, An € BΩ => Uni=1 A i € BΩ

Inoltre per la legge di De Morgan segue che: ∩ni=1 A i € BΩ

Una estensione Sia Ω un insieme infinito e numerabile, valgono le stesse proprietà di cui sopra, ma con n = ∞. Una generalizzazione Sia Ω un insieme infinito e non numerabile. È necessario restringere il campo con al più un’ infinità numerabile di operazioni, ottenendo la classe di Borel, formata dalla famiglia monotona delle semirette: R(x) = (-∞,x] con x € R Ad ogni semiretta corrisponde, come controimmagine, l’elemento R–1(x) € BΩ I l concetto di misura finita Una misura finita m è caratterizzata dalle seguenti proprietà:

1) È una funzione definita su un’algebra (σ-algebra) di insieme BΩ 2) ∀A ⊂ BΩ => m(A) ⊂ R [0, ∞) 3) m(0) = 0 4) m (Ω) < a < ∞ 5) è completamente additiva. Ciò si verifica se, data una sequenza di eventi disgiunti A i, m(Un

i=1A i) = ∑∞i=1m(A i) m(A|Ω) si definisce misura normalizzata di A su Ω.

La Probabilità I l concetto di probabilità: la probabilità, intesa come misura associata ad un evento casuale, è una proprietà fisica dell’evento stesso, altre considerazioni intendono la probabilità come grado di fiducia che un ricercatore, sulla base delle sue esperienze, nutre nel verificarsi dell’evento in questione, si sono sviluppati diversi filoni teorici:

1) Concezione classica: se, per un determinato evento A, è possibile determinare il numero di casi favorevoli n(A) ed il numero di casi possibili n(Ω) realizzabili in quella prova, nell’ ipotesi che siano tutti egualmente possibili si definisce probabilità dell’evento P(A) la quantità: P(A) = n(A) / n(Ω)

2) Concezione statistica: si definisce probabilità statistica di un evento A la quantità, se esiste finita, P (A) = limn→∞ n(A)/n con n(A) il numero di casi in cui è stato osservato l’evento A ed n il totale di osservazioni.

3) Concezione soggettiva: la probabilità di un evento è la misura del grado di fiducia che un determinato soggetto attribuisce al suo verificarsi.

I l calcolo delle probabilità, gli assiomi di Kolmogorov Sia BΩ un’algebra di insiemi:

1) P (A) ≥ 0 con A € BΩ 2) P (Ω) = 1 3) P (A ∪ B) = P(A) + P(B) se A ∩ B = ∅

La coppia di insiemi (Ω, BΩ) viene definita spazio probabilizzabile. Ad essa viene associata la funzione di probabilità P(⋅), giungendo a definire lo spazio di probabilità, (Ω, BΩ, P) in cui a ciascun evento A € BΩ viene associata la probabilità P(A). Per il terzo assioma possono essere elencate le seguenti relazioni:

• P(Ω) = P(∅) + P(Ω) • P(Ω) = P(A) + P(Ā) • P(A) = 1 - P(Ā)

Il terzo assioma può essere così generalizzato: P [Ui(Ai)] = ∑i P(Ai)Ai Ω Aj = ∅ ∀i ≠ j = 1,2,... La misura di probabilità P(A) deve essere considerata una misura normalizzata di A su Ω, ottenendo così che ogni misura finita m può essere trasformata in misura di probabilità mediante la posizione P(A) = m(AΩ) = m(A) / m(Ω) La formula delle probabilità totali Se A e B sono due eventi, l’evento unione è scomponibile nell’unione di eventi incompatibili: A ∪ B = (A – (A ∩ B)) ∪ (B – (B ∩ A)) ∪ (A ∩ B) per il terzo assioma si ottiene la formula delle proprietà totali: P (A ∪ B) = P (A) + P (B) – P(A∩B) La probabilità condizionata: es: lancio di due dadi, probabilizzare i seguenti accadimenti: a. Il risultato dell’esperimento è 8 (probabilità incondizionata) b. Il risultato dell’esperimento è 8 nel caso in cui il primo dado ha fornito un numero pari. Soluzione caso a: i lanci favorevoli sono: P (A)= 5/36 = (2,6)(3,5)(4,4)(5,3)(6,2) Soluzione b: i lanci favorevoli sono: 3 * 6 = 18 → primo lancio pari * secondo lancio, i risultati favorevoli al risultato finale sono (2,6)(4,4)(6,2) cioè l’ intersezione tra i due eventi A e B. Formalmente: P(AB) = 3/18, perciò: P (A ∩ BΩ) = m (A ∩ B) / m(Ω) P (B) = m(B) / m(Ω) P (AB) = P(A ∩ B) / P(B); è la formula delle probabilità condizionate o quarto assioma del calcolo delle probabilità. P (BA) = P(A ∩ B) / P(A) P (A ∩ B) = P(A) P(BA) = P(B) P(AB) Eventi indipendenti (domanda da orale): un evento A è indipendente da un evento B se P(AB) = P(A), ovvero se le informazioni sull’evento B non alterano le probabilità associate all’evento A, se A e B sono indipendenti la loro intersezione è il prodotto delle probabilità: P(A ∩ B) = P(A) P(B) Condizioni necessarie per l’ indipendenza sono: A ∩ B ≠ 0 , A – B ≠ 0, B – A ≠ 0, A ⊄ B, B ⊄ A. Generalizzando: P[∩i(A i)] = ∏i P(A i)P(A i A j) = P(A i) Teorema di Bayes, è un approfondimento della definizione di probabilità condizionata dalle relazioni: P(A ∩ B) = P(A) P(BA) P(B) = P(A ∩ B) + P(Ā ∩ B) da cui si può dedurre: P(AB) = P(A ∩ B) = P(A) P(BA) . = P(A) P(BA) .

P(B) P(A ∩ B)+P(Ā ∩ B) P(A) P(BA) + P(Ā)P(BA)

Esempio N Malato 98% 3% Sano 4% 97%

(98*3)/(98*3+4*97)= = 0,431 = 43,1%

Nota bene: A ∩ B = ∅ significa che i due insiemi sono disgiunti. Solo in questo caso si può dire che (A ∪ B) = P(A) + P(B) e che (A ∩ B) = P(A)*P(B). Attenzione a non sbagliare negli esercizi!

Tale formula è definita formula di Bayes o legge delle probabilità delle cause, consente di calcolare la probabilità che il manifestarsi di un evento sia imputabile a una specifica fra le altre possibili cause, che sono tra loro incompatibili.

La var iabile aleator ia (v.a. o var iabile casuale) La variabile aleatoria è una funzione che associa a ciascun elemento dello spazio campionario un numero: Ω → R. Definizione: l’applicazione X: Ω → R che associa a ciascun elemento di uno spazio campionario un numero (contenuto in R) è definita variabile aleatoria se, per ogni semiretta R(x) =) definita dalla R(x) = (-∞,x] con x € R, la sua immagine inversa A(x) = X-1[R(x)] è contenuta in BΩ. A(x) = X-1[R(-∞¬x)] è detta funzione di ripartizione della v.a.X. Esempio: nel lancio di monete la variabile aleatoria associa la vincita di 1 euro all’uscita di testa. In questo modo probabilizzo un qualcosa di numerico, quantitativo. Non posso fare la media di testa o croce ma posso fare la media della vincita. Con la lettera maiuscola “X” si indica la variabile aleatoria, la lettera minuscola ”x” indica il singolo fenomeno. La funzione che associa a ciascuna intensità della variabile aleatoria la probabilità che questa si verifichi viene definita legge di probabilità. Proprietà della legge di probabilità:

• La legge di probabilità è sempre positiva • La somma delle singole probabilità deve dare 1

Classificazione delle variabili aleatorie: 1. v.a. binomiale Bi (n,p): conta il numero di successi in “n” prove indipendenti. Esempio: ho un urna con

palline di colore diverso, campionamento con reinserimento, cioè estraggo guardo il colore e reinserisco la pallina nell’urna. La probabilità che riesca quella stessa pallina è costante. L’ inserimento garantisce l’ indipendenza di una prova dall’altra (nota: argomento spesso chiesto all’orale).

Esempio: un’urna contiene 10 palline, di cui 4B e 6N. n = 5 estrazioni con reinser imento. Voglio ottenere 3B. P(BBBNN) = (4/10)(4/10)(4/10)(6/10)(6/10) = (4/10)3 (6/10)2 = … Ma poiché P(BBBNN) = P(NBNBB) = P(NNBBB) = …, è necessario trovare il numero di possibili esiti con questo risultato, in pratica devo tenere conto anche dell’ordine.

n° possibili esiti: 5 = estrazioni = 5 * 4 * 3* 2! = 60/6 = 10 3 n° di B che voglio ottenere 3 * 2 * (5–3)!

Adesso moltiplico il numero di possibili esiti con ordine diverso per la probabilità: 10 * (4/10)3 (6/10)2 = 0,2304 = 23,04% Generalizzando ottengo la seguente formula: n px qn–x = estrazioni (probabilità che esca B)n° di volte che esce B(probabilità che esca N)n° di volte che esce N x n° di B che voglio ottenere ovvero: n° di prove (probabilità di successo)n° di successi(probabilità di insuccessi)n° di insuccessi n° di successi

Per calcolare la media e la varianza della v.a. binomiale Bi(n,p):

a. µx = ∑ xi ρ(xi) → µx = n*p b. σ2

x = ∑ (xi - µx)2 ρ(xi) = ∑ (xi

2 ρ(xi)) - µx → σ2 = n*p*q In conclusione, se ci sono “n” prove indipendenti e sto contando i successi, si tratta di v.a. binomiale.

2. La v.a. Ipergeometr ica H (N,n,p): in questo caso le prove non sono indipendenti (sono dipendenti), campionamento in blocco, estraggo le palline e non le reinserisco (senza reinser imento), ciascuna prova è condizionata dall’esito delle prove precedenti. In formula: Riprendendo l’esempio svolto per la Bi:

Np Nq 4 6 n° di B per differenza H(x . N,n,p) = x n-x = 3 2 = 5/21 = 23,81% = n° di B che voglio ottenere per differenza ׀ N 10 tot palline n 5 tot estrazioni essendo: n-x = numero di insuccessi p = frazione di elementi favorevoli q= 1-p = frazione di elementi sfavorevoli

N = numero totale di elementi Np = numero elementi favorevoli Nq = numero elementi sfavorevoli

Nota: se N è molto grande e n è molto piccolo (es.: N = 100 e n = 2) => la H tende alla Bi perché reinserire una pallina o non reinserirla praticamente non cambia nulla (nota: argomento spesso chiesto all’orale).

3. La v.a. Geometr ica Ge(p): è un caso particolare della binomiale (con reinser imento) in cui l’unico successo

è l’ultima estrazione e conta il n° di prove x necessarie ad ottenere il 1° successo, essendo le prove indipendenti ed effettuate a probabilità costanti: Esempio: P(1a B dopo 3N, cioè alla 4a estrazione) Essendo indipendenti, calcolo la P(NNNB), ma ricordando che è = P(BNNN) = … = (6/10)3(4/10) Ge (x׀p) = (1 – p)(x-1)p = (1 – 4/10)(4–1) 4/10 = (6/10)3(4/10) = 216/1000*0,4 = 0,0864 Pertanto: µx = ∑ xi pi = 1/p (risponde alla domanda: “quante prove sono necessarie in media?”)

σ2 = q/p2

4. La v.a. di Pascal (binomiale negativa) Pa(p,k): è la generalizzazione della v.a. geometrica, ma in questo caso

il riferimento non è all’estrazione del primo successo, ma riguarda la probabilità di estrarre la Ka pallina bianca alla xa estrazione; è il verificarsi congiunto di due eventi tra loro indipendenti (con reinser imento). Esempio (con riferimento alle solite palline B e N): P (estrarre la 2a pallina B alla 4a estrazione) =? È l’ intersezione di P(NBN), in tutti gli ordini possibili, con P (pallina B alla 4a estrazione). Pa(p,k)= x-1 pk-1 (1 – p)x-k p = x – 1 pk (1 – p)x–k = 3 (4/10)2(6/10)4–2 = 0,1728 = 17,28%

k-1 k – 1 1

Binomiale poiché: pk-1 p = p k = 3(4-1) 3 = 34 con: µx = k/p σ2=kq/p2

5. La v.a. di Poisson (λλλλ): è un’approssimazione della Binomiale, si usa quando gli eventi sono molto rari e il numero delle prove è molto alto, in formula: Po(x|λ) = (λxe-λ)/x! Dove λ = n*p ≡ µ ≡ σ2

6. La v.a. Continua: si utilizza nel caso di una serie di valori non numerabili, in cui non ha senso calcolare la probabilità di un singolo punto (l’ integrale in un punto è zero per definizione), ad ogni punto assoceremo un valore che è la densità, il calcolo della probabilità sarà fatto per intervalli. Il suo spazio campionario è ∞ non numerabile. Formule: • Densità: f(X) = F’(X)= dF(x)/dx • Media: µx = ∫-∞

+∞ x f(x) dx

• Var ianza: ∫-∞+∞

x2 f(x) dx – µx

2 • Indice di asimmetria: 1/σ3 ∫-∞

+∞ (xi – µ)3 f(x) dx

• Indice di curtosi (è uguale a quello di asimmetria ma è alla quarta): 1/σ4 ∫-∞+∞

(xi – µ)4 f(x) dx La funzione di ripartizione è continua ovunque. Esempio: f(x) = ¼ tra 0 e 4 0 altrove Integrazione con la lezione del 3 Dicembre ’07: Quando lo spazio è un insieme numerabile, si è di fronte ad una v.a. discreta, mentre quando è definito tra 2 spazi si ha una v.a. continua. Se è continua è così definita: F(X = x) = ∫0-∞ f(t) dt dove f(x) è la funzione di densità. Ha due proprietà: 1. f(x) ≥ 0 (la probabilità non può essere negativa) 2. ∫-∞

+∞ f(x) dx = 1 (è la probabilità dell’evento certo)

Esempio facile: derivata Disegno: F(x) = 0 x<0 f(x) = 0 x≤0 f(x) = ¼ 0<x≤4 x/4 0<x≤4 ¼ 0<x≤4 0 altrove 1 x>4 0 x>4 ¼ P(a<x<b) = F(b) – F(a) = P(2<x<3) = F(3) – F(2) = ¾ - 2/4 = ¼

Infatti: ∫b-∞ f(x) dx – ∫a-∞ f(x) dx 0 2 3 4 Non sempre si usano gli integrali, spesso si può evitarlo utilizzando il metodo grafico. Esempio nuovo, un po’ più complicato: introduciamo K. f(x) = Kx 0<x<8 1) f(x) ≥ 0 per quali valori di K succede? 0 altrove Kx ≥ 0 ma x è compreso tra 0 e 8 quindi K ≥ 0. 2) con la 2a proprietà trovo K: ∫-∞

+∞ f(x) dx = 1

= ∫0-∞ 0 dx + ∫80 (Kx) dx + ∫8+∞

0 dx → (Torr.Barr.) → → [Kx2/2]8

0 = K82/2 – K02/2 → 32K = 1 → K = 1/32

Le funzioni di r ipar tizione: misurano le aree delle funzioni (integrali); per tutte le variabili aleatorie, la F di ripartizione sono le ∑ da i a J che generano i valori cumulati. Cioè: per calcolare il 30% faccio la f (v.a.), mentre per calcolare ≤30% faccio la F (funzione di ripartizione). La funzione di densità è invece la derivata.

7. La v.a. Uniforme continua (rettangolare) R(a,b): ha come parametri generici a,b che sono gli estremi in cui la variabile esiste, è un metodo grafico. µx = (b + a)/2 σ2 = (b – a)2/12 (12 è un n° fisso) Esempio fatto in classe il 3 Dicembre 07: 1/(b–a) f(x) 1/(b – a) a<x<b 0 altrove a x µx b F(x) a x<a (x – a)/(b – a) a≤x≤b 1 x>b

8. La v.a Normale N (µ, σ): viene anche definita variabile aleatoria gaussiana, la maggior parte della

popolazione si trova intorno alla media. Questo tipo di esercizi non si risolve con calcoli numerici, ma con l’utilizzo delle tavole (vedi grafico di assicurazioni, con code della distribuzione). P.to di flesso

-½ [(x – µ)/σ]2 f(x) = 1 * e X~N(µ, σ)

√2π σ

µ µ+σ F(x) = ∫-∞

x f(x) dx La tavola della normale standard ha µ = 0 e σ = 1: N(0,1) Formula di standardizzazione: z = (x – µ)/σ Esempio 1: X~N(µ=170, σ=5) P(x<172) Fare SEMPRE il grafico! F(172) = ∫-∞

172 f(x) dx Trasformiamo x in z, utilizzando le tavole: 172 Fx(172) = Fx[(x – µ)/σ] = (172 – 170)/5 = 0,4 170 175 x A questo punto cerco 0,4 sulle tavole: Intestazione di riga: 1° decimale Intestazione di col.: 2° decimale Otteniamo 0,6654 che, essendo vicini a µ -1 0 Z1 1 e avendo superato il 50% “ci può stare” . Esempio 1bis: Se nell’esempio precedente sostituiamo P(x>163) → 1 – P(x<163) → per la simmetria (163 dista 7 da 170 come 177) → P(x<177) = 1 – Fz(-1,4) = 0,9192

Esempio 2: X~N(µ=98, σ=?) Manca un parametro, ma sappiamo che il 25% > 102. P(x>102) = 0,25 Fx(102) = Fz(z1) con z1 = (102 – 98)/σ Procedo sulle tavole al contrario: cerco il valore più vicino a 0,75 (ho trovato riga 0,6 e colonna 0,07 → 0,7486) e trovo 0,67. Quindi: z1 = 0,67 → σ = (102 – 98)/0,67 = 5,9701492537313432835820895522388 Esempio 2bis: Se avessimo valori minori di µ, esempio: P(x<95) = 0,15 → per la simmetria (95 dista 3 da 98 come 101) → cerco sulle tavole (1 – 0,15) = 0,85 → z1 = 1,04 = (101 – 98)/σ → σ = 2,8846153846 Esempio 3 (è l’esercizio più difficile, che esce spesso all’esame): il 10% della produzione è > 10 ed il 20% < 9. Trovare σ e µ. P(x>10) = 0,10 P(x<9) = 0,20 20% 10% 9 µ 10 z1 = (10 – µ)/σ → cerco sulle tavole (1 – 10%) = 0,9 → z1 = 1,28 (10 – µ)/σ = 1,28 - z2 = (9 – µ)/σ → cerco sulle tavole (1 – 20%) = 0,8 → z2 = -0,846 (9 – µ)/σ = -0,846 10 – µ = 1,28σ Risolvo per differenza 9 – µ = -0,846σ 1 = 2,12σ → σ = 1/2,12 = 0,471698113207547169811320

Binomiale approssimata: Bi(n,p) → N(np, √npq) La binomiale è simmetrica se p = q. γ1 = (q – p)/√npq Più la p si avvicina a q, più la binomiale si avvicina alla Gaussiana. Se sono molto distanti, per compensare si deve aumentare di molto n.

Attenzione! Quando l’ incognita è la media, non si può ragionare immediatamente per simmetria

Funzione di r ipar tizione della v.a. Normale standardizzata F(z) = P(Z<z) Nota: su internet e su altri libri si trovano tavole che tengono conto “dell’altra metà della Gaussiana” (basta fare: -0,5).

Riassunto finale delle formule: Simbolo Formula Nome/descrizione Osservazioni

σ2x σ2 = 1/N ∑n

s=1 (xs – µ)2 fs

σ2 = σ2x + σ*2

x

σ2 =µ2 – µx2

dove µ2 = (x2fx)/N

Formula generale Varianza totale = spiegata + residua Formula più veloce Momento di ordine 2

σ*2y = quantità media delle varian-

ze delle distribuzioni condizionate. σ2

y = varianza delle medie delle distribuzioni condizionate.

c.v. c.v. = σ/µ = √σ2/µ Coefficiente di variazione È un indice di variabilità σxy (sigma)

σxy = 1/N ∑ni=1 (xi – µi)(yi – µy)

oppure: = 1/N ∑ni=1 xiyif i – µyµx

cioè: µxy – µxµy

Covarianza Misura l’ intensità della dipendenza funzionale tra X e Y

σ*2Y σ*2

Y = 1/N∑ni=1(Y|xi)fi. Varianza residua dalle medie condizionate

Y=a + bx Y=µy–(σxy/σ2x)µx + (σxy/σ

2x)x Retta di regressione Dipendenza in media di Y da X.

ρ (rho) ρ = σxy / σx σy ρ = µxy – µxµy . (µx2 – µx

2) (µy2 – µy2)

Coefficiente di correlazione = = covarianza / (scarto quadratico di x * scarto quadratico di y)

Se elevo al quadrato ho ρ2. Misura l’ intensità del legame lineare. Dà indizi sull’ inclinazione della retta.

1σ*2Y = σ2

Y (1 – ρ2) = σ2Y – σ2

XY / σ2X Varianza residua dalla retta di regr. Scarti tra valori effettivi e teorici

1σy2 1σy

2 = σ2xy / σ

2x Varianza spiegata dalla retta di regr.=

= Covarianza2 / varianza di x Se lo divido per la varianza totale di y ottengo ρ2.

ρ2 ρ2 = 1σy2 / σy

2 (teoria) ρ2 = σxy

2 / σx2 σy

2 (esercizi) (x mutabili)

Rapporto di correlazione lineare = = varianza spiegata dalla retta varianza tot

Spiega la bontà dell’ interpolazione della retta. Se = 0, è // all’asse x.

1η2

(eta) 1η

2 = σy|x2 / σy

2

1η2 = 1 – residuo/totale

(x variabili)

Rapporto di correlazione = = varianza spiegata dalle medie cond. varianza tot

È la normalizzata della varianza. Spiega la bontà/dipendenza delle medie cond. È = 1 se il residuo = 0.

δ2y

(delta) δ2

y = ρ2y / η

2y Indice di dipendenza lineare: frazione di varianza totale spiegata dalla retta interpolante le medie.

Se è vicino allo 0, posso cercare la dipendenza superiore: parabolica. Se = 1 → medie cond. allineate.

Coefficienti della parabola di regressione (a + bx + cx2): ∑y ∑x ∑x2 N ∑x ∑x2 a= ∑xy ∑x2 ∑x3 : ∑x ∑x2 ∑x3 ∑x2y ∑x3 ∑x4 ∑x2 ∑x3 ∑x4

N ∑y ∑x2 N ∑x ∑x2 b= ∑x ∑xy ∑x3 : ∑x ∑x2 ∑x3 ∑x2 ∑x2y ∑x4 ∑x2 ∑x3 ∑x4

N ∑x ∑y N ∑x ∑x2 c= ∑x ∑x2 ∑xy : ∑x ∑x2 ∑x3 ∑x2 ∑x3 ∑x2y ∑x2 ∑x3 ∑x4

DET = Il determinante di una matrice 3x3 è la differenza tra la somma dei 3 prodotti degli elementi uniti dalle linee del disegno di sinistra e la somma dei 3 prodotti degli elementi uniti dalle linee del disegno di destra. Per calcolare i coefficienti della parabola di regressione è necessario svolgere tali calcoli per ognuna delle 6 matrici e quindi effettuare le divisioni tra i risultanti determinanti.

2η2 2η

2 = 2σy2 / σy

2 = 1 – 2σ* 2 / σy2

2σ* 2 Dove la var. res. d. parabola è:

2σ* 2=1/N(∑yi2 –a∑yi –b∑xiyi –c∑xi

2yi)

Rapporto di correlazione parabolica = = varianza spiegata dalla parabola varianza tot

Esprime la bontà del modello parabolico. Dove la var. spiegata è: 2σy

2 = 1/N∑(a+bx+cx2 – µy)2

2δ2y 2δ

2y = 2η

2y / η

2y Indice di dipendenza parabolica =

= rapporto di correlazione parabolico rapporto di correlazione

Si avvicina di più ad 1 rispetto alla lineare: + ↑ grado + ci si avvicina.

r+1ρ2Y r+1ρ

2Y = (rσ*2

y – r+1σ*2y)/rσ*2

y Indice di miglioramento = = differenza tra le varianze residue

varianza residua del polinomio di grado<

Esprime il beneficio che si ottiene nel passare da un polinomio di grado r ad uno di grado r+1.

Y*XZ Y*XZ = a + bX + cZ. Piano di regressione multipla Ha i seguenti coefficienti: b = (σ2

Z σXY – σXZ σYZ) / (σ2X σ2

Z – σ2XZ) c = (σ2

X σYZ – σXY σXZ) / (σ2X σ2

Z – σ2XZ)

a = µY – µX (σ2Z σXY – σXZ σYZ)/(σ

2X σ2

Z – σ2XZ) – µZ (σ2

X σYZ – σXY σXZ) / (σ2X σ2

Z – σ2XZ) = µY – µXb – µZc

XZσ*2Y = 1/N∑N

i=1(yi – xzy* i)2 =

= 1/N∑Ni=1y

2 –aµY–bµxy–cµyz = = µ2(y) – aµY – bµxy – cµyz

Varianza residua dal piano di regressione multipla

La base della formula è uguale a quella della parabola ma il piano ha come pedice xz.

XZσ2Y 1/N∑N

i=1(a + bxi + czi – µY)2

Varianza spiegata dal piano di regressione multipla

Per calcolarle è necessaria la conoscenza dei 3 coefficienti.

XZη2Y = XZσ

2Y / σ2

Y = 1 – XZσ*2Y / σ2

Y Rapporto di correlazione multipla lineare

Esprime la bontà del piano.

XZρ2Y = (Xσ*2

Y – XZσ*2Y)/Xσ*2

Y = = [(σ2

y–σ2xy/σ

2x) – XZσ*2

Y]/(…) Indice di miglioramento multidimensionale = = (var.res.retta – var.res.piano)/var.res.retta

È la riduzione normalizzata di varianza residua tra i polinomi (Y*X) e (Y*XZ)

Mediana: (xi+1 – xi):(Me – xi)=(Fxi+1 – Fxi):(F0,5 – Fxi) Media armonica: Ma = N/∑n

i=1 (1/xi) fi. Media quadratica: Mq = √1/N ∑n

i=1 xi2 fi Media geometrica: Mg = N√Πn

i=1xi fi Variabilità relativa: varianza, se normalizzata: c.v.

Mutabilità relativa (δ) = δ’ = δ / δmax = N – f(Mo) .

N – (N/n + 1) Variabilità assoluta ∆ = σ √2 √N/(N – 1) Variabilità assoluta normalizzata: ∆max ≈ |xn – x1| / √2

φ(x) è simmetrica rispetto alla µ se φ(µ – κ) = = φ(µ + κ).

Come misura della asimmetria si utilizza, il 1° indice utile dispari, l’ indice γ1 di Pearson: γ1 = µ[(X – µ)/σ]3 = µ3 / σ3 Dove il momento centrale di ordine 3 è µ3 = 1/N∑n

i=1(xi – µ)3fi Cur tosi: è la diversa eccedenza degli scarti assoluti dalla µ e si misura con l’ indice di curtosi di Pearson γ2, che è come l’ indice γ1, ma elevato alla 4a anziché alla 3a. La curtosi determina l’ampiezza grafica della gaussiana. Se è=3 la distribuzione è normocurtica, se>3 leptocurtica, se<3 platicurtica. Indipendenza e connessione: Inizio dalla tabella di partenza:

1) verifico se c’è indipendenza stocastica oppure connessione, costruendo la tabella di indipendenza stocastica: a. moltiplico tra loro le corrispondenti distribuzioni marginali e le divido per N per tutti i punti

2) sottraggo alla tabella di partenza quella stocastica e ottengo la c.d. tabella delle contingenze: 3) misuro il grado di connessione (PEARSON-PIZZETTI):

a. Sommo C2ij / Y* ij = valori delle contingenze al quadrato diviso le frequenze teoriche di indipendenza stocastica → trovo χ2

(punto 2 al quadrato fratto punto 1) b. Normalizzo: χ2/χ2max

i. Posso trovare χ2max= Nmin:[(n – 1);(m – 1)]N = numero minore tra numero di righe e numero di colonne – 1, moltiplicato per N. In questo caso: (3 – 1)x100 = 200. Altrimenti:

ii. Trovo la tabella di massima connessione (rispettando il vincolo della conservazione delle distribuzioni marginali, dando + zeri possibili):

iii. Trovo χ2max = ∑(Tabella di massima connessione – Tabella di indipendenza stocastica)2 Tabella di indipendenza stocastica

γy = γ(Y|xi) = ∑mj=1fi/N(1 – fi/N) Gini: mutabilità assoluta.

A seconda che si cerchi l’ incidenza di X su Y o Y su X, fi può essere il totale di colonna o di riga: fi.= riga; f.j = col. γMax = 1 – 1/n Gini Massimo teorico γ’ = γ/γMax Gini Normalizzato γ1, γ2, γ3… = γ (per “colonne”) Gini per classi: difformità in dipendenza = dispersione condizionata. Uso fi. non f.j γ* y = ∑n

i=1γ(Y|xi)pi. Gini Residuo: è la sommatoria di tutti i Gini moltiplicati per fi/N, = γ1*totale col1/tot+ γ2*totale col2/tot…quindi è la media ponderata delle misure di dispersione = dispersione residua γy = ∑n

i=1d2(Y|xi.Y)pi. Gini Spiegato. O anche = Gini – Gini residuo.

γY γ*Y spiegato residuo L’ indice di Gini-Goodman-Kruskal è come il rapporto di correlazione η2, ma per le mutabili.

τ2X =

= 1 –

=

= 1 –

È dato infatti dal rapporto tra l’ indice di Gini residuo e l’ indice di Gini totale, oppure da: γY γY totale totale 1 – Gini residuo/Gini totale (più facile negli esercizi). Misura l’ intensità della dipendenza.

La per fetta interpolante: ρ2 = η2y = 1 e 1δ

2Y = ρ2 / η2

y = 1 La migliore interpolante: 0 < ρ2 = η2

y < 1 e 1δ2Y = ρ2 / η2

y = 1 Situazione migliorabile: 0<ρ2<1 e η2

Y = 1 e 0 ≤ 1δ2Y = ρ2 / η2

y ≤ 1 Retta parallela all’asse x: ρ2 = 0 con y = µ Var iabili aleator ie: Binomiale: n px qn–x µx = n*p x σ2 = n*p*q Ipergeometrica: Np Nq 4 6 n° di B per differenza

H(x ׀ N,n,p) = x n-x = 3 2 = 5/21 = 23,81% = n° di B che voglio ottenere per differenza . N 10 tot palline n 5 tot estrazioni

Geometrica: l’unico successo è l’ultima estrazione e conta il n° di prove x necessarie ad ottenere il 1° successo: Ge (x׀p) = (1 – p)(x-1)p µx = ∑ xi pi = 1/p σ2 = q/p2

Pascal: calcola la probabilità di estrarre la Ka pallina bianca alla xa estrazione: Pa(p,k)= x-1 pk (1 – p)x-k µx = k/p

k-1 σ2=kq/p2 Poisson: si usa quando gli eventi sono molto rari e il numero delle prove è molto alto.

Po(x|λ) = (λxe-λ)/x! Dove λ = n*p ≡ µ ≡ σ2 V.a. continua:

µx = ∫-∞+∞

x f(x) dx

Densità: f(X) = F’(X)= dF(x)/dx Var ianza: ∫-∞

+∞ x

2 f(x) dx – µx

2 Indice di asimmetria: 1/σ3 ∫-∞

+∞ (xi – µ)3 f(x) dx

Indice di curtosi: 1/σ4 ∫-∞+∞

(xi – µ)4 f(x) dx

V.a. continua uniforme: ha come parametri generici a,b che sono gli estremi, è un metodo grafico. µx = (b + a)/2 σ2 = (b – a)2/12 (12 è un n° fisso) La v.a Normale X~N(µ, σ): formula di standardizzazione: z = (x – µ)/σ

Binomiale approssimata: Bi(n,p) → N(np, √npq) La binomiale è simmetrica se p = q. γ1 = (q – p)/√npq

Asimmetria: 1 –½[(x – µ)/σ]2 con: γ1 = 0 φ(x) = e con: –∞ < x < +∞

σ√2π