enrico borgogno mondino [email protected] tel. uff. 011-6705523 trattamento delle...
TRANSCRIPT
Enrico Borgogno Mondino
Tel. Uff. 011-6705523
Trattamento delle OsservazioniGli errori di misura
Y
X
A
B
1) Misure ripetute della stessa grandezza NON coincidono (es. Se ripeto la misura di un angolo otterrò sempre misure leggermente diverse) esiste UNA misura VERA non conoscibile ed infinite STIME della MISURA VERA.
Quali problemi si pongono
Le misure sono affette da errori:
1) Grossolani (A e B nel disegno)
operatore
2) Sistematici
strumento
3) Accidentali
natura aleatoria del processo
di misura
Y
X
A
B
X
Y
Quale misura è quella vera?? Non si può dire. Ciò che si può dire è quale sia la miglior stima della misura vera.
Posso qualificare la mia misura definendone il valore e la precisione che la caratterizza?
Quali problemi si pongono
2) Le misure reali non rispettano i criteri geometrici (es. La somma degli angoli interni di un triangolo non è 180° ) misure che devono rispettare vincoli geometrici si dicono MISURE DIRETTE CONDIZIONATE
A
B
C
ab
c
v
Come faccio a recuperare la coerenza geometrica delle
osservazioni??
La STATISTICA come possibile soluzione dei problemi
Gli errori GROSSOLANI sono evidenti e possono essere facilmente rimossi sono, in genere, errori dell’operatore (di distrazione)
Gli errori SISTEMATICI possono essere rimossi o minimizzati utilizzando accorgimenti procedurali in fase di misura (regola di BESSEL per es.) sono in genere errori connessi alle modalità operative degli strumenti utilizzati (srettifiche)
Gli errori ACCIDENTALI non sono rimovibili possono essere minimizzati e gestiti. Lo strumento deputato a tale scopo è la STATISTICA.
L’approccio statistico consente di :
A) STIMARE il valore della MISURA
B) STIMARE il valore della precisione della MISURA
C) MINIMIZZARE e REDISTRIBUIRE gli errori rispettando i vincoli geometrici
(compensazione)
Che tipi di misure esistono?
MISURE DIRETTE restituite dallo strumento (misuro con distanziometro a e b)
MISURE INDIRETTE se derivate mediante formule a partire da misure dirette (ricavo c)
MISURE DIRETTE CONDIZIONATE se devono soddisfare vincoli geometrici
MISURE INDIRETTE CON ESUBERANZA DI OSSERVAZIONI ho più misure di quante ne servono, che danno luogo a più equazioni per la derivazione della stessa grandezza indiretta risolvendole separatamente senza precauzioni il valore che ottengo per la grandezza indiretta è diverso.
22 bac
A = a
C = cB = b
sinsin
ca
VARIABILE STATISTICA
TERMINOLOGIA:
- POPOLAZIONE: è un insieme FINITO di individui ognuno dei quali è caratterizzato da un attributo X che può assumere valori diversi DISCRETI.
- INDIVIDUI: sono i soggetti dell’indagine statistica (es. persone umane)
- ATTRIBUTO: è una caratteristica discreta degli individui che viene analizzata statisticamente (colore capelli, colore degli occhi …)
- VALORE ARGOMENTALE: è la misura dell’attributo
MX
X
X
I...
2
1La variabile statistica indica come i valori argomentali si distribuiscano fra gli individui di una popolazione reale
...211 NxxxX
VARIABILE STATISTICA
1 ,Fcon
...
...
...N
1ii
N
1ii
21
21
21
1
fN
fff
FFF
xxx
X
N
N
N
Intervallo argomentale [ x = xi+1-xi ]
Frequenza assoluta [ Fi ] : numero di individui con valore argomentale xi
Frequenza relativa : percentuale di individui sul totale (N)
aventi valore argomentale xi N
Ff ii
VARIABILE STATISTICA
Una variabile statistica può essere rappresentata graficamente da un ISTOGRAMMA DI FREQUENZA (ASSOLUTA o RELATIVA):
0
5
10
15
20
25
30
164-168 169-173 174-178 179-183 184-189
A BARRE
A TORTA
L’area dei rettangoli (o dei settori) definisce il numero di individui ricadenti in ciascuna CLASSE (può includere anche più valori incrementali)
VARIABILE STATISTICA
DIAGRAMMA CUMULATIVO DI FREQUENZA (ASSOLUTA o RELATIVA)
0
10
20
30
40
50
60
70
80
90
100
164-168 169-173 174-178 179-183 184-189
Si definisce FUNZIONE CUMULATIVA DI FREQUENZA (relativa o cumulata) O FUNZIONE DI DISTRIBUZIONE della variabile statistica C la seguente doppia successione
N
FFFGFFGFG
N
FFFg
N
FFg
N
Fg
xxx
C
n
nn
n
......
......
...
21121211
21212
11
21
VARIABILE STATISTICA
MOMENTI Si definisce momento k-esimo rispetto al polo (tipicamente 0) di una variabile statistica a una dimensione la seguente espressione:
MODA: è quel valore argomentale per cui è massima la frequenza;
MEDIANA: è quel valore argomentale che divide l’istogramma in due aree uguali
n
ii
kik fxm
1,
n
iii fxm
10,1
n
iii fxm
1
20,2
I momenti più significativi che descrivono una variabile statistica sono i seguenti:
Momento di I grado MEDIA Momento di II grado VALORE QUADRATICO MEDIO
VARIABILE STATISTICA
Ad ogni variabile statistica ne è associabile una nuova detta variabile statistica SCARTO (vi) così definita:
vi = xi - m1,0
la nuova variabile scarto V avrà lo stesso istogramma della variabile C ma l’origine delle ascisse coinciderà con il valore della media m1,0 (media nulla).
n
iii
n
iiixm fvfmxm
1
2
1
20,1
2,2
2
Il momento di secondo grado della
variabile scarto è detto varianza [ 2 ]:
La radice quadrata della varianza viene detta SCARTO QUADRATICO MEDIO (s.q.m.) o DEVIAZIONE STANDARD
VARIABILE STATISTICA
ATTENZIONE!!
La media M è quel valore argomentale che rende minima la varianza 2.
La media M ha il significato effettivo di “valore centrale”, di indice di posizione dei valori argomentali.
La varianza 2 è invece un indice di “dispersione” e risulta tanto maggiore quanto più elevati sono gli scarti. Pertanto tale indice rispecchia la distribuzione dei valori argomentali.
DALLA VARIABILE STATISTICA ALLA MISURA
L’operazione di misura costituisce un’ESTRAZIONE CASUALE di valori argomentali da una popolazione IGNOTA.
L’ESTRAZIONE CASUALE è un evento ALEATORIO (o STOCASTICO) cioè per il quale non è possibile prevedere l’esito.
L’ESTRAZIONE è CASUALE solo se gli individui della popolazione sono identici (non riconoscibili)
UN’ESTRAZIONE CASUALE da una popolazione costituisce un CAMPIONAMENTO e definisce una VARIABILE STATISTICA CAMPIONE (numero finito di individui)
E’ possibile dal CAMPIONE dedurre informazioni circa la popolazione dalla quale è stato estratto? è possibile da poche misure ripetute dedurre (STIMARE) la vera misura?
N
N
FFF
xxxX '
2'
1'
211 ...
...
DALLA VARIABILE STATISTICA ALLA MISURA
Legge EMPIRICA del CASO
Quando si effettua un numero N (grande a piacere) di estrazioni da una popolazione e ogni volta si rimette l’individuo estratto nella popolazione, si constata che:
A) tutti i valori argomentali della popolazione sono stati estratti;
B) le frequenze relative della variabile statistica tendono a stabilizzarsi cioè:
F’i (del campione) Fi (della popolazione “possibile”)
Nel caso di fenomeni aleatori non è mai prevedibile la modalità di uscita di un singolo evento, mentre si può quasi sempre ottenere una buona previsione di come si distribuiranno i risultati di un grande numero di estrazioni.
Si può affermare che un fenomeno aleatorio sarà conosciuto quando sarà nota la sua distribuzione.
DALLA VARIABILE STATISTICA ALLA MISURA
Legge EMPIRICA del CASO
La distribuzione “POSSIBILE” (non reale ma potenziale) che definisce un fenomeno aleatorio viene chiamata VARIABILE CASUALE.
La distribuzione è POSSIBILE perché ne si immagina l’esistenza attraverso la sperimentazione di successive estrazioni di variabili statistiche campione.
La VARIABILE CASUALE gode di tutte le proprietà della VARIABILE STATISTICA ma le frequenze associate ai valori argomentali definiscono la PROBABILITA’ con la quale quel VALORE INCREMENTALE può essere estratto.
n
n
pppp
XXXXX
321
321
n
iip
1
1
La probabilità, legata alla variabile casuale, è un concetto aprioristico assiomatico (PREVISIONALE), mentre la frequenza, legata alla variabile statistica, è un indice che misura a posteriori i risultati di una indagine statistica (DESCRITTIVO).
LA MISURA DIRETTA DI UNA GRANDEZZA é UN EVENTO ALEATORIO !!!
La ripetizione delle osservazioni di una stessa grandezza definisce una VARIABILE STATISTICA CAMPIONE attraverso la quale si vuole avere informazioni circa la POPOLAZIONE che rappresenta.
LA POPOLAZIONE cui il processo di misura fa riferimento definisce una VARIABILE CASUALE (distribuzione) CONTINUA pertanto le definizioni del caso discreto assumono forma differenziale e integrale (vedere seguito).
Riassumendo
A) variabile statistica: solo discreta – costruita a posteriori da una popolazione reale;
B) variabile casuale: discreta o continua – costruibile a priori da una popolazione possibile.
VARIABILE CASUALE CONTINUA
nipxxpxFi
jjii ,...,2,1)()(
1
0
)()()( 0
x
A
dxxfxxpxF
CASO DISCRETO CASO CONTINUO
b
a
dxxfaFbFbxaP )()()()(
1)( B
A
dxxf
p(x = xi) = pidp = f(x)dx
- La funzione y = f(x) è nota come densità di probabilità di X o funzione di frequenza.- La funzione g = F(x) è nota come Funzione di Distribuzione (analogo della Frequenza cumulata)
VARIABILE CASUALE CONTINUAMomenti
La funzione y = f(x) densità di probabilità di X o funzione di frequenza definita per il caso dell’evento aleatorio della MISURA si dimostra essere quella GAUSSIANA.
L’operazione di MISURA DIRETTA ripetuta è un campionamento dalla popolazione la cui distribuzione (VARIABILE CASUALE) è quella GAUSSIANA (O NORMALE). Si tratta di un modello matematico avente la seguente formulazione
2
2
2
22
1
mx
exf
MISURA DIRETTA DI UNA GRANDEZZA
2
2
2
22
1
mx
exf
Misurare direttamente un grandezza vuol dire campionare (cerchi rossi) una popolazione GAUSSIANA di MEDIA E DEVIAZIONE STANDARD da determinare sulla base del campione estratto.
Eseguire una misura diretta di una grandezza significa confrontarla con l’unità campione esprimendola come suoi multipli e sottomultipli.
N.B.
A) E’ possibile operare campionamenti (gruppi di misure ripetute) diversi.
B) Benchè si riferiscano alla stessa popolazione ciascun campionamento definirà
una VARIABILE STATISTICA CAMPIONE diversa dall’altra Media e S.q.m diversi
MISURA DIRETTA DI UNA GRANDEZZAQuali valori di M e utilizzo per descrivere la popolazione POSSIBILE??
Devo STIMARE quei particolari valori di M e che risultano i più idonei secondo il criterio della MASSIMA VEROSIMIGLIANZATale criterio stabilisce di definire M e in modo tale che sia massimizzata la PROBABILITÀ COMPOSTA di estrarre proprio le osservazioni compiute in fase di campionamento. Tale probabilità vale:
P(x) risulta massimizzata se risulta minimo l’esponente di e :
n
ii mx
nnn exfxfxfmxxxP 1
222
1
2/2212
212
1,/,,
n
ii mx
1
2
2 min2
1
Se la f(x) è una distribuzione GAUSSIANA, il principio di MASSIMA VEROSIMIGLIANZA conduce al principio dei MINIMI QUADRATI e la diretta applicazione di questo principio porta alla determinazione della stima più plausibile del parametro media
n
ii mx
1
2 min
PROPRIETA’ degli STIMATORI
Si definiscono stimatori degli operatori matematici in grado di restituire le migliori stime dei parametri della distribuzione GAUSSIANA incognita a partire da VARIABILI STATISTICHE CAMPIONE (di cui conosciamo e possiamo calcolare tutto). Tali STIMATORI devono produrre STIME:
1) CONSISTENTI : se al tendere all’infinito del numero N degli elementi del campione la
STIMA tende al suo valore teorico;
2) NON AFFETTI DA ERRORI SISTEMATICI: se la media della popolazione delle stime
coincide con la media della popolazione dalla quale vengono estratti i campioni;
3) EFFICIENTI: se rispetto a tutte le possibili stime del parametro, la popolazione cui
appartiene ha varianza minima.
),...,,(
),...,,(
212
21
n
n
xxxg
xxxhm
POPOLAZIONI IN GIOCO NEL PROCESSO DI STIMA
1) Esiste il CAMPIONE di MISURE DIRETTE con tutte le sue statistiche
2) Esiste una popolazione incognita da cui il campione è stato estratto e di cui stiamo
cercando le stime dei parametri che la definiscono
3) Esiste una popolazione delle medie dei campioni estratti (parametro 1)
4) Esiste una popolazione delle varianze dei campioni estratti (parametro 2)
3) E 4) esistono perché ogni n-pla di estrazioni che costituisce il campione definisce una propria coppia di parametri simili ma non identici. Sono possibili infiniti campioni dai quali è possibile derivare infiniti valori di media e varianza.
Si dimostra che le migliori stime di media e varianza secondo i criteri sopra esposti
sono:
n
xm
n
ii
1
1
1
2
2
nn
mxn
ii
mmm
La misura della grandezza si esprimerà come:
Esempi
1° Esempio Si è eseguita una misura di distanza tramite bindella da 20m e si sono effettuate quattro serie di determinazioni. In tabella sono riportate le misure effettuate e gli indici descrittivi che ne conseguono:
xi(m) vi(mm) Vi2(mm2)
45.81 -15 225 45.80 -25 625
45.84 +15 225 45.85 +25 625
mm 82.45
n
iiv
1
0
n
iiv
1
21700
mmnn
n
ii
mm
v 9.11667.141
)1(1
2
2
il risultato della misura è quindi: mmm 9.11 82.45
Esempi
2° Esempio Se la medesima misura viene eseguita con l’uso di un distanziometro ad onde elettromagnetiche e si effettuano nuovamente quattro determinazioni, si avranno i seguenti indici descrittivi:
xi(m) vi(mm) Vi2(mm2)
45.823 +1.3 1.69 45.821 -0.7 0.49
45.822 +0.3 0.09 45.821 -0.7 0.49
mm 821.45 02.01
mmn
iiv 76.2
1
2
n
iiv
mmnn
n
iiv
48.023.0)1(
1
2
2
Il risultato della misura è quindi: 45821 0 9. .m mm L’intervallo di variabilità in questo secondo caso è molto più ridotto, il della bindella risulta di un ordine superiore a quello del distanziometro.
Significato operativo dei parametri
2
2
2
22
1
mx
exf
DISTRIBUZIONE GAUSSIANA
Significato operativo dei parametri
All’intervallo è associato il concetto di precisione della misura (68% delle osservazioni).
All’intervallo è associato il concetto di affidabilità della misura (95% delle osservazioni)
All’intervallo è associato il concetto di tolleranza della misura (99.7% delle oss.)
mm 2
mm 3
mm
3m
2m
m
68.0)()(
m
m
dxxfmxmP
95.0)()22(2
2
m
m
dxxfmxmP
997.0)()33(3
3
m
m
dxxfmxmP
MISURA INDIRETTA DI UNA GRANDEZZA(Stima della media)
Sia y la grandezza determinata in modo indiretto attraverso la misura diretta delle grandezze X1, X2, .., Xk
),..,( 21 kXXXfy
nmmmm XXXfX ,...,, 21
Stima della MEDIA della misura indiretta della grandezza
Esempio
A
B
C
c
a
b
Si definisca la misura indiretta di a dopo aver misurato in modo diretto b, ,
m
m
mbbb
mamaa
sinsin
ba
sinsin
ba E’ la stima del valore medio della misura
indiretta di a
MISURA INDIRETTA DI UNA GRANDEZZAStima della VARIANZA: Legge di propagazione della varianza
Stima della varianza di una grandezza misurata indirettamente attraverso misure dirette NON CORRELATE fra loro
2
2
22
2
2
21
2
1
2 ... n
mnmm
X X
f
X
f
X
f
jiij
jin
mnmm
X X
f
X
f
X
f
X
f
X
f
2... 2
2
22
2
2
21
2
1
2
Stima della varianza di una grandezza misurata indirettamente attraverso misure dirette CORRELATE fra loro
Tornando all’esempio precedente si tratta di calcolare le derivate parziali richieste:
mmm
aa
b
a
; ;
MISURA INDIRETTA DI UNA GRANDEZZA CON MISURE ESUBERANTI
A
P
X
Y
O
B
Vogliamo determinare le coordinate planimetriche X,Y di un punto P visibile da due punti A e B di coordinate note (problema di intersezione semplice in avanti); la soluzione del problema avviene tramite la misura degli angoli azimutali in A e in B. In questo modo però, qualsiasi errore nella misura dei due angoli azimutali, provocherà un errore nella determinazione delle coordinate del punto P senza alcuna possibilità di accorgersene.
Se invece si esegue anche la misura del lato AP, avremo la possibilità di individuare eventuali errori nella misure degli angoli
In tal caso però andiamo in ridondanza di osservazioni, cioè abbiamo più equazioni di quelle strettamente necessarie a risolvere il problema
MISURA INDIRETTA DI UNA GRANDEZZA CON MISURE ESUBERANTI
La situazione nella quale ci troviamo è analoga a quella di un sistema (che ipotizziamo lineare) in cui il n° di equazioni > n° incognite
nrnnn
r
r
LXuXbXa
LXuXbXa
LXuXbXa
...
..............................
...
...
21
222212
112111 = Termini noti
Xi = incognite
n > r
Nel sistema tutte le grandezze, dirette e indirette, sono indicate con i rispettivi valori teorici di media (Li). In
questo caso (mondo delle idee!!), del tutto teorico, una qualsiasi serie di r equazioni, scelte tra le n disponibili, è
in grado di fornire una soluzione che soddisfa anche le restanti n-r equazioni.
Nella realtà noi disponiamo solo delle stime delle grandezze misurate direttamente (Li) che partecipano al
sistema pertanto le equazioni sono soddisfatte a meno degli scarti. Il sistema diventa allora:
nnrnnn
r
r
vLXuXbXa
vLXuXbXa
vLXuXbXa
...
..............................
...
...
21
2222212
1112111 La soluzione che andiamo cercando (stima delle grandezze incognite Xi) tra tutte le possibili è quella che minimizza la quantità
n
iiv
1
2 min
e per la quale sia massima la probabilità di estrarre proprio quelle stime dalle rispettive popolazioni possibili.
MINIMI QUADRATI
MISURA INDIRETTA DI UNA GRANDEZZA CON MISURE ESUBERANTI
Esempio1 : equazione della retta passante per l’origine
Esempio 2: equazione retta
Esempio 3: LIVELLAZIONE GEOMETRICA
MISURE DIRETTE DI DIVERSA PRECISIONE(misura di una grandezza fatta con strumenti di diversa precisione)
11
2
20
n
vpn
iii
n
ii
n
iii
p
p
Opm
1
1
Media stimata
12
Y
XO1
mO2
m
Y
X
22
On m
Y
X
n2
...............
2
20
23
20
322
20
221
20
1 ,,,,i
ipppp
Il concetto di peso di una misura: quanto conta nel processo di stima
Deviazione standard
n
ii
p
p1
202 con
Estrarre un individuo (O1) dalla distribuzione che ha
varianza 12 equivale ad estrarre p1 individui dalla
distribuzione di varianza 02 e farne poi la media.
Il peso assume il significato di fattore di omogeneizzazione. Mediante i pesi tutte le distribuzioni vengono riferite alla distribuzione 0
2 di peso unitario.