metodologie informatiche per la chimica - unibas.it · come si determinano le cifre significative...

30
Metodologie informatiche per la chimica Dr. Sergio Brutti Metodologie di analisi dei dati III

Upload: nguyentruc

Post on 27-Jul-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Metodologie informatiche per la

chimica

Dr. Sergio Brutti

Metodologie di analisi dei dati III

Domande di riepilogo

Vediamo cosa avete capito:

1. Quale è la differenza tra dati primari di misura e dati

derivati?

2. Cos’è un errore sistematico?

3. Che differenza c’è tra accuratezza e sensibilità di uno

strumento?

4. Quale è la differenza tra un trasduttore e un

detector?

5. Quale è la differenza tra precisione e giustezza di

uno strumento?

6. Quale è la differenza tra errore di sensibilità ed

errore casuale?

7. Che differenza c’è tra misure ripetute e misure

riprodotte?

8. Cos’è l’ordine di grandezza di un numero?

9. Come si determinano le cifre significative di una

misura?

Stimatori del valor vero Data una distribuzione discreta di valori di misure ripetute è

possibile utilizzare vari strumenti statistici per stimare il valor vero.

Media – media aritmetica di N misure

Moda – valore più ricorrente tra N misure

Mediana – valore che occupa la posizione centrale in un insieme di

numeri e rispetto al quale metà dei numeri ha valore superiore e l'altra metà

ha valore inferiore

Media armonica – il reciproco della media aritmetica dei reciproci

Media geometrica – radice N-esima del prodotto di N misure

Valore centrale – valore medio tra il massimo e il minimo dell’intervallo

delle misure

Media di una funzione continua Il valor medio di una funzione continua è dato dalla sua “media

integrale”

Consideriamo una funzione continua f(x) continua e integrabile entro

l’intervallo [a,b]. Si definisce media integrale m della funzione f(x):

b

a

b

a

b

a dxxfab

dx

dxxf1

m

La media integrale è ad esempio utile nel caso in cui si consideri la

cosiddetta media temporale, ovvero la media di un dato segnale

continuo (onda meccanica, onda elettrica, elettromagnetica,

acustica) in un intervallo di tempo definito:

2

112

1t

t

dttftt

tf

Media di una funzione continua: esempio

Consideriamo l’equazione di un onda elastica, armonica e

unidimensionale (astrazione di un onda in 1D):

In cui A, k, w e f sono delle costanti. Il valor medio tra t1 e t2 della

funzione f(x,t) a x=x0 sarà dato da:

fw txkAtxf cos,

Sostituendo ai simboli i valori delle costanti è possibile quindi

ricavare il valore medio della funzione continua f(x,t) nell’intervallo

di tempo definito.

2

1

2

1

2

1

0

12

0

0

12

0

12

0

1,

1,

1,

t

t

t

t

t

t

tkxsentt

txf

tkxsentt

dttxftt

txf

fww

wfw

Media di una funzione continua: significato geometrico

Consideriamo una funzione qualunque f(x) descritta dal seguente grafico:

L’integrale tra a e b è l’area sottesa dalla

curva:

a b

Dividendo l’integrale per (b-a) si ricava

l’altezza del rettangolo ideale la cui area

coincide con l’integrale stesso: essa

equivale alla media integrale

a b

H=media integrale

Media di una funzione continua: esempi

Calcolare la media integrale delle seguenti funzioni

0]1,1[2

,

1]1,0[,

0]2,1[22

1cos2,

11

xperytraee

yxf

yperxtraeyxf

xperttratxtxf

xy

yx

Stimatori del valor vero Esistono numerosi esempi di stimatori del valor vero. Lo stimatore

migliore nel caso di misure caratterizzate da grafici delle frequenze

con profili gaussiani è la media aritmetica. Nell’esempio proposto:

Media – 0.0968 s

Moda – 0.096 s

Mediana – 0.097 s

Media armonica – 0.0968 s

Media geometrica – 0.0968 s

Valore centrale – 0.097 s

Stimatori dell’incertezza di misura Consideriamo il set di misure definito dal seguente diagramma delle

frequenze. Come si stima l’incertezza delle misure dovuta agli errori

casuali e come si stima la conseguente incertezza della stima del

valor vero?

Deviazione standard

della popolazione

N

x

N

x

N

i

i

N

i

i

1

1

2

m

m

Incertezza associata alla

misura effettuata sull’intera

popolazione

Stimatori dell’incertezza di misura Un insieme di misure non rappresenta mai (al massimo approssima) l’intera

popolazione che descrive tutte le misure di una data grandezza. Pertanto lo

stimatore deviazione standard della popolazione sottostima l’incertezza di

misura. E’ possibile dimostrare che dato un insieme finito di misure di una

data grandezza lo stimatore corretto dell’incertezza di misura è:

Deviazione standard

N

x

N

x

s

N

i

i

N

i

i

1

1

2

1

m

m

Incertezza stimata su un

insieme finito di misure

Stimatori dell’incertezza di misura Tuttavia né la deviazione standard di popolazione, né tantomeno la

deviazione standard rappresentano la deviazione standard della media.

Lo stimatore dell’indeterminatezza dello stimatore del valor vero (media

aritmetica) nel caso di una distribuzione gaussiana di dati sperimentali è:

Deviazione standard

della media

N

x

NN

x

s

N

i

i

N

i

i

1

1

2

1

m

m

m

Incertezza associata alla

media aritmetica dato un set

finito di misure

Ricapitolando Dato il set limitato di misure rappresentato dal seguente grafico delle

frequenze è possibile stimare:

La stima del valor vero e dell’incertezza ad esso associato è quindi:

0.0968 ± 0.0005 da confrontare con 0.097 ± 0.005 (valore centrale e semidispersione)

Media – 0.0968 s

Deviazione standard della

popolazione

0.0024 s

Deviazione standard della

media

0.0005 s

Deviazione standard

0.0025 s

Semidispersione

0.005 s

Significato Dato il set limitato di misure rappresentato dal seguente grafico delle

frequenze la stima del valor vero e dell’incertezza ad esso associato è :

0.0968 ± 0.0005

da confrontare con 0.097 ± 0.005 (valore centrale e semidispersione)

Quel valore rappresenta una stima

del valor vero della grandezza

misurata e una stima della sua

indeterminatezza.

I due stimatori assieme

rappresentano l’intervallo di valori

nel quale probabilmente (68%) una

successiva misura dovrebbe

cadere.

Media di dati provenienti da misure riprodotte

Consideriamo una data grandezza fisica x e due insiemi di misure.

Le misure in ogni insieme sono ripetute mentre i due insiemi tra loro

costituiscono misure riprodotte.

Insieme

A

x1

x2

xn

Insieme

B

x’1

x’2

x’n

Ciascun insieme (set) di misure sarà caratterizzato da una media e da

una deviazione standard della media e delle misure

AAA

ss ,,m

m

Come si stima il valor vero derivante dai 2 insiemi (set) di misure?

BBB

ss ,,m

m

Media di dati provenienti da misure riprodotte

Insieme

A

x1

x2

xn

Insieme

B

x’1

x’2

x’n

AAA

ss ,,m

m

Come si stima il valor vero derivante dai 2 insiemi (set) di misure?

BBB

ss ,,m

m

E’ necessario tenere in conto in

qualche modo del fatto che le

misure appartenenti ai 2 set hanno

deviazioni standard delle misure

differenti

Media pesata

B

B

A

A

B

N

i

i

BA

N

i

i

A

Ns

Ns

xs

xs

22

12

12

11

11

m

Stimo la media pesando i due set di misure ciascuno con il corrispondente

quadrato degli inversi delle deviazioni standard delle misure

B

B

A

A

B

N

i

i

BA

N

i

i

A

Ns

Ns

xs

xs

22

12

12

11

11

m

E la deviazione standard della media proveniente

da dati di set riprodotti?

Il valor vero si stima mediante la media pesata delle misure dei due

set:

Similmente l’incertezza si stima considerando una sorta di media

ponderata delle deviazioni standard delle misure

B

B

A

A

Ns

Ns

s

22

11

1m

Due set di misure: esempio

Consideriamo due set di misure di una stessa grandezza fisica

definiti dal seguente diagramma delle frequenza

Le due valutazioni dei valori

veri con le relative

incertezze sono:

A: 0.0968 ± 0.0005

B: 0.0967 ± 0.0006

0

0.05

0.1

0.15

0.2

0.25

0.3

0.091 0.092 0.093 0.094 0.095 0.096 0.097 0.098 0.099 0.1 0.101 0.102 0.103

Fre

qu

en

za

Classe

Insieme A

Insieme B

Media di set di misure

riprodotte

0.0968 ± 0.0004

Media di dati con incertezze di misura variabili

Consideriamo una data grandezza fisica x e un insieme di misure.

Le misure sono ripetute ma a ciascuna è possibile associare una

incertezza di misura differente

Misure

x1

x2

xn

Incertezze

s1

s2

sn

Emerge la difficoltà di derivare la media di un campione di dati in cui

l’incertezza di ciascuna misura non è costante

Come si stima in questo caso il valore vero

e l’incertezza associata?

Media di dati con incertezza associate variabili

Come si stima in questo caso il valore vero

e l’incertezza associata?

E’ necessario tenere in conto in

qualche modo del fatto che le

misure hanno deviazioni standard

delle misure differenti

Media pesata

N

i i

N

i i

i

s

s

x

12

12

1m

Stimo la media pesando ciascuna misura con il corrispondente quadrato

dell’inverso della corrispondente deviazioni standard

Misure

x1

x2

xn

Incertezze

s1

s2

sn

E la deviazione standard della media di dati con

incertezza variabili?

Il valor vero si stima mediante la media pesata delle misure:

Similmente l’incertezza si stima considerando una sorta di media

ponderata delle deviazioni standard delle misure

N

i is

s

12

1

1m

N

i i

N

i i

i

s

s

x

12

12

1m

Misure con incertezze variabili: esempio

Consideriamo un set di misure di una stessa grandezza fisica con

incertezza di misura variabile

Il diagramma delle

frequenze corrispondente è:

0

1

2

3

4

5

6

7

8

9

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Val

ore

Progressivo misura

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

2 3 4 5 6 7 8

Fre

qu

en

za

Classe

L’incertezza è sempre il

10% della misura: al

crescere del valore

misurato cresce anche

l’incertezza associata

Misure con incertezze variabili: esempio

Dati il set di misure definito ai seguenti diagrammi (progressivo

misure e diagramma delle frequenze)

0

1

2

3

4

5

6

7

8

9

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Val

ore

Progressivo misura

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

2 3 4 5 6 7 8

Fre

qu

en

za

Classe

Media pesata

e incertezza pesate

3.6 ± 0.1

Media e incertezza

della media

4.6 ± 0.4

Esempio

Consideriamo l’etilene CH2=CH2

1. Lo disegno con Avogadro

2. Ottimizzo la geometria con i 5 Force-Fields che sono

implementati su Avogadro. Questi sono i risultati elaborati:

FF Distanza

C=C

A

Distanza

C-H

A

Angolo

H-C=C

gradi

Gaff 1.10 1.10 131.6

Ghemical 1.34 1.09 120.3

MMFF94 1.34 1.09 121.0

MMFF94s 1.34 1.09 121.1

Uff 1.33 1.09 120.2

FF Distanza

C=C

A

Distanza

C-H

A

Angolo

H-C=C

gradi

Gaff 1.10 1.10 131.6

Ghemical 1.34 1.09 120.3

MMFF94 1.34 1.09 121.0

MMFF94s 1.34 1.09 121.1

Uff 1.33 1.09 120.2

Esempio

A partire dalla matrice delle misure ottenute per le distanze di legame

e per l’angolo è possibile stimare le medie e le incertezze

N

M

m

mN

i

i

1

aritmetica media

1

1

2

NN

x

s

N

i

im

m

FF Distanza

C=C

A

Distanza

C-H

A

Angolo

H-C=C

gradi

Gaff 1.10 1.10 131.6

Ghemical 1.34 1.09 120.3

MMFF94 1.34 1.09 121.0

MMFF94s 1.34 1.09 121.1

Uff 1.33 1.09 120.2

Esempio

Proprietà Stima

Distanza C=C / A 1.29 ± 0.05

Distanza C-H / A 1.09 ± 0.01

Angolo H-C=C / gradi 122.8 ± 2.2

Si osserva che il dato di C=C ottimizzato con Gaff è piuttosto

“scadente” ovvero devia significativamente dalla media. Cosa fare?

FF dC=C

A

C=C dC-H

A

C-H

aH-C=C

gradi

H-C=C

Gaff 1.10 0.20 1.10 0.03 131.6 12.0

Ghemical 1.34 0.10 1.09 0.02 120.3 2.0

MMFF94 1.34 0.02 1.09 0.02 121.0 0.5

MMFF94s 1.34 0.02 1.09 0.02 121.1 0.4

Uff 1.33 0.05 1.09 0.02 120.2 1.0

Esempio

I parametri molecolari calcolati sono in realtà ciascuno corredato di

una sua incertezza che è l’errore di sensibilità del metodo

computazionale

FF dC=C

A

C=C dC-H

A

C-H

aH-C=C

gradi

H-C=C

Gaff 1.10 0.20 1.10 0.03 131.6 12.0

Ghemical 1.34 0.10 1.09 0.02 120.3 2.0

MMFF94 1.34 0.02 1.09 0.02 121.0 0.5

MMFF94s 1.34 0.02 1.09 0.02 121.1 0.4

Uff 1.33 0.05 1.09 0.02 120.2 1.0

Esempio

Per calcolare correttamente le medie bisogna quindi considerare le

medie pesate e le incertezze pesate per gli errori di misura.

N

i is

s

12

1

1m

N

i i

N

i i

i

s

s

x

12

12

1m

FF dC=C

A

C=C dC-H

A

C-H

aH-C=C

gradi

H-C=C

Gaff 1.10 0.20 1.10 0.03 131.6 12.0

Ghemical 1.34 0.10 1.09 0.02 120.3 2.0

MMFF94 1.34 0.02 1.09 0.02 121.0 0.5

MMFF94s 1.34 0.02 1.09 0.02 121.1 0.4

Uff 1.33 0.05 1.09 0.02 120.2 1.0

Esempio

Confrontando le stime non pesate con quelle pesate si osservano

interessanti differenze

Proprietà Non pesate Pesate

Distanza C=C / A 1.29 ± 0.05 1.34 ± 0.01

Distanza C-H / A 1.09 ± 0.01 1.09 ± 0.01

Angolo H-C=C / gradi 122.8 ± 2.2 121.0 ± 0.1

FF dC=C

A

C=C (1/C=C)2 %

Gaff 1.10 0.20 25 0.5%

Ghemical 1.34 0.10 100 1.8%

MMFF94 1.34 0.02 2500 45.2%

MMFF94s 1.34 0.02 2500 45.2%

Uff 1.33 0.05 400 7.2%

Esempio – dettaglio del calcolo

Pesare con gli inversi dei quadrati delle incertezze significa assumere

che per la stima del valor vero non tutte le misure sono uguali

Proprietà Non pesate Pesate

Distanza C=C / A 1.29 ± 0.05 1.34 ± 0.01

Domande di riepilogo

Vediamo cosa avete capito:

1. Quali sono gli stimatori del valor vero?

2. Cos’è l’errore relativo e come si calcola?

3. Cosa significa propagare l’errore di sensibilità?

4. Che differenza c’è tra deviazione standard della

popolazione e deviazione standard semplice?

5. Cosa significa diagramma delle frequenze di una

dato insieme di misure?

6. Quale è il significato fisico della deviazione standard

della media di un insieme di misure?