un exemple de dades amb distribució normal - ub.edu · estadística i anàlisi de dades (curs...

4
Estadística i Anàlisi de Dades (curs 2003-2004) Francesc Carmona Un exemple de dades amb distribució normal La llei normal En Estadística la corba de la figura 1 és molt important. Es coneix amb el nom de corba de la llei normal. Figura 1. Corba de densitat de probabilitat d’una llei normal. La seva expressió matemàtica és = 2 2 2 2 ) ( exp 2 1 ) ( σ µ πσ x x f on x és qualsevol nombre real i dos paràmetres fixes que representen la mitjana o punt central i la variància o dispersió teòriques, respectivament. Un cas especial és quan 2 , σ µ 0 = µ i que es coneix com la normal estàndard. 1 2 = σ L'àrea limitada per la corba, l'eix de les abscisses entre dos valors i dos segments verticals en aquests punts, és la proporció teòrica d'individus de la població amb un valor justament entre i b . És la probabilitat que la variable observada per a un individu qualsevol tingui un valor entre i . b a, a a b Figura 2. Probabilitat entre dos valors de la variable. Si escrivim en forma d’integral l’àrea acumulada de la cua esquerra fins a un determinat valor x , tenim l’anomenada funció de distribució de probabilitat: = x dt t f x F ) ( ) ( 1

Upload: vukhanh

Post on 23-Dec-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

Estadística i Anàlisi de Dades (curs 2003-2004) Francesc Carmona Un exemple de dades amb distribució normal La llei normal En Estadística la corba de la figura 1 és molt important. Es coneix amb el nom de corba de la llei normal.

Figura 1. Corba de densitat de probabilitat d’una llei normal.

La seva expressió matemàtica és

−−= 2

2

2 2)(exp

21)(

σµ

πσ

xxf

on x és qualsevol nombre real i dos paràmetres fixes que representen la mitjana o punt central i la variància o dispersió teòriques, respectivament. Un cas especial és quan

2,σµ

0=µ i que es coneix com la normal estàndard. 12 =σL'àrea limitada per la corba, l'eix de les abscisses entre dos valors i dos segments verticals en aquests punts, és la proporció teòrica d'individus de la població amb un valor justament entre i b . És la probabilitat que la variable observada per a un individu qualsevol tingui un valor entre i .

ba,

aa b

Figura 2. Probabilitat entre dos valors de la variable.

Si escrivim en forma d’integral l’àrea acumulada de la cua esquerra fins a un determinat valor x , tenim l’anomenada funció de distribució de probabilitat:

∫∞−

=x

dttfxF )()(

1

Estadística i Anàlisi de Dades (curs 2003-2004) Francesc Carmona que per desgràcia, en aquest cas, no es pot expressar en termes de funcions elementals. La majoria de llibres d’Estadística, però, contenen una taula amb molts dels seus valors en el cas especial de la normal estàndard, al que podem reduir tots els casos amb la transformació lineal σµ /)( −X . D’aquesta manera és fàcil calcular el percentatge teòric d’individus amb valors entre a i b en la forma

)/)(()/)(( σµσµ −−− aFbF ZZ on és la distribució de probabilitat de la normal estàndard ZF Z . El full de càlcul EXCEL té dues funciones que permeten fer aquests càlculs. Ayuda de Microsoft Excel

DISTR.NORM(x;media;desv_estándar;acum)

Devuelve la distribución normal para la media y desviación estándar especificadas.

x es el valor cuya distribución desea obtener.

media es la media aritmética de la distribución (µ ).

desv_estándar es la desviación estándar de la distribución (σ ).

acum es un valor lógico que determina la forma de la función. Si el argumento acum es VERDADERO, la función DISTR.NORM devuelve la función de distribución acumulada

)(xF ; si es FALSO, devuelve la función de masa de probabilidad . )(xf

DISTR.NORM.ESTAND(z)

Devuelve la función de distribución normal estándar acumulativa. La distribución tiene una media de 0 (cero) y una desviación estándar de uno. Use esta función en lugar de una tabla estándar de áreas de curvas normales.

z es el valor para el cual desea obtener la distribución.

Definició Direm que un conjunt univariant de dades de tipus I o III té distribució normal quan per qualsevol parella de nombres , el nombre de dades observades entre aquests valors s’ajusta al percentatge teòric d’una llei normal.

ba,

Nota: Encara que aquesta definició no és gaire rigorosa perquè no explica el tipus d’ajust, és la base de l’anomenada prova khi-quadrada. D’altra banda, també es pot definir un ajust a la funció de distribució que té una representació gràfica molt divulgada.

F

Si un conjunt de dades efectivament s’ajusta a la llei normal, el seu histograma tindrà la forma de campana de la figura 1. És per això que els paquets estadístics com el SPSS poden dibuixar opcionalment una corba d’aquest tipus sobreposada a l’histograma (veure figura 4).

2

Estadística i Anàlisi de Dades (curs 2003-2004) Francesc Carmona Un exemple En un llibre de genètica vaig trobar la fotografia que es mostra a la figura 3, conjuntament amb la taula 1 que resumeix les dades d’estatura de 175 homes reclutats per l’exèrcit a finals del segle XIX. (De A.F. Blakeslee, J. Hered. S:551 (1914)).

Taula 1. Dades de l’estatura de 175 homes. Estatura en polzades

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

Nombre d’individus

1

0

0

1

5

7

7

22

25

26

27

17

11

17

4

4

1

Figura 3. Distribució de l’estatura de 175 homes.

Sembla ser que amb les dades originals, la mitjana i la desviació estàndard per a aquesta mostra de 175 homes és de cm 168=x i cm 75,6ˆ =s (1 in = 2,54 cm). El nombre d’individus amb alçada superior a 161 cm però més baixos de 175 cm és 117, que resulta ser el 67% dels 175 individus de la mostra. En una distribució normal amb els paràmetres estimats, teòricament el 68% dels individus estan en l’interval

sx ˆ± . Les estatures corresponents a sx ˆ96,1± són 155 i 181 cm. El nombre d’individus compresos en aquesta amplada de variació és de 163, o sigui un 93% del total. Teòricament, dins d’aquest interval hauria d’estar el 95% dels individus. Encara que una mostra de 175 individus no és massa gran, la concordança entre les freqüències esperades i les observades és molt bona i podem concloure que les dades s’ajusten a la llei normal. Amb les dades ja agrupades a la taula 1 i la consegüent pèrdua d’informació podem fer els següents càlculs (veure taula 2):

cm 171 cm 170,978286in 67,3142857175

11780≅===x

7,26693878175

11780175

794234 22 =

−=s 7,30870279

174175ˆ 22 == ss

cm 6,8667916in 2,70346126ˆ ==s

3

Estadística i Anàlisi de Dades (curs 2003-2004) Francesc Carmona

4

ix in ii nx ii nx 2

58 1 58 336459 0 0 060 0 0 061 1 61 372162 5 310 1922063 7 441 2778364 7 448 2867265 22 1430 9295066 25 1650 10890067 26 1742 11671468 27 1836 12484869 17 1173 8093770 11 770 5390071 17 1207 8569772 4 288 2073673 4 292 2131674 1 74 5476

SUMA= 175 11780 794234

Taula 2. Suma de valors per al càlcul dels estadístics. Nota: Observem les diferències amb els estadístics calculats amb les dades originals.

Llavors, l’interval sx ˆ± és [64,61;70,02] en polzades o [164,11;177,84] en cm. En aquest interval hi ha aproximadament 128 individus, el 73% de la mostra, quan teòricament ha d’haver el 68%. En l’interval sx ˆ96,1± , que correspon a [62,01;72,61] en polzades o [157,52;184,44] en cm, hi ha aproximadament 168 individus, és a dir el 96%. La distribució teòrica té un 95% d’individus en aquest interval.

ESTATURA

7776757473727170696867666564636261605958

30

20

10

0

Figura 4. Histograma de les dades originals proporcionat pel SPSS.