tratamiento de datos estadisticos
DESCRIPTION
EstadísticaTRANSCRIPT
-
I
-
II
-
III
TRATAMIENTODE
DATOS
-
IV
-
VTRATAMIENTODE
DATOS
Cstor Guisande GonzlezCatedrtico de Universidad del rea de Ecologa
Aldo Barreiro Felpeto, Isabel Maneiro Estraviz,Isabel Riveiro Alarcn, Alba Ruth Vergara Castao
Investigadores del rea de Ecologa
Antonio Vaamonde ListeCatedrtico de Universidad del rea de Estadstica e Investigacin Operativa
Universidad de Vigo
-
VI
Cstor Guisande GonzlezReservados todos los derechos.
No est permitida la reproduccin total o parcial de este libro,ni su tratamiento informtico, ni la transmisin de ninguna formao por cualquier medio, ya sea electrnico, mecnico porfotocopia, por registro u otros mtodos, sin el permiso previo ypor escrito de los titulares del Copyright.
Ediciones Daz de SantosInternet: http//www.diazdesantos.es/edicionesE-mail: [email protected]
ISBN: 84-7978-736-8Depsito Legal: M. 4.798-2006
Fotocomposicin: P55 Servicios CulturalesDiseo de cubierta: P55 Servicios CulturalesImpresin: Fernndez CiudadEncuadernacin: Rstica-Hilo
Printed in Spain - Impreso en Espaa
-
VII
PRLOGO ......................................................................................... XIII
I. REPRESENTACIN DE DATOS .......................................................... 1I.1. Coordenadas polares ............................................................... 1
I.1.1. Estandarizacin de los datos ............................................. 2I.1.2. Asignacin de ngulos a las variables ................................ 2I.1.3. Representacin de las coordenadas polares ........................ 6
I.2. Representacin de las coordenadas polares en el programaSigmaPlot ..................................................................................... 10
II. ESTADSTICA DESCRIPTIVA ........................................................... 15II.1. Medidas de posicin ............................................................... 15
II.1.1. Medidas de posicin central ............................................. 15II.1.1.1. Media aritmtica ..................................................... 15II.1.1.2. Media geomtrica .................................................... 16II.1.1.3. Media armnica ....................................................... 16II.1.1.4. Moda...................................................................... 17II.1.1.5. Mediana ................................................................. 17II.1.1.6. Media ponderada ..................................................... 19
II.1.2. Otras medidas de posicin ............................................... 21II.2. Medidas de dispersin ............................................................ 23
II.2.1. Amplitud ........................................................................ 23II.2.2. Varianza y cuasivarianza ................................................. 24II.2.3. Desviacin tpica y cuasidesviacin tpica .......................... 24II.2.4. Coeficiente de variacin .................................................. 25II.2.5. Error estndar ................................................................ 25II.2.6. Recorrido intercuartlico .................................................. 25
II.3. Estadstica descriptiva con el programa STATISTICA.................. 27
III. DISTRIBUCIN ............................................................................ 31III.1. Distribuciones para variables continuas................................... 32
III.1.1. Normal ......................................................................... 32
ndice de contenido
-
VIII
III.1.1.1. Aplicaciones de la distribucin Normal ...................... 33III.1.1.2. Asimetra .............................................................. 37III.1.1.3. Apuntamiento o curtosis ......................................... 38
III.1.2. t de Student ................................................................. 39III.1.3. -cuadrado ................................................................... 40III.1.4. F de Fisher-Snedecor ..................................................... 42
III.2. Distribuciones para variables discretas ................................... 43III.2.1. Binomial ....................................................................... 43III.2.2. Hipergeomtrica............................................................ 44III.2.3. Poisson......................................................................... 45
III.3. Mtodos para determinar el tipo de distribucin....................... 47III.3.1. -cuadrado ................................................................... 47III.3.2. Test G (razn de verosimilitud) ....................................... 51III.3.3. Test de Kolmogorov-Smirnov .......................................... 54III.3.4. Contraste de normalidad de Shapiro-Wilk ........................ 56
IV. INTERVALOS DE CONFIANZA ......................................................... 59IV.1. Intervalo de confianza de la media de una poblacinNormal ......................................................................................... 59
IV.1.1. Desviacin tpica conocida ............................................... 60IV.1.2. Desviacin tpica desconocida .......................................... 60
IV.1.2.1. Tamao de muestra grande (' 30) ............................ 60IV.1.2.2. Tamao de muestra pequeo (< 30) ......................... 60
IV.2. Intervalo de confianza de la diferencia de medias de dospoblaciones Normales .................................................................... 61
IV.2.1. Varianzas conocidas ....................................................... 61IV.2.2. Varianzas desconocidas .................................................. 61
IV.2.2.1. Tamao de muestra grande (' 30) ............................ 62IV.2.2.2. Tamao de muestra pequeo (< 30) ......................... 63
IV.2.2.2.1. Varianzas iguales ............................................. 63IV.2.2.2.2. Varianzas diferentes ......................................... 64
IV.3. Intervalo de confianza de la varianza y desviacin tpica deuna poblacin Normal .................................................................... 64IV.4. Intervalo de confianza de la razn de varianzas de dospoblaciones Normales .................................................................... 66
V. CONTRASTE DE HIPTESIS ............................................................ 71V.1. Tipos de hiptesis ................................................................... 71V.2. Estadstico de contraste .......................................................... 71V.3. Tipos de errores ..................................................................... 72V.4. Regiones crticas y de aceptacin ............................................. 72V.5. Tipos de contrastes ................................................................. 73
VI. CONTRASTE DE HIPTESIS EN VARIABLES CUALITATIVAS ............... 75VI.1. Bondad de ajuste .................................................................. 75
-
IX
VI.2. Pruebas de homogeneidad de muestras .................................. 77VI.2.1. Muestras independientes ................................................ 78
VI.2.1.1. -cuadrado ............................................................ 78VI.2.1.2. Razn de verosimilitud (Test G) ................................ 83VI.2.1.3. Prueba exacta de Fisher .......................................... 83
VI.2.2. Muestras relacionadas .................................................... 87VI.2.2.1. Prueba de McNemar ................................................ 87VI.2.2.2. Q de Cochran ......................................................... 88
VI.3. Pruebas de independencia de variables ................................... 90VI.3.1. -cuadrado de Pearson y test G de razn deverosimilitud ............................................................................ 91VI.3.2. Medidas de asociacin .................................................... 92
VI.3.2.1. Phi y V de Cramer ................................................... 92VI.3.2.2. Coeficiente de Contingencia ..................................... 93VI.3.2.3. Coeficiente de Incertidumbre ................................... 93
VII. CONTRASTE DE HIPTESIS EN VARIABLES CUANTITATIVAS............ 97VII.1. Pruebas paramtricas........................................................... 97
VII.1.1. Requisitos .................................................................... 97VII.1.2. Transformaciones ......................................................... 98VII.1.3. t-test ........................................................................... 98
VII.1.3.1. Muestras independientes ........................................ 98VII.1.3.2. Muestras dependientes .......................................... 103
VII.1.4. Anlisis de varianza ........................................................... 106VII.1.4.1. Anlisis de varianza univariante de un factor ................ 107VII.1.4.2. Anlisis de varianza univariante con variosfactores ................................................................................... 113VII.1.4.3. Anlisis de varianza multivariante ................................ 120
VII.1.5. Anlisis de covarianza ....................................................... 120VII.2. Pruebas no paramtricas ...................................................... 127
VII.2.1. Contraste de bondad de ajuste ...................................... 127VII.2.2. Contraste de homogeneidad de muestras ....................... 127
VII.2.2.1. Contrastes para dos muestras independientes.......... 128VII.2.2.1.1. Prueba U de Mann-Whitney ............................ 128VII.2.2.1.2. Test de rachas de Wald-Wolfowitz ................... 129VII.2.2.1.3. Prueba de Kolmogorov-Smirnov para dosmuestras ........................................................................ 130
VII.2.2.2. Contrastes para k-muestras independientes ............. 133VII.2.2.1.1. Contraste de la mediana ................................ 133VII.2.2.2.2. ANOVA de Kruskal-Wallis ................................ 133
VII.2.2.3. Contrastes para dos muestras dependientes ............ 137VII.2.2.3.1. Contraste de los signos .................................. 137VII.2.2.3.2. Prueba de Wilcoxon para paresrelacionados ................................................................... 137
VII.2.2.3. Contrastes para k-muestras dependientes ............... 140
-
XVII.2.3. Independencia de variables ........................................... 143VII.2.3.1. Coeficiente de correlacin de Spearman (rs) ............. 143VII.2.3.2. de Kendall .......................................................... 144VII.2.3.3. Gamma () ........................................................... 144VII.2.3.4. Coeficiente de concordancia de Kendall ................... 144
VIII. REGRESIONES ........................................................................... 149VIII.1. Modelos de regresin para variables dependientescuantitativas ................................................................................. 149
VIII.1.1. Requisitos ................................................................... 149VIII.1.2. Regresin simple ......................................................... 150VIII.1.3. Regresin mltiple lineal .............................................. 165VIII.1.4. Otras regresiones simples o mltiples no lineales ........... 172
VIII.1.4.1. Curva logstica ..................................................... 172VIII.1.4.2. Curva de crecimiento de von Bertalanffy................. 173VIII.1.4.3. Curva de crecimiento de Gompertz ........................ 173VIII.1.4.4. Relacin entre tasas y variables ............................. 174
VIII.2. Modelos de regresin para variables dependientescualitativas ................................................................................... 180
VIII.2.1. Regresin logstica binomial ......................................... 180VIII.2.2. Regresin logstica multinomial ..................................... 193
IX. ANLISIS MULTIVARIANTE ............................................................ 207IX.1. Anlisis Cluster ..................................................................... 207
IX.1.1. rbol jerrquico (Conglomerado jerrquico) ..................... 208IX.1.2. Conglomerado de K-medias (Algoritmo de K-medias) ........ 215
IX.2. Anlisis Discriminante ............................................................ 221IX.3. Anlisis Factorial y Anlisis de Componentes Principales ........... 235IX.4. Correlacin Cannica ............................................................. 253IX.5. Anlisis de Correspondencias ................................................. 261
X. MODELOS DE SIMULACIN ............................................................ 275X.1. El uso de modelos .................................................................. 275X.2. Pasos a considerar para el desarrollo de un modelo ................... 276X.3. Introduccin al modelado con el programa Stella ...................... 278
X.3.1. Significado de los iconos y mens especficosde la barra de herramientas en Map/Model level .......................... 279X.3.2. Ejemplo de funcionamiento de los iconos ymens bsicos ......................................................................... 283
X.4. Ejemplo de modelado con el programa Stella: desarrolloconceptual y manejo prctico ......................................................... 295
X.4.1. Dinmica poblacional de la presa ...................................... 296X.4.2. Dinmica poblacional del depredador y su influenciasobre la presa .......................................................................... 297X.4.3. Influencia de la explotacin sobre la poblacin deldepredador .............................................................................. 299
-
XI
XI. NDICES ...................................................................................... 301XI.1. Estabilidad ........................................................................... 301
XI.1.1. ndice de fluctuacin ...................................................... 301XI.2. Similitud .............................................................................. 304
XI.2.1. ndices binarios ............................................................. 304XI.2.1.1. Jaccard .................................................................. 305XI.2.1.2. Sorensen ............................................................... 307
XI.2.2. ndices cuantitativos ...................................................... 307XI.2.2.1. Distancia Eucldea................................................... 307XI.2.2.2. Morisita ................................................................. 311
XI.3. Diversidad ............................................................................ 313XI.3.1. ndice recproco de Simpson ........................................... 313XI.3.2. ndice de diversidad de Shannon-Wiener.......................... 313
XI.4. Trficos ................................................................................ 316XI.4.1. Seleccin del alimento .................................................... 316XI.4.2. Amplitud nicho trfico .................................................... 317
BIBLIOGRAFA .................................................................................. 321
APNDICES....................................................................................... 325Tabla 1. reas bajo la curva Normal estndar ....................................... 325Tabla 2. Valores crticos de la distribucin t de Student ......................... 326Tabla 3. Valores crticos de la distribucin -cuadrado ........................... 327Tabla 4. Valores crticos de la distribucin F Fisher-Snedecor ................. 331Tabla 5. Valores crticos de la distribucin del estadstico deKolmogorov-Smirnov ......................................................................... 337Tabla 6. Valores crticos de la distribucin del estadstico de Lilliefors ...... 338Tabla 7. Valores crticos de la distribucin del estadstico delcontraste Durbin-Watson .................................................................... 339
NDICE DE CONCEPTOS ..................................................................... 341
GUA RESUMEN ................................................................................. 351
-
XII
-
XIII
Prlogo
Uno de los principales problemas a los que nos enfrentamos los investigadoreses la seleccin de la herramienta estadstica adecuada, para la interpretacin delos datos obtenidos fruto de la experimentacin o del trabajo de campo y/ointerpretar la informacin que se obtiene del mtodo empleado. Nuestro librointenta ayudar en ambos aspectos.
Hemos seleccionado ejemplos sencillos y se han explicado con diversospaquetes estadsticos, ya que en muchas ocasiones la dificultad reside no soloen qu tipo de tratamiento estadstico aplicar y cmo interpretarlo, sino en todoel proceso matemtico que implica. Por lo tanto, otra contribucin del libro esfacilitar el tratamiento de los datos explicando cmo se realiza el proceso deanlisis en algunos programas estadsticos que existen disponibles. Con el librose facilita un CD con todos los ficheros de datos usados en los ejemplos.
Los ejemplos pueden ser reproducidos para diversos campos de la ciencia, yaque los mtodos y los ejemplos son prcticamente idnticos para las distintasaplicaciones. Por lo tanto, no est restringido a un mbito cientfico especfico,sino a cualquier tipo de persona que quiera realizar un tratamiento de datos.
Este manual est estructurado en diversos captulos en los que se tratan larepresentacin de datos, contraste de hiptesis, el uso de herramientasmultivariantes, etc. Finalmente se incluye una gua resumen en la que se pretendefacilitar la aproximacin a los distintos tipos de anlisis, a partir del tipo de datoscon los que se cuenta, la hiptesis de la que se parte y el tipo de solucin que sebusca.
-
XIV
-
1Representacin de datos
I.1. Coordenadas polares
Un paso obligado previo a la realizacin de cualquier tratamiento de datos esrepresentar los datos grficamente. Esto es necesario por muchos motivos: porejemplo, para ver el tipo de relacin que existe entre dos variables (lineal,logartmica, exponencial, etc.); para identificar posibles outliers, datos queson muy diferentes del resto y que se pueden deber simplemente a que hemosintroducido mal los datos en el ordenador; para ver el tipo de distribucin yvariabilidad de los datos, etc. Existen muchos tipos de grficas que permitenhacer representaciones, que son bien conocidas y de uso comn por la mayorade las personas que trabajan con datos. En este captulo solo vamos a tratar untipo de representacin que no es tan conocido, el grfico de coordenadas polares.
Un problema frecuente que surge a la hora de mostrar grficamente los resul-tados obtenidos es que es necesario representar ms de dos ejes de coordenadas.Sin embargo, en un plano bidimensional lo mximo que se puede dibujar son tresejes. Las coordenadas polares permi-ten representar en un grficobidimensional cualquier nmero deejes de coordenadas.
Supongamos que se quiere repre-sentar el nicho de varias especies derboles considerando como variablesdel nicho el pH medio del suelo en elque aparece la especie, la temperaturamedia, la salinidad media del suelo, lapluviosidad media y la concentracinmedia de nitratos en el suelo. Las coor-denadas polares consideran lasdiferentes variables como vectores defuerza, de tal forma que las coordena-das polares X e Y de cada especie seranel punto de equilibrio de todos los vec-tores es decir, de todas las variables(Figura I.1).
Figura I.1 Esquema de un sistema decoordenadas polares donde el crculo grisindica el centro de gravedad o punto deequilibrio de todas las variables. Lascoordenadas de ese punto gris seran lascoordenadas X e Y de la especie.
REPRESENTACINDE
DATOS
I
-
Captulo I
2
El mdulo de cada vector sera el valor de la variable y el ngulo de cada vectortendra un valor convenido asignado a cada variable. Por lo tanto, cada espe-cie tendra unas coordenadas X e Y, lo cual permite su representacin en unplano bidimensional y, adems, estas coordenadas X e Y vendran determina-das por el efecto conjunto de todas las variables consideradas para definir elnicho de las especies. Es decir, cada especie ocupara una posicin en el plano enfuncin de las variables del nicho, lo cual permitira ver grficamente qu especiestienen un nicho ms parecido.
Debido a que la representacin polar se basa en vectores de fuerza, solo sepuede utilizar con variables que tengan igual peso, es decir, que los valores delas variables puedan ser comparables. En el caso de que las variables no seanequiparables es necesario realizar una estandarizacin previa de los datos.
En un anlisis multivariante de componentes principales, las puntuacionesobtenidas en cada eje para cada caso seran un ejemplo de variables que son engeneral equiparables. Los porcentajes de alimento consumido por varias especiestambin seran otro caso de variables equiparables, as como, por ejemplo, elporcentaje granulomtrico del suelo.
Por el contrario, si por ejemplo queremos una representacin de varias lagunas,para ver grficamente qu lagunas tienen unas caractersticas fisicoqumicassemejantes, considerando la temperatura, conductividad, pH, oxgeno, etc., estasvariables no seran equiparables y sera necesario realizar una estandarizacinprevia.
I.1.1. Estandarizacin de los datos
Como ejemplo de estandarizacin previa al clculo de las coordenadas polaresvamos a trabajar con datos fisicoqumicos de distintas lagunas, para las que, enalgunas de ellas, existen varias estaciones de muestreo.
En la Tabla I.1 (Cuadro I.1) se muestran los datos y en el Archivo CuadroI.1.xls, adems de los datos, se muestran todos los pasos a seguir para estan-darizar los datos, los cuales tambin se describen en el Cuadro I.1.
En el Cuadro I.2 hay otro ejemplo a modo de prctica, del mtodo para es-tandarizar datos.
I.1.2. Asignacin de ngulos a las variables
Un paso previo al clculo de las coordenadas es asignar ngulos a las variablesconsideradas. Lo que se hace es dividir 360 entre el nmero de variables. Porejemplo, en la matriz de datos de la Tabla I.4 (Cuadro I.2), como el nmero devariables es 5, el valor del ngulo de cada variable es de 72 (360/5). Estoimplica que la variable 1 tendra un ngulo de 72, la variable 2 de 144, lavariable 3 de 216, la variable 4 de 288 y la variable 5 de 360.
-
3Representacin de datos
CU
AD
RO
I.1
. E
stan
dari
zaci
n
de d
ato
s
EJE
MP
LO
.La
est
andari
zaci
n d
e lo
s dato
s fisi
coqum
icos
de
difer
ente
s la
gunas
se m
ues
tra e
n la s
iguie
nte
tabla
.
Tab
la I
.1.
Dato
s fisi
coqum
icos
de
dis
tinta
s la
gunas.
Laguna
Est
aci
n
Tem
pera
tura
Conduct
ivid
ad
pH
Nitra
toN
itri
toAm
onio
Fosf
ato
Sili
cato
(C
)(
S c
m-1)
(M
)(
M)
(M
)(
M)
(M
)
11
29,1
495
6,0
80,0
01,0
90
1,1
40
0,3
20
62,7
82
128,1
1537
7,8
50,5
20,2
80
0,9
40
0,3
84
231,6
72
28,6
1568
8,5
20,0
00,2
53
0,8
39
0,4
28
262,3
13
128,2
755
8,5
20,5
20,2
75
0,9
37
0,3
84
231,6
72
28,5
739
8,2
40,0
00,3
48
0,3
39
0,7
61
172,6
93
28,6
748
8,6
00,1
30,3
86
0,4
19
0,8
67
189,4
14
127,5
905
7,6
30,0
00,8
93
0,9
15
1,0
56
91,6
99
51
26,4
419
7,7
20,0
00,7
08
0,6
68
0,2
58
113,1
86
123,9
1034
7,6
40,4
20,3
01
1,2
29
0,2
63
189,0
47
132,6
217
7,4
20,3
00,8
43
2,0
76
0,6
18
118,0
08
131,3
371
7,3
20,0
00,6
97
0,6
35
0,4
89
99,2
25
91
32,3
1162
7,1
70,0
40,2
48
0,7
62
1,8
11
326,6
3
Paso
1.
Clc
ulo
de
los
valo
res
mxi
mos
y m
nim
os
de
las
vari
able
s.
Tem
pera
tura
Conduct
ivid
ad
pH
Nitra
toN
itri
toAm
onio
Fosf
ato
Sili
cato
(C
)(
S c
m-1)
(M
)(
M)
(M
)(
M)
(M
)
Mxim
o32,6
1568
8,6
0,5
21,0
92,0
76
1,8
11
326,6
3M
nim
o23,9
217
6,0
80
0,2
48
0,3
39
0,2
58
62,7
8
-
Captulo I
4
CU
AD
RO
I.1
. (C
ontinuaci
n)
Paso
2.
Est
andari
zaci
n a
una e
scala
de
0 a
1 d
e to
das
las
vari
able
s.
A c
ada u
no d
e lo
s va
lore
s de
las
vari
able
s se
aplic
a la s
iguie
nte
frm
ula
:
donde
VE e
s el
valo
r es
tandari
zado,
Max
y M
in s
on lo
s va
lore
s m
xi
mo y
mn
imo d
e ca
da v
ari
able
, re
spec
tiva
men
te,
que
se c
alc
ula
ron e
n e
l paso
1,
y x
es c
ada u
no d
e lo
s va
lore
s de
cada v
ari
able
(Ta
bla
I.2
).
Tab
la I
.2.
Valo
res
est
andari
zados
de los
dato
s fisi
coqum
icos
que
se m
ues
tran e
n la T
abla
I.1
.
Laguna
Est
aci
n
Tem
pera
tura
Conduct
ivid
ad
pH
Nitra
toN
itri
toAm
onio
Fosf
ato
Sili
cato
(C
)(
S c
m-1)
(M
)(
M)
(M
)(
M)
(M
)
11
0,5
98
0,2
06
0,0
00
0,0
00
1,0
00
0,4
61
0,0
40
0,0
00
21
0,4
83
0,9
77
0,7
02
1,0
00
0,0
38
0,3
46
0,0
81
0,6
40
20,5
40
1,0
00
0,9
68
0,0
00
0,0
06
0,2
88
0,1
09
0,7
56
31
0,4
94
0,3
98
0,9
68
1,0
00
0,0
32
0,3
44
0,0
81
0,6
40
20,5
29
0,3
86
0,8
57
0,0
00
0,1
19
0,0
00
0,3
24
0,4
17
30,5
40
0,3
93
1,0
00
0,2
50
0,1
64
0,0
46
0,3
92
0,4
80
41
0,4
14
0,5
09
0,6
15
0,0
00
0,7
66
0,3
32
0,5
14
0,1
10
51
0,2
87
0,1
50
0,6
51
0,0
00
0,5
46
0,1
89
0,0
00
0,1
91
61
0,0
00
0,6
05
0,6
19
0,8
08
0,0
63
0,5
12
0,0
03
0,4
79
71
1,0
00
0,0
00
0,5
32
0,5
77
0,7
07
1,0
00
0,2
32
0,2
09
81
0,8
51
0,1
14
0,4
92
0,0
00
0,5
33
0,1
70
0,1
49
0,1
38
91
0,9
66
0,6
99
0,4
33
0,0
77
0,0
00
0,2
44
1,0
00
1,0
00
-
5Representacin de datos
CUADRO I.2. Prctica para la estandarizacin de datos
EJEMPLO. La Tabla I.3 muestra los datos morfolgicos de varias especiesde peces (Archivo Cuadro I.2.xls). La Tabla I.4 muestra los datosestandarizados.
Tabla I.3. Variables morfolgicas de diferentes especies de peces.
Especie Variable 1 Variable 2 Variable 3 Variable 4 Variable 5
1 93,4 27,8 13,3 12,5 44,42 96,3 26,7 14,4 11,8 43,33 140,4 14,5 24,4 4,3 49,34 111 32,1 20,4 12,5 54,45 111 52,2 22,2 26,2 52,36 25 7,5 3 4,4 12,67 24 4,9 2,5 2,4 14,78 31 8,6 2,4 3,8 11,59 30 8 7 14 1810 31 11,1 4,4 5,75 14,4
Tabla I.4. Valores estandarizados de los datos mostrados en la Tabla I.3.
Especie Variable 1 Variable 2 Variable 3 Variable 4 Variable 5
1 0,596 0,484 0,495 0,424 0,7672 0,621 0,461 0,545 0,395 0,7413 1,000 0,203 1,000 0,080 0,8814 0,747 0,575 0,818 0,424 1,0005 0,747 1,000 0,900 1,000 0,9516 0,009 0,055 0,027 0,084 0,0267 0,000 0,000 0,005 0,000 0,0758 0,060 0,078 0,000 0,059 0,0009 0,052 0,066 0,209 0,487 0,15210 0,060 0,131 0,091 0,141 0,068
Si alguna de las variables tiene valores negativos, entonces lo que se hace esdividir 360 por el doble del nmero de variables y a cada variable se le asignandos ngulos, incluso a aquellas variables que no tengan valores negativos. Paracada variable, a los valores negativos se les asigna un valor de ngulo 180mayor que el asignado a los valores positivos. Por ejemplo, supongamos que enla matriz de datos de la Tabla I.4 existiesen valores negativos. En ese caso elvalor del ngulo de cada variable sera de 36 (360/10). El ngulo de la variable1 sera de 36 para los valores positivos y de 216 para los valores negativos, elde la variable 2 sera 72 para los valores positivos y de 252 para los valoresnegativos, el de la variable 3 sera 108 para los valores positivos y 288 para losvalores negativos, el de la variable 4 sera 144 para los valores positivos y 324para los valores negativos, el de la variable 5 sera 180 para los valores positivosy 360 para los valores negativos.
-
Captulo I
6
I.1.3. Representacin de las coordenadas polares
Las coordenadas polares de cada elemento de la muestra o poblacin se calcu-lan determinando la resultante para cada uno de los ejes o variables, es decir,desplazando sucesivamente el punto en la direccin de cada eje una distanciaigual al valor de la variable correspondiente: el ngulo resultante y la distancia alorigen son las coordenadas polares. En general es ms sencillo calcular y repre-sentar las correspondientes coordenadas rectangulares mediante la siguientetransformacin:
donde X e Y son las coordenadas rectangulares para cada caso en el grficopolar, z es el valor de ese caso para la variable j, es el ngulo en gradosasignado a la variable j, y n es el nmero de variables. En el caso de que existanvalores negativos, entonces el nmero de variables n sera el doble de las querealmente existen, como se mencion anteriormente. En el Cuadro I.3 se explicancuales son los pasos a seguir.
Cuando se utiliza el programa EXCEL, es necesario pasar el ngulo a radianesy, por ello, las frmulas a utilizar son las siguientes:
Otro ejemplo de clculo de coordenadas polares se puede ver en el CuadroI.4. En este caso se realiza la representacin polar de diferentes lagunas,diferencindolas en relacin a sus caractersticas fisicoqumicas (Figura I.3). Seobserva cmo aquellas lagunas con una mayor conductividad estn agrupadas(lagunas 2 y 3, ver Tabla I.1), mientras que tambin se agrupan las lagunas conuna menor conductividad (lagunas 1 y 7). Las lagunas 1 y 7 tambin se caracterizanpor su mayor concentracin de amonio (Tabla I.1). La laguna 9 se diferencia delresto por su alta concentracin de silicatos y su alta temperatura (Tabla I.1, FiguraI.3).
Cuando existan varias rplicas, o como en este ejemplo en el que hay lagunascon varias estaciones, tambin es posible representar la media y la desviacinde la media, en vez de los valores de cada una de las rplicas por separado.Estos valores medios para cada grupo son los que se muestran en MEDIASCOORDENADAS X e Y del Archivo Cuadro I.3.xls.
En resumen, las coordenadas polares nos permiten ver de una forma grficalas lagunas que tienen una composicin ms semejante para los parmetros quese han considerado, que en este caso eran solo 8 variables (temperatura,conductividad, pH, nitrato, nitrito, amonio, fosfato y silicato), pero podran sermuchas ms las variables a considerar.
-
7Representacin de datos
CUADRO I.3. Clculo coordenadas polares
EJEMPLO. En la Tabla I.5 se exponen las puntuaciones obtenidas en unanlisis discriminante aplicado al porcentaje de pigmentos de distintasespecies marinas del fitoplancton. Para cada especie hay varias rplicas.
Tabla I.5. Puntuaciones de un anlisis discriminante aplicado al porcentajede pigmentos de distintas especies marinas de fitoplancton.
Especie Funcin 1 Funcin 2 Funcin 3 Funcin 4 Funcin 5
1 -4,86 21,96 6,50 10,48 -6,921 -5,06 21,73 6,37 9,93 -6,801 -4,86 23,14 7,31 9,97 -6,932 -27,12 -53,23 2,36 -2,84 -2,812 -27,02 -54,25 -0,51 -4,56 -3,183 -24,54 -39,34 7,76 2,88 2,173 -25,25 -41,95 8,11 2,61 2,213 -25,31 -41,39 8,78 2,95 2,483 -25,00 -40,01 8,81 3,31 2,504 -8,95 24,19 13,55 -26,42 6,044 -8,85 23,97 12,44 -22,11 4,254 -9,38 24,85 13,58 -25,05 4,675 -4,70 19,20 4,24 11,32 -6,065 -4,82 19,41 4,39 11,54 -6,466 -0,97 14,67 -16,64 11,77 27,936 -1,39 13,07 -17,35 10,94 26,807 -2,93 -1,55 -28,86 -8,04 -7,807 -2,64 -0,86 -28,50 -7,71 -7,838 102,05 -20,51 6,71 0,19 1,028 104,50 -20,57 7,01 -0,88 0,359 2,43 -1,66 -39,35 -12,69 -13,389 0,67 -0,80 -42,21 -13,84 -14,769 4,46 -2,33 -41,16 -13,61 -14,30
En este caso, las funciones del anlisis discriminante son variables que nonecesitan ser estandarizadas. Sin embargo, como existen valores negativos,es necesario aplicar dos ngulos a cada variable (a cada funcin discriminante).
El Archivo Cuadro I.3.xls est diseado para calcular las coordenadaspolares de una matriz que contenga como mximo 1000 casos (filas) y 20variables (columnas). Este archivo solo sirve para el caso en el que existanvalores negativos.
Paso 1. Introducir los cdigos de los casos en DATOS del Archivo CuadroI.3.xls.
Paso 2. Introducir los valores de cada variable para cada uno de los casosen DATOS del Archivo Cuadro I.3.xls.
-
Captulo I
8
CUADRO I.3. (Continuacin)
Paso 3. En COORDENADAS EJE X del Archivo Cuadro I.3.xls aparecenlas coordenadas X y en COORDENADAS EJE Y las coordenadas Y de todoslos casos.
Paso 4. Cuando existan rplicas, en MEDIAS COORDENADAS X e Y delArchivo Cuadro I.3.xls aparecen los valores medios, desviacin tpica y elerror para cada uno de los grupos. Los resultados que se obtienen semuestran en la Tabla I.6. La representacin grfica de las coordenadaspolares obtenidas se muestra en la Figura I.2.
Tabla I.6 Coordenadas polares de lasfunciones discriminantes de la Tabla I.5
Especie X Y
1 -0,709 30,359
1 -0,582 29,577
1 -0,172 31,958
2 -34,019 -65,980
2 -31,599 -70,641
3 -38,910 -42,756
3 -40,222 -45,497
3 -40,848 -44,152
3 -40,491 -42,416
4 11,386 15,101
4 10,042 16,427
4 11,483 16,316
5 -2,278 26,183
5 -2,138 26,581
6 -28,564 4,473
6 -27,378 1,540
7 20,377 -35,369
7 20,480 -34,003
8 72,976 46,976
8 76,384 48,009
9 37,2533 -45,029
9 39,3010 -48,641
9 40,9174 -46,741
-
9Representacin de datos
CUADRO I.4. Prctica del clculo de coordenadas polares
EJEMPLO. Para practicar el clculo de coordenadas polares usaremos losdatos fisicoqumicos estandarizados de las lagunas que se muestran en laTabla I.2 (Cuadro I.1 y Archivo Cuadro I.1.xls). En este caso no existenvalores negativos. El Archivo Cuadro I.4.xls est diseado para estimarcoordenadas polares en aquellos casos en los que no existan valores negativos.Los pasos a seguir son los mismos que los descritos anteriormente para elcaso en el que s haba valores negativos (Cuadro I.3). Las coordenadas polaresse muestran en la Tabla I.7 y la representacin grfica en la Figura I.3.
Tabla I.7. Coordenadas polares de los valores estandarizadosde los datos fisicoqumicos de las lagunas (Tabla I.2).
Laguna Estacin X Y
1 1 -0,256 -0,5682 1 -0,485 1,385
2 0,527 1,6973 1 -0,660 1,008
2 0,329 1,0533 0,066 1,043
4 1 -0,211 0,0005 1 -0,452 0,2376 1 -0,809 0,4837 1 -0,372 -0,5808 1 0,120 0,4119 1 2,007 0,737
Figura I.2. Grfico polar de las puntuaciones de un anlisis discriminante aplicado al por-centaje de pigmentos de distintas especies marinas de fitoplancton (Cuadro I.3, Tabla I.6).
-
Captulo I
10
I.2. Representacin de las coordenadas polaresen el programa SigmaPlot
Los grficos de coordenadas polares de las Figuras I.2 (Cuadro I.3) y I.3(Cuadro I.4) se pueden elaborar usando alguna de las versiones del programaSigmaPlot (2002) SPSS Inc.
En el Cuadro I.5 se explica el proceso de representacin de este tipo degrficos en el programa SigmaPlot.
CUADRO I.5. Representacin coordenadas polares en elprograma SigmaPlot
EJEMPLO. Vamos a utilizar las coordenadas que se muestran en la TablaI.7 del Cuadro I.4 que lo podemos encontrar en el archivo de SigmaPlotCuadro I.5.jnb.
Paso 1. Despus de introducir los datos con el formato que se ve en lasiguiente ventana, es decir, diferenciando en distintas columnas lascoordenadas X e Y de las distintas lagunas, se pulsa en el icono querepresenta el grfico de coordenadas polares y luego en el que indica Polar-Scatter.
Figura I.3. Grfico polar de los valores estandarizados de los datos fisicoqumicos de laslagunas (Cuadro I.4, Tabla I.7).
-
11
Representacin de datos
CUADRO I.5. (Continuacin)
Paso 2. Nos aparecer la siguiente ventana donde es posible elegir sirepresentar las unidades en grados, radianes, etc. y el rango. Nosotrosseleccionamos Degrees.
-
Captulo I
12
CUADRO I.5. (Continuacin)
Paso 3. En la siguiente ventana debemos indicar el tipo de datos queintroducimos, es decir, si se introduce en forma de Theta (ngulo) y R(resultante), Theta (un solo ngulo) y muchas diferentes R (resultantes),etc. En nuestro caso seleccionamos XY Pairs
Paso 4. En la siguiente ventana debemos seleccionar los ejes X e Y. Enprimer lugar solo se representan las coordenadas de la laguna 1.
Paso 5. Ahora seleccionando el grfico y en Graph y Add Plot lo quese hace es ir aadiendo las coordenadas del resto de lagunas sobre elgrfico ya creado, introduciendo cada laguna como un nuevo grfico.
-
13
Representacin de datos
CUADRO I.5. (Continuacin)
Paso 6. Una vez introducidas las coordenadas de todas las lagunas, pul-sando en el grfico dos veces es posible modificar los smbolos de cadaPlot como se muestra en la ventana siguiente.
-
Captulo I
14
-
15
Estadstica descriptiva
Dentro de la estadstica descriptiva se incluyen medidas de posicin como lasmedias aritmtica, geomtrica, armnica, ponderada, la moda y la mediana, ymedidas de dispersin o variabilidad de la muestra como la varianza, la desviacintpica y el coeficiente de variacin.
El hecho de que sea una estadstica simple y fcil de calcular no significa queno sea importante. Es necesario, por lo general, calcular algunas de las medidascitadas anteriormente para poder tener una idea preliminar de los datos antesde pasar a realizar un tratamiento ms complejo de los mismos. Por ejemplo, eltipo de distribucin que tengan los datos condicionar la clase de anlisisestadstico que podremos utilizar. Algunos tratamientos estadsticos que se utilizanmucho, como por ejemplo el anlisis de la varianza, se basan en la comparacinde la media y dispersin de los datos, ambos incluidos dentro de la estadsticadescriptiva. Adems, algunas medidas, como por ejemplo una variante de lamedia ponderada, pueden ser unos indicadores muy tiles por s solos sinnecesidad de tratamientos estadsticos ms complejos.
II.1. Medidas de posicin
El primer paso a la hora de tratar unos datos es intentar buscar algn tipo demedida que nos permita caracterizar, diferenciar y distinguir las series de datos.Esto se puede hacer determinando la posicin de los datos. Dentro de este grupose diferencian las llamadas medidas de posicin central y otras medidas queestiman diferentes posiciones de los datos. Unas u otras se utilizan dependiendodel tipo de datos con el que se est trabajando.
II.1.1. Medidas de posicin central
II.1.1.1. Media aritmtica
La media aritmtica ( ), que tambin se conoce simplemente como media opromedio, se calcula por medio de la siguiente frmula:
ESTADSTICADESCRIPTIVA
II
x
-
Captulo II
16
donde x son cada uno de los valores i de la variable y n el nmero de datos.
Cuando la media es del conjunto de toda la poblacin se suele denotar por elsmbolo y cuando es la media de una muestra de la poblacin se utiliza .
En el caso de datos agrupados (tabla de frecuencias) la media se calcula pormedio de la siguiente frmula:
donde m y f son el valor medio y la frecuencia (nmero de datos) de la clase i,respectivamente, y k el nmero de intervalos o clases.
En el Archivo Cuadro II.1.xls se muestra un ejemplo de cmo se calcula lamedia aritmtica de una muestra agrupando y sin agrupar los datos, el cualtambin est descrito en el Cuadro II.1.
La media aritmtica es la que se utiliza ms frecuentemente porque es la quetiene un error estndar ms pequeo, es la ms fcil de estimar, tiende haciauna distribucin Normal incluso, si los datos originales no presentan estadistribucin y, por ltimo, es ms sensible a cambios en la distribucin de losdatos, lo cual es muy importante en estadstica para poder determinar diferenciasentre series de datos (Sokal & Rohlf 1981). El problema que plantea la mediaaritmtica tambin deriva de su sensibilidad, ya que est ms afectada por losdatos raros que se salen del rango.
II.1.1.2. Media geomtrica
La media geomtrica (MG) se utiliza en algunos casos con datos relativoscomo porcentajes y se calcula por medio de la siguiente frmula:
La media geomtrica es siempre inferior o igual a la media aritmtica. En elArchivo Cuadro II.1.xls y en el Cuadro II.1 se muestra un ejemplo para calcularla media geomtrica.
II.1.1.3. Media armnica
La media armnica (MA) se utiliza, por ejemplo, en algunos casos en los que
x
-
17
Estadstica descriptiva
es necesario promediar variaciones con respecto al tiempo. Se calcula de lasiguiente forma:
La media armnica es siempre inferior o igual a la media geomtrica y, portanto, tambin inferior o igual a la media aritmtica. Al igual que las otras mediasdescritas anteriormente, en el Archivo Cuadro II.1.xls y en el Cuadro II.1tambin se muestra un ejemplo para calcular la media armnica.
II.1.1.4. Moda
A veces es necesario determinar la posicin de variables que no son numricassino cualitativas como, por ejemplo, las especies a las que pertenecen diferentesindividuos. En este caso no podemos utilizar ninguna de las medias citadasanteriormente y, por lo tanto, debemos recurrir a medidas como la moda. Tambinpuede ser utilizada con variables cuantitativas.
La moda de un conjunto de observaciones se define como el valor que se presentacon mayor frecuencia, es decir, un mayor nmero de veces. La moda se puededenotar por Mo. Ejemplo en el Archivo Cuadro II.1.xls y en el Cuadro II.1.
Si solo es un valor el que se repite ms veces, en ese caso se dice que ladistribucin es unimodal, porque solo tiene una moda. En el caso de que ningnvalor se repita, entonces por definicin se considera que no existe moda. Sepuede dar el caso de que dos observaciones tengan la misma frecuencia, siendoen este caso la distribucin bimodal. La distribucin multimodal se dara en aquellassituaciones en las que existiesen ms de dos valores con la misma frecuencia.
Por ltimo, en situaciones raras en las que la distribucin de los datos tengaforma de U, el punto medio de la distribucin se denomina antimoda.
II.1.1.5. Mediana
La mediana de un conjunto de observaciones es el valor para el cual, cuandotodas las observaciones se ordenan de manera creciente, la mitad de stas sonmenores que este valor, y la otra mitad son mayores. Sea x1, x2, .xn unamuestra aleatoria de n observaciones ordenadas de forma creciente, la medianade estos datos se calcula de la siguiente manera (Cuadro II.2, Archivo CuadroII.1.xls):
si n es un nmero impar
Mediana
si n es un nmero par
-
Captulo II
18
CU
AD
RO
II.
1.
Est
imaci
n
de l
as
med
ias
ari
tmti
ca,
geo
mtr
ica y
arm
n
ica
X22
23
22
24
26
25
26
25
29
27
25
32
34
34
33
33
36
36
35
39
Rango
20-2
525-3
030-3
535-4
0f i
47
54
mi
22,7
526,1
433,2
36,5
f a4
11
16
20
1.
Med
ia a
ritm
ti
ca p
ara
dato
s si
n a
gru
par
2.
Med
ia a
ritm
ti
ca a
gru
pan
do
lo
s d
ato
s
3.
Med
ia g
eo
mtr
ica
4.
Med
ia a
rm
nic
a
37
28
391
351
361
361
331
331
341
341
321
251
271
291
251
261
251
261
241
221
231
221
201
1,
M
A
83
28
39
35
36
36
33
33
34
34
32
25
27
29
25
26
25
26
24
22
23
22
20
,
MG
329
20
536
42
33
514
26
775
22
4,
,,
,,
x
329
20
39
35
36
36
33
33
34
34
32
25
27
29
25
26
25
26
24
22
23
22
,
x
-
19
Estadstica descriptiva
CUADRO II.1. (Continuacin)
Supongamos la misma serie de datos que se mostr en el Cuadro II.1pero, en este caso, los datos se muestran ordenados en forma creciente.
1. Moda
La moda es 25 porque es la observacin que se repitems veces (3 veces).
2. Mediana
Como el nmero de datos es par (20 en este caso),entonces la mediana (Mn) se estima de la siguienteforma:
La mediana se suele utilizar en series de datos que tienen una distribucinmuy asimtrica, ya que en estos casos no siempre es adecuado utilizar la mediaaritmtica. La mediana es tambin til en aquellos casos en los que sea muydifcil obtener el nmero de observaciones necesarias para estimarconvenientemente la media aritmtica. Por ltimo, no se ve afectada por valoresraros que se salgan mucho del rango normal, como le ocurre a la media aritmtica.
II.1.1.6. Media ponderada
La media ponderada ( ) se utiliza en aquellos casos en que algunos datosson ms fiables que otros, simplemente porque unos datos han sido calculadoscon un mayor esfuerzo o por cualquier otra razn, y por ello es necesario darlems peso a estos valores a la hora de estimar la media. Se calcula por medio dela siguiente frmula:
x2222232425252526262729323333343435363639
xw
-
Captulo II
20
donde x son cada uno de los valores i de la variable, w el peso que se le da aldato y n el nmero de datos. Se utiliza, por ejemplo, cuando algunos datos sonms fiables que otros y, por tanto, deben tener ms peso en la media.
Una aplicacin de la media ponderada que merece una mencin especial,porque puede dar una gran informacin, es la obtencin del centro de gravedadde una distribucin de datos de acuerdo a una determinada variable. En Ecologaes un parmetro que permite cuantificar el nicho ecolgico de una especie, yaque da informacin sobre el valor medio de su distribucin para una determinadavariable. Por ejemplo, se puede obtener la temperatura, la salinidad, concentracinde oxgeno, etc. media en que suele aparecer una especie. En este caso, w soncada uno de los valores i de los datos de abundancia de la especie, x el valor dela variable para el valor w, y n el nmero de datos (vase ejemplo en el CuadroII.2 y Archivo Cuadro II.2.xls).
CUADRO II.2. Variante de media ponderada
Abundancia Abundancia TemperaturaEspecie 1 (w) Especie 2 (w) (x)
23 211 14,337 74 16,2128 145 15,7234 89 16,721 24 18,1198 56 17,24 338 14,3
156 126 15,9
Media ponderada de la temperatura para la especie 1
Media ponderada de la temperatura para la especie 2
-
21
Estadstica descriptiva
II.1.2. Otras medidas de posicin
Se definen los cuantiles de orden k como los valores de la variable,supuesta sta ordenada de menor a mayor, que la dividen en k partes con lamisma frecuencia de observaciones. Por lo tanto existirn k - 1 cuantiles deorden k.
El primer cuantil de orden k deja a su izquierda la fraccin 1/k de frecuenciade observaciones. El segundo cuantil de orden k deja a su izquierda la fraccin2/k de frecuencia de observaciones. El r-simo cuantil de orden k deja a suizquierda la fraccin r/k de frecuencia de observaciones. Por ejemplo, el cuantil15 de orden 100 deja por debajo el 15% de los valores del total de la seriecompleta de valores.
Los cuantiles ms utilizados son los percentiles, cuartiles y deciles, los cualesse describen a continuacin.
Los percentiles son los 99 puntos que dividen la distribucin en 100partes, tales que dentro de cada una est incluido el 1% de los valores de ladistribucin.
Los cuartiles son los tres valores de la variable que dividen la distribucinen 4 partes iguales, es decir, en 4 intervalos, dentro de cada cual est incluidoel 25% de los valores de la distribucin. El percentil 25 (P25) sera igual alcuartil 1 (Q1), el percentil 50 (P50) sera igual al cuartil 2 (Q2, igual tambin ala mediana), etc.
Los deciles son los 9 puntos que dividen la distribucin en 10 partes, talesque dentro de cada una est incluido el 10% de los valores de la distribucin.El percentil 10 (P10) sera igual al decil 1 (D1), el percentil 20 (P20) sera igualal decil 2 (D2), etc.
El procedimiento para encontrar el valor del cuantil j de orden k a partir dedatos ordenados de menor a mayor, es el siguiente (ejemplo en el Cuadro II.3 yArchivo Cuadro II.1.xls):
1. Encontrar la posicin i del cuantil j -simo mediante el clculo de nj/k.
2. Si nj/k no es un entero, entonces la posicin i es el siguiente entero msgrande y entonces el valor del cuantil es el dato ordenado en la posicinde este entero ms grande.
3. Si nj/k es un entero, entonces la posicin del cuantil ser i = nj/k + 0,5 yas el valor del cuantil es el promedio de las observaciones ordenadas nj/k y nj/k + 1.
-
Captulo II
22
CUADRO II.3. Clculo de los cuantiles
Vamos a utilizar la serie de datos del Cuadro II.1. Continuacin.
1. Percentil 25 (P25) y Cuartil 1 (Q1)
Al ser entero el valor ser:
2. Percentil 75 (P75) y Cuartil 3 (Q3)
Al ser entero el valor ser:
3. Percentil 10 (P10) y Decil 1 (D1)
Al ser entero el valor ser:
4. Percentil 16 (P16)
Al no ser entero, el valor es el dato ordenado en la posicin de este enteroms grande:
-
23
Estadstica descriptiva
II.2. Medidas de dispersin
Adems de la posicin, es tambin importante la dispersin o variabilidad delos datos. La Figura II.1 muestra dos series de datos que tienen la misma media(10,55 C), pero la variabilidad de la temperatura es mayor en un hbitat que enel otro.
Las medidas de dispersin tienen como finalidad estudiar hasta qu punto,para una determinada distribucin de datos, las medidas de posicin representanbien el conjunto de datos de la distribucin.
Por ejemplo, si se quiere determinar si una media aritmtica nos marca unatendencia central generalizable del comportamiento de todos los elementos delconjunto estudiado, tendremos que fijarnos en la separacin o desviacin decada valor respecto a la media. Si todos los valores estn cercanos al valormedio, ste ser representativo de ellos. Es decir, ser ms representativa lamedia aritmtica de una variable cuanto ms agrupados en torno a ella estn losvalores promediados y, por el contrario, ser tanto ms rechazable, por no serrepresentativa, cuanta mayor dispersin exista de los valores de la variablerespecto a la media.
Por lo tanto, para complementar la informacin que se obtiene a partir de lamedia es necesario otro tipo de parmetros que midan la dispersin o variabilidadde los datos, los cuales se muestran a continuacin.
II.2.1. Amplitud
El mtodo ms simple de estimar la dispersin de los datos es por medio de laamplitud, tambin conocida como rango, es decir, la diferencia entre el valormnimo y el mximo de la serie de datos (Cuadro II.4 y Archivo Cuadro II.4.xls).
Figura II.1. Temperatura a lo largo del ao en dos hbitats.
-
Captulo II
24
II.2.2. Varianza y cuasivarianza
La mejor forma de medir la dispersin de una serie de datos es compararcada uno de ellos con la media de la serie, y esto es exactamente lo que hace lavarianza (2) (Cuadro II.4 y Archivo Cuadro II.4.xls):
A menudo queremos utilizar la varianza de una muestra como valoraproximado o estimado de la varianza desconocida de la poblacin de la queprocede esa muestra. En estos casos, el error cometido es generalmente mspequeo si en vez de considerar como estimador la varianza de la muestra, seutiliza lo que se denomina cuasivarianza (s2), que se calcula como la anterior,pero cambiando el denominador por n - 1 (Cuadro II.4 y Archivo Cuadro II.4.xls):
En aquellos casos en los que disponemos de toda la poblacin se debe emplearn y no (n - 1). Sin embargo, como en general nuestros datos son una muestra deuna poblacin mayor, lo correcto es usar la cuasivarianza en vez de la varianza.
Muchas veces se hace referencia a la varianza cuando en realidad se estcalculando la cuasivarianza (varianza estimada). La mayora de los programasde estadstica utilizan solo la cuasivarianza y no la varianza. Es frecuente tambinobservar que )2 y s2 se usan indistintamente para indicar varianza o cuasivarianzasin un criterio definido.
II.2.3. Desviacin tpica y cuasidesviacin tpica
El problema que presenta la varianza es que, para evitar valores negativos,las diferencias se elevan al cuadrado. Para poder tener la medida de dispersinen las mismas unidades que la media, se suele utilizar, en vez de la varianza, ladesviacin tpica (), tambin llamada desviacin estndar, y que se calcula simple-mente como la raz cuadrada de la varianza (Cuadro II.4 y Archivo Cuadro II.4.xls).
Tambin al igual que ocurra con la varianza, salvo en el caso de que la muestrasea idntica a la poblacin, es preferible utilizar la cuasidesviacin tpica ( s ), envez de la desviacin tpica, para lo cual se divide por el nmero de grados de
-
25
Estadstica descriptiva
libertad (n - 1) en vez de por el total de datos (n) (Cuadro II.4 y Archivo CuadroII.4.xls) como se muestra en la siguiente frmula:
Es necesario mencionar que la mayora de los programas estadsticos solo utilizanla cuasidesviacin tpica y, al igual que ocurra con la varianza, es frecuente observarque se hace mencin a la desviacin tpica cuando en realidad se ha calculado lacuasidesviacin tpica. Tambin se observa con frecuencia que ) y s se usanindistintamente para desviacin o cuasidesviacin tpica sin un criterio definido.
II.2.4. Coeficiente de variacin
Cuando se comparan series de datos que tienen medias un poco diferentes,la desviacin tpica no permite comparar cul de las dos series de datos presentauna mayor variacin, ya que normalmente la serie de datos con una mayor mediatambin suele tener una mayor variabilidad. En este caso es ms aconsejable eluso del coeficiente de variacin (CV), que se calcula como el porcentaje querepresenta la desviacin tpica con respecto a la media. En el caso de que ladesviacin tpica sea desconocida, se utiliza la cuasidesviacin tpica (ejemploen la continuacin del Cuadro II.4 o Archivo Cuadro II.4.xls):
II.2.5. Error estndar
Proporciona una medida de la precisin de la estimacin de la media poblacionala partir de una muestra, mientras que la desviacin tpica mide la variabilidad delos datos respecto de la media en la muestra. El error estndar se calcula a partirde la desviacin tpica. Cuando sta es desconocida, se utiliza la cuasidesviacintpica para obtener el error estndar estimado (ejemplo en la continuacin delCuadro II.4 o Archivo Cuadro II.4.xls):
II.2.6. Recorrido intercuartlico
El recorrido intercuartlico (Q) se calcula a partir de los percentiles 75 (P75) y25 (P25) de la siguiente forma (ejemplo en la continuacin del Cuadro II.4 oArchivo Cuadro II.4.xls):
Esta medida de dispersin se utiliza cuando se expresa la posicin centralpor medio de la mediana.
-
Captulo II
26
CU
AD
RO
II.
4.
Est
imaci
n
de l
as
med
idas
de d
isp
ers
in
Com
o e
jem
plo
vam
os
a u
tiliz
ar
la m
ism
a t
abla
de
dato
s del
Cuadro
II.
1.
1.
Am
pli
tud
: 17
2.
Vari
an
za
3.
Cu
asi
vari
an
za
4.
Desv
iaci
n
tp
ica
5.
Cu
asi
desv
iaci
n
tp
ica
61
27
20
329
39
329
26
329
24
329
22
329
23
329
22
22
22
22
2,
),
........(
),
()
,(
),
()
,(
),
(
06
29
19
329
39
329
26
329
24
329
22
329
23
329
22
22
22
22
2,
),
........(
),
()
,(
),
()
,(
),
(
s
25
520
329
39
329
26
329
24
329
22
329
23
329
22
22
22
22
,)
,........(
),
()
,(
),
()
,(
),
(
39
519
329
39
329
26
329
24
329
22
329
23
329
22
22
22
22
,)
,........(
),
()
,(
),
()
,(
),
(
s
-
27
Estadstica descriptiva
CUADRO II.4. (Continuacin)
5. Coeficiente de variacin
6. Error estndar
7. Recorrido intercuartlico
Q = P75 P25 = 34 - 25 = 9
II.3. Estadstica descriptiva con el programa STATISTICA
El programa STATISTICA permite calcular de forma sencilla todas las medidasde posicin y dispersin descritas anteriormente, e incluso otras que se describirnen los captulos siguientes, como el intervalo de confianza de la media, la asimetray la curtosis. El proceso se describe en el Cuadro II.5.
CUADRO II.5. Estadstica descriptiva con el programaSTATISTICA
Paso 1. Como ejemplo se utilizan los datos que se muestran en el CuadroII.1 (Archivo Cuadro II.5.sta). En la seccin de Statistics se entra enBasic Statistics/Tables.
-
Captulo II
28
CUADRO II.5. (Continuacin)
Paso 2. Nos debe salir la siguiente ventana, donde seleccionamos Des-criptive statistics.
Paso 3. Nos aparecer la siguiente ventana. En ella en la pestaaVariables seleccionamos la variable 1. Luego se va a Advanced y allse seleccionan todos los parmetros que se desean estimar.
-
29
Estadstica descriptiva
CUADRO II.5. (Continuacin)
Paso 4. Por ltimo, en la ventana anterior se pulsa en Summary y seobtiene la matriz de resultados que se muestra a continuacin.
-
Captulo II
30
-
31
Distribucin
DISTRIBUCIN
III
Otra informacin importante es la relacionada con la distribucin que tieneuna variable. Se puede dar el caso de que dos variables tengan exactamente lamisma media y la misma dispersin, pero que el tipo de distribucin seacompletamente diferente. Por lo tanto, adems de la informacin sobre lasmedidas de posicin y dispersin, que se explicaron en el Captulo II, es necesariotambin conocer la distribucin de los valores de la variable.
Para estudiar la distribucin de una variable, e incluso comparar medias yvarianzas entre variables, lo que se hace es comparar las frecuencias de losvalores de la variable con las probabilidades resultantes de modelos tericos dedistribuciones. El modelo terico de distribucin a utilizar variar en funcin deltipo de variable con la que estemos trabajando.
Existen bsicamente dos tipos de variables: cualitativas y cuantitativas. Lasprimeras no se expresan numricamente (sexo, especie a la que pertenece unindividuo, provincia de nacimiento) aunque pueden utilizarse cdigos numricospara representar sus valores (por ejemplo en la variable sexo, en vez de machoy hembra se pueden nombrar como 1 y 2). Las cuantitativas se expresandirectamente en trminos numricos (nmero de hojas de una planta, edad,longitud, temperatura, etc.).
Las variables cualitativas, a su vez, pueden ser de dos tipos: nominales, sisus valores no estn ordenados de modo natural (lugar de nacimiento, especie),y ordinales, si sus valores tienen un orden (por ejemplo una variable toxicidadque toma los valores nada, poco, bastante y muy txico).
Las variables cuantitativas pueden ser tambin de dos tipos: discretas ycontinuas. Son discretas cuando solo pueden tomar valores especficos, y no esposible ningn valor entre dos consecutivos (nmero de hijos que puede teneruna familia, nmero de hojas de una planta, etc.). En el caso de variables discretas,a cada valor de la variable le corresponde una probabilidad, de la cual dependerel nmero de veces que se repita ese valor en funcin de los valores restantes. Ala correspondencia entre los valores y sus respectivas probabilidades se le llamafuncin de probabilidad.
Las variables cuantitativas continuas son aquellas que pueden tomar cual-quier valor a lo largo de un continuo, de modo que no hay valores consecutivos,
-
Captulo III
32
ya que entre dos valores cualesquiera siguen existiendo infinitos valores posibles(temperatura, longitud). Las variables continuas se pueden agrupar en catego-ras, pero de una forma arbitraria. Por ejemplo, la variable altura se puede dividiren categoras como pequeo, normal y alto, y los lmites de cada una de estascategoras se pueden establecer de forma arbitraria. A diferencia de lo que ocu-rra con las variables discretas, para las variables continuas no es til establecerla correspondencia entre valores y probabilidades. Lo que se hace es calcular laprobabilidad contenida en un determinado segmento o rango de valores, quedividida por la amplitud del segmento es la densidad media de probabilidad delsegmento, a partir de la cual se determina la densidad de probabilidad para cadavalor. La correspondencia entre los valores y su respectiva densidad de probabi-lidad se llama funcin de densidad.
La distincin entre estos cuatro tipos de variables es importante por variosmotivos:
1. El clculo de algunas medidas de posicin o de dispersin no tienen sentidocon variables cualitativas, por ejemplo en el caso de la variable sexo.
2. Para la aplicacin correcta de tcnicas de anlisis estadsticos: as lamayora de las pruebas no paramtricas requieren que la variable sea almenos ordinal, y muchos mtodos de anlisis multivariante exigen quelas variables sean cuantitativas (por ejemplo anlisis factorial o anlisisdiscriminante).
En este captulo vamos a estudiar las funciones de probabilidad y de densidadde las distribuciones para variables discretas y continuas.
III.1. Distribuciones para variables continuas
III.1.1. Normal
La distribucin Normal es una de las distribuciones ms importantes porquese observa en muchas series de datos y, adems, distintos tipos de anlisisestadsticos presentan como condicin para poder aplicarse a la serie de datos,que sta presente este tipo de distribucin. Varios matemticos intervinieron ensu desarrollo, entre los que figura el astrnomo del siglo XVIII Karl Gauss, por locual a veces es llamada en su honor campana o distribucin de Gauss.
La funcin de densidad de la distribucin Normal se describe por medio de lasiguiente ecuacin:
donde f(x) es la densidad de probabilidad del valor x, es la media y es ladesviacin tpica. La forma de la distribucin Normal vara en funcin de la media() y la desviacin tpica () (Figura III.1).
-
33
Distribucin
III.1.1.1. Aplicaciones de la distribucin Normal
La tabla de la distribucin Normal N(0,1), es decir, con = 0 y = 1 (Tabla Idel Apndice II y Archivo Tabla 1.doc), nos permite calcular probabilidadesrelativas a cualquier otra distribucin Normal con diferente y . Para ello, bastatipificar la variable, es decir, calcular el valor Z (unidades de desviacin conrespecto a la media) correspondiente a los valores x indicados mediante laoperacin:
Este valor Z que se deriva a partir de la variable Normal nos permite obteneren las tablas las probabilidades correspondientes a cualquier intervalo (vaseCuadro III.1).
Figura III.1. Distribuciones normales con diferentes mediasy desviaciones tpicas.
CUADRO III.1. Usos de la distribucin Normal
EJEMPLO. La longitud del cuerpo de una especie de una determinadapoblacin se distribuye segn una Normal de = 10,8 cm y = 3,7 cm.
1. Calcular la probabilidad de que un individuo tenga un tamaomayor de 8,9 cm.
Paso 1.1. Clculo del valor Z
-
Captulo III
34
CUADRO III.1. (Continuacin)
Paso 1.2. El paso siguiente es consultar la tabla de la distribucin NormalN(0,1) (Tabla I del Apndice II o Archivo Tabla 1.doc), que para un Z de0,51 (se busca siempre el valor absoluto), el valor en la tabla es de 0,695.
Paso 1.3. Se pueden dar cuatro situaciones:
1. El valor de x es menor que (en nuestro ejemplo 10,8 cm) y se pidela probabilidad de que sea superior a x. En este caso la probabilidadser el valor obtenido en la Tabla 1.doc.
2. El valor de x es menor que y se pide la probabilidad de que seainferior a x. En este caso la probabilidad ser 1 menos el valorobtenido en la Tabla 1.doc.
3. El valor de x es mayor que y se pide la probabilidad de que seainferior que x. En este caso la probabilidad ser el valor obtenido enla Tabla 1.doc.
4. El valor de x es mayor que y se pide la probabilidad de que seasuperior que x. En este caso la probabilidad ser 1 menos el valorobtenido en la Tabla 1.doc.
En nuestro ejemplo, x (8,9) es menor que (10,8) y se pide la probabili-dad de que sea superior a x. Por lo tanto, sera la situacin 1 y laprobabilidad de elegir un individuo al azar que tenga ms de 8,9 cm delongitud ser de 0,695.
La probabilidad de que un individuo fuese menor de 8,9 cm sera:
1 0,695 = 0,305
2. Calcular la probabilidad de que un individuo tenga un tamaoentre 8,9 y 12,4 cm.
La probabilidad de que sea menor de 8,9 cm es 0,305
La probabilidad de que sea menor de 12,4 cm es 0,6664.
Por lo tanto, la probabilidad de que un individuo tenga un tamao entre8,9 y 12,4 cm es 0,6664 0,305 = 0,3614.
3. Calcular la probabilidad de que un individuo tenga un tamaoentre 11,9 y 12,4 cm.
La probabilidad de que sea menor de 11,9 cm es 0,6141.
-
35
Distribucin
CUADRO III.1. (Continuacin)
La probabilidad de que sea menor de 12,4 cm es 0,6664.
Por lo tanto, la probabilidad de que un individuo tenga un tamao entre11,9 y 12,4 cm es 0,6664 0,6141 = 0,0523.
El programa STATISTICA permite realizar los clculos que se han mostradoanteriormente. Para ello hay que entrar en Statistics, luego en ProbabilityCalculator y, por ltimo, en Distributions.
Nos aparecer la siguiente ventana donde seleccionamos la distribucinNormal Z (Normal).
-
Captulo III
36
CUADRO III.1. (Continuacin)
En el ventana anterior hay que introducir la media (mean), la desviacinestndar (st.dev.) y el valor de X. Como ejemplo se muestra el caso delproblema 1.
En el caso del problema 3, primero se calcula la probabilidad de que seamenor de 11,9 cm, como se muestra en la siguiente ventana.
Luego se calcula la probabilidad de que sea menor de 12,4 cm.
El resultado, como se mostr anteriormente, sera la diferencia entre ambasprobabilidades:
0,667286 0,61688 = 0,0504
-
37
Distribucin
III.1.1.2. Asimetra
Las medidas de asimetra tienen como finalidad el determinar si una variablese distribuye de forma simtrica con respecto a un valor central, o bien si ladistribucin de los datos tiene una forma diferente del lado derecho que del ladoizquierdo.
La distribucin es simtrica si al lado derecho y al lado izquierdo del valorcentral la distribucin de los datos es la misma. La distribucin tiene asimetrapositiva si las frecuencias ms altas se encuentran en el lado izquierdo de lamedia, mientras que en el derecho hay frecuencias ms pequeas. La asimetraes negativa cuando las frecuencias ms pequeas estn en el lado izquierdo(Figura III.2).
Como valor central de referencia se suele usar la media aritmtica, aunquetambin se puede utilizar la mediana.
Existen muchas formas de medir la simetra y una de ellas es la frmula quese muestra a continuacin (coeficiente de asimetra), la cual utiliza como valorcentral la media aritmtica (Cuadro III.2 y Archivo Cuadro III.2.xls):
Cuando el valor es cercano a cero la distribucin es simtrica, la asimetra espositiva cuando el valor es mayor que cero y la asimetra es negativa cuando elvalor es menor que cero.
Figura III.2. Diferentes tipos de asimetras.
-
Captulo III
38
III.1.1.3. Apuntamiento o curtosis
Las medidas de curtosis estudian la distribucin de los datos en la zona centralde la serie. La mayor o menor concentracin de frecuencias alrededor de lamedia y en la zona central de la distribucin dar lugar a una distribucin ms omenos apuntada. Por esta razn, a las medidas de curtosis se les llama tambinde apuntamiento o concentracin central. Las medidas de curtosis se aplican adistribuciones cercanas a la normalidad, es decir, unimodales simtricas o conligera asimetra.
Al igual que ocurra con la asimetra, existen diversas formas de estimar lacurtosis de una distribucin de datos pero una de las ms usadas es la que semuestra a continuacin (Cuadro III.2 y Archivo Cuadro III.2.xls).
Cuando el valor es positivo se dice que la distribucin est ms apuntada quela Normal y se denomina leptocrtica (Figura III.3). Cuando el valor es cero ocercano a cero, la distribucin tiene el mismo apuntamiento que la distribucinNormal y se le denomina mesocrtica (Figura III.3). Por ltimo, cuando el valores negativo, el apuntamiento es menor que el de la distribucin Normal y se ledenomina platicrtica (Figura III.3).
Figura III.3. Tipos de curtosis (barras) en comparacincon la distribucin Normal (lnea continua).
-
39
Distribucin
III.1.2. t de Student
Cuando una variable sigue una distribucin Normal, la media de una muestraaleatoria de esa variable tambin tiene distribucin Normal, y su media es lamedia poblacional desconocida . Esto puede ser utilizado para estimar . Sinembargo, a menudo no se conoce la desviacin tpica de la poblacin (solo setrabaja con una muestra de individuos del total de la poblacin) y, adems,puede ocurrir que el nmero de observaciones de la muestra es pequeo (menorde 30).
En estos casos, se puede utilizar la cuasidesviacin tpica de la muestra (s)junto con la distribucin t de Student:
La funcin de densidad de probabilidad de la distribucin t de Student vienedada por la siguiente expresin:
La distribucin t de Student puede tener diferentes formas dependiendo delos grados de libertad (Figura III.4). La apariencia general de la distribucin t es
CUADRO III.2. Asimetra y curtosis
Vamos a utilizar la misma serie de datos que en el Cuadro II.1 del CaptuloII. Estos clculos se pueden realizar utilizando el programa STATISTICA,como se mostr en el Cuadro II.5 del Captulo II.
1. Asimetra
2. Curtosis
-
Captulo III
40
similar a la de la distribucin Normal estndar. Sin embargo, la distribucin ttiene colas ms amplias que la Normal, es decir, la probabilidad de las colas esmayor que en la distribucin Normal. La distribucin t se transforma en unadistribucin Normal cuando el nmero de datos tiende a infinito. Los valorescrticos de distintos niveles de significacin y distintos grados de libertad semuestran en la Tabla 2 del Apndice o Archivo Tabla 2.doc.
Las aplicaciones de la distribucin t de Student en la inferencia estadsticason:
1. Para estimar intervalos de confianza para la media poblacional (Captulo IV).
2. Estimar y probar hiptesis sobre una diferencia de medias (Captulo VII).
Las hiptesis o asunciones para poder aplicar la t de Student son que en cadagrupo la variable estudiada siga una distribucin Normal y que la dispersin enambos grupos sea homognea (hiptesis de homocedasticidad = igualdad devarianzas) aunque, como veremos en el Captulo VII, este estadstico tambinse puede usar sin asumir igualdad de varianzas.
III.1.3. -cuadrado
La funcin de densidad de la distribucin -cuadrado (2) se describe pormedio de la siguiente expresin:
donde son los grados de libertad y x no es negativo.
Figura III.4. Funciones de densidad de la distribucinde Student para 1 (
) y 10 () grados de libertad.
-
41
Distribucin
A diferencia de lo que ocurra con la distribucin Normal, debido a que ladistribucin 2 depende de los grados de libertad, no existe una curva tpica sinoque la distribucin 2 puede tener diferentes formas dependiendo de los gradosde libertad (Figura III.5).
El valor de la variable que deja a su derecha un rea bajo la curva dedensidad se llama el punto crtico correspondiente al nivel de significacin y serepresenta por 2. Estn tabulados los puntos crticos de distintos niveles designificacin y distintos grados de libertad (Tabla 3 de los Apndices o ArchivoTabla 3.doc).
Son tres las aplicaciones principales que tiene la distribucin 2: test de bondadde ajuste, test de independencia y test de homogeneidad.
1. El test de bondad de ajuste consiste en el planteamiento de hasta qupunto una muestra se puede considerar como perteneciente a unapoblacin con una distribucin terica ya conocida. Es un mtodo que seutiliza frecuentemente para determinar si una serie de datos presentauna distribucin Normal, de Poisson, etc. (vase Seccin III.3 de esteCaptulo).
2. El test de independencia determina si dos caracteres X e Y de unapoblacin son dependientes o independientes. Por ejemplo, queremosdeterminar si la supervivencia de los descendientes de las hembras deuna poblacin es independiente o dependiente de la cantidad diaria quereciben de alimento las hembras (vase Captulo VI).
3. El test de homogeneidad permite determinar si varias muestras queestudian el mismo carcter A han sido tomadas o no de la mismapoblacin, respecto de dicha caracterstica A. Por ejemplo, hemosseleccionado varios grupos de individuos de una poblacin a los que hemos
Figura III.5. Funcin de densidad de la distribucin 2para 1 ( ), 5 ( ) y 10 () grados de libertad.
-
Captulo III
42
sometido a la misma dosis de diferentes metales y queremos determinarsi los metales afectan de forma diferente a la supervivencia de losindividuos (vase Captulo VI).
III.1.4. F de Fisher-Snedecor
La funcin de densidad de probabilidad de la distribucin F de Fisher-Snedecorviene dada por la siguiente expresin:
donde y son grados de libertad, siendo x no negativo. Al depender de dostipos de grados de libertad, la funcin de densidad puede tener muy diversasformas (Figura III.6).
Los valores crticos de la distribucin F Fisher-Snedecor de distintos nivelesde significacin y distintos grados de libertad se muestran en la Tabla 4 de losApndices o en el Archivo Tabla 4.doc.
Esta distribucin se usa principalmente en dos tipos de situaciones, requirindoseen ambos casos que la distribucin de las variables sea Normal:
1. Para probar si dos muestras provienen de poblaciones que poseenvarianzas iguales. Esta prueba es til para determinar si una poblacinNormal tiene una mayor variacin que la otra (vase ejemplo de Cuadro
Figura III.6. Funciones de densidad de la distribucin F Fisher-Snedecorpara distintos grados de libertad F(30,5) ( ) F(5,30) ( ).
-
43
Distribucin
IV.3 en el Captulo IV) y es importante ya que, como veremos en elCaptulo VII, a la hora de comparar medias, varios estadsticos presentancomo requisito la homogeneidad de varianzas.
2. Tambin se aplica cuando se trata de comparar simultneamente variasmedias poblacionales (vase Captulo VII).
III.2. Distribuciones para variables discretas
III.2.1. Binomial
Una variable presenta una distribucin binomial cuando solo tiene dos posiblesresultados: xito y fracaso, siendo la probabilidad de cada uno de ellosconstante en una serie de repeticiones, es decir, ni la probabilidad de xito ni lade fracaso cambian de una prueba a otra, y adems el resultado de cada pruebaes independiente del resultado de las dems pruebas.
La probabilidad de xito est representada por p y la probabilidad de fracasose representa por q.
Como se coment al inicio de este captulo, en el caso de las variables discretasen lugar de la funcin de densidad se utiliza la funcin de probabilidad o decuanta, que da una probabilidad para cada valor de la variable. La funcin deprobabilidad binomial viene expresada por la siguiente ecuacin:
En el Cuadro III.3 se muestran aplicaciones de la distribucin binomial.
CUADRO III.3. Aplicacin de la distribucin binomial
EJEMPLO. La aplicacin de un determinado tratamiento a un grupo deindividuos que presentan un parsito produce una mejora en un 67% delos casos. Si se aplica el tratamiento a 8 individuos:
El valor de p = 0,67 y, por tanto, el valor de q es 0,33.
Cul es la probabilidad de que mejoren 7 individuos?
-
Captulo III
44
CUADRO III.3. (Continuacin)
Cul es la probabilidad de que al menos mejoren 3 individuos?
La probabilidad de que al menos mejoren 3 individuos ser 1 menos laprobabilidad que mejoren 2 individuos menos la probabilidad de que mejore1 individuo menos la probabilidad de que no mejore ninguno:
Probabilidad = 0,981
III.2.2. Hipergeomtrica
En la distribucin hipergeomtrica la variable tambin es aleatoria ydicotmica como la distribucin binomial, pero se diferencia de esta ltima endos caractersticas importantes: la poblacin es finita, mientras que en labinomial era infinita y, adems, las probabilidades cambian de una prueba aotra, ya que el resultado de cada prueba es dependiente del resultado de lasdems pruebas.
La funcin de probabilidad viene expresada por la siguiente ecuacin:
donde Np y Nq son el nmero de elementos con probabilidad inicial p y q,respectivamente, N el nmero de elementos totales y n el nmero de elementosde la muestra extrada de los N totales.
En el Cuadro III.4 se muestran aplicaciones de la distribucin hipergeomtrica.
-
45
Distribucin
III.2.3. Poisson
Un proceso de Poisson es un proceso de sucesos independientes que secaracteriza por:
1. El nmero de sucesos en dos intervalos distintos siempre es indepen-diente.
2. La probabilidad de que un suceso ocurra en un intervalo infinitesimales proporcional a la longitud del intervalo.
3. La probabilidad de que ocurra ms de un suceso en un intervalo muypequeo h es 0.
4. Los sucesos son expresados por unidad de rea, tiempo, etc.
CUADRO III.4. Aplicacin de la distribucinhipergeomtrica
EJEMPLO. En un lote de 30 vacunas se ha comprobado que 8 estn en malestado. Ya se han utilizado 4 vacunas del lote.
Cul es la probabilidad de que al menos una de las vacunassuministradas est en malas condiciones?
Se calcula la probabilidad de que ninguna de las vacunas suministradasest en mal estado
Por lo tanto, la respuesta sera 1 0,267= 0,733
Cul es la probabilidad de que 3 de las vacunas suministradasestn en malas condiciones?
-
Captulo III
46
La distribucin de Poisson describe el nmero de sucesos en una unidad detiempo de un proceso Poisson. Muchos fenmenos se modelan como un procesode Poisson, por ejemplo los accidentes en una determinada zona de una carretera.
Las diferencias ms importantes con respecto a la distribucin binomial sonque esta distribucin se aplica a sucesos que pueden tener una probabilidadmuy baja y, adems, el tamao de n es infinito. En algunos casos la distribucinde Poisson se utiliza como aproximacin a la Binomial cuando n es muy grande y,por tanto, es difcil el clculo de la Binomial y, adems, cuando la probabilidad dealguno de los eventos es muy baja. La funcin de probabilidad de la distribucinde Poisson se expresa por la siguiente ecuacin:
donde es la media o promedio de sucesos por unidad de tiempo y x es lavariable que indica el nmero de sucesos
En el Cuadro III.5 se dan varios ejemplos de aplicacin de la distribucin dePoisson.
CUADRO III.5. Aplicacin de la distribucin de Poisson
EJEMPLO. La abundancia de una especie es de 23 individuos 100 m2.Como se trata de sucesos por unidad de rea se utiliza una Poisson.
Cul es la probabilidad de no encontrar ningn individuo en25 m2?
La probabilidad que buscamos ser:
EJEMPLO. El nmero de tiburones blancos avistados fue de 120 en 30das.
Como se trata de sucesos por unidad de tiempo y suponemos que sonindependientes, se utiliza una Poisson.
Cul es la probabilidad de ver solo 5 tiburones en 10 das?
La probabilidad que buscamos ser:
-
47
Distribucin
III.3. Mtodos para determinar el tipo de distribucin
Para determinar si las variables se ajustan a alguna de las distribuciones delas que se han descrito anteriormente es necesario cuantificar si los resultadosobtenidos se ajustan a ese modelo o las diferencias son debidas al azar. Loscontrastes estadsticos utilizados con este fin se denominan pruebas de bondadde ajuste.
Existen distintas pruebas de bondad de ajuste que se utilizan en funcin deltipo de datos y la distribucin terica esperada. Una clasificacin de los ajustesms empleados es:
1. Muestras categorizadas (distribuciones tanto para variables continuascomo discretas).
a. 2.b. Test G.
2. Muestras no categorizadas (distribuciones continuas).a. Para todas distribuciones.
Prueba Kolmogorov-Smirnov (test K-S).b. Distribucin Normal.
Contraste de normalidad Shapiro-Wilk.
III.3.1. -cuadrado
Se puede aplicar tanto a distribuciones continuas (con los datos previamenteagrupados en clases) como a distribuciones discretas. Se basa en cuantificar ladiferencia entre las frecuencias observadas en cada clase y las esperadas,partiendo de la hiptesis nula de que los datos se ajustan a una distribucin f(x)(que puede ser Normal, Poisson, etc). Para su estimacin, en las n clasesexistentes, se contabiliza el nmero de casos observados (Oi) y, a travs de lafuncin terica que se desea testar, se calcula el nmero de casos esperados(Ei). A partir de estos valores se calcula el valor del estadstico 2, con la siguientefrmula:
Se aconseja que si el nmero de casos esperados dentro de una clase esmenor de 5 se combinen varias clases en una, hasta conseguir que todas tenganuna frecuencia esperada mayor o igual a 5. No se debe utilizar cuando hay pocosdatos.
A continuacin se deben calcular los grados de libertad () de la muestra. Si losvalores esperados se pueden calcular de forma previa al muestreo, el nmero de es n-1. Sin embargo, si para calcular los valores esperados es necesario estimaralgunos parmetros mediante estadsticos obtenidos en el muestreo (como, por
-
Captulo III
48
ejemplo, o para una distribucin Normal) el nmero de es n-r-1 donde r esel nmero de estadsticos necesarios para calcular el valor esperado.
Una vez determinados 2 y , se busca en la tabla 2 (Tabla 3 en el Apndice oArchivo Tabla 3.doc) el valor crtico para esos y para el nivel de significacinelegido (generalmente = 0,05). Si el 2 crtico es mayor que 2 calculado seacepta la hiptesis nula de que los datos observados se ajustan a la distribucinesperada, mientras que si 2 crtico es menor que 2 calculado la hiptesis serechaza. En el Cuadro III.6 se muestra cmo realizar este test con el programaSTATISTICA.
CUADRO III.6. Ajuste de distribuciones con el test 2
EJEMPLO. Se ha estimado la abundancia por m2 de caracoles en la laderade un monte y se desea conocer si su distribucin es aleatoria, es decir, sise corresponde a una distribucin de Poisson (datos en el archivo CuadroIII.6.sta).
Paso 1. Dentro del men Statistics del programa STATISTICA seselecciona el comando Distribution Fitting.
Paso 2. Nos aparece la ventana que se muestra a continuacin dondetenemos que elegir el tipo de distribucin a la que creemos se ajustannuestros datos.
-
49
Distribucin
CUADRO III.6. (Continuacin)
Paso 3. Pulsando OK en la ventana anterior aparece la siguiente ventanaen la que se distingue una parte comn y tres pestaas diferentes. En elbloque comn se debe indicar la variable a analizar pulsando sobre la pestaaVariable.
Paso 4. En la pestaa Options, activada en el cuadro anterior, seseleccionan en la parte izquierda los contrastes que queremos efectuar. Enprimer lugar, debemos indicar si queremos realizar un test Kolmogorov-Smirnov a los datos (este test se utiliza tambin para variables continuasque se categorizan Yes (categorized)). En nuestro caso es una variablecontinua no categorizada Yes (continuous).
Paso 5. En la seccin inferior izquierda de la pestaa Options debemosmarcar Combine Categories, para que al realizar el test 2 nos combinelas categoras con frecuencias inferiores a 5.
Paso 6. En la parte derecha de la pestaa Options marcamos Frequencydistribution (ya que queremos un grfico con las frecuencias de cadacategora y no la frecuencia acumulada) y Raw frequencies (queremosque las frecuencias aparezcan con su valor de observaciones y no como elporcentaje que representa de la muestra).
Paso 7. Activamos la pestaa Parameters, donde se puede modificar elnmero de categoras y el lmite superio