tratamiento de datos estadisticos

III

TRATAMIENTODE

DATOS

VTRATAMIENTODE

DATOS

Cstor Guisande GonzlezCatedrtico de Universidad del rea de Ecologa

Aldo Barreiro Felpeto, Isabel Maneiro Estraviz,Isabel Riveiro Alarcn, Alba Ruth Vergara Castao

Investigadores del rea de Ecologa

Antonio Vaamonde ListeCatedrtico de Universidad del rea de Estadstica e Investigacin Operativa

Universidad de Vigo

VI

Cstor Guisande GonzlezReservados todos los derechos.

No est permitida la reproduccin total o parcial de este libro,ni su tratamiento informtico, ni la transmisin de ninguna formao por cualquier medio, ya sea electrnico, mecnico porfotocopia, por registro u otros mtodos, sin el permiso previo ypor escrito de los titulares del Copyright.

Ediciones Daz de SantosInternet: http//www.diazdesantos.es/edicionesE-mail: [email protected]

ISBN: 84-7978-736-8Depsito Legal: M. 4.798-2006

Fotocomposicin: P55 Servicios CulturalesDiseo de cubierta: P55 Servicios CulturalesImpresin: Fernndez CiudadEncuadernacin: Rstica-Hilo

Printed in Spain - Impreso en Espaa

VII

PRLOGO ......................................................................................... XIII

I. REPRESENTACIN DE DATOS .......................................................... 1I.1. Coordenadas polares ............................................................... 1

I.1.1. Estandarizacin de los datos ............................................. 2I.1.2. Asignacin de ngulos a las variables ................................ 2I.1.3. Representacin de las coordenadas polares ........................ 6

I.2. Representacin de las coordenadas polares en el programaSigmaPlot ..................................................................................... 10

II. ESTADSTICA DESCRIPTIVA ........................................................... 15II.1. Medidas de posicin ............................................................... 15

II.1.1. Medidas de posicin central ............................................. 15II.1.1.1. Media aritmtica ..................................................... 15II.1.1.2. Media geomtrica .................................................... 16II.1.1.3. Media armnica ....................................................... 16II.1.1.4. Moda...................................................................... 17II.1.1.5. Mediana ................................................................. 17II.1.1.6. Media ponderada ..................................................... 19

II.1.2. Otras medidas de posicin ............................................... 21II.2. Medidas de dispersin ............................................................ 23

II.2.1. Amplitud ........................................................................ 23II.2.2. Varianza y cuasivarianza ................................................. 24II.2.3. Desviacin tpica y cuasidesviacin tpica .......................... 24II.2.4. Coeficiente de variacin .................................................. 25II.2.5. Error estndar ................................................................ 25II.2.6. Recorrido intercuartlico .................................................. 25

II.3. Estadstica descriptiva con el programa STATISTICA.................. 27

III. DISTRIBUCIN ............................................................................ 31III.1. Distribuciones para variables continuas................................... 32

III.1.1. Normal ......................................................................... 32

ndice de contenido

VIII

III.1.1.1. Aplicaciones de la distribucin Normal ...................... 33III.1.1.2. Asimetra .............................................................. 37III.1.1.3. Apuntamiento o curtosis ......................................... 38

III.1.2. t de Student ................................................................. 39III.1.3. -cuadrado ................................................................... 40III.1.4. F de Fisher-Snedecor ..................................................... 42

III.2. Distribuciones para variables discretas ................................... 43III.2.1. Binomial ....................................................................... 43III.2.2. Hipergeomtrica............................................................ 44III.2.3. Poisson......................................................................... 45

III.3. Mtodos para determinar el tipo de distribucin....................... 47III.3.1. -cuadrado ................................................................... 47III.3.2. Test G (razn de verosimilitud) ....................................... 51III.3.3. Test de Kolmogorov-Smirnov .......................................... 54III.3.4. Contraste de normalidad de Shapiro-Wilk ........................ 56

IV. INTERVALOS DE CONFIANZA ......................................................... 59IV.1. Intervalo de confianza de la media de una poblacinNormal ......................................................................................... 59

IV.1.1. Desviacin tpica conocida ............................................... 60IV.1.2. Desviacin tpica desconocida .......................................... 60

IV.1.2.1. Tamao de muestra grande (' 30) ............................ 60IV.1.2.2. Tamao de muestra pequeo (< 30) ......................... 60

IV.2. Intervalo de confianza de la diferencia de medias de dospoblaciones Normales .................................................................... 61

IV.2.1. Varianzas conocidas ....................................................... 61IV.2.2. Varianzas desconocidas .................................................. 61

IV.2.2.1. Tamao de muestra grande (' 30) ............................ 62IV.2.2.2. Tamao de muestra pequeo (< 30) ......................... 63

IV.2.2.2.1. Varianzas iguales ............................................. 63IV.2.2.2.2. Varianzas diferentes ......................................... 64

IV.3. Intervalo de confianza de la varianza y desviacin tpica deuna poblacin Normal .................................................................... 64IV.4. Intervalo de confianza de la razn de varianzas de dospoblaciones Normales .................................................................... 66

V. CONTRASTE DE HIPTESIS ............................................................ 71V.1. Tipos de hiptesis ................................................................... 71V.2. Estadstico de contraste .......................................................... 71V.3. Tipos de errores ..................................................................... 72V.4. Regiones crticas y de aceptacin ............................................. 72V.5. Tipos de contrastes ................................................................. 73

VI. CONTRASTE DE HIPTESIS EN VARIABLES CUALITATIVAS ............... 75VI.1. Bondad de ajuste .................................................................. 75

IX

VI.2. Pruebas de homogeneidad de muestras .................................. 77VI.2.1. Muestras independientes ................................................ 78

VI.2.1.1. -cuadrado ............................................................ 78VI.2.1.2. Razn de verosimilitud (Test G) ................................ 83VI.2.1.3. Prueba exacta de Fisher .......................................... 83

VI.2.2. Muestras relacionadas .................................................... 87VI.2.2.1. Prueba de McNemar ................................................ 87VI.2.2.2. Q de Cochran ......................................................... 88

VI.3. Pruebas de independencia de variables ................................... 90VI.3.1. -cuadrado de Pearson y test G de razn deverosimilitud ............................................................................ 91VI.3.2. Medidas de asociacin .................................................... 92

VI.3.2.1. Phi y V de Cramer ................................................... 92VI.3.2.2. Coeficiente de Contingencia ..................................... 93VI.3.2.3. Coeficiente de Incertidumbre ................................... 93

VII. CONTRASTE DE HIPTESIS EN VARIABLES CUANTITATIVAS............ 97VII.1. Pruebas paramtricas........................................................... 97

VII.1.1. Requisitos .................................................................... 97VII.1.2. Transformaciones ......................................................... 98VII.1.3. t-test ........................................................................... 98

VII.1.3.1. Muestras independientes ........................................ 98VII.1.3.2. Muestras dependientes .......................................... 103

VII.1.4. Anlisis de varianza ........................................................... 106VII.1.4.1. Anlisis de varianza univariante de un factor ................ 107VII.1.4.2. Anlisis de varianza univariante con variosfactores ................................................................................... 113VII.1.4.3. Anlisis de varianza multivariante ................................ 120

VII.1.5. Anlisis de covarianza ....................................................... 120VII.2. Pruebas no paramtricas ...................................................... 127

VII.2.1. Contraste de bondad de ajuste ...................................... 127VII.2.2. Contraste de homogeneidad de muestras ....................... 127

VII.2.2.1. Contrastes para dos muestras independientes.......... 128VII.2.2.1.1. Prueba U de Mann-Whitney ............................ 128VII.2.2.1.2. Test de rachas de Wald-Wolfowitz ................... 129VII.2.2.1.3. Prueba de Kolmogorov-Smirnov para dosmuestras ........................................................................ 130

VII.2.2.2. Contrastes para k-muestras independientes ............. 133VII.2.2.1.1. Contraste de la mediana ................................ 133VII.2.2.2.2. ANOVA de Kruskal-Wallis ................................ 133

VII.2.2.3. Contrastes para dos muestras dependientes ............ 137VII.2.2.3.1. Contraste de los signos .................................. 137VII.2.2.3.2. Prueba de Wilcoxon para paresrelacionados ................................................................... 137

VII.2.2.3. Contrastes para k-muestras dependientes ............... 140

XVII.2.3. Independencia de variables ........................................... 143VII.2.3.1. Coeficiente de correlacin de Spearman (rs) ............. 143VII.2.3.2. de Kendall .......................................................... 144VII.2.3.3. Gamma () ........................................................... 144VII.2.3.4. Coeficiente de concordancia de Kendall ................... 144

VIII. REGRESIONES ........................................................................... 149VIII.1. Modelos de regresin para variables dependientescuantitativas ................................................................................. 149

VIII.1.1. Requisitos ................................................................... 149VIII.1.2. Regresin simple ......................................................... 150VIII.1.3. Regresin mltiple lineal .............................................. 165VIII.1.4. Otras regresiones simples o mltiples no lineales ........... 172

VIII.1.4.1. Curva logstica ..................................................... 172VIII.1.4.2. Curva de crecimiento de von Bertalanffy................. 173VIII.1.4.3. Curva de crecimiento de Gompertz ........................ 173VIII.1.4.4. Relacin entre tasas y variables ............................. 174

VIII.2. Modelos de regresin para variables dependientescualitativas ................................................................................... 180

VIII.2.1. Regresin logstica binomial ......................................... 180VIII.2.2. Regresin logstica multinomial ..................................... 193

IX. ANLISIS MULTIVARIANTE ............................................................ 207IX.1. Anlisis Cluster ..................................................................... 207

IX.1.1. rbol jerrquico (Conglomerado jerrquico) ..................... 208IX.1.2. Conglomerado de K-medias (Algoritmo de K-medias) ........ 215

IX.2. Anlisis Discriminante ............................................................ 221IX.3. Anlisis Factorial y Anlisis de Componentes Principales ........... 235IX.4. Correlacin Cannica ............................................................. 253IX.5. Anlisis de Correspondencias ................................................. 261

X. MODELOS DE SIMULACIN ............................................................ 275X.1. El uso de modelos .................................................................. 275X.2. Pasos a considerar para el desarrollo de un modelo ................... 276X.3. Introduccin al modelado con el programa Stella ...................... 278

X.3.1. Significado de los iconos y mens especficosde la barra de herramientas en Map/Model level .......................... 279X.3.2. Ejemplo de funcionamiento de los iconos ymens bsicos ......................................................................... 283

X.4. Ejemplo de modelado con el programa Stella: desarrolloconceptual y manejo prctico ......................................................... 295

X.4.1. Dinmica poblacional de la presa ...................................... 296X.4.2. Dinmica poblacional del depredador y su influenciasobre la presa .......................................................................... 297X.4.3. Influencia de la explotacin sobre la poblacin deldepredador .............................................................................. 299

XI

XI. NDICES ...................................................................................... 301XI.1. Estabilidad ........................................................................... 301

XI.1.1. ndice de fluctuacin ...................................................... 301XI.2. Similitud .............................................................................. 304

XI.2.1. ndices binarios ............................................................. 304XI.2.1.1. Jaccard .................................................................. 305XI.2.1.2. Sorensen ............................................................... 307

XI.2.2. ndices cuantitativos ...................................................... 307XI.2.2.1. Distancia Eucldea................................................... 307XI.2.2.2. Morisita ................................................................. 311

XI.3. Diversidad ............................................................................ 313XI.3.1. ndice recproco de Simpson ........................................... 313XI.3.2. ndice de diversidad de Shannon-Wiener.......................... 313

XI.4. Trficos ................................................................................ 316XI.4.1. Seleccin del alimento .................................................... 316XI.4.2. Amplitud nicho trfico .................................................... 317

BIBLIOGRAFA .................................................................................. 321

APNDICES....................................................................................... 325Tabla 1. reas bajo la curva Normal estndar ....................................... 325Tabla 2. Valores crticos de la distribucin t de Student ......................... 326Tabla 3. Valores crticos de la distribucin -cuadrado ........................... 327Tabla 4. Valores crticos de la distribucin F Fisher-Snedecor ................. 331Tabla 5. Valores crticos de la distribucin del estadstico deKolmogorov-Smirnov ......................................................................... 337Tabla 6. Valores crticos de la distribucin del estadstico de Lilliefors ...... 338Tabla 7. Valores crticos de la distribucin del estadstico delcontraste Durbin-Watson .................................................................... 339

NDICE DE CONCEPTOS ..................................................................... 341

GUA RESUMEN ................................................................................. 351

XIII

Prlogo

Uno de los principales problemas a los que nos enfrentamos los investigadoreses la seleccin de la herramienta estadstica adecuada, para la interpretacin delos datos obtenidos fruto de la experimentacin o del trabajo de campo y/ointerpretar la informacin que se obtiene del mtodo empleado. Nuestro librointenta ayudar en ambos aspectos.

Hemos seleccionado ejemplos sencillos y se han explicado con diversospaquetes estadsticos, ya que en muchas ocasiones la dificultad reside no soloen qu tipo de tratamiento estadstico aplicar y cmo interpretarlo, sino en todoel proceso matemtico que implica. Por lo tanto, otra contribucin del libro esfacilitar el tratamiento de los datos explicando cmo se realiza el proceso deanlisis en algunos programas estadsticos que existen disponibles. Con el librose facilita un CD con todos los ficheros de datos usados en los ejemplos.

Los ejemplos pueden ser reproducidos para diversos campos de la ciencia, yaque los mtodos y los ejemplos son prcticamente idnticos para las distintasaplicaciones. Por lo tanto, no est restringido a un mbito cientfico especfico,sino a cualquier tipo de persona que quiera realizar un tratamiento de datos.

Este manual est estructurado en diversos captulos en los que se tratan larepresentacin de datos, contraste de hiptesis, el uso de herramientasmultivariantes, etc. Finalmente se incluye una gua resumen en la que se pretendefacilitar la aproximacin a los distintos tipos de anlisis, a partir del tipo de datoscon los que se cuenta, la hiptesis de la que se parte y el tipo de solucin que sebusca.

1Representacin de datos

I.1. Coordenadas polares

Un paso obligado previo a la realizacin de cualquier tratamiento de datos esrepresentar los datos grficamente. Esto es necesario por muchos motivos: porejemplo, para ver el tipo de relacin que existe entre dos variables (lineal,logartmica, exponencial, etc.); para identificar posibles outliers, datos queson muy diferentes del resto y que se pueden deber simplemente a que hemosintroducido mal los datos en el ordenador; para ver el tipo de distribucin yvariabilidad de los datos, etc. Existen muchos tipos de grficas que permitenhacer representaciones, que son bien conocidas y de uso comn por la mayorade las personas que trabajan con datos. En este captulo solo vamos a tratar untipo de representacin que no es tan conocido, el grfico de coordenadas polares.

Un problema frecuente que surge a la hora de mostrar grficamente los resul-tados obtenidos es que es necesario representar ms de dos ejes de coordenadas.Sin embargo, en un plano bidimensional lo mximo que se puede dibujar son tresejes. Las coordenadas polares permi-ten representar en un grficobidimensional cualquier nmero deejes de coordenadas.

Supongamos que se quiere repre-sentar el nicho de varias especies derboles considerando como variablesdel nicho el pH medio del suelo en elque aparece la especie, la temperaturamedia, la salinidad media del suelo, lapluviosidad media y la concentracinmedia de nitratos en el suelo. Las coor-denadas polares consideran lasdiferentes variables como vectores defuerza, de tal forma que las coordena-das polares X e Y de cada especie seranel punto de equilibrio de todos los vec-tores es decir, de todas las variables(Figura I.1).

Figura I.1 Esquema de un sistema decoordenadas polares donde el crculo grisindica el centro de gravedad o punto deequilibrio de todas las variables. Lascoordenadas de ese punto gris seran lascoordenadas X e Y de la especie.

REPRESENTACINDE

DATOS

I

Captulo I

2

El mdulo de cada vector sera el valor de la variable y el ngulo de cada vectortendra un valor convenido asignado a cada variable. Por lo tanto, cada espe-cie tendra unas coordenadas X e Y, lo cual permite su representacin en unplano bidimensional y, adems, estas coordenadas X e Y vendran determina-das por el efecto conjunto de todas las variables consideradas para definir elnicho de las especies. Es decir, cada especie ocupara una posicin en el plano enfuncin de las variables del nicho, lo cual permitira ver grficamente qu especiestienen un nicho ms parecido.

Debido a que la representacin polar se basa en vectores de fuerza, solo sepuede utilizar con variables que tengan igual peso, es decir, que los valores delas variables puedan ser comparables. En el caso de que las variables no seanequiparables es necesario realizar una estandarizacin previa de los datos.

En un anlisis multivariante de componentes principales, las puntuacionesobtenidas en cada eje para cada caso seran un ejemplo de variables que son engeneral equiparables. Los porcentajes de alimento consumido por varias especiestambin seran otro caso de variables equiparables, as como, por ejemplo, elporcentaje granulomtrico del suelo.

Por el contrario, si por ejemplo queremos una representacin de varias lagunas,para ver grficamente qu lagunas tienen unas caractersticas fisicoqumicassemejantes, considerando la temperatura, conductividad, pH, oxgeno, etc., estasvariables no seran equiparables y sera necesario realizar una estandarizacinprevia.

I.1.1. Estandarizacin de los datos

Como ejemplo de estandarizacin previa al clculo de las coordenadas polaresvamos a trabajar con datos fisicoqumicos de distintas lagunas, para las que, enalgunas de ellas, existen varias estaciones de muestreo.

En la Tabla I.1 (Cuadro I.1) se muestran los datos y en el Archivo CuadroI.1.xls, adems de los datos, se muestran todos los pasos a seguir para estan-darizar los datos, los cuales tambin se describen en el Cuadro I.1.

En el Cuadro I.2 hay otro ejemplo a modo de prctica, del mtodo para es-tandarizar datos.

I.1.2. Asignacin de ngulos a las variables

Un paso previo al clculo de las coordenadas es asignar ngulos a las variablesconsideradas. Lo que se hace es dividir 360 entre el nmero de variables. Porejemplo, en la matriz de datos de la Tabla I.4 (Cuadro I.2), como el nmero devariables es 5, el valor del ngulo de cada variable es de 72 (360/5). Estoimplica que la variable 1 tendra un ngulo de 72, la variable 2 de 144, lavariable 3 de 216, la variable 4 de 288 y la variable 5 de 360.


CU

AD

RO

I.1

. E

stan

dari

zaci

n

de d

ato

s

EJE

MP

LO

.La

est

andari

zaci

n d

e lo

s dato

s fisi

coqum

icos

de

difer

ente

s la

gunas

se m

ues

tra e

n la s

iguie

nte

tabla

.

Tab

la I

.1.

Dato

s fisi

coqum

icos

de

dis

tinta

s la

gunas.

Laguna

Est

aci

n

Tem

pera

tura

Conduct

ivid

ad

pH

Nitra

toN

itri

toAm

onio

Fosf

ato

Sili

cato

(C

)(

S c

m-1)

(M

)(

M)

(M

)(

M)

(M

)

11

29,1

495

6,0

80,0

01,0

90

1,1

40

0,3

20

62,7

82

128,1

1537

7,8

50,5

20,2

80

0,9

40

0,3

84

231,6

72

28,6

1568

8,5

20,0

00,2

53

0,8

39

0,4

28

262,3

13

128,2

755

8,5

20,5

20,2

75

0,9

37

0,3

84

231,6

72

28,5

739

8,2

40,0

00,3

48

0,3

39

0,7

61

172,6

93

28,6

748

8,6

00,1

30,3

86

0,4

19

0,8

67

189,4

14

127,5

905

7,6

30,0

00,8

93

0,9

15

1,0

56

91,6

99

51

26,4

419

7,7

20,0

00,7

08

0,6

68

0,2

58

113,1

86

123,9

1034

7,6

40,4

20,3

01

1,2

29

0,2

63

189,0

47

132,6

217

7,4

20,3

00,8

43

2,0

76

0,6

18

118,0

08

131,3

371

7,3

20,0

00,6

97

0,6

35

0,4

89

99,2

25

91

32,3

1162

7,1

70,0

40,2

48

0,7

62

1,8

11

326,6

3

Paso

1.

Clc

ulo

de

los

valo

res

mxi

mos

y m

nim

os

de

las

vari

able

s.

Tem

pera

tura

Conduct

ivid

ad

pH

Nitra

toN

itri

toAm

onio

Fosf

ato

Sili

cato

(C

)(

S c

m-1)

(M

)(

M)

(M

)(

M)

(M

)

Mxim

o32,6

1568

8,6

0,5

21,0

92,0

76

1,8

11

326,6

3M

nim

o23,9

217

6,0

80

0,2

48

0,3

39

0,2

58

62,7

8

Captulo I

4

CU

AD

RO

I.1

. (C

ontinuaci

n)

Paso

2.

Est

andari

zaci

n a

una e

scala

de

0 a

1 d

e to

das

las

vari

able

s.

A c

ada u

no d

e lo

s va

lore

s de

las

vari

able

s se

aplic

a la s

iguie

nte

frm

ula

:

donde

VE e

s el

valo

r es

tandari

zado,

Max

y M

in s

on lo

s va

lore

s m

xi

mo y

mn

imo d

e ca

da v

ari

able

, re

spec

tiva

men

te,

que

se c

alc

ula

ron e

n e

l paso

1,

y x

es c

ada u

no d

e lo

s va

lore

s de

cada v

ari

able

(Ta

bla

I.2

).

Tab

la I

.2.

Valo

res

est

andari

zados

de los

dato

s fisi

coqum

icos

que

se m

ues

tran e

n la T

abla

I.1

.

Laguna

Est

aci

n

Tem

pera

tura

Conduct

ivid

ad

pH

Nitra

toN

itri

toAm

onio

Fosf

ato

Sili

cato

(C

)(

S c

m-1)

(M

)(

M)

(M

)(

M)

(M

)

11

0,5

98

0,2

06

0,0

00

0,0

00

1,0

00

0,4

61

0,0

40

0,0

00

21

0,4

83

0,9

77

0,7

02

1,0

00

0,0

38

0,3

46

0,0

81

0,6

40

20,5

40

1,0

00

0,9

68

0,0

00

0,0

06

0,2

88

0,1

09

0,7

56

31

0,4

94

0,3

98

0,9

68

1,0

00

0,0

32

0,3

44

0,0

81

0,6

40

20,5

29

0,3

86

0,8

57

0,0

00

0,1

19

0,0

00

0,3

24

0,4

17

30,5

40

0,3

93

1,0

00

0,2

50

0,1

64

0,0

46

0,3

92

0,4

80

41

0,4

14

0,5

09

0,6

15

0,0

00

0,7

66

0,3

32

0,5

14

0,1

10

51

0,2

87

0,1

50

0,6

51

0,0

00

0,5

46

0,1

89

0,0

00

0,1

91

61

0,0

00

0,6

05

0,6

19

0,8

08

0,0

63

0,5

12

0,0

03

0,4

79

71

1,0

00

0,0

00

0,5

32

0,5

77

0,7

07

1,0

00

0,2

32

0,2

09

81

0,8

51

0,1

14

0,4

92

0,0

00

0,5

33

0,1

70

0,1

49

0,1

38

91

0,9

66

0,6

99

0,4

33

0,0

77

0,0

00

0,2

44

1,0

00

1,0

00


CUADRO I.2. Prctica para la estandarizacin de datos

EJEMPLO. La Tabla I.3 muestra los datos morfolgicos de varias especiesde peces (Archivo Cuadro I.2.xls). La Tabla I.4 muestra los datosestandarizados.

Tabla I.3. Variables morfolgicas de diferentes especies de peces.

Especie Variable 1 Variable 2 Variable 3 Variable 4 Variable 5

1 93,4 27,8 13,3 12,5 44,42 96,3 26,7 14,4 11,8 43,33 140,4 14,5 24,4 4,3 49,34 111 32,1 20,4 12,5 54,45 111 52,2 22,2 26,2 52,36 25 7,5 3 4,4 12,67 24 4,9 2,5 2,4 14,78 31 8,6 2,4 3,8 11,59 30 8 7 14 1810 31 11,1 4,4 5,75 14,4

Tabla I.4. Valores estandarizados de los datos mostrados en la Tabla I.3.

Especie Variable 1 Variable 2 Variable 3 Variable 4 Variable 5

1 0,596 0,484 0,495 0,424 0,7672 0,621 0,461 0,545 0,395 0,7413 1,000 0,203 1,000 0,080 0,8814 0,747 0,575 0,818 0,424 1,0005 0,747 1,000 0,900 1,000 0,9516 0,009 0,055 0,027 0,084 0,0267 0,000 0,000 0,005 0,000 0,0758 0,060 0,078 0,000 0,059 0,0009 0,052 0,066 0,209 0,487 0,15210 0,060 0,131 0,091 0,141 0,068

Si alguna de las variables tiene valores negativos, entonces lo que se hace esdividir 360 por el doble del nmero de variables y a cada variable se le asignandos ngulos, incluso a aquellas variables que no tengan valores negativos. Paracada variable, a los valores negativos se les asigna un valor de ngulo 180mayor que el asignado a los valores positivos. Por ejemplo, supongamos que enla matriz de datos de la Tabla I.4 existiesen valores negativos. En ese caso elvalor del ngulo de cada variable sera de 36 (360/10). El ngulo de la variable1 sera de 36 para los valores positivos y de 216 para los valores negativos, elde la variable 2 sera 72 para los valores positivos y de 252 para los valoresnegativos, el de la variable 3 sera 108 para los valores positivos y 288 para losvalores negativos, el de la variable 4 sera 144 para los valores positivos y 324para los valores negativos, el de la variable 5 sera 180 para los valores positivosy 360 para los valores negativos.

Captulo I

6

I.1.3. Representacin de las coordenadas polares

Las coordenadas polares de cada elemento de la muestra o poblacin se calcu-lan determinando la resultante para cada uno de los ejes o variables, es decir,desplazando sucesivamente el punto en la direccin de cada eje una distanciaigual al valor de la variable correspondiente: el ngulo resultante y la distancia alorigen son las coordenadas polares. En general es ms sencillo calcular y repre-sentar las correspondientes coordenadas rectangulares mediante la siguientetransformacin:

donde X e Y son las coordenadas rectangulares para cada caso en el grficopolar, z es el valor de ese caso para la variable j, es el ngulo en gradosasignado a la variable j, y n es el nmero de variables. En el caso de que existanvalores negativos, entonces el nmero de variables n sera el doble de las querealmente existen, como se mencion anteriormente. En el Cuadro I.3 se explicancuales son los pasos a seguir.

Cuando se utiliza el programa EXCEL, es necesario pasar el ngulo a radianesy, por ello, las frmulas a utilizar son las siguientes:

Otro ejemplo de clculo de coordenadas polares se puede ver en el CuadroI.4. En este caso se realiza la representacin polar de diferentes lagunas,diferencindolas en relacin a sus caractersticas fisicoqumicas (Figura I.3). Seobserva cmo aquellas lagunas con una mayor conductividad estn agrupadas(lagunas 2 y 3, ver Tabla I.1), mientras que tambin se agrupan las lagunas conuna menor conductividad (lagunas 1 y 7). Las lagunas 1 y 7 tambin se caracterizanpor su mayor concentracin de amonio (Tabla I.1). La laguna 9 se diferencia delresto por su alta concentracin de silicatos y su alta temperatura (Tabla I.1, FiguraI.3).

Cuando existan varias rplicas, o como en este ejemplo en el que hay lagunascon varias estaciones, tambin es posible representar la media y la desviacinde la media, en vez de los valores de cada una de las rplicas por separado.Estos valores medios para cada grupo son los que se muestran en MEDIASCOORDENADAS X e Y del Archivo Cuadro I.3.xls.

En resumen, las coordenadas polares nos permiten ver de una forma grficalas lagunas que tienen una composicin ms semejante para los parmetros quese han considerado, que en este caso eran solo 8 variables (temperatura,conductividad, pH, nitrato, nitrito, amonio, fosfato y silicato), pero podran sermuchas ms las variables a considerar.


CUADRO I.3. Clculo coordenadas polares

EJEMPLO. En la Tabla I.5 se exponen las puntuaciones obtenidas en unanlisis discriminante aplicado al porcentaje de pigmentos de distintasespecies marinas del fitoplancton. Para cada especie hay varias rplicas.

Tabla I.5. Puntuaciones de un anlisis discriminante aplicado al porcentajede pigmentos de distintas especies marinas de fitoplancton.

Especie Funcin 1 Funcin 2 Funcin 3 Funcin 4 Funcin 5

1 -4,86 21,96 6,50 10,48 -6,921 -5,06 21,73 6,37 9,93 -6,801 -4,86 23,14 7,31 9,97 -6,932 -27,12 -53,23 2,36 -2,84 -2,812 -27,02 -54,25 -0,51 -4,56 -3,183 -24,54 -39,34 7,76 2,88 2,173 -25,25 -41,95 8,11 2,61 2,213 -25,31 -41,39 8,78 2,95 2,483 -25,00 -40,01 8,81 3,31 2,504 -8,95 24,19 13,55 -26,42 6,044 -8,85 23,97 12,44 -22,11 4,254 -9,38 24,85 13,58 -25,05 4,675 -4,70 19,20 4,24 11,32 -6,065 -4,82 19,41 4,39 11,54 -6,466 -0,97 14,67 -16,64 11,77 27,936 -1,39 13,07 -17,35 10,94 26,807 -2,93 -1,55 -28,86 -8,04 -7,807 -2,64 -0,86 -28,50 -7,71 -7,838 102,05 -20,51 6,71 0,19 1,028 104,50 -20,57 7,01 -0,88 0,359 2,43 -1,66 -39,35 -12,69 -13,389 0,67 -0,80 -42,21 -13,84 -14,769 4,46 -2,33 -41,16 -13,61 -14,30

En este caso, las funciones del anlisis discriminante son variables que nonecesitan ser estandarizadas. Sin embargo, como existen valores negativos,es necesario aplicar dos ngulos a cada variable (a cada funcin discriminante).

El Archivo Cuadro I.3.xls est diseado para calcular las coordenadaspolares de una matriz que contenga como mximo 1000 casos (filas) y 20variables (columnas). Este archivo solo sirve para el caso en el que existanvalores negativos.

Paso 1. Introducir los cdigos de los casos en DATOS del Archivo CuadroI.3.xls.

Paso 2. Introducir los valores de cada variable para cada uno de los casosen DATOS del Archivo Cuadro I.3.xls.

Captulo I

8

CUADRO I.3. (Continuacin)

Paso 3. En COORDENADAS EJE X del Archivo Cuadro I.3.xls aparecenlas coordenadas X y en COORDENADAS EJE Y las coordenadas Y de todoslos casos.

Paso 4. Cuando existan rplicas, en MEDIAS COORDENADAS X e Y delArchivo Cuadro I.3.xls aparecen los valores medios, desviacin tpica y elerror para cada uno de los grupos. Los resultados que se obtienen semuestran en la Tabla I.6. La representacin grfica de las coordenadaspolares obtenidas se muestra en la Figura I.2.

Tabla I.6 Coordenadas polares de lasfunciones discriminantes de la Tabla I.5

Especie X Y

1 -0,709 30,359

1 -0,582 29,577

1 -0,172 31,958

2 -34,019 -65,980

2 -31,599 -70,641

3 -38,910 -42,756

3 -40,222 -45,497

3 -40,848 -44,152

3 -40,491 -42,416

4 11,386 15,101

4 10,042 16,427

4 11,483 16,316

5 -2,278 26,183

5 -2,138 26,581

6 -28,564 4,473

6 -27,378 1,540

7 20,377 -35,369

7 20,480 -34,003

8 72,976 46,976

8 76,384 48,009

9 37,2533 -45,029

9 39,3010 -48,641

9 40,9174 -46,741


CUADRO I.4. Prctica del clculo de coordenadas polares

EJEMPLO. Para practicar el clculo de coordenadas polares usaremos losdatos fisicoqumicos estandarizados de las lagunas que se muestran en laTabla I.2 (Cuadro I.1 y Archivo Cuadro I.1.xls). En este caso no existenvalores negativos. El Archivo Cuadro I.4.xls est diseado para estimarcoordenadas polares en aquellos casos en los que no existan valores negativos.Los pasos a seguir son los mismos que los descritos anteriormente para elcaso en el que s haba valores negativos (Cuadro I.3). Las coordenadas polaresse muestran en la Tabla I.7 y la representacin grfica en la Figura I.3.

Tabla I.7. Coordenadas polares de los valores estandarizadosde los datos fisicoqumicos de las lagunas (Tabla I.2).

Laguna Estacin X Y

1 1 -0,256 -0,5682 1 -0,485 1,385

2 0,527 1,6973 1 -0,660 1,008

2 0,329 1,0533 0,066 1,043

4 1 -0,211 0,0005 1 -0,452 0,2376 1 -0,809 0,4837 1 -0,372 -0,5808 1 0,120 0,4119 1 2,007 0,737

Figura I.2. Grfico polar de las puntuaciones de un anlisis discriminante aplicado al por-centaje de pigmentos de distintas especies marinas de fitoplancton (Cuadro I.3, Tabla I.6).

Captulo I

10

I.2. Representacin de las coordenadas polaresen el programa SigmaPlot

Los grficos de coordenadas polares de las Figuras I.2 (Cuadro I.3) y I.3(Cuadro I.4) se pueden elaborar usando alguna de las versiones del programaSigmaPlot (2002) SPSS Inc.

En el Cuadro I.5 se explica el proceso de representacin de este tipo degrficos en el programa SigmaPlot.

CUADRO I.5. Representacin coordenadas polares en elprograma SigmaPlot

EJEMPLO. Vamos a utilizar las coordenadas que se muestran en la TablaI.7 del Cuadro I.4 que lo podemos encontrar en el archivo de SigmaPlotCuadro I.5.jnb.

Paso 1. Despus de introducir los datos con el formato que se ve en lasiguiente ventana, es decir, diferenciando en distintas columnas lascoordenadas X e Y de las distintas lagunas, se pulsa en el icono querepresenta el grfico de coordenadas polares y luego en el que indica Polar-Scatter.

Figura I.3. Grfico polar de los valores estandarizados de los datos fisicoqumicos de laslagunas (Cuadro I.4, Tabla I.7).

11

Representacin de datos


Paso 2. Nos aparecer la siguiente ventana donde es posible elegir sirepresentar las unidades en grados, radianes, etc. y el rango. Nosotrosseleccionamos Degrees.

Captulo I

12


Paso 3. En la siguiente ventana debemos indicar el tipo de datos queintroducimos, es decir, si se introduce en forma de Theta (ngulo) y R(resultante), Theta (un solo ngulo) y muchas diferentes R (resultantes),etc. En nuestro caso seleccionamos XY Pairs

Paso 4. En la siguiente ventana debemos seleccionar los ejes X e Y. Enprimer lugar solo se representan las coordenadas de la laguna 1.

Paso 5. Ahora seleccionando el grfico y en Graph y Add Plot lo quese hace es ir aadiendo las coordenadas del resto de lagunas sobre elgrfico ya creado, introduciendo cada laguna como un nuevo grfico.

13

Representacin de datos


Paso 6. Una vez introducidas las coordenadas de todas las lagunas, pul-sando en el grfico dos veces es posible modificar los smbolos de cadaPlot como se muestra en la ventana siguiente.

Captulo I

14

15

Estadstica descriptiva

Dentro de la estadstica descriptiva se incluyen medidas de posicin como lasmedias aritmtica, geomtrica, armnica, ponderada, la moda y la mediana, ymedidas de dispersin o variabilidad de la muestra como la varianza, la desviacintpica y el coeficiente de variacin.

El hecho de que sea una estadstica simple y fcil de calcular no significa queno sea importante. Es necesario, por lo general, calcular algunas de las medidascitadas anteriormente para poder tener una idea preliminar de los datos antesde pasar a realizar un tratamiento ms complejo de los mismos. Por ejemplo, eltipo de distribucin que tengan los datos condicionar la clase de anlisisestadstico que podremos utilizar. Algunos tratamientos estadsticos que se utilizanmucho, como por ejemplo el anlisis de la varianza, se basan en la comparacinde la media y dispersin de los datos, ambos incluidos dentro de la estadsticadescriptiva. Adems, algunas medidas, como por ejemplo una variante de lamedia ponderada, pueden ser unos indicadores muy tiles por s solos sinnecesidad de tratamientos estadsticos ms complejos.

II.1. Medidas de posicin

El primer paso a la hora de tratar unos datos es intentar buscar algn tipo demedida que nos permita caracterizar, diferenciar y distinguir las series de datos.Esto se puede hacer determinando la posicin de los datos. Dentro de este grupose diferencian las llamadas medidas de posicin central y otras medidas queestiman diferentes posiciones de los datos. Unas u otras se utilizan dependiendodel tipo de datos con el que se est trabajando.

II.1.1. Medidas de posicin central

II.1.1.1. Media aritmtica

La media aritmtica ( ), que tambin se conoce simplemente como media opromedio, se calcula por medio de la siguiente frmula:

ESTADSTICADESCRIPTIVA

II

x

Captulo II

16

donde x son cada uno de los valores i de la variable y n el nmero de datos.

Cuando la media es del conjunto de toda la poblacin se suele denotar por elsmbolo y cuando es la media de una muestra de la poblacin se utiliza .

En el caso de datos agrupados (tabla de frecuencias) la media se calcula pormedio de la siguiente frmula:

donde m y f son el valor medio y la frecuencia (nmero de datos) de la clase i,respectivamente, y k el nmero de intervalos o clases.

En el Archivo Cuadro II.1.xls se muestra un ejemplo de cmo se calcula lamedia aritmtica de una muestra agrupando y sin agrupar los datos, el cualtambin est descrito en el Cuadro II.1.

La media aritmtica es la que se utiliza ms frecuentemente porque es la quetiene un error estndar ms pequeo, es la ms fcil de estimar, tiende haciauna distribucin Normal incluso, si los datos originales no presentan estadistribucin y, por ltimo, es ms sensible a cambios en la distribucin de losdatos, lo cual es muy importante en estadstica para poder determinar diferenciasentre series de datos (Sokal & Rohlf 1981). El problema que plantea la mediaaritmtica tambin deriva de su sensibilidad, ya que est ms afectada por losdatos raros que se salen del rango.

II.1.1.2. Media geomtrica

La media geomtrica (MG) se utiliza en algunos casos con datos relativoscomo porcentajes y se calcula por medio de la siguiente frmula:

La media geomtrica es siempre inferior o igual a la media aritmtica. En elArchivo Cuadro II.1.xls y en el Cuadro II.1 se muestra un ejemplo para calcularla media geomtrica.

II.1.1.3. Media armnica

La media armnica (MA) se utiliza, por ejemplo, en algunos casos en los que

x

17


es necesario promediar variaciones con respecto al tiempo. Se calcula de lasiguiente forma:

La media armnica es siempre inferior o igual a la media geomtrica y, portanto, tambin inferior o igual a la media aritmtica. Al igual que las otras mediasdescritas anteriormente, en el Archivo Cuadro II.1.xls y en el Cuadro II.1tambin se muestra un ejemplo para calcular la media armnica.

II.1.1.4. Moda

A veces es necesario determinar la posicin de variables que no son numricassino cualitativas como, por ejemplo, las especies a las que pertenecen diferentesindividuos. En este caso no podemos utilizar ninguna de las medias citadasanteriormente y, por lo tanto, debemos recurrir a medidas como la moda. Tambinpuede ser utilizada con variables cuantitativas.

La moda de un conjunto de observaciones se define como el valor que se presentacon mayor frecuencia, es decir, un mayor nmero de veces. La moda se puededenotar por Mo. Ejemplo en el Archivo Cuadro II.1.xls y en el Cuadro II.1.

Si solo es un valor el que se repite ms veces, en ese caso se dice que ladistribucin es unimodal, porque solo tiene una moda. En el caso de que ningnvalor se repita, entonces por definicin se considera que no existe moda. Sepuede dar el caso de que dos observaciones tengan la misma frecuencia, siendoen este caso la distribucin bimodal. La distribucin multimodal se dara en aquellassituaciones en las que existiesen ms de dos valores con la misma frecuencia.

Por ltimo, en situaciones raras en las que la distribucin de los datos tengaforma de U, el punto medio de la distribucin se denomina antimoda.

II.1.1.5. Mediana

La mediana de un conjunto de observaciones es el valor para el cual, cuandotodas las observaciones se ordenan de manera creciente, la mitad de stas sonmenores que este valor, y la otra mitad son mayores. Sea x1, x2, .xn unamuestra aleatoria de n observaciones ordenadas de forma creciente, la medianade estos datos se calcula de la siguiente manera (Cuadro II.2, Archivo CuadroII.1.xls):

si n es un nmero impar

Mediana

si n es un nmero par

Captulo II

18

CU

AD

RO

II.

1.

Est

imaci

n

de l

as

med

ias

ari

tmti

ca,

geo

mtr

ica y

arm

n

ica

X22

23

22

24

26

25

26

25

29

27

25

32

34

34

33

33

36

36

35

39

Rango

20-2

525-3

030-3

535-4

0f i

47

54

mi

22,7

526,1

433,2

36,5

f a4

11

16

20

1.

Med

ia a

ritm

ti

ca p

ara

dato

s si

n a

gru

par

2.

Med

ia a

ritm

ti

ca a

gru

pan

do

lo

s d

ato

s

3.

Med

ia g

eo

mtr

ica

4.

Med

ia a

rm

nic

a

37

28

391

351

361

361

331

331

341

341

321

251

271

291

251

261

251

261

241

221

231

221

201

1,

M

A

83

28

39

35

36

36

33

33

34

34

32

25

27

29

25

26

25

26

24

22

23

22

20

,

MG

329

20

536

42

33

514

26

775

22

4,

,,

,,

x

329

20

39

35

36

36

33

33

34

34

32

25

27

29

25

26

25

26

24

22

23

22

,

x

19


CUADRO II.1. (Continuacin)

Supongamos la misma serie de datos que se mostr en el Cuadro II.1pero, en este caso, los datos se muestran ordenados en forma creciente.

1. Moda

La moda es 25 porque es la observacin que se repitems veces (3 veces).

2. Mediana

Como el nmero de datos es par (20 en este caso),entonces la mediana (Mn) se estima de la siguienteforma:

La mediana se suele utilizar en series de datos que tienen una distribucinmuy asimtrica, ya que en estos casos no siempre es adecuado utilizar la mediaaritmtica. La mediana es tambin til en aquellos casos en los que sea muydifcil obtener el nmero de observaciones necesarias para estimarconvenientemente la media aritmtica. Por ltimo, no se ve afectada por valoresraros que se salgan mucho del rango normal, como le ocurre a la media aritmtica.

II.1.1.6. Media ponderada

La media ponderada ( ) se utiliza en aquellos casos en que algunos datosson ms fiables que otros, simplemente porque unos datos han sido calculadoscon un mayor esfuerzo o por cualquier otra razn, y por ello es necesario darlems peso a estos valores a la hora de estimar la media. Se calcula por medio dela siguiente frmula:

x2222232425252526262729323333343435363639

xw

Captulo II

20

donde x son cada uno de los valores i de la variable, w el peso que se le da aldato y n el nmero de datos. Se utiliza, por ejemplo, cuando algunos datos sonms fiables que otros y, por tanto, deben tener ms peso en la media.

Una aplicacin de la media ponderada que merece una mencin especial,porque puede dar una gran informacin, es la obtencin del centro de gravedadde una distribucin de datos de acuerdo a una determinada variable. En Ecologaes un parmetro que permite cuantificar el nicho ecolgico de una especie, yaque da informacin sobre el valor medio de su distribucin para una determinadavariable. Por ejemplo, se puede obtener la temperatura, la salinidad, concentracinde oxgeno, etc. media en que suele aparecer una especie. En este caso, w soncada uno de los valores i de los datos de abundancia de la especie, x el valor dela variable para el valor w, y n el nmero de datos (vase ejemplo en el CuadroII.2 y Archivo Cuadro II.2.xls).

CUADRO II.2. Variante de media ponderada

Abundancia Abundancia TemperaturaEspecie 1 (w) Especie 2 (w) (x)

23 211 14,337 74 16,2128 145 15,7234 89 16,721 24 18,1198 56 17,24 338 14,3

156 126 15,9

Media ponderada de la temperatura para la especie 1

Media ponderada de la temperatura para la especie 2

21


II.1.2. Otras medidas de posicin

Se definen los cuantiles de orden k como los valores de la variable,supuesta sta ordenada de menor a mayor, que la dividen en k partes con lamisma frecuencia de observaciones. Por lo tanto existirn k - 1 cuantiles deorden k.

El primer cuantil de orden k deja a su izquierda la fraccin 1/k de frecuenciade observaciones. El segundo cuantil de orden k deja a su izquierda la fraccin2/k de frecuencia de observaciones. El r-simo cuantil de orden k deja a suizquierda la fraccin r/k de frecuencia de observaciones. Por ejemplo, el cuantil15 de orden 100 deja por debajo el 15% de los valores del total de la seriecompleta de valores.

Los cuantiles ms utilizados son los percentiles, cuartiles y deciles, los cualesse describen a continuacin.

Los percentiles son los 99 puntos que dividen la distribucin en 100partes, tales que dentro de cada una est incluido el 1% de los valores de ladistribucin.

Los cuartiles son los tres valores de la variable que dividen la distribucinen 4 partes iguales, es decir, en 4 intervalos, dentro de cada cual est incluidoel 25% de los valores de la distribucin. El percentil 25 (P25) sera igual alcuartil 1 (Q1), el percentil 50 (P50) sera igual al cuartil 2 (Q2, igual tambin ala mediana), etc.

Los deciles son los 9 puntos que dividen la distribucin en 10 partes, talesque dentro de cada una est incluido el 10% de los valores de la distribucin.El percentil 10 (P10) sera igual al decil 1 (D1), el percentil 20 (P20) sera igualal decil 2 (D2), etc.

El procedimiento para encontrar el valor del cuantil j de orden k a partir dedatos ordenados de menor a mayor, es el siguiente (ejemplo en el Cuadro II.3 yArchivo Cuadro II.1.xls):

1. Encontrar la posicin i del cuantil j -simo mediante el clculo de nj/k.

2. Si nj/k no es un entero, entonces la posicin i es el siguiente entero msgrande y entonces el valor del cuantil es el dato ordenado en la posicinde este entero ms grande.

3. Si nj/k es un entero, entonces la posicin del cuantil ser i = nj/k + 0,5 yas el valor del cuantil es el promedio de las observaciones ordenadas nj/k y nj/k + 1.

Captulo II

22

CUADRO II.3. Clculo de los cuantiles

Vamos a utilizar la serie de datos del Cuadro II.1. Continuacin.

1. Percentil 25 (P25) y Cuartil 1 (Q1)

Al ser entero el valor ser:

2. Percentil 75 (P75) y Cuartil 3 (Q3)


3. Percentil 10 (P10) y Decil 1 (D1)


4. Percentil 16 (P16)

Al no ser entero, el valor es el dato ordenado en la posicin de este enteroms grande:

23


II.2. Medidas de dispersin

Adems de la posicin, es tambin importante la dispersin o variabilidad delos datos. La Figura II.1 muestra dos series de datos que tienen la misma media(10,55 C), pero la variabilidad de la temperatura es mayor en un hbitat que enel otro.

Las medidas de dispersin tienen como finalidad estudiar hasta qu punto,para una determinada distribucin de datos, las medidas de posicin representanbien el conjunto de datos de la distribucin.

Por ejemplo, si se quiere determinar si una media aritmtica nos marca unatendencia central generalizable del comportamiento de todos los elementos delconjunto estudiado, tendremos que fijarnos en la separacin o desviacin decada valor respecto a la media. Si todos los valores estn cercanos al valormedio, ste ser representativo de ellos. Es decir, ser ms representativa lamedia aritmtica de una variable cuanto ms agrupados en torno a ella estn losvalores promediados y, por el contrario, ser tanto ms rechazable, por no serrepresentativa, cuanta mayor dispersin exista de los valores de la variablerespecto a la media.

Por lo tanto, para complementar la informacin que se obtiene a partir de lamedia es necesario otro tipo de parmetros que midan la dispersin o variabilidadde los datos, los cuales se muestran a continuacin.

II.2.1. Amplitud

El mtodo ms simple de estimar la dispersin de los datos es por medio de laamplitud, tambin conocida como rango, es decir, la diferencia entre el valormnimo y el mximo de la serie de datos (Cuadro II.4 y Archivo Cuadro II.4.xls).

Figura II.1. Temperatura a lo largo del ao en dos hbitats.

Captulo II

24

II.2.2. Varianza y cuasivarianza

La mejor forma de medir la dispersin de una serie de datos es compararcada uno de ellos con la media de la serie, y esto es exactamente lo que hace lavarianza (2) (Cuadro II.4 y Archivo Cuadro II.4.xls):

A menudo queremos utilizar la varianza de una muestra como valoraproximado o estimado de la varianza desconocida de la poblacin de la queprocede esa muestra. En estos casos, el error cometido es generalmente mspequeo si en vez de considerar como estimador la varianza de la muestra, seutiliza lo que se denomina cuasivarianza (s2), que se calcula como la anterior,pero cambiando el denominador por n - 1 (Cuadro II.4 y Archivo Cuadro II.4.xls):

En aquellos casos en los que disponemos de toda la poblacin se debe emplearn y no (n - 1). Sin embargo, como en general nuestros datos son una muestra deuna poblacin mayor, lo correcto es usar la cuasivarianza en vez de la varianza.

Muchas veces se hace referencia a la varianza cuando en realidad se estcalculando la cuasivarianza (varianza estimada). La mayora de los programasde estadstica utilizan solo la cuasivarianza y no la varianza. Es frecuente tambinobservar que )2 y s2 se usan indistintamente para indicar varianza o cuasivarianzasin un criterio definido.

II.2.3. Desviacin tpica y cuasidesviacin tpica

El problema que presenta la varianza es que, para evitar valores negativos,las diferencias se elevan al cuadrado. Para poder tener la medida de dispersinen las mismas unidades que la media, se suele utilizar, en vez de la varianza, ladesviacin tpica (), tambin llamada desviacin estndar, y que se calcula simple-mente como la raz cuadrada de la varianza (Cuadro II.4 y Archivo Cuadro II.4.xls).

Tambin al igual que ocurra con la varianza, salvo en el caso de que la muestrasea idntica a la poblacin, es preferible utilizar la cuasidesviacin tpica ( s ), envez de la desviacin tpica, para lo cual se divide por el nmero de grados de

25


libertad (n - 1) en vez de por el total de datos (n) (Cuadro II.4 y Archivo CuadroII.4.xls) como se muestra en la siguiente frmula:

Es necesario mencionar que la mayora de los programas estadsticos solo utilizanla cuasidesviacin tpica y, al igual que ocurra con la varianza, es frecuente observarque se hace mencin a la desviacin tpica cuando en realidad se ha calculado lacuasidesviacin tpica. Tambin se observa con frecuencia que ) y s se usanindistintamente para desviacin o cuasidesviacin tpica sin un criterio definido.

II.2.4. Coeficiente de variacin

Cuando se comparan series de datos que tienen medias un poco diferentes,la desviacin tpica no permite comparar cul de las dos series de datos presentauna mayor variacin, ya que normalmente la serie de datos con una mayor mediatambin suele tener una mayor variabilidad. En este caso es ms aconsejable eluso del coeficiente de variacin (CV), que se calcula como el porcentaje querepresenta la desviacin tpica con respecto a la media. En el caso de que ladesviacin tpica sea desconocida, se utiliza la cuasidesviacin tpica (ejemploen la continuacin del Cuadro II.4 o Archivo Cuadro II.4.xls):

II.2.5. Error estndar

Proporciona una medida de la precisin de la estimacin de la media poblacionala partir de una muestra, mientras que la desviacin tpica mide la variabilidad delos datos respecto de la media en la muestra. El error estndar se calcula a partirde la desviacin tpica. Cuando sta es desconocida, se utiliza la cuasidesviacintpica para obtener el error estndar estimado (ejemplo en la continuacin delCuadro II.4 o Archivo Cuadro II.4.xls):

II.2.6. Recorrido intercuartlico

El recorrido intercuartlico (Q) se calcula a partir de los percentiles 75 (P75) y25 (P25) de la siguiente forma (ejemplo en la continuacin del Cuadro II.4 oArchivo Cuadro II.4.xls):

Esta medida de dispersin se utiliza cuando se expresa la posicin centralpor medio de la mediana.

Captulo II

26

CU

AD

RO

II.

4.

Est

imaci

n

de l

as

med

idas

de d

isp

ers

in

Com

o e

jem

plo

vam

os

a u

tiliz

ar

la m

ism

a t

abla

de

dato

s del

Cuadro

II.

1.

1.

Am

pli

tud

: 17

2.

Vari

an

za

3.

Cu

asi

vari

an

za

4.

Desv

iaci

n

tp

ica

5.

Cu

asi

desv

iaci

n

tp

ica

61

27

20

329

39

329

26

329

24

329

22

329

23

329

22

22

22

22

2,

),

........(

),

()

,(

),

()

,(

),

(

06

29

19

329

39

329

26

329

24

329

22

329

23

329

22

22

22

22

2,

),

........(

),

()

,(

),

()

,(

),

(

s

25

520

329

39

329

26

329

24

329

22

329

23

329

22

22

22

22

,)

,........(

),

()

,(

),

()

,(

),

(

39

519

329

39

329

26

329

24

329

22

329

23

329

22

22

22

22

,)

,........(

),

()

,(

),

()

,(

),

(

s

27



5. Coeficiente de variacin

6. Error estndar

7. Recorrido intercuartlico

Q = P75 P25 = 34 - 25 = 9

II.3. Estadstica descriptiva con el programa STATISTICA

El programa STATISTICA permite calcular de forma sencilla todas las medidasde posicin y dispersin descritas anteriormente, e incluso otras que se describirnen los captulos siguientes, como el intervalo de confianza de la media, la asimetray la curtosis. El proceso se describe en el Cuadro II.5.

CUADRO II.5. Estadstica descriptiva con el programaSTATISTICA

Paso 1. Como ejemplo se utilizan los datos que se muestran en el CuadroII.1 (Archivo Cuadro II.5.sta). En la seccin de Statistics se entra enBasic Statistics/Tables.

Captulo II

28


Paso 2. Nos debe salir la siguiente ventana, donde seleccionamos Des-criptive statistics.

Paso 3. Nos aparecer la siguiente ventana. En ella en la pestaaVariables seleccionamos la variable 1. Luego se va a Advanced y allse seleccionan todos los parmetros que se desean estimar.

29



Paso 4. Por ltimo, en la ventana anterior se pulsa en Summary y seobtiene la matriz de resultados que se muestra a continuacin.

Captulo II

30

31

Distribucin

DISTRIBUCIN

III

Otra informacin importante es la relacionada con la distribucin que tieneuna variable. Se puede dar el caso de que dos variables tengan exactamente lamisma media y la misma dispersin, pero que el tipo de distribucin seacompletamente diferente. Por lo tanto, adems de la informacin sobre lasmedidas de posicin y dispersin, que se explicaron en el Captulo II, es necesariotambin conocer la distribucin de los valores de la variable.

Para estudiar la distribucin de una variable, e incluso comparar medias yvarianzas entre variables, lo que se hace es comparar las frecuencias de losvalores de la variable con las probabilidades resultantes de modelos tericos dedistribuciones. El modelo terico de distribucin a utilizar variar en funcin deltipo de variable con la que estemos trabajando.

Existen bsicamente dos tipos de variables: cualitativas y cuantitativas. Lasprimeras no se expresan numricamente (sexo, especie a la que pertenece unindividuo, provincia de nacimiento) aunque pueden utilizarse cdigos numricospara representar sus valores (por ejemplo en la variable sexo, en vez de machoy hembra se pueden nombrar como 1 y 2). Las cuantitativas se expresandirectamente en trminos numricos (nmero de hojas de una planta, edad,longitud, temperatura, etc.).

Las variables cualitativas, a su vez, pueden ser de dos tipos: nominales, sisus valores no estn ordenados de modo natural (lugar de nacimiento, especie),y ordinales, si sus valores tienen un orden (por ejemplo una variable toxicidadque toma los valores nada, poco, bastante y muy txico).

Las variables cuantitativas pueden ser tambin de dos tipos: discretas ycontinuas. Son discretas cuando solo pueden tomar valores especficos, y no esposible ningn valor entre dos consecutivos (nmero de hijos que puede teneruna familia, nmero de hojas de una planta, etc.). En el caso de variables discretas,a cada valor de la variable le corresponde una probabilidad, de la cual dependerel nmero de veces que se repita ese valor en funcin de los valores restantes. Ala correspondencia entre los valores y sus respectivas probabilidades se le llamafuncin de probabilidad.

Las variables cuantitativas continuas son aquellas que pueden tomar cual-quier valor a lo largo de un continuo, de modo que no hay valores consecutivos,

Captulo III

32

ya que entre dos valores cualesquiera siguen existiendo infinitos valores posibles(temperatura, longitud). Las variables continuas se pueden agrupar en catego-ras, pero de una forma arbitraria. Por ejemplo, la variable altura se puede dividiren categoras como pequeo, normal y alto, y los lmites de cada una de estascategoras se pueden establecer de forma arbitraria. A diferencia de lo que ocu-rra con las variables discretas, para las variables continuas no es til establecerla correspondencia entre valores y probabilidades. Lo que se hace es calcular laprobabilidad contenida en un determinado segmento o rango de valores, quedividida por la amplitud del segmento es la densidad media de probabilidad delsegmento, a partir de la cual se determina la densidad de probabilidad para cadavalor. La correspondencia entre los valores y su respectiva densidad de probabi-lidad se llama funcin de densidad.

La distincin entre estos cuatro tipos de variables es importante por variosmotivos:

1. El clculo de algunas medidas de posicin o de dispersin no tienen sentidocon variables cualitativas, por ejemplo en el caso de la variable sexo.

2. Para la aplicacin correcta de tcnicas de anlisis estadsticos: as lamayora de las pruebas no paramtricas requieren que la variable sea almenos ordinal, y muchos mtodos de anlisis multivariante exigen quelas variables sean cuantitativas (por ejemplo anlisis factorial o anlisisdiscriminante).

En este captulo vamos a estudiar las funciones de probabilidad y de densidadde las distribuciones para variables discretas y continuas.

III.1. Distribuciones para variables continuas

III.1.1. Normal

La distribucin Normal es una de las distribuciones ms importantes porquese observa en muchas series de datos y, adems, distintos tipos de anlisisestadsticos presentan como condicin para poder aplicarse a la serie de datos,que sta presente este tipo de distribucin. Varios matemticos intervinieron ensu desarrollo, entre los que figura el astrnomo del siglo XVIII Karl Gauss, por locual a veces es llamada en su honor campana o distribucin de Gauss.

La funcin de densidad de la distribucin Normal se describe por medio de lasiguiente ecuacin:

donde f(x) es la densidad de probabilidad del valor x, es la media y es ladesviacin tpica. La forma de la distribucin Normal vara en funcin de la media() y la desviacin tpica () (Figura III.1).

33

Distribucin

III.1.1.1. Aplicaciones de la distribucin Normal

La tabla de la distribucin Normal N(0,1), es decir, con = 0 y = 1 (Tabla Idel Apndice II y Archivo Tabla 1.doc), nos permite calcular probabilidadesrelativas a cualquier otra distribucin Normal con diferente y . Para ello, bastatipificar la variable, es decir, calcular el valor Z (unidades de desviacin conrespecto a la media) correspondiente a los valores x indicados mediante laoperacin:

Este valor Z que se deriva a partir de la variable Normal nos permite obteneren las tablas las probabilidades correspondientes a cualquier intervalo (vaseCuadro III.1).

Figura III.1. Distribuciones normales con diferentes mediasy desviaciones tpicas.

CUADRO III.1. Usos de la distribucin Normal

EJEMPLO. La longitud del cuerpo de una especie de una determinadapoblacin se distribuye segn una Normal de = 10,8 cm y = 3,7 cm.

1. Calcular la probabilidad de que un individuo tenga un tamaomayor de 8,9 cm.

Paso 1.1. Clculo del valor Z

Captulo III

34

CUADRO III.1. (Continuacin)

Paso 1.2. El paso siguiente es consultar la tabla de la distribucin NormalN(0,1) (Tabla I del Apndice II o Archivo Tabla 1.doc), que para un Z de0,51 (se busca siempre el valor absoluto), el valor en la tabla es de 0,695.

Paso 1.3. Se pueden dar cuatro situaciones:

1. El valor de x es menor que (en nuestro ejemplo 10,8 cm) y se pidela probabilidad de que sea superior a x. En este caso la probabilidadser el valor obtenido en la Tabla 1.doc.

2. El valor de x es menor que y se pide la probabilidad de que seainferior a x. En este caso la probabilidad ser 1 menos el valorobtenido en la Tabla 1.doc.

3. El valor de x es mayor que y se pide la probabilidad de que seainferior que x. En este caso la probabilidad ser el valor obtenido enla Tabla 1.doc.

4. El valor de x es mayor que y se pide la probabilidad de que seasuperior que x. En este caso la probabilidad ser 1 menos el valorobtenido en la Tabla 1.doc.

En nuestro ejemplo, x (8,9) es menor que (10,8) y se pide la probabili-dad de que sea superior a x. Por lo tanto, sera la situacin 1 y laprobabilidad de elegir un individuo al azar que tenga ms de 8,9 cm delongitud ser de 0,695.

La probabilidad de que un individuo fuese menor de 8,9 cm sera:

1 0,695 = 0,305

2. Calcular la probabilidad de que un individuo tenga un tamaoentre 8,9 y 12,4 cm.

La probabilidad de que sea menor de 8,9 cm es 0,305

La probabilidad de que sea menor de 12,4 cm es 0,6664.

Por lo tanto, la probabilidad de que un individuo tenga un tamao entre8,9 y 12,4 cm es 0,6664 0,305 = 0,3614.

3. Calcular la probabilidad de que un individuo tenga un tamaoentre 11,9 y 12,4 cm.


35

Distribucin



Por lo tanto, la probabilidad de que un individuo tenga un tamao entre11,9 y 12,4 cm es 0,6664 0,6141 = 0,0523.

El programa STATISTICA permite realizar los clculos que se han mostradoanteriormente. Para ello hay que entrar en Statistics, luego en ProbabilityCalculator y, por ltimo, en Distributions.

Nos aparecer la siguiente ventana donde seleccionamos la distribucinNormal Z (Normal).

Captulo III

36


En el ventana anterior hay que introducir la media (mean), la desviacinestndar (st.dev.) y el valor de X. Como ejemplo se muestra el caso delproblema 1.

En el caso del problema 3, primero se calcula la probabilidad de que seamenor de 11,9 cm, como se muestra en la siguiente ventana.

Luego se calcula la probabilidad de que sea menor de 12,4 cm.

El resultado, como se mostr anteriormente, sera la diferencia entre ambasprobabilidades:

0,667286 0,61688 = 0,0504

37

Distribucin

III.1.1.2. Asimetra

Las medidas de asimetra tienen como finalidad el determinar si una variablese distribuye de forma simtrica con respecto a un valor central, o bien si ladistribucin de los datos tiene una forma diferente del lado derecho que del ladoizquierdo.

La distribucin es simtrica si al lado derecho y al lado izquierdo del valorcentral la distribucin de los datos es la misma. La distribucin tiene asimetrapositiva si las frecuencias ms altas se encuentran en el lado izquierdo de lamedia, mientras que en el derecho hay frecuencias ms pequeas. La asimetraes negativa cuando las frecuencias ms pequeas estn en el lado izquierdo(Figura III.2).

Como valor central de referencia se suele usar la media aritmtica, aunquetambin se puede utilizar la mediana.

Existen muchas formas de medir la simetra y una de ellas es la frmula quese muestra a continuacin (coeficiente de asimetra), la cual utiliza como valorcentral la media aritmtica (Cuadro III.2 y Archivo Cuadro III.2.xls):

Cuando el valor es cercano a cero la distribucin es simtrica, la asimetra espositiva cuando el valor es mayor que cero y la asimetra es negativa cuando elvalor es menor que cero.

Figura III.2. Diferentes tipos de asimetras.

Captulo III

38

III.1.1.3. Apuntamiento o curtosis

Las medidas de curtosis estudian la distribucin de los datos en la zona centralde la serie. La mayor o menor concentracin de frecuencias alrededor de lamedia y en la zona central de la distribucin dar lugar a una distribucin ms omenos apuntada. Por esta razn, a las medidas de curtosis se les llama tambinde apuntamiento o concentracin central. Las medidas de curtosis se aplican adistribuciones cercanas a la normalidad, es decir, unimodales simtricas o conligera asimetra.

Al igual que ocurra con la asimetra, existen diversas formas de estimar lacurtosis de una distribucin de datos pero una de las ms usadas es la que semuestra a continuacin (Cuadro III.2 y Archivo Cuadro III.2.xls).

Cuando el valor es positivo se dice que la distribucin est ms apuntada quela Normal y se denomina leptocrtica (Figura III.3). Cuando el valor es cero ocercano a cero, la distribucin tiene el mismo apuntamiento que la distribucinNormal y se le denomina mesocrtica (Figura III.3). Por ltimo, cuando el valores negativo, el apuntamiento es menor que el de la distribucin Normal y se ledenomina platicrtica (Figura III.3).

Figura III.3. Tipos de curtosis (barras) en comparacincon la distribucin Normal (lnea continua).

39

Distribucin

III.1.2. t de Student

Cuando una variable sigue una distribucin Normal, la media de una muestraaleatoria de esa variable tambin tiene distribucin Normal, y su media es lamedia poblacional desconocida . Esto puede ser utilizado para estimar . Sinembargo, a menudo no se conoce la desviacin tpica de la poblacin (solo setrabaja con una muestra de individuos del total de la poblacin) y, adems,puede ocurrir que el nmero de observaciones de la muestra es pequeo (menorde 30).

En estos casos, se puede utilizar la cuasidesviacin tpica de la muestra (s)junto con la distribucin t de Student:

La funcin de densidad de probabilidad de la distribucin t de Student vienedada por la siguiente expresin:

La distribucin t de Student puede tener diferentes formas dependiendo delos grados de libertad (Figura III.4). La apariencia general de la distribucin t es

CUADRO III.2. Asimetra y curtosis

Vamos a utilizar la misma serie de datos que en el Cuadro II.1 del CaptuloII. Estos clculos se pueden realizar utilizando el programa STATISTICA,como se mostr en el Cuadro II.5 del Captulo II.

1. Asimetra

2. Curtosis

Captulo III

40

similar a la de la distribucin Normal estndar. Sin embargo, la distribucin ttiene colas ms amplias que la Normal, es decir, la probabilidad de las colas esmayor que en la distribucin Normal. La distribucin t se transforma en unadistribucin Normal cuando el nmero de datos tiende a infinito. Los valorescrticos de distintos niveles de significacin y distintos grados de libertad semuestran en la Tabla 2 del Apndice o Archivo Tabla 2.doc.

Las aplicaciones de la distribucin t de Student en la inferencia estadsticason:

1. Para estimar intervalos de confianza para la media poblacional (Captulo IV).

2. Estimar y probar hiptesis sobre una diferencia de medias (Captulo VII).

Las hiptesis o asunciones para poder aplicar la t de Student son que en cadagrupo la variable estudiada siga una distribucin Normal y que la dispersin enambos grupos sea homognea (hiptesis de homocedasticidad = igualdad devarianzas) aunque, como veremos en el Captulo VII, este estadstico tambinse puede usar sin asumir igualdad de varianzas.

III.1.3. -cuadrado

La funcin de densidad de la distribucin -cuadrado (2) se describe pormedio de la siguiente expresin:

donde son los grados de libertad y x no es negativo.

Figura III.4. Funciones de densidad de la distribucinde Student para 1 (

) y 10 () grados de libertad.

41

Distribucin

A diferencia de lo que ocurra con la distribucin Normal, debido a que ladistribucin 2 depende de los grados de libertad, no existe una curva tpica sinoque la distribucin 2 puede tener diferentes formas dependiendo de los gradosde libertad (Figura III.5).

El valor de la variable que deja a su derecha un rea bajo la curva dedensidad se llama el punto crtico correspondiente al nivel de significacin y serepresenta por 2. Estn tabulados los puntos crticos de distintos niveles designificacin y distintos grados de libertad (Tabla 3 de los Apndices o ArchivoTabla 3.doc).

Son tres las aplicaciones principales que tiene la distribucin 2: test de bondadde ajuste, test de independencia y test de homogeneidad.

1. El test de bondad de ajuste consiste en el planteamiento de hasta qupunto una muestra se puede considerar como perteneciente a unapoblacin con una distribucin terica ya conocida. Es un mtodo que seutiliza frecuentemente para determinar si una serie de datos presentauna distribucin Normal, de Poisson, etc. (vase Seccin III.3 de esteCaptulo).

2. El test de independencia determina si dos caracteres X e Y de unapoblacin son dependientes o independientes. Por ejemplo, queremosdeterminar si la supervivencia de los descendientes de las hembras deuna poblacin es independiente o dependiente de la cantidad diaria quereciben de alimento las hembras (vase Captulo VI).

3. El test de homogeneidad permite determinar si varias muestras queestudian el mismo carcter A han sido tomadas o no de la mismapoblacin, respecto de dicha caracterstica A. Por ejemplo, hemosseleccionado varios grupos de individuos de una poblacin a los que hemos

Figura III.5. Funcin de densidad de la distribucin 2para 1 ( ), 5 ( ) y 10 () grados de libertad.

Captulo III

42

sometido a la misma dosis de diferentes metales y queremos determinarsi los metales afectan de forma diferente a la supervivencia de losindividuos (vase Captulo VI).

III.1.4. F de Fisher-Snedecor

La funcin de densidad de probabilidad de la distribucin F de Fisher-Snedecorviene dada por la siguiente expresin:

donde y son grados de libertad, siendo x no negativo. Al depender de dostipos de grados de libertad, la funcin de densidad puede tener muy diversasformas (Figura III.6).

Los valores crticos de la distribucin F Fisher-Snedecor de distintos nivelesde significacin y distintos grados de libertad se muestran en la Tabla 4 de losApndices o en el Archivo Tabla 4.doc.

Esta distribucin se usa principalmente en dos tipos de situaciones, requirindoseen ambos casos que la distribucin de las variables sea Normal:

1. Para probar si dos muestras provienen de poblaciones que poseenvarianzas iguales. Esta prueba es til para determinar si una poblacinNormal tiene una mayor variacin que la otra (vase ejemplo de Cuadro

Figura III.6. Funciones de densidad de la distribucin F Fisher-Snedecorpara distintos grados de libertad F(30,5) ( ) F(5,30) ( ).

43

Distribucin

IV.3 en el Captulo IV) y es importante ya que, como veremos en elCaptulo VII, a la hora de comparar medias, varios estadsticos presentancomo requisito la homogeneidad de varianzas.

2. Tambin se aplica cuando se trata de comparar simultneamente variasmedias poblacionales (vase Captulo VII).

III.2. Distribuciones para variables discretas

III.2.1. Binomial

Una variable presenta una distribucin binomial cuando solo tiene dos posiblesresultados: xito y fracaso, siendo la probabilidad de cada uno de ellosconstante en una serie de repeticiones, es decir, ni la probabilidad de xito ni lade fracaso cambian de una prueba a otra, y adems el resultado de cada pruebaes independiente del resultado de las dems pruebas.

La probabilidad de xito est representada por p y la probabilidad de fracasose representa por q.

Como se coment al inicio de este captulo, en el caso de las variables discretasen lugar de la funcin de densidad se utiliza la funcin de probabilidad o decuanta, que da una probabilidad para cada valor de la variable. La funcin deprobabilidad binomial viene expresada por la siguiente ecuacin:

En el Cuadro III.3 se muestran aplicaciones de la distribucin binomial.

CUADRO III.3. Aplicacin de la distribucin binomial

EJEMPLO. La aplicacin de un determinado tratamiento a un grupo deindividuos que presentan un parsito produce una mejora en un 67% delos casos. Si se aplica el tratamiento a 8 individuos:

El valor de p = 0,67 y, por tanto, el valor de q es 0,33.

Cul es la probabilidad de que mejoren 7 individuos?

Captulo III

44


Cul es la probabilidad de que al menos mejoren 3 individuos?

La probabilidad de que al menos mejoren 3 individuos ser 1 menos laprobabilidad que mejoren 2 individuos menos la probabilidad de que mejore1 individuo menos la probabilidad de que no mejore ninguno:

Probabilidad = 0,981

III.2.2. Hipergeomtrica

En la distribucin hipergeomtrica la variable tambin es aleatoria ydicotmica como la distribucin binomial, pero se diferencia de esta ltima endos caractersticas importantes: la poblacin es finita, mientras que en labinomial era infinita y, adems, las probabilidades cambian de una prueba aotra, ya que el resultado de cada prueba es dependiente del resultado de lasdems pruebas.

La funcin de probabilidad viene expresada por la siguiente ecuacin:

donde Np y Nq son el nmero de elementos con probabilidad inicial p y q,respectivamente, N el nmero de elementos totales y n el nmero de elementosde la muestra extrada de los N totales.

En el Cuadro III.4 se muestran aplicaciones de la distribucin hipergeomtrica.

45

Distribucin

III.2.3. Poisson

Un proceso de Poisson es un proceso de sucesos independientes que secaracteriza por:

1. El nmero de sucesos en dos intervalos distintos siempre es indepen-diente.

2. La probabilidad de que un suceso ocurra en un intervalo infinitesimales proporcional a la longitud del intervalo.

3. La probabilidad de que ocurra ms de un suceso en un intervalo muypequeo h es 0.

4. Los sucesos son expresados por unidad de rea, tiempo, etc.

CUADRO III.4. Aplicacin de la distribucinhipergeomtrica

EJEMPLO. En un lote de 30 vacunas se ha comprobado que 8 estn en malestado. Ya se han utilizado 4 vacunas del lote.

Cul es la probabilidad de que al menos una de las vacunassuministradas est en malas condiciones?

Se calcula la probabilidad de que ninguna de las vacunas suministradasest en mal estado

Por lo tanto, la respuesta sera 1 0,267= 0,733

Cul es la probabilidad de que 3 de las vacunas suministradasestn en malas condiciones?

Captulo III

46

La distribucin de Poisson describe el nmero de sucesos en una unidad detiempo de un proceso Poisson. Muchos fenmenos se modelan como un procesode Poisson, por ejemplo los accidentes en una determinada zona de una carretera.

Las diferencias ms importantes con respecto a la distribucin binomial sonque esta distribucin se aplica a sucesos que pueden tener una probabilidadmuy baja y, adems, el tamao de n es infinito. En algunos casos la distribucinde Poisson se utiliza como aproximacin a la Binomial cuando n es muy grande y,por tanto, es difcil el clculo de la Binomial y, adems, cuando la probabilidad dealguno de los eventos es muy baja. La funcin de probabilidad de la distribucinde Poisson se expresa por la siguiente ecuacin:

donde es la media o promedio de sucesos por unidad de tiempo y x es lavariable que indica el nmero de sucesos

En el Cuadro III.5 se dan varios ejemplos de aplicacin de la distribucin dePoisson.

CUADRO III.5. Aplicacin de la distribucin de Poisson

EJEMPLO. La abundancia de una especie es de 23 individuos 100 m2.Como se trata de sucesos por unidad de rea se utiliza una Poisson.

Cul es la probabilidad de no encontrar ningn individuo en25 m2?

La probabilidad que buscamos ser:

EJEMPLO. El nmero de tiburones blancos avistados fue de 120 en 30das.

Como se trata de sucesos por unidad de tiempo y suponemos que sonindependientes, se utiliza una Poisson.

Cul es la probabilidad de ver solo 5 tiburones en 10 das?

La probabilidad que buscamos ser:

47

Distribucin

III.3. Mtodos para determinar el tipo de distribucin

Para determinar si las variables se ajustan a alguna de las distribuciones delas que se han descrito anteriormente es necesario cuantificar si los resultadosobtenidos se ajustan a ese modelo o las diferencias son debidas al azar. Loscontrastes estadsticos utilizados con este fin se denominan pruebas de bondadde ajuste.

Existen distintas pruebas de bondad de ajuste que se utilizan en funcin deltipo de datos y la distribucin terica esperada. Una clasificacin de los ajustesms empleados es:

1. Muestras categorizadas (distribuciones tanto para variables continuascomo discretas).

a. 2.b. Test G.

2. Muestras no categorizadas (distribuciones continuas).a. Para todas distribuciones.

Prueba Kolmogorov-Smirnov (test K-S).b. Distribucin Normal.

Contraste de normalidad Shapiro-Wilk.

III.3.1. -cuadrado

Se puede aplicar tanto a distribuciones continuas (con los datos previamenteagrupados en clases) como a distribuciones discretas. Se basa en cuantificar ladiferencia entre las frecuencias observadas en cada clase y las esperadas,partiendo de la hiptesis nula de que los datos se ajustan a una distribucin f(x)(que puede ser Normal, Poisson, etc). Para su estimacin, en las n clasesexistentes, se contabiliza el nmero de casos observados (Oi) y, a travs de lafuncin terica que se desea testar, se calcula el nmero de casos esperados(Ei). A partir de estos valores se calcula el valor del estadstico 2, con la siguientefrmula:

Se aconseja que si el nmero de casos esperados dentro de una clase esmenor de 5 se combinen varias clases en una, hasta conseguir que todas tenganuna frecuencia esperada mayor o igual a 5. No se debe utilizar cuando hay pocosdatos.

A continuacin se deben calcular los grados de libertad () de la muestra. Si losvalores esperados se pueden calcular de forma previa al muestreo, el nmero de es n-1. Sin embargo, si para calcular los valores esperados es necesario estimaralgunos parmetros mediante estadsticos obtenidos en el muestreo (como, por

Captulo III

48

ejemplo, o para una distribucin Normal) el nmero de es n-r-1 donde r esel nmero de estadsticos necesarios para calcular el valor esperado.

Una vez determinados 2 y , se busca en la tabla 2 (Tabla 3 en el Apndice oArchivo Tabla 3.doc) el valor crtico para esos y para el nivel de significacinelegido (generalmente = 0,05). Si el 2 crtico es mayor que 2 calculado seacepta la hiptesis nula de que los datos observados se ajustan a la distribucinesperada, mientras que si 2 crtico es menor que 2 calculado la hiptesis serechaza. En el Cuadro III.6 se muestra cmo realizar este test con el programaSTATISTICA.

CUADRO III.6. Ajuste de distribuciones con el test 2

EJEMPLO. Se ha estimado la abundancia por m2 de caracoles en la laderade un monte y se desea conocer si su distribucin es aleatoria, es decir, sise corresponde a una distribucin de Poisson (datos en el archivo CuadroIII.6.sta).

Paso 1. Dentro del men Statistics del programa STATISTICA seselecciona el comando Distribution Fitting.

Paso 2. Nos aparece la ventana que se muestra a continuacin dondetenemos que elegir el tipo de distribucin a la que creemos se ajustannuestros datos.

49

Distribucin


Paso 3. Pulsando OK en la ventana anterior aparece la siguiente ventanaen la que se distingue una parte comn y tres pestaas diferentes. En elbloque comn se debe indicar la variable a analizar pulsando sobre la pestaaVariable.

Paso 4. En la pestaa Options, activada en el cuadro anterior, seseleccionan en la parte izquierda los contrastes que queremos efectuar. Enprimer lugar, debemos indicar si queremos realizar un test Kolmogorov-Smirnov a los datos (este test se utiliza tambin para variables continuasque se categorizan Yes (categorized)). En nuestro caso es una variablecontinua no categorizada Yes (continuous).

Paso 5. En la seccin inferior izquierda de la pestaa Options debemosmarcar Combine Categories, para que al realizar el test 2 nos combinelas categoras con frecuencias inferiores a 5.

Paso 6. En la parte derecha de la pestaa Options marcamos Frequencydistribution (ya que queremos un grfico con las frecuencias de cadacategora y no la frecuencia acumulada) y Raw frequencies (queremosque las frecuencias aparezcan con su valor de observaciones y no como elporcentaje que representa de la muestra).

Paso 7. Activamos la pestaa Parameters, donde se puede modificar elnmero de categoras y el lmite superio

tratamiento de datos estadisticos

Documents