biometria clase 9

47
BIOMETRÍA 242203 242317 22 de mayo de 2012 Sergio Neira Hugo Arancibia

Upload: javiera-saavedra

Post on 28-Jan-2018

420 views

Category:

Engineering


0 download

TRANSCRIPT

Page 1: Biometria clase 9

BIOMETRÍA

242203 242317

22 de mayo de 2012

Sergio Neira – Hugo Arancibia

Page 2: Biometria clase 9

Hipótesis para dos muestras

Inferencia sobre la varianza poblacional

Page 3: Biometria clase 9

Entre los procedimientos estadísticos más comúnmente

aplicados se encuentra la comparación de dos muestras. Su

fin es inferir si existen diferencias entre dos poblaciones

muestreadas.

El objetivo de la mayoría de las hipótesis sobre dos muestras

es realizar inferencia sobre parámetros poblacionales

mediante el examen de estadígrafos de la muestra.

Page 4: Biometria clase 9

Prueba para la diferencia entre dos medias

Supongamos un experimento en que 13 personas fueron separadas

al azar en dos grupos, un grupo de seis y uno de siete.

Los miembros del primer grupo recibieron una droga (B), y los

miembros del segundo grupo recibieron otra droga (G). Se extrae

sangre de cada persona y se registra el tiempo (en minutos) que

toma la sangre en coagular.

La hipótesis de dos colas puede proponerse para preguntar si el

promedio del tiempo de coagulación de la sangre de las personas

tratadas con la droga B es igual al tiempo de coagulación en la

sangre de las personas tratadas con la droga G.

Page 5: Biometria clase 9

Droga B Droga G

8.8 9.9

8.4 9.0

7.9 11.1

8.7 9.6

9.1 8.7

9.6 10.4

9.5

Page 6: Biometria clase 9

Si ambas muestras vienen de poblaciones normales, y si las dos

poblaciones tienen igual varianza, entonces podemos calcular un

valor t en forma análoga al test-t que ya conocimos anteriormente.

El valor t para probar la hipótesis del ejemplo anterior y que

concierne a la diferencia de dos medias poblacionales es:

Page 7: Biometria clase 9

Es la diferencia entre las dos

medias

Es el error estándar de la

diferencia entre las medias

muestrales.

Es la varianza de la diferencia

entre las medias

Page 8: Biometria clase 9

Estadígrafos muestrales Parámetros poblacionales

Page 9: Biometria clase 9

La varianza de la diferencia entre dos variables independientes es igual a la

suma de las varianzas de las dos variables. Entonces,

Como

Escribimos

Page 10: Biometria clase 9

La prueba t para dos muestras requiere que

Podemos escribir

Entonces, para calcular el estimado de

Page 11: Biometria clase 9

Necesitamos un estimador de σ2

Se supone son buenos estimados de σ2

Calculamos la varianza conjunta:

Page 12: Biometria clase 9

Y

Entonces,

Page 13: Biometria clase 9

La ecuación

Que para muestras de igual tamaño (n1=n2) nos da

Page 14: Biometria clase 9

n1=6 n2=7

v1=5 v1=6

Media1 =8.75 min Media2=9.74 min

SS1 =1.6950 min2 SS1 =4.0171 min2

Consideremos los siguientes datos:

Page 15: Biometria clase 9

= 2.201

Page 16: Biometria clase 9

Talla plantas (cm)

Fertilizador 1

Talla plantas (cm)

Fertilizador 2

48.2 52.3

54.6 54.4

58.3 55.6

47.8 53.2

51.4 61.3

52.0 58.0

55.2 59.8

49.1 54.8

49.9

52.6

Page 17: Biometria clase 9

La prueba para dos muestras discutida en la sección anterior

aplica cuando las dos muestras son independientes.

Independencia implica que cada dato de la primera muestra no

está asociado de ninguna manera con cualquier dato

específico de la segunda muestra.

Sin embargo, hay situaciones cuando cada observación en la

muestra 1 está correlacionada de alguna forma con una

observación en la muestra 2.

En este caso, decimos que la data ocurre en pares.

Page 18: Biometria clase 9

Por ejemplo, podríamos probar la hipótesis de que la pierna

delantera izquierda y la pierna trasera izquierda de los venados

son iguales.

Tomamos estas dos medidas en un número de venados, pero

debemos recordar que la variación en la muestra se puede

deber a dos factores posibles:

1. La hipótesis nula puede ser falsa, existiendo de hecho una

diferencia entre las patas delanteras y las traseras.

2. Los venados tienen distintas tallas y para cada venado el largo de

la pierna trasera está correlacionada con el largo de la pierna

delantera (esto es, un venado con una pierna delantera larga es

probable que tenga una pierna trasera larga.

Page 19: Biometria clase 9

El tipo de hipótesis planteado en la hipótesis anterior (que la longitud

de las piernas delanteras y traseras es igual), son:

210 : H

21: AH

Como vimos anteriormente, también podría establecerse como:

0: 210 H

0: 21 AH

Page 20: Biometria clase 9

Podríamos establecer una diferencia poblacional

promedio, µd, como:

0:0 dH

0: dAH

Podemos escribir las hipótesis como:

21 d

Page 21: Biometria clase 9

El estadístico para la hipótesis nula es:

ds

dt

Entonces, no usamos las medidas originales para

las dos muestras, sino que sólo la diferencia

entre cada par de medidas.

Page 22: Biometria clase 9

Media

Varianza

Desviación estándar

Error estándar

Trabajamos entonces con una muestra de dj

valores, cuyos descriptores son:

d2

ds

ds

ds

Page 23: Biometria clase 9

Entonces, una prueba-t pareada es esencialmente

una prueba-t de una muestra, análoga a la que ya

hemos visto.

En el t-test pareado,

n = el número de diferencias (i.e., el número de pares

de datos), y

v = n-1

Page 24: Biometria clase 9

Venado

(j) Pierna trasera (cm)

(X1j) Pierna delantera (cm)

(X2j) Diferencia (cm) (dj = X1j - X2j)

1 142 138 4 2 140 136 4 3 144 147 -3 4 144 139 5 5 142 143 -1 6 146 141 5 7 149 143 6 8 150 145 5 9 142 136 6

10 148 146 2

Page 25: Biometria clase 9

En el caso de una hipótesis de una cola con

muestras pareadas, podemos probar:

00 : dH

0: dAH00 : dH

0: dAH

Page 26: Biometria clase 9

En la Tabla siguiente se presenta datos de un experimento diseñado

para probar si un fertilizante nuevo resulta en un incremento de más

de 250 kg/ha de cosecha con respecto al fertilizante antiguo.

Parcela (j)

Con fertilizante nuevo (X1j)

Con el fertilizante antiguo (X2j)

Diferencia (dj = X1j- X2j)

1 2250 1920 330 2 2410 2020 390 3 2260 2060 200 4 2200 1960 240 5 2360 1960 400 6 2320 2140 180 7 2240 1980 260 8 2300 1940 360 9 2090 1790 300

hakgH d /250:0

hakgH dA /250:

Page 27: Biometria clase 9

Las pruebas-t para muestras pareadas requieren que

cada dato en una muestra esté correlacionado con

un (pero sólo un), dato en la otra muestra.

Entonces, en el ejemplo anterior, cada cosecha

usando el nuevo fertilizante es pareada con solo una

cosecha usando el fertilizante antiguo.

Page 28: Biometria clase 9

Las pruebas-t para muestras pareadas requieren

que cada dato en una muestra esté correlacionado

con un, pero sólo uno, dato en la otra muestra.

Entonces, en el ejemplo anterior, cada cosecha

usando el nuevo fertilizante es pareada con solo

una cosecha usando el fertilizante antiguo.

Habría sido inapropiado haber tenido algunos tracks

de suelo suficientemente grandes para colectar dos

o más cosechas usando cada uno de los

fertilizantes

Page 29: Biometria clase 9

Las pruebas-t para muestras pareadas no tiene

requieren los supuestos de normalidad e igualdad de

varianzas como las pruebas de dos muestras.

Sin embargo, supone que las diferencias, dj, vengan

de una población de diferencias distribuidas

normalmente.

Si existe efectivamente correlación pareada de los

datos desde las dos muestras, entonces la prueba-t

para muestras pareadas será más poderosa que el la

prueba-t para dos muestras.

Page 30: Biometria clase 9

Probar la hipótesis

hakgH d /250:0

hakgH dA /250:

Usando una prueba-t para dos muestras en vez de una

para muestras pareadas

Page 31: Biometria clase 9
Page 32: Biometria clase 9

Es posible determinar intervalos de confianza para muchos

parámetros (para expresar la precisión de los estimados de

esos parámetros).

Como vimos, la distribución de las medias es una distribución

simétrica, que se aproxima a la normal cuando n se

incrementa.

Sin embargo, la distribución de las varianzas no es simétrica, y

ni la distribución normal ni la t-Student pueden emplearse para

establecer intervalos de confianza alrededor de σ2 o para

probar hipótesis sobre σ2.

Page 33: Biometria clase 9

Sin embargo, la teoría establece que

donde 2 representa una distribución estadística que,

como t, varía con los grados de libertad, v.

Mediante el uso de la distribución 2 podemos definir un

intervalo de confianza dentro del cual hay 1-

posibilidades de incluir σ2.

Page 34: Biometria clase 9
Page 35: Biometria clase 9

La tabla 2 que veremos más adelante, nos informa la

probabilidad de calcular 2 mayor que el de la tabla.

Si deseamos conocer los dos valores que encierran 1-

de la curva chi-cuadarado, deseamos la porción de

la curva entre

2 1-/2, v y 2

/2, v

(para un intervalo de confianza del 95%, esto

significaría el área 2 0.975, v y 2

0.025, v).

Page 36: Biometria clase 9

A partir de la ecuación anterior,

Page 37: Biometria clase 9

Como vs2=SS, también podemos escribir la expresión

anterior como:

Page 38: Biometria clase 9

Calcule el intervalo de confianza del 95% para σ2 como

sigue:

v=24;

s2=1.80 (°C),

SS=v s2 =43.20 (°C)2 .

Si 2 0.025, 24 =39.364 y 2

0.975,24=12.401.

Page 39: Biometria clase 9

Para obtener el intervalo de confianza 1- para la

desviación estándar de la población, simplemente

usamos las raíces cuadradas de los límites de confianza

para σ2, entonces:

Page 40: Biometria clase 9

Los procedimientos para probar hipótesis sobre la

varianza poblacional vienen de considerar que vs2/σ2 es

un valor chi-cuadrado (donde v = n-1).

Consideremos el par de hipótesis de dos colas:

Page 41: Biometria clase 9

Donde σ02 puede ser cualquier varianza poblacional o

hipotética. Entonces, simplemente calculamos

Y si el valor calculado 2 2 /2,v o 2 ≤ 2

1-/2,v,

Entonces se rechaza H0 al nivel de significancia.

Page 42: Biometria clase 9

v = 24;

s2 = 1.80 (°C),

SS = v s2 = 43.20 (°C)2 .

= 0.05

Si 2 0.025, 24 =39.364 y 2

0.975,24=12.401.

Page 43: Biometria clase 9

20.43)(0.1

)(2.432

2

2

0

2

2

0

2

C

CvsSSX

Valores críticos 2 0.025, 24 =39.364 y 2

0.975,24=12.401

Como el valor 2 calculado es más extremo que uno de los

valores críticos, entonces rechazamos H0.

Page 44: Biometria clase 9

Sin embargo, cuando se trata de varianzas, es más

común que probemos hipótesis de una cola. Para la

hipótesis:

H0: σ2 ≤ σ0

2 , HA: σ2 > σ02 ,

H0 se rechaza si el valor 2 calculado 2 , v .

Page 45: Biometria clase 9

Para la hipótesis:

H0: σ2 σ0

2 , HA: σ2 < σ02 ,

H0 se rechaza si el valor 2 calculado desde la ecuación

es < 2 , v .

Page 46: Biometria clase 9

SS= 18.8288

v=7

s2= 2.6898 seg2

=0.05

Tiempo que demora una droga en disolverse en el jugo gástrico.

Page 47: Biometria clase 9

Tiempo que demora una droga en disolverse en el jugo gástrico.

553.125.1

8288.182

2

2

0

2 seg

segSSX

Valores críticos 2 0.05, 7 =14.067

Como el valor 2 <14.067, entonces no rechazamos H0.