contrast es

26
-31- - EL CONTRASTE PARA LA DIFERENCIA DE MEDIAS DE DOS POBLACIONES NORMALES CON DATOS INDEPENDIENTES. Planteamiento general Pongámonos en el mismo supuesto que en el ejemplo que sirvió para ilustrar el contraste para una población, y supongamos que lo que deseamos es conocer si los vinos de nuestra denominación de origen tienen el mismo contenido alcohólico que los de otra denominación de origen, por ejemplo la de Toro. Se trata de saber si existe una clara diferenciación en los mismos ya que, debido a la proximidad geográfica de ambas regiones, es posible que haya fraudes y se intercambien vinos de ambas dependiendo del mercado de los mismos. La hipótesis de trabajo inicial es entonces ¿Existen diferencias en el grado alcohólico de ambas denominaciones?.

Upload: akire-perez

Post on 03-Jan-2016

25 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Contrast Es

-31- -

EL CONTRASTE PARA LA DIFERENCIA DE MEDIAS DE DOS POBLACIONES NORMALES CON DATOS INDEPENDIENTES.

Planteamiento general Pongámonos en el mismo supuesto que en el ejemplo que sirvió para ilustrar el contraste para

una población, y supongamos que lo que deseamos es conocer si los vinos de nuestra

denominación de origen tienen el mismo contenido alcohólico que los de otra denominación

de origen, por ejemplo la de Toro. Se trata de saber si existe una clara diferenciación en los

mismos ya que, debido a la proximidad geográfica de ambas regiones, es posible que haya

fraudes y se intercambien vinos de ambas dependiendo del mercado de los mismos. La

hipótesis de trabajo inicial es entonces ¿Existen diferencias en el grado alcohólico de ambas

denominaciones?.

Page 2: Contrast Es

-32- -

Procediendo de la misma manera que en el caso de una población, suponemos una distribución

de probabilidad para la población que es la distribución normal. En la primera población

(Ribera de Duero) el grado alcohólico sigue una distribución normal N(µ1, σ1); en la segunda

población (Toro) el grado alcohólico sigue una distribución normal N(µ2, σ2).

Formulamos a continuación las hipótesis de trabajo en términos de los parámetros de los

modelos. Las hipótesis nula y alternativa son ahora

H0 :µ1 = µ2 (µ1 ! µ2 = 0)

Ha :µ1 " µ2 (µ1 ! µ2 " 0)

Supongamos que los datos obtenidos son los siguientes para muestras aleatorias de tamaño

n1 = 14 y n2 = 6. obtenida de forma independiente en ambas denominaciones

Page 3: Contrast Es

-33- -

Ribera de Duero 12,8 12,8 12,5 11,9 12,5 12,1 12,2 12,6 13,0 12,4 12,6 12,2 12,8 13,0 Toro 13,0 14,0 13,2 13,4 13,2 13,9

Grado alcohólico de 20 vinos de las denominaciones de origen de Ribera y Toro.

Tabla 3: Descriptiva básica del grado alcohólico.

Page 4: Contrast Es

-34- -

Box plot para la comparación del grado alcohólico de las denominaciones de Ribera y Toro.

Page 5: Contrast Es

-35- -

Varianzas conocidas Supongamos, para simplificar que las desviaciones típicas son conocidas, por ejemplo σ1 = 0.5 y σ2 = 0.6 para las denominaciones de Ribera de Duero y Toro respectivamente. Desarrollaremos el procedimiento general para después aplicarlo a los datos de los que disponemos. Conocemos la distribución de la media muestral en ambas poblaciones: x 1 ! N(µ1,

"1

n1

) x 2 ! N(µ2 ,"2

n2

) y ambas distribuciones son independientes. El

estimador de la diferencia de medias poblacionales será la diferencia de medias muestrales y, como la diferencia de normales independientes es también una distribución normal, tenemos

que x 1 ! x 2 " N(µ1 ! µ2 ,#1

2

n1

+#2

2

n 2

)

Estandarizando se obtiene que Z =( x 1 ! x 2 ) ! (µ1 ! µ 2 )

"12

n1

+"

22

n 2

# N(0,1)

Cuando la hipótesis nula es cierta µ1 ! µ 2 = 0 y se tiene que Z =( x 1 ! x 2 )

"12

n1

+

"22

n 2

# N (0,1)

luego Z será el estadígrafo de contraste que utilizaremos.

Page 6: Contrast Es

-36- -

HIPOTESIS: H0 :µ1 = µ 2 (µ1 ! µ2 = 0)

Ha :µ1 " µ 2 (µ1 ! µ 2 " 0 )

NIVEL DE SIGNIFICACION: α ESTADIGRAFO DE CONTRASTE: Z =

( x 1 ! x 2 )

"12

n1

+

"22

n 2

DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: N(0, 1)

REGION DE ACEPTACION: Z / Z ! z" /2{ } REGION CRITICA: Z / Z > z! /2{ }

Contraste para la diferencia de medias de dos poblaciones normales con varianza conocida.

Page 7: Contrast Es

-37- -

HIPOTESIS: H0 :µ1 = µ 2 (µ1 ! µ2 = 0)

Ha :µ1 " µ 2 (µ1 ! µ 2 " 0 )

NIVEL DE SIGNIFICACION: α= 0.05 (5%) ó 0.01 (1%)

ESTADIGRAFO DE CONTRASTE: Z =

(12.529 ! 13. 450)

0.25

14+0. 36

6

= !10.829

Valores críticos : para el 5% z0.025= 1,96 para el 1% z0.005= 2,57

Decisión estadística: El valor del estadígrafo de contraste pertenece a la región crítica, por tanto rechazamos la hipótesis nula. Conclusión no estadística: Los grados alcohólicos medios de las dos denominaciones son diferentes. Contraste para la diferencia de medias de dos poblaciones normales con varianza desconocida aplicado al

ejemplo de la comparación del grado alcohólico en dos denominaciones de origen.

Page 8: Contrast Es

-38- -

Varianzas desconocidas pero iguales

Supongamos ahora que las varianzas son desconocidas pero iguales (σ1 = σ2 = σ). La

distribución de la diferencia de medias muestrales es ahora Z =( x 1 ! x 2 ) ! (µ1 ! µ 2 )

"1

n1

+1

n2

# N(0,1)

Tenemos que eliminar el parámetro σ, para lo cual utilizaremos las distribuciones muestrales

asociadas a las cuasi-varianzas muestrales (n1 ! 1) ˆ S 12

"2# $n1!1

2 y

(n 2 ! 1) ˆ S 22

"2# $n2 !1

2

La suma de dos ji-cuadrado es también una ji-cuadrado, sumando las dos anteriores (n1 ! 1) ˆ S 1

2

"2+

(n2 ! 1) ˆ S 22

"2=

(n1 ! 1) ˆ S 12+ (n2 ! 1) ˆ S 2

2

"2# $n1+n2 !2

2

Suponiendo que ambas distribuciones son independientes, podemos combinarlas para obtener una distribución t de Student. La variable aleatoria

Page 9: Contrast Es

-39- -

t =

(x 1 ! x 2 ) ! (µ1 ! µ2 )

"1

n1

+1

n 2

(n1 ! 1) ˆ S 12 + (n 2 ! 1) ˆ S

22

"2

n1 + n2 ! 2

=(x 1 ! x 2 ) ! (µ1 ! µ2 )

ˆ S 1

n1

+1

n2

con ˆ S =(n1 ! 1) ˆ S 1

2+ (n2 ! 1) ˆ S 2

2

n1 + n 2 ! 2 sigue una t de Student con n1 + n2 -2 grados de libertad.

Si la hipótesis nula es cierta, el estadígrafo de contraste que utilizaremos es

t =(x 1 ! x 2 )

ˆ S 1

n1

+1

n2

= t n1+n2 !2

Lo que hemos hecho es estimar la varianza común de ambas poblaciones mediante una media

ponderada de las varianzas estimadas en cada población, y se ha cambiado la distribución

normal por la t de Student con el correspondiente aumento en la dispersión que hace que sea

más difícil encontrar diferencias.

Page 10: Contrast Es

-40- -

HIPOTESIS: H0 :µ1 = µ 2 (µ1 ! µ2 = 0)

Ha :µ1 " µ 2 (µ1 ! µ 2 " 0 )

NIVEL DE SIGNIFICACION: α

ESTADIGRAFO DE CONTRASTE: t =(x 1 ! x 2 )

ˆ S 1

n1

+1

n2

ó t =(x 1 ! x 2 )

S1

n1

+1

n 2

con ˆ S =(n1 ! 1) ˆ S 1

2+ (n2 ! 1) ˆ S 2

2

n1 + n 2 ! 2 ó S =

n1ˆ S

1

2+ n2

ˆ S 2

2

n1 + n2 ! 2

DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS NULA

ES CIERTA: t de Student t n1+n2!2

REGION DE ACEPTACION: t / t ! t n1+n2 "2,#{ }

REGION CRITICA: t / t > t n1+n2 !2,"{ }

Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas pero

iguales.

Page 11: Contrast Es

-41- -

HIPOTESIS: H0 :µ1 = µ 2 (µ1 ! µ2 = 0)

Ha :µ1 " µ 2 (µ1 ! µ 2 " 0 )

NIVEL DE SIGNIFICACION: α= 0.05 (5%) ó 0.01 (1%)

ESTADIGRAFO DE CONTRASTE: t = (12. 529 ! 13. 450)

0.3591

14+1

6

= !5.256

Valores críticos : para el 5% t18,0.025= 2.101 para el 1% t18,0.005= 2.878

Decisión estadística: El valor del estadígrafo de contraste pertenece a la región crítica, por

tanto rechazamos la hipótesis nula.

Conclusión no estadística: El grado alcohólico es significativamente diferente en Ribera de

Duero y Toro. Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas pero

iguales, aplicado a los datos sobre el grado alcohólico.

Page 12: Contrast Es

-42- -

Varianzas desconocidas y distintas

HIPOTESIS: H0 :µ1 = µ 2 (µ1 ! µ2 = 0)

Ha :µ1 " µ 2 (µ1 ! µ 2 " 0 )

NIVEL DE SIGNIFICACION: α

ESTADIGRAFO DE CONTRASTE: t =(x 1 ! x 2 )

ˆ S 12

n1

+

ˆ S 22

n2

DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS NULA ES CIERTA: t de Student t f donde f es el entero más próximo a

f =

ˆ S 1

2

n1

+

ˆ S 2

2

n2

!

"

# #

$

%

& &

2

ˆ S 1

2

n1

!

"

# #

$

%

& &

2

n1 + 1+

ˆ S 2

2

n2

!

"

# #

$

%

& &

2

n2 + 1

' 2

REGION DE ACEPTACION: t / t ! t f,"{ }

REGION CRITICA: t / t > t f,!{ }

Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas y distintas.

Page 13: Contrast Es

-43- -

Contrastes de comparación de medias para muestras grandes.

HIPOTESIS: H0 :µ1 = µ 2 (µ1 ! µ2 = 0)

Ha :µ1 " µ 2 (µ1 ! µ 2 " 0 )

NIVEL DE SIGNIFICACION: α ESTADIGRAFO DE CONTRASTE: t =

(x 1 ! x 2 )

ˆ S 12

n1

+

ˆ S 22

n2

DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS NULA

ES CIERTA: N(0,1)

REGION DE ACEPTACION: Z / Z ! z" /2{ }

REGION CRITICA: Z / Z > z! /2{ } Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas y tamaños muestrales grandes.

Page 14: Contrast Es

-44- -

Obtención de datos para la comparación de medias.

Dos son los tipos de datos de los que es posible disponer para la comparación de las medias

- Datos procedentes de estudios observacionales.

- Datos procedentes de estudios experimentales.

En el primer caso se toman muestras aleatorias en dos poblaciones. La muestra aleatoria

garantiza la representatividad . A este tipo de datos corresponde el ejemplo que hemos

utilizado como guía para la explicación.

Los datos experimentales se corresponden con experimentos planificados en los que se asignan

dos tratamientos distintos a un grupo de individuos. En este tipo de diseños es necesario que todas las características que no intervienen en el diseño y puedan modificar la respuesta, estén

controlados y sean similares en los dos grupos a comparar.

La forma de asignar tratamientos a individuos para que no existan errores sistemáticos es

hacerlo al azar.

Page 15: Contrast Es

-45- -

Contraste para datos apareados.

Supongamos que deseamos saber si la presión sistólica de personas alcohólicas se modifica cuando dejan el hábito de beber, para ello se toma una muestra de 10 personas que ingresan en

el hospital para tratar su alcoholismo y se toma una medida de la presión sistólica antes y

después de dos meses de haber dejado de beber. El experimento fue diseñado de esta manera

ya que aunque se espera una reducción en la presión sanguínea, esta depende del valor inicial

en cada individuo.

Individuo 1 2 3 4 5 6 7 8 9 10 Antes 140 165 160 160 175 190 170 175 155 160 Después 145 150 150 160 170 175 160 165 145 170 Reducción -5 15 10 0 5 15 10 10 10 -10

Page 16: Contrast Es

-46- -

Como las variables están relacionadas, todos los cálculos que realizamos en el caso de datos

independientes ya no son válidos. Para evitar este problema nos centraremos en una sola

variable aleatoria que es la diferencia entre los dos valores obtenidos para cada uno de los

individuos estudiados que mide el efecto del tratamiento aplicado. Tenemos ahora una nueva

variable D que suponemos que tiene una distribución normal de media µd desviación típica σd.

La hipótesis de interés es ahora que, en promedio, el tratamiento aplicado a los individuos es

0, es decir, µd = 0. El contraste es ahora exactamente igual que el descrito para la media de

una población normal (ahora la población de las diferencias.

Describimos a continuación el contraste para muestras pequeñas y varianza desconocida para datos apareados. Llamaremos d , a la media muestral de las diferencias y ˆ S d a la cuasi

desviación típica.

Page 17: Contrast Es

-47- -

HIPOTESIS: H0 :µd = 0

Ha :µ d ! 0

NIVEL DE SIGNIFICACION: α

ESTADIGRAFO DE CONTRASTE: t =d

ˆ S dn

DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: tn-1

REGION DE ACEPTACION: t / t ! t n"1,#{ }

REGION CRITICA: t / t > t n!1,"{ }

Contraste para la diferencia de medias de dos poblaciones normales con datos apareados.

Page 18: Contrast Es

-48- -

HIPOTESIS: H0 :µd = 0

Ha :µ d ! 0

Nivel de significación: 5% y 1%

ESTADIGRAFO DE CONTRASTE: t = 6

8. 43310

= 2.250

DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: t9 Valores críticos : para el 5% t9, 0.05= 2,262 para el 1% t9, 0.01= 3,250

p-valor : 0,0510

Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de aceptación, por tanto

aceptamos la hipótesis nula.

Conclusión no estadística: Con los datos de los que disponemos no existe una evidencia significativa de

que exista una diferencia entre la presión sistólica antes y después de haber dejado de beber.

Contraste para la diferencia de medias de dos poblaciones normales con datos apareados aplicado al

ejemplo de la reducción de la tensión arterial en alcohólicos.

Page 19: Contrast Es

-49- -

Contrastes para la comparación de la tendencia central cuando las poblaciones no son normales.

En muchas situaciones prácticas es difícil aceptar la hipótesis previa de que los datos son

normales al disponerse, por ejemplo, de distribuciones muy asimétricas. En estos casos los

contrastes anteriores no detectan claras diferencias en el comportamiento de las poblaciones,

debido a que la dispersión es muy grande o debido a que la medida de tendencia central utilizada (la media) no es la correcta porque está afectada por los valores extremos. Los

contrastes paramétricos descritos antes son especialmente sensibles a valores extremos de la

variable.

Para solucionar el problema se utiliza la mediana en lugar de la media construyéndose los que

se denominan contrastes no paramétricos al no referirse ya a parámetros de una distribución

concreta.

Page 20: Contrast Es

-50- -

Page 21: Contrast Es

-51- -

Comparación de medianas de dos poblaciones con datos independientes: el contraste U de Mann-Withney

Está basado en la suma de los rangos de orden de las observaciones de las dos poblaciones

consideradas conjuntamente y consiste básicamente en calcular la distribución muestral a

partir de todas las ordenaciones posibles con muestras de los mismos tamaños en el caso de

que las medianas fueran iguales. Cabe esperar que si las medianas de las dos poblaciones son

iguales los datos estén mezclados y las sumas de rangos de orden sean similares en ambos grupos.

Page 22: Contrast Es

-52- -

HIPOTESIS: H0 : Me1 = Me2 (Me1 ! Me2 = 0)

Ha :Me1 "Me2 (Me1 !Me2 " 0)

ESTADIGRAFO DE CONTRASTE: Ordenar las observaciones, asignar el rango correspondiente y

calcular las sumas de rangos de las observaciones de cada grupo.(R1 y R2)

U = min(U1 , U2 ) U i = n1n 2 +ni (ni + 1)

2! Ri

Para muestras grandes: Z =

U !n1n2

2

n1n2 (n1 + n2 + 1)

12

DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: Distribución

empírica o N(0,1) para muestras grandes.

REG. DE ACEP.: U / U!;n1,n2

inf" U " U

!;n1,n2

sup{ } Z / Z ! z" /2{ }

REGION CRITICA: U / U![U";n1,n2

inf;U

";n1,n2

sup]{ } Z / Z > z! /2{ }

Page 23: Contrast Es

-53- -

Comparación de medianas de dos poblaciones con datos independientes: el test de Wilcoxon

HIPOTESIS: H0 : Med = 0

Ha :Med ! 0

ESTADIGRAFO DE CONTRASTE: Calcular las diferencias entre los valores de ambos grupos,

Suprimir las observaciones nulas, Ordenar las observaciones en valor absoluto, asignar el rango

correspondiente y calcular las sumas de rangos de las observaciones positivas y negativas.(T+ y T-) T = min(T+ , T! )

Para muestras grandes: Z =

T !n(n + 1)

4

n(n + 1)(2n + 1)

24

DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: Distribución

empírica o N(0,1) para muestras grandes.

REG. DE ACEP.: T / T!;ninf " T " T!;nsup{ } Z / Z ! z" /2{ }

REGION CRITICA: T / T![T";ninf ; T";nsup]{ } Z / Z > z! /2{ }

Page 24: Contrast Es

-54- -

Validación de las hipótesis de partida.

A lo largo de los distintos puntos de la descripción de los contrastes básicos hemos ido haciendo una serie de

suposiciones que no hemos verificado como son las hipótesis de normalidad o de igualdad de varianzas

(homocedasticidad) de las poblaciones. La validación de estos supuestos se ha dejado para el final aunque debe realizarse

previamente a la aplicación de los procedimientos de contraste.

Existen muchos métodos que permiten la validación de la hipótesis de normalidad, desde los más formales consistentes

en nuevos contrastes cuya hipótesis nula es la hipótesis de que los datos proceden de una distribución normal, hasta

simples procedimientos descriptivos como el histograma o el Box-Plot que nos permiten decidir si la distribución es

aproximadamente simétrica o normal y si la dispersión de los grupos en estudio es aproximadamente la misma.

Los procedimientos de contraste de comparación de medias suelen ser robustos con respecto a la hipótesis de normalidad

aunque muy sensibles a la presencia de outliers (datos anormalmente grandes o pequeños). En las representaciones Box-

plot de los grupos a comparar buscaremos la simetría de lo grupos y, sobre todo, la presencia de observaciones extrañas

en los extremos de la distribución.

Page 25: Contrast Es

-55- -

CONTRASTE DE COMPARACION DE VARIANZAS

HIPOTESIS: H0 :!1

2= !

2

2

Ha :!12" !

2

2

NIVEL DE SIGNIFICACION: α

ESTADIGRAFO DE CONTRASTE: F =

ˆ S 1

2

ˆ S 2

2

DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: F n1!1, n2 !1

REGION DE ACEPTACION: F / F ![Fn1"1,n2"1, 1"#/2 ,F n1"1,n2 "1, 1"#/ 2 ]{ }REGION CRITICA:

F / F ![Fn1"1,n2"1, 1"#/2,F n1"1,n2 "1, 1"#/ 2

]{ } 1 Contraste de comparación de las varianzas de dos poblaciones normales.

.

Page 26: Contrast Es

-56- -

HIPOTESIS: H0 :!1

2= !

2

2

Ha :!12" !

2

2

NIVEL DE SIGNIFICACION: α = 5% y 1%

ESTADIGRAFO DE CONTRASTE: F =

ˆ S 1

2

ˆ S 2

2= 0.686

DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: F n1!1, n2 !1

p-valor : 0.6261 Conclusión : Se acepta la hipótesis nula.

Contraste de comparación de las varianzas de dos poblaciones normales aplicado ala comparación de la variabilidad del grado alcohólico.