t de student · la prueba de t • características de la distribución t 1. se trata de una serie...

Diferencia de medias y diferencia de proporciones. Intervalo de confianza para diferencia de medias y

diferencia de proporciones:La prueba de T

Por: Gerardo Álvarez Hernández PhD

Curso introductorio de bioestadística

La prueba de T de Student

• En muchos estudios es necesario comparar las características de dos o más grupos

• P.e. saber si un tratamiento nuevo tiene mayor porcentaje de mejoría que otro ya usado, o

saber si la talla o peso de un grupo de estudiantes difiere de acuerdo a sus patrones de

alimentación

• La comparación puede ocurrir en dos formas:

• Que se comparen dos o más grupos distintos de individuos (muestras independientes)

• Que tengan varianza semejante (T de Student)

• Que tengan varianza diferente (F test; prueba de Welch)

• Que se comparen dos o más mediciones dentro de los mismos individuos (muestras

dependientes)

• T de Student

• Para comparar una variable continua entre dos muestras

independientes y si dicha variable sigue una distribución normal se

utiliza la prueba:

T de Student (T-Test):

• La hipótesis que contrasta es:

• H0: m1= m2 Las medias son iguales

• H1: m1 m2 Las medias son diferentes

La prueba de T de Student

LA PRUEBA DE T

• Cuando los datos proceden de muestras independientes que se

distribuyen normalmente, se pueden aplicar métodos paramétricos

• La comprobación de la normalidad de la distribución puede hacerse

mediante:

• Métodos gráficos: histograma, diagramas de caja (box plots) u otros gráficos de

normalidad

• Pruebas estadísticas: prueba de Kolmogorov-Smirnov; prueba de Shapiro-Wilk, etc.

La prueba de T

• No siempre los datos se distribuyen normalmente, o es difícil establecer la

independencia de las observaciones

• En tal caso para poder comparar a los grupos de interés se usan pruebas no

paramétricas

• Algunas de esas pruebas son:

• Prueba de Wilcoxon (modelo de datos pareados)

• Prueba de Mann-Whitnney (modelo de posición de dos muestras independientes)

• Prueba de Kruskal-Wallis (análisis de varianza de un factor)

• Prueba de Siegel-Tukey (igualdad de varianza para dos muestras)

• Prueba de la mediana

La prueba de T

• Si los datos no se apartan notablemente de la normalidad y

la muestra es pequeña (n < 30), la prueba de T es un buen

método para comparar poblaciones

• La prueba evalúa si la media de dos grupos es

estadísticamente diferente una de otra

• Es apropiada cada vez que se compare la media de dos

poblaciones

T-test: prueba si la “distancia” (t) entre la media de dos grupos es cero

n

Xt

NSD

1~

X μ

n = 10

La distancia (t) entre los grupos se incrementa cuando el número de observaciones se incrementa

NSD

1~

n

Xt

X μ

n = 20

La prueba de T

• Características de la distribución T

1. Se trata de una serie de distribuciones platicúrticas

2. La curva con 29 grados de libertad (gl) es casi igual a la curva

normal

• Los gl corresponden al número de observaciones en una

muestra de tamaño ‘n’ que son diferentes de la media

• Mientras menos gl tengamos, tienen menor valor los

estimadores para ser extrapolables

La prueba de T

• Características de la distribución T

3. El estimador que se usa para su cálculo es una razón.

• El numerador es sólo la diferencia entre dos medias

• El denominador es la medida de la variabilidad o dispersión de las

observaciones

Señal

Ruido=

La diferencia que creemos se debe al programa o tratamiento introducido

La variabilidad que dificulta ver la diferencia entre los grupos

La prueba de T

4. Xmedia = 0

5. S > 1; tiende a 1 conforme aumentan los grados de libertad

6. S2 > 1; tiende a 1 conforma aumentan los grados de libertad

7. S2 = gl / gl – 2

8. La variable T va de – α a + α

• La prueba de T es mas útil para estimar intervalos de confianza y efectuar pruebas de

hipótesis que para calcular probabilidades, puesto que ya se debe contar con la media de ‘x’ y

la desviación estándar de ‘x’

T =X - μ

σn Error estándar

El estimador para varianzas

iguales

Prueba de hipótesis para la media de una población

• Útil cuando la muestra es < a 30

• Misma forma que para la prueba “Z”

• Los valores críticos de T cambian con los grados de libertad

• La confianza al 95% tiene una T de 0.975

• Esta se obtiene igual que “Z”, es decir, t (1-α/2), esto es, 1 -

0.05/2 = 1 – 0.025 = 0.975

• Una vez identificada la t, se obtienen los grados de libertad (n-1)

• Buscamos en la tabla de t, localizamos el valor que intersecta a

la columna del nivel de confianza (en este caso 95% ó α/2 = .025)

con los grados de libertad

T =X - μ

σn


• ¿Cuál es la probabilidad asociada a un valor de T en una muestra de 17

sujetos con hipertensión arterial sistólica, y un nivel de confianza del 99%?

2.92078

• ¿Y en una muestra de 26 sujetos y un nivel de confianza del 90%?

1.708141

• ¿y en una muestra de 10 sujetos y una confianza del 95%?

2.26216


Ejercicio

• Suponga que buscamos probar con un nivel de confianza del 95%, la

hipótesis de igualdad de medias de la estatura en una población de 15

niños. La media del grupo es de 110 cm., con una desviación estándar de 15.

La media poblacional se sabe es de 130 cm.

1. Los datos:

N = 15 X = 110 cm S = 15 μ = 130

• Mientras menor la n, mayor la desviación estándar


2. Supuestos: la muestra se distribuye como una T de Student

3. La hipótesis estadística:

Ho: X = μ0

Ha: X ≠ μ0

4. Selección del estadístico de prueba: T de Student para medias de

una población con 14 grados de libertad a una confianza de 95%

Prueba de 2 colas

T =X - μ

σn


5. La distribución muestral: la muestra se distribuye como una T de Student con 14 grados de

libertad (n-1) = 15-1 = 14

6. Regla de decisión: se rechaza Ho si Tc < - 2.1448 ó Tc > 2.1448

• ¿Por qué 2.1448?

• Confianza al 95% = 1 – 0.95 = .05/2 = .025, por lo tanto, esto es igual a 0.975 con 14 grados

de libertad

• Buscamos en la tabla de T la intersección entre .025 y 14 gl = 2.14479


.025 .025

Región de rechazo Región de rechazoT=2.1448T= - 2.1448


7. Cálculo del estadístico de prueba

16.5873.3

20

8729.315

20

1515

130110

n

Xt

8. Decisión estadística: Se rechaza Ho ya que Tc < Tt, esto es, dado que Tc es <

a -2.1448 rechazamos la hipótesis nula y aceptamos como probable la

hipótesis alterna, con una p < .025

9. Conclusión: la estatura media de los niños investigados es diferente a la

media poblacional con una confianza del 95%


• ¿Qué pasaría si decidimos hacer la prueba a una sola cola con el mismo nivel

de confianza a la misma muestra de individuos?

• Suponga que establecemos la hipótesis estadística siguiente:

• Ho: X > μ0

• Ha: X < μ0

• ¿Cuál sería el valor de T crítica?

• α = 1 - .05 = .9500 con 14 grados de libertad = 1.7613

• Dado que hemos establecido la direccionalidad del evento en la hipótesis

estadística, T crítica es = - 1.7613


.05

Región de rechazo T= - 1.71613

‘Región de aceptación’

La decisión final no cambia dado que Tc < Tt, de modo que la Ho es rechazada

N

SSS

S

XXt

XX

XX

2

2

2

1

21

21

21

Prueba de hipótesis para la diferencia de dos medias muestrales

Para muestras del mismo

tamaño


2121

2

22

2

11

21

21

11

2

)1()1(21 NNNN

SNSNS

S

XXt

XX

XX

Para muestras de diferente

tamaño


• Queremos saber si la diferencia de presión arterial de 500 bebedores de café es

significativamente diferente de otra muestra de 500 personas que no beben

café. Los datos de la primera muestra son los siguientes: media = 147, DE =

28.5, en tanto de la segunda son: media = 142, DE = 32.1

• Probar la diferencia con un nivel de confianza al 95% a dos colas, gl (n-2)

N

SSS

S

XXt

XX

XX

2

2

2

1

21

21

21

Una sola muestra del mismotamaño

RECESO

¿Qué es un intervalo de confianza?

• En estadística un intervalo de

confianza (IC) es usado para

describir la cantidad de

incertidumbre asociada con un

estimador muestral de un

parámetro poblacional

¿Qué es un intervalo de confianza?

Estimador muestral Nivel de confianza Error estándar

P.e. media de la muestra;Proporción muestral

Describe la incertidumbredel método de muestreo

90%, 95%, 99%

Describe la variabilidaddel método de muestreo

Intervalo de confianza para una media (a partir de una muestra pequeña)

Ejercicio

• Calcule el IC 95% para una media de glucosa en ayunas de 87 mg/dl en una

muestra de 20 sujetos, que tienen una desviación estándar de 7 mg/dl

N = 20 X = 87 mg s = 7 mg

n

ss 2

Error estándar 57.15652.120

72 n

ss


• La confianza al 95% tiene una t de 0.975

• Esta se obtiene: t (1-α/2), esto es, 1 - 0.5/2 = 1 – 0.025 = 0.975

• Una vez identificada la t, se obtienen los grados de libertad (n-1). En

nuestro ejercicio (20-1 = 19)

• Buscamos en la tabla de t, localizamos el valor que intersecta a la

columna del nivel de confianza (en este caso 95% ó α/2 = .025) con los

grados de libertad (19). La probabilidad de tal valor es 2.09302


• Así,

• IC 95% = estimador puntual +/- (nivel de confianza t) (error estándar)

• 87 +/- 2.0930 (1.57)

• 87 +/- 3.2860

• IC 95% 83.7 < X < 90.2; IC 95% (83.7, 90.2)

• Tarea:

• Calcule ahora los IC al 90% y 99% para la media de la misma muestra

Intervalo de confianza de la diferencia de dos medias (para t-test)

2

22

1

21

2121

nnZXX

2

2

1

2

2121 ,

n

ps

n

pstglXX

2)(

)1()1(

2)(

21

222

2112

21

nn

snsnps

nngl

Para prueba de Z

Prueba de T para varianzas iguales

s2p = varianza promedio

grados de libertad


• Con la prueba de T para varianzas iguales (aunque ‘n’ no sea del mismo tamaño para

ambos grupos) el IC es más largo, por lo que ganamos confianza, pero perdemos precisión

• Cuando las varianzas son diferentes (las muestras provienen de poblaciones muy distintas)

entonces usamos la siguiente formula para la prueba de t:

2

22

1

21

2121 ,

n

s

n

stglXX

Se gana precisión, “perdemos” confianza


• Ejercicio

• En dos muestras de estudiantes (n1=21 y n2=17), las calificaciones promedio para

bioestadística en el primer examen fueron de 115 y 135 puntos, con

desviaciones estándar de 18 y 16 respectivamente. Calcule el IC al 95% bajo el

supuesto de varianzas iguales y varianzas diferentes

n1 = 21 n2 = 17 X1 = 115 X2 = 135

s1= 18 s2 = 16


n1 = 21 n2 = 17 X1 = 115 X2 = 135

s1= 18 s2 = 16

2

2

1

2

2121 ,

n

ps

n

pstglXX

Varianzas iguales


n1 = 21 n2 = 17 X1 = 115 X2 = 135

s1= 18 s2 = 16

2)(

)1()1(

2)(

21

222

2112

21

nn

snsnps

nngl

77.29336

)256(16)324(20

2)1721(

16)117(18)121(

0281.2)1(

362)1721(

222

2

ps

t

gl


n1 = 21 n2 = 17 X1 = 115 X2 = 135

s1= 18 s2 = 16

2

2

1

2

2121 ,

n

ps

n

pstglXX

).,.%(

..

;..

.).(.).)(.()(

...

333367895

3333331120

678331120

3311205950281220269310281220

17

77293

21

7729302812135115

IC

Con 95% de confianza podemos

decir que la diferencia entre estas

dos medias se encuentra entre

8.67 y 33.3


Bajo el supuesto de varianzas distintas

).,.%(

].)(.%[

..

..

.

).)(.().(.

193180895

1982318017895

1982311951120

8017819821120

19821120

525028122017

256

21

3240281220

17

16

21

180281220

21

22

IC

xxIC

2

22

1

21

2121 ,

n

s

n

stglXX

• n1 = 21 n2 = 17 X1 = 115 X2 = 135

s1= 18s2 = 16


Comparando precisión

8.7 31.3

Varianzas iguales

8.8 31.2Varianzas distintas

Intervalo de confianza para la diferencia de una proporción a partir de una muestra pequeña

Calcule el IC 95% para p (hat) = 0.28, n=20

)4893.0,0707.0%(95

)4893.0ˆ0707.0%(95

2093.028.0

)100.0(093.228.020

)72.0)(28.0(093.228.0

IC

pIC

n

qptp gln

ˆˆ,ˆ

211

• La proporción de sujetos con esta característica en la población, se encuentra entre 0.0707 y 0.4893, con un nivel de confianza del 95%

Intervalo de confianza para la diferencia de dos proporciones a partir de una muestra pequeña

• No es muy usual, debido a que da origen a IC muy grandes. Pero puede efectuarse

)3204.0,0%(95

)3204.0ˆˆ0%(95

2904.003.0

)1432.0(0281.203.018

)75.0)(25.0(

20

)72.0)(28.0(0281.2)25.028.0%(95

%95

18

25.0ˆ

20

28.0ˆ

21

2

2

1

1

IC

ppIC

IC

IC

n

p

n

p

2

22

1

11

212)21(21

ˆˆˆˆ)ˆˆ(

n

qp

n

qptpp glnn

t de student · la prueba de t • características de la distribución t 1. se trata de una serie...

Documents