t de student · la prueba de t • características de la distribución t 1. se trata de una serie...
TRANSCRIPT
Diferencia de medias y diferencia de proporciones. Intervalo de confianza para diferencia de medias y
diferencia de proporciones:La prueba de T
Por: Gerardo Álvarez Hernández PhD
Curso introductorio de bioestadística
La prueba de T de Student
• En muchos estudios es necesario comparar las características de dos o más grupos
• P.e. saber si un tratamiento nuevo tiene mayor porcentaje de mejoría que otro ya usado, o
saber si la talla o peso de un grupo de estudiantes difiere de acuerdo a sus patrones de
alimentación
• La comparación puede ocurrir en dos formas:
• Que se comparen dos o más grupos distintos de individuos (muestras independientes)
• Que tengan varianza semejante (T de Student)
• Que tengan varianza diferente (F test; prueba de Welch)
• Que se comparen dos o más mediciones dentro de los mismos individuos (muestras
dependientes)
• T de Student
• Para comparar una variable continua entre dos muestras
independientes y si dicha variable sigue una distribución normal se
utiliza la prueba:
T de Student (T-Test):
• La hipótesis que contrasta es:
• H0: m1= m2 Las medias son iguales
• H1: m1 m2 Las medias son diferentes
La prueba de T de Student
LA PRUEBA DE T
• Cuando los datos proceden de muestras independientes que se
distribuyen normalmente, se pueden aplicar métodos paramétricos
• La comprobación de la normalidad de la distribución puede hacerse
mediante:
• Métodos gráficos: histograma, diagramas de caja (box plots) u otros gráficos de
normalidad
• Pruebas estadísticas: prueba de Kolmogorov-Smirnov; prueba de Shapiro-Wilk, etc.
La prueba de T
• No siempre los datos se distribuyen normalmente, o es difícil establecer la
independencia de las observaciones
• En tal caso para poder comparar a los grupos de interés se usan pruebas no
paramétricas
• Algunas de esas pruebas son:
• Prueba de Wilcoxon (modelo de datos pareados)
• Prueba de Mann-Whitnney (modelo de posición de dos muestras independientes)
• Prueba de Kruskal-Wallis (análisis de varianza de un factor)
• Prueba de Siegel-Tukey (igualdad de varianza para dos muestras)
• Prueba de la mediana
La prueba de T
• Si los datos no se apartan notablemente de la normalidad y
la muestra es pequeña (n < 30), la prueba de T es un buen
método para comparar poblaciones
• La prueba evalúa si la media de dos grupos es
estadísticamente diferente una de otra
• Es apropiada cada vez que se compare la media de dos
poblaciones
T-test: prueba si la “distancia” (t) entre la media de dos grupos es cero
n
Xt
NSD
1~
X μ
n = 10
La distancia (t) entre los grupos se incrementa cuando el número de observaciones se incrementa
NSD
1~
n
Xt
X μ
n = 20
La prueba de T
• Características de la distribución T
1. Se trata de una serie de distribuciones platicúrticas
2. La curva con 29 grados de libertad (gl) es casi igual a la curva
normal
• Los gl corresponden al número de observaciones en una
muestra de tamaño ‘n’ que son diferentes de la media
• Mientras menos gl tengamos, tienen menor valor los
estimadores para ser extrapolables
La prueba de T
• Características de la distribución T
3. El estimador que se usa para su cálculo es una razón.
• El numerador es sólo la diferencia entre dos medias
• El denominador es la medida de la variabilidad o dispersión de las
observaciones
Señal
Ruido=
La diferencia que creemos se debe al programa o tratamiento introducido
La variabilidad que dificulta ver la diferencia entre los grupos
La prueba de T
4. Xmedia = 0
5. S > 1; tiende a 1 conforme aumentan los grados de libertad
6. S2 > 1; tiende a 1 conforma aumentan los grados de libertad
7. S2 = gl / gl – 2
8. La variable T va de – α a + α
• La prueba de T es mas útil para estimar intervalos de confianza y efectuar pruebas de
hipótesis que para calcular probabilidades, puesto que ya se debe contar con la media de ‘x’ y
la desviación estándar de ‘x’
T =X - μ
σn Error estándar
El estimador para varianzas
iguales
Prueba de hipótesis para la media de una población
• Útil cuando la muestra es < a 30
• Misma forma que para la prueba “Z”
• Los valores críticos de T cambian con los grados de libertad
• La confianza al 95% tiene una T de 0.975
• Esta se obtiene igual que “Z”, es decir, t (1-α/2), esto es, 1 -
0.05/2 = 1 – 0.025 = 0.975
• Una vez identificada la t, se obtienen los grados de libertad (n-1)
• Buscamos en la tabla de t, localizamos el valor que intersecta a
la columna del nivel de confianza (en este caso 95% ó α/2 = .025)
con los grados de libertad
T =X - μ
σn
Prueba de hipótesis para la media de una población
• ¿Cuál es la probabilidad asociada a un valor de T en una muestra de 17
sujetos con hipertensión arterial sistólica, y un nivel de confianza del 99%?
2.92078
• ¿Y en una muestra de 26 sujetos y un nivel de confianza del 90%?
1.708141
• ¿y en una muestra de 10 sujetos y una confianza del 95%?
2.26216
Prueba de hipótesis para la media de una población
Prueba de hipótesis para la media de una población
Ejercicio
• Suponga que buscamos probar con un nivel de confianza del 95%, la
hipótesis de igualdad de medias de la estatura en una población de 15
niños. La media del grupo es de 110 cm., con una desviación estándar de 15.
La media poblacional se sabe es de 130 cm.
1. Los datos:
N = 15 X = 110 cm S = 15 μ = 130
• Mientras menor la n, mayor la desviación estándar
Prueba de hipótesis para la media de una población
2. Supuestos: la muestra se distribuye como una T de Student
3. La hipótesis estadística:
Ho: X = μ0
Ha: X ≠ μ0
4. Selección del estadístico de prueba: T de Student para medias de
una población con 14 grados de libertad a una confianza de 95%
Prueba de 2 colas
T =X - μ
σn
Prueba de hipótesis para la media de una población
5. La distribución muestral: la muestra se distribuye como una T de Student con 14 grados de
libertad (n-1) = 15-1 = 14
6. Regla de decisión: se rechaza Ho si Tc < - 2.1448 ó Tc > 2.1448
• ¿Por qué 2.1448?
• Confianza al 95% = 1 – 0.95 = .05/2 = .025, por lo tanto, esto es igual a 0.975 con 14 grados
de libertad
• Buscamos en la tabla de T la intersección entre .025 y 14 gl = 2.14479
Prueba de hipótesis para la media de una población
Prueba de hipótesis para la media de una población
.025 .025
Región de rechazo Región de rechazoT=2.1448T= - 2.1448
Prueba de hipótesis para la media de una población
7. Cálculo del estadístico de prueba
16.5873.3
20
8729.315
20
1515
130110
n
Xt
8. Decisión estadística: Se rechaza Ho ya que Tc < Tt, esto es, dado que Tc es <
a -2.1448 rechazamos la hipótesis nula y aceptamos como probable la
hipótesis alterna, con una p < .025
9. Conclusión: la estatura media de los niños investigados es diferente a la
media poblacional con una confianza del 95%
Prueba de hipótesis para la media de una población
• ¿Qué pasaría si decidimos hacer la prueba a una sola cola con el mismo nivel
de confianza a la misma muestra de individuos?
• Suponga que establecemos la hipótesis estadística siguiente:
• Ho: X > μ0
• Ha: X < μ0
• ¿Cuál sería el valor de T crítica?
• α = 1 - .05 = .9500 con 14 grados de libertad = 1.7613
• Dado que hemos establecido la direccionalidad del evento en la hipótesis
estadística, T crítica es = - 1.7613
Prueba de hipótesis para la media de una población
.05
Región de rechazo T= - 1.71613
‘Región de aceptación’
La decisión final no cambia dado que Tc < Tt, de modo que la Ho es rechazada
N
SSS
S
XXt
XX
XX
2
2
2
1
21
21
21
Prueba de hipótesis para la diferencia de dos medias muestrales
Para muestras del mismo
tamaño
Prueba de hipótesis para la diferencia de dos medias muestrales
2121
2
22
2
11
21
21
11
2
)1()1(21 NNNN
SNSNS
S
XXt
XX
XX
Para muestras de diferente
tamaño
Prueba de hipótesis para la diferencia de dos medias muestrales
• Queremos saber si la diferencia de presión arterial de 500 bebedores de café es
significativamente diferente de otra muestra de 500 personas que no beben
café. Los datos de la primera muestra son los siguientes: media = 147, DE =
28.5, en tanto de la segunda son: media = 142, DE = 32.1
• Probar la diferencia con un nivel de confianza al 95% a dos colas, gl (n-2)
N
SSS
S
XXt
XX
XX
2
2
2
1
21
21
21
Una sola muestra del mismotamaño
RECESO
¿Qué es un intervalo de confianza?
• En estadística un intervalo de
confianza (IC) es usado para
describir la cantidad de
incertidumbre asociada con un
estimador muestral de un
parámetro poblacional
¿Qué es un intervalo de confianza?
Estimador muestral Nivel de confianza Error estándar
P.e. media de la muestra;Proporción muestral
Describe la incertidumbredel método de muestreo
90%, 95%, 99%
Describe la variabilidaddel método de muestreo
Intervalo de confianza para una media (a partir de una muestra pequeña)
Ejercicio
• Calcule el IC 95% para una media de glucosa en ayunas de 87 mg/dl en una
muestra de 20 sujetos, que tienen una desviación estándar de 7 mg/dl
N = 20 X = 87 mg s = 7 mg
n
ss 2
Error estándar 57.15652.120
72 n
ss
Intervalo de confianza para una media (a partir de una muestra pequeña)
• La confianza al 95% tiene una t de 0.975
• Esta se obtiene: t (1-α/2), esto es, 1 - 0.5/2 = 1 – 0.025 = 0.975
• Una vez identificada la t, se obtienen los grados de libertad (n-1). En
nuestro ejercicio (20-1 = 19)
• Buscamos en la tabla de t, localizamos el valor que intersecta a la
columna del nivel de confianza (en este caso 95% ó α/2 = .025) con los
grados de libertad (19). La probabilidad de tal valor es 2.09302
Prueba de hipótesis para la media de una población
Intervalo de confianza para una media (a partir de una muestra pequeña)
• Así,
• IC 95% = estimador puntual +/- (nivel de confianza t) (error estándar)
• 87 +/- 2.0930 (1.57)
• 87 +/- 3.2860
• IC 95% 83.7 < X < 90.2; IC 95% (83.7, 90.2)
• Tarea:
• Calcule ahora los IC al 90% y 99% para la media de la misma muestra
Intervalo de confianza de la diferencia de dos medias (para t-test)
2
22
1
21
2121
nnZXX
2
2
1
2
2121 ,
n
ps
n
pstglXX
2)(
)1()1(
2)(
21
222
2112
21
nn
snsnps
nngl
Para prueba de Z
Prueba de T para varianzas iguales
s2p = varianza promedio
grados de libertad
Intervalo de confianza de la diferencia de dos medias (para t-test)
• Con la prueba de T para varianzas iguales (aunque ‘n’ no sea del mismo tamaño para
ambos grupos) el IC es más largo, por lo que ganamos confianza, pero perdemos precisión
• Cuando las varianzas son diferentes (las muestras provienen de poblaciones muy distintas)
entonces usamos la siguiente formula para la prueba de t:
2
22
1
21
2121 ,
n
s
n
stglXX
Se gana precisión, “perdemos” confianza
Intervalo de confianza de la diferencia de dos medias (para t-test)
• Ejercicio
• En dos muestras de estudiantes (n1=21 y n2=17), las calificaciones promedio para
bioestadística en el primer examen fueron de 115 y 135 puntos, con
desviaciones estándar de 18 y 16 respectivamente. Calcule el IC al 95% bajo el
supuesto de varianzas iguales y varianzas diferentes
n1 = 21 n2 = 17 X1 = 115 X2 = 135
s1= 18 s2 = 16
Intervalo de confianza de la diferencia de dos medias (para t-test)
n1 = 21 n2 = 17 X1 = 115 X2 = 135
s1= 18 s2 = 16
2
2
1
2
2121 ,
n
ps
n
pstglXX
Varianzas iguales
Intervalo de confianza de la diferencia de dos medias (para t-test)
n1 = 21 n2 = 17 X1 = 115 X2 = 135
s1= 18 s2 = 16
2)(
)1()1(
2)(
21
222
2112
21
nn
snsnps
nngl
77.29336
)256(16)324(20
2)1721(
16)117(18)121(
0281.2)1(
362)1721(
222
2
ps
t
gl
Intervalo de confianza de la diferencia de dos medias (para t-test)
n1 = 21 n2 = 17 X1 = 115 X2 = 135
s1= 18 s2 = 16
2
2
1
2
2121 ,
n
ps
n
pstglXX
).,.%(
..
;..
.).(.).)(.()(
...
333367895
3333331120
678331120
3311205950281220269310281220
17
77293
21
7729302812135115
IC
Con 95% de confianza podemos
decir que la diferencia entre estas
dos medias se encuentra entre
8.67 y 33.3
Intervalo de confianza de la diferencia de dos medias (para t-test)
Bajo el supuesto de varianzas distintas
).,.%(
].)(.%[
..
..
.
).)(.().(.
193180895
1982318017895
1982311951120
8017819821120
19821120
525028122017
256
21
3240281220
17
16
21
180281220
21
22
IC
xxIC
2
22
1
21
2121 ,
n
s
n
stglXX
• n1 = 21 n2 = 17 X1 = 115 X2 = 135
s1= 18s2 = 16
Intervalo de confianza de la diferencia de dos medias (para t-test)
Comparando precisión
8.7 31.3
Varianzas iguales
8.8 31.2Varianzas distintas
Intervalo de confianza para la diferencia de una proporción a partir de una muestra pequeña
Calcule el IC 95% para p (hat) = 0.28, n=20
)4893.0,0707.0%(95
)4893.0ˆ0707.0%(95
2093.028.0
)100.0(093.228.020
)72.0)(28.0(093.228.0
IC
pIC
n
qptp gln
ˆˆ,ˆ
211
• La proporción de sujetos con esta característica en la población, se encuentra entre 0.0707 y 0.4893, con un nivel de confianza del 95%
Intervalo de confianza para la diferencia de dos proporciones a partir de una muestra pequeña
• No es muy usual, debido a que da origen a IC muy grandes. Pero puede efectuarse
)3204.0,0%(95
)3204.0ˆˆ0%(95
2904.003.0
)1432.0(0281.203.018
)75.0)(25.0(
20
)72.0)(28.0(0281.2)25.028.0%(95
%95
18
25.0ˆ
20
28.0ˆ
21
2
2
1
1
IC
ppIC
IC
IC
n
p
n
p
2
22
1
11
212)21(21
ˆˆˆˆ)ˆˆ(
n
qp
n
qptpp glnn