14. prueba de chi cuadrado(1)
TRANSCRIPT
ESTADÍSTICA GENERAL
PRUEBA DE CHI CUADRADO
Dr. Francisco Suárez Aranda
2010 - I
La prueba de Chi cuadrado es la técnica
estadística más usada para el análisis de conteo o
datos en frecuencias y constituye una prueba útil
de significación para muchos problemas en
estadística médica.
Las aplicaciones de la distribución Chi cuadrado
están constituidas por contrastes de hipótesis,
donde los datos disponibles para el análisis, se
encuentran en forma de frecuencias (recuento de
casos). Estos contrastes toman los nombres de
prueba de bondad de ajuste, prueba de
independencia y prueba de homogeneidad.
PRUEBA DE CHI CUADRADO
Dr. Francisco Suárez Aranda
El valor de Chi cuadrado (x2) es siemprepositivo porque es una suma de cuadrados.
Varía de cero a infinito.
Es una familia de distribuciones quedependen de un parámetro: grados delibertad.
4
Para poder aplicarse la prueba de Chicuadrado, el tamaño de muestra debe ser losuficientemente grande para que el númeroesperado en cada categoría sea por lo menosde cinco, para así asegurar que x2 seaproxime a la distribución real.
ALGUNAS CARACTERÍSTICAS DE LADISTRIBUCIÓN CHI CUADRADO
Dr. Francisco Suárez Aranda
gl=2
gl=3
gl=4gl=5
0 2 Chi2 6 8
Para cumplir la exigencia anterior puedeunirse categorías contiguas (celdas) convalores esperados menores de cinco.
La distribución tiene sesgo positivo y cuandolos grados de libertad aumentan se aproximaa la distribución normal.
Dr. Francisco Suárez Aranda
Es apropiada cuando se desea decidir si unadistribución observada de frecuencias esincompatible o no con una distribución teórica opreconcebida, que se supone describe a lapoblación de donde se extrajo la muestra.
Es unidimensional.
Los n datos considerados deben estardistribuidos en categorías.
La hipótesis nula (Ho) se basa en la distribuciónteórica que se espera en la población.
Las frecuencias esperadas están en función dela Ho planteada.
1. PRUEBA DE BONDAD DE AJUSTE
Dr. Francisco Suárez Aranda
Ejemplo
Al lanzar un dado 48 veces, se obtuvieron lossiguientes resultados: el número uno salió sieteveces; el número dos, seis veces; el número tres,diez veces; el número cuatro, nueve veces; elnúmero cinco, diez veces y el número seis, seisveces. Con un nivel de significación del 5%, pruebela hipótesis de que el dado es “honesto” (no estácargado).
Ho: P 1/6
Ha: P 1/6
: 0.05
Dr. Francisco Suárez Aranda
g.l. : k 1
g.l. : 6 1 5
x20.05 : 11.1
(O – E)2
x2 = E
Dr. Francisco Suárez Aranda
Las frecuencias “esperadas”, se determinan
de acuerdo a la hipótesis nula planteada.
1p
6
1Frecuencia esperada x 48 8
6
Dr. Francisco Suárez Aranda
NÚMERO 1 2 3 4 5 6
Observado 7 6 10 9 10 6
Esperado 8 8 8 8 8 8
(O E)2
x2 E
(7 8)2 (6 8)2 (10 8)2 (6 8)2
x2 … 8 8 8 8
x2 2.25
Dr. Francisco Suárez Aranda
DECISIÓN ESTADÍSTICA
Como 2.25 < 11.1 no se encuentran evidencias
muestrales para rechazar la Ho al nivel de
significación de 0.05.
DECISIÓN SOBRE EL PROBLEMA
Se concluye que el dado es “honesto”.
Dr. Francisco Suárez Aranda
Ejemplo
Un criador de bovinos lecheros concluyó después demuchos años de estudio, que anualmente el 40% devacunos vendidos fueron de raza Holstein, el 40%Brown Swiss y el 20% Criollos. El criador deseasaber si el presente año dicha distribuciónporcentual se mantendrá, sabiendo que una muestrade los animales vendidos arrojó las siguientes cifras.
Holstein 55 bovinos.
Brown Swiss 35 bovinos.
Criollos 10 bovinos.
¿Qué le diría usted al criador sobre el asunto, con un
nivel de significación de 5%?.
Dr. Francisco Suárez Aranda
Dr. Francisco Suárez Aranda
Ho: P 0.4, 0.4, 0.2
Ha: P 0.4, 0.4, 0.2
: 0.05
g.l. : k 1
g.l. : 3 1 2
x20.05 : 5.99
FRECUENCIA Holstein Brown Swiss Criollos TOTAL
Observada 55 35 10 100
Esperada 40 40 20 100
Dr. Francisco Suárez Aranda
(O E)2
x2 E
(55 40)2 (35 40)2 (10 20)2
x2 40 40 20
x2 11.25
DECISIÓN ESTADÍSTICA
Como 11.25 5.99 hay evidencias muestrales
para rechazar la Ho al nivel de significación de
0.05.
DECISIÓN SOBRE EL PROBLEMA
Se concluye que las ventas el presente año no
siguen la distribución porcentual de años
anteriores.
Dr. Francisco Suárez Aranda
Se usa cuando se desea contrastar la hipótesisnula de que dos criterios de clasificaciónaplicados al mismo conjunto de entidades, sonindependientes. Se dice que dos clasificacionesson independientes, si la distribución de una deellas es la misma, sin importar cual sea ladistribución de la otra clasificación.
El único valor que controla el investigador es eltamaño de muestra. Se extrae una muestra detamaño n de UNA población y cada elemento seclasifica de acuerdo a las dos variables deestudio. No se conocen de antemano lasfrecuencias de las celdas, ni los totalesmarginales, todos estos valores son por lo tanto,aleatorios.
2. PRUEBA DE INDEPENDENCIA
Dr. Francisco Suárez Aranda
Las observaciones son clasificadas según doscriterios (dos factores), por lo que los datos puedenresumirse en una tabla de doble entrada (tabla decontingencia); así por ejemplo, número deestudiantes según sexo y colegio de procedencia.
La hipótesis de nulidad plantea que las dosvariables o criterios de clasificación sonindependientes cuando se aplican a un conjunto deindividuos (unidades de observación); mientras quela hipótesis alternativa plantea que hay asociación odependencia entre las dos variables.
La interrogante en esta prueba es: ¿sonindependientes los criterios de clasificación?.
Por lo tanto, la prueba de independencia se efectúapara probar si hay asociación entre las variables.
Dr. Francisco Suárez Aranda
Ejemplo
Entre los estudiantes de la U. Científica del Sur
se realizó una encuesta con la finalidad de
evaluar la posible asociación entre el sexo y el
deseo de seguir estudios de posgrado. Luego de
encuestar a 500 estudiantes, se revisaron las
respuestas, estableciéndose que 250 pertenecían
a varones, 130 de los cuales deseaban seguir
estudios de posgrado y de las 250 mujeres, 170
afirmaron el mismo deseo. Si todos los
encuestados respondieron, realice usted la
prueba adecuada y concluya con un nivel de
significación de 5%.
Dr. Francisco Suárez Aranda
Ho: IndependenciaHa: Asociación : 0.05
g.l. : (F – 1)(C – 1)g.l. : (2 – 1)(2 – 1) 1x2
0.05 : 3.84
OBSERVADOS
Dr. Francisco Suárez Aranda
Los esperados se calculan en base de la Ho.
Sí
Masculino 130 120 250
Femenino 170 80 250
TOTAL 300 200 500
SEXO TOTALNo
ESTUDIOS DE POSGRADO
(O E)2
x2 E
(130 – 150)2 (120 – 100)2 (80 – 100)2
x2 + + + 150 100 100
x2 13.33
Dr. Francisco Suárez Aranda
ESPERADOS
Sí
Masculino 150 100 250
Femenino 150 100 250
TOTAL 300 200 500
SEXO TOTALNo
ESTUDIOS DE POSGRADO
Cuando se tiene una tabla de 2 x 2 se puede hallarel valor de x2, sólo con los observados, aplicandoal siguiente fórmula:
( ad – bc )2 nx2 =
(a+b)(c+d)(a+c)(b+d)
Dr. Francisco Suárez Aranda
Presente
Ausente
TOTAL
CRITERIO II
a + c
Presente Ausente
b
d
b + d n
c + d
a + b
c
a
CRITERIO ITOTAL
DECISIÓN ESTADÍSTICAComo 13.33 3.84 se encuentran evidencias
muestrales suficientes para rechazar Ho al
nivel de significación de 0.05.
DECISIÓN SOBRE EL PROBLEMASe concluye que existe asociación entre el
sexo y el deseo de seguir estudios de
posgrado, entre los estudiantes de la UCSur.
[ (130 x 80) – (120 x 170) ]2 x 500x2 13.33
250 x 250 x 300 x 200
Dr. Francisco Suárez Aranda
EjemploCon la finalidad de verificar si las calificacionesobtenidas por los estudiantes en el curso deestadística se relacionan a las calificacionesobtenidas en matemática, se seleccionaronaleatoriamente 528 reportes de notas de losestudiantes de nuestra Universidad,obteniéndose los siguientes resultados:
NOTAS DE
ESTADÍSTICA
Altas 56 71 12 139
Medias 47 163 38 248
Bajas 14 42 85 141
TOTAL 117 276 135 528
Altas Medias Bajas
NOTAS DE MATEMÁTICATOTAL
Dr. Francisco Suárez Aranda
Aplique la prueba adecuada y concluya usando
un nivel de significación de 0.05.
Ho: IndependenciaHa: Asociación : 0.05
g.l. : (F – 1)(C – 1)g.l. : (3 – 1)(3 – 1) 4x2
0.05 : 9.49
ESPERADOS
(O E)2
x2 E
(56 – 3080)2 (85 – 36.05)2
x2 + + 145.7830.80 36.05
NOTAS DE
ESTADÍSTICA
Altas 30.80 72.66 35.54 139.00
Medias 54.95 129.54 63.41 248.00
Bajas 31.24 73.70 36.05 141.00
TOTAL 117.00 276.00 135.00 528.00
Altas Medias Bajas
NOTAS DE MATEMÁTICATOTAL
Dr. Francisco Suárez Aranda
Dr. Francisco Suárez Aranda
DECISIÓN ESTADÍSTICAComo 145.78 9.49 se encuentran evidencias
muestrales suficientes para rechazar Ho al
nivel de significación de 0.05.
DECISIÓN SOBRE EL PROBLEMASe concluye que las notas de estadísitica se
encuentran relacionadas a las notas de
matemática.
Se aplica cuando se desea investigar si dos omás muestras independientes pertenecen apoblaciones homogéneas, con respecto a algúncriterio de clasificación.
En este caso, un conjunto de totales marginaleses manipulado por el investigador, por lo tantosu valor es fijo, mientras que el otro conjunto detotales marginales es aleatorio. En este caso porlo tanto, hay DOS O MÁS poblaciones de estudioy se está interesado en una característicaparticular.
Trata de probar si para cada nivel de una de lasvariables (A), la proporción con respecto a cadanivel de la otra variable (B) es la misma.
3. PRUEBA DE HOMOGENEIDAD
Dr. Francisco Suárez Aranda
Es una generalización de la prueba deigualdad de dos proporciones.
La interrogante en esta prueba es: ¿lasmuestras provienen de poblacioneshomogéneas respecto a algún criterio declasificación?.
La hipótesis de nulidad plantea que lasproporciones de cada categoría de una delas variables (A), son iguales en cadacategoría de la otra variable (B); mientrasque la hipótesis alternativa plantea que almenos una de las proporciones es diferente.
Dr. Francisco Suárez Aranda
Ejemplo
El Decano de la Facultad de Medicina Humana dela UCSur desea saber si durante los tres últimosaños la proporción de mujeres ingresantes se hamantenido o ha sufrido variación. Para este fin,se seleccionan aleatoriamente sesenta fichas deingreso del año 2008, sesenta del año 2009 yochenta del año 2010, y luego de analizar lasfichas se obtienen los siguientes resultados:
Use un nivel de significación de 0.05 y concluya.
Dr. Francisco Suárez Aranda
2008 2009 2010
Femenino 23 28 39 90
Masculino 37 32 41 110276.00
TOTAL 60 60 80 200
SEXO TOTALAÑO DE INGRESO
Ho: Poblaciones homogéneas
Ha: Poblaciones no homogéneas
: 0.05
g.l. : (F – 1)(C – 1)
g.l. : (3 – 1)(2 – 1) 2
x20.05: 5.99
(23 – 27)2 (28 – 27)2 (41 – 44)2
x2 + + ... + 1.6027 27 44
Dr. Francisco Suárez Aranda
2008 2009 2010
Femenino 27 27 36 90
Masculino 33 33 44 110276.00
TOTAL 60 60 80 200
SEXO TOTALAÑO DE INGRESO
ESPERADOS
Dr. Francisco Suárez Aranda
DECISIÓN ESTADÍSTICAComo 1.60 5.99 no se observan evidencias
muestrales suficientes para rechazar Ho al
nivel de significación de 0.05.
DECISIÓN SOBRE EL PROBLEMASe concluye que la proporción de mujeres
ingresantes no ha sufrido modificación en
relación a los años anteriores.
Ejemplo
Se sospecha que la asistencia a gimnasios losfines de semana se encuentra relacionada alsexo. Para salir de dudas, se realizó un estudio,obteniéndose los siguientes resultados: de las 17persona que asisten a gimnasios 11 eranmujeres, mientras que de las 16 personas que noasisten a gimnasios cuatro eran mujeres. Analiceusted los datos y concluya con un nivel designificación de 0.05.
Ho: Poblaciones homogéneas
Ha: Poblaciones no homogéneas
: 0.05
Dr. Francisco Suárez Aranda
g.l. : (F – 1)(C – 1)
g.l. : (2 – 1)(2 – 1) 1
x20.05: 3.84
Femenino 11 4 15
Masculino 6 12 18
TOTAL 17 16 33
SEXOSí No
TOTALASISTENCIA A GIMNASIOS
( ad – bc )2 nx2 =
(a+b)(c+d)(a+c)(b+d)
[ (11 x 12) – (4 x 6) ]2 x 33x2 5.24
15 x 18 x 17 x 16
Dr. Francisco Suárez Aranda
DECISIÓN ESTADÍSTICAComo 5.24 3.84 se observan evidencias
muestrales suficientes para rechazar Ho al
nivel de significación de 0.05.
DECISIÓN SOBRE EL PROBLEMASe concluye que las poblaciones de mujeres y
varones no son homogéneas respecto a la
asistencia a gimnasios.
"Más vale un toma que dos te daré".
Miguel de Cervantes Saavedra
Dr. Francisco Suárez Aranda