practica de kolmogorov smirnov
DESCRIPTION
Kolmogorov Smirnov en minitab y excelTRANSCRIPT
15
MANUAL PARA PRÁCTICA DE KOLMOGOROV-SMIRNOV
OBJETIVO
Utilizará programas por medio de sus fórmulas y aplicaciones, para probar una distribución
normal de una serie de datos dados de la distribución de una población.
Llegar a la solución de una manera eficiente y con capacidad de seguirla por cuenta propia a
la hora de elaborar una práctica parecida a la mostrado o en su caso diferente.
Tomar nuestras propias conclusiones después de haber elaborado la práctica y hacer una
comparación con resultados manuales.
INTRODUCCION
Prueba de hipótesis de una muestra para determinar si la población de la cual extrajo su
muestra es no normal. Muchos procedimientos estadísticos dependen de la normalidad de
la población, de modo que recurrir a una prueba de normalidad para determinar si se
rechaza este supuesto pudiera ser un paso importante en su análisis. La hipótesis nula
para una prueba de normalidad establece que la población es normal. La hipótesis
alternativa establece que la población es no normal.
La prueba de Kolmogorov-Smirnov para una muestra se considera un procedimiento de
"bondad de ajuste", es decir, permite medir el grado de concordancia existente entre la
distribución de un conjunto de datos y una distribución teórica específica. Su objetivo es
señalar si los datos provienen de una población que tiene la distribución teórica
especificada.
Mediante la prueba se compara la distribución acumulada de las frecuencias teóricas (ft)
con la distribución acumulada de las frecuencias observadas (f obs), se encuentra el
punto de divergencia máxima y se determina qué probabilidad existe de que una
diferencia de esa magnitud se deba al azar.
Pasos:
1. Calcular las frecuencias esperadas de la distribución teórica específica por
considerar para determinado número de clases, en un arreglo de rangos de menor a
mayor.
2. Arreglar estos valores teóricos en frecuencias acumuladas.
3. Arreglar acumulativamente las frecuencias observadas.
4. Aplicar la ecuación D = ft - f obs, donde D es la máxima discrepancia de ambas.
5. Comparar el valor estadístico D de Kolmogorov-Smirnov en la tabla de valores
críticos de D.
6. Decidir si se acepta o rechaza la hipótesis.
Ecuación:
¿D = ft – fobs?
16
Veamos la forma de realizar un ejercicio mediante un programa, en primera opción se
encuentra la hoja de cálculo de Microsoft Excel, que es la forma más parecida a
elaborarse de forma manual
EJERCICIO 1
Se han simulado 100 observaciones de una máquina de llenado de
gaseosas, con una media de 100 y desviación estandar de 0.35.
Determinar si los datos siguen una distribución normal de acuerdo a
la prueba de bondad de Kolmogorov-Smirnov con un nivel de
significancia de 0.05
DATOS OBTENIDOS DEL PROBLEMA
1.- Establecer la hipótesis nula y alternativa
; Los datos siguen una distribución Normal
; Los datos no siguen una distribución Normal
2.- Seleccionar el nivel de confianza
α = 0.05
3.- Seleccionar y obtener el estadístico de prueba de acuerdo al parámetro que se está
probando, y de acuerdo a su valor crítico definir la región de aceptación y de rechazo.
4.- Tamaño de la muestra N=100
5.- Media de la muestra = 100
6.- Desviación estándar = 0.35
0.4
0.3
0.2
0.1
0.0
Densidad
Ho0.025 0.025
17
REALIZACION DE LA PRUEBA
Por medio de estas tablas podemos obtener el resultado de si se acepta Ho o se rechaza
Ho.
Existe evidencia suficiente para pensar que la distribución no es normal. Se rechaza Ho
18
METODOLOGIA:
1.- Abrimos nuevo Documento en Excel
2.- Capturamos una tabla de las siguientes formas en una misma hoja:
3.-Generemos datos aleatorios con las especificaciones del problema.
Nos dirigimos a: Menú Datos > Análisis de Datos > Generación de números Aleatorios
19
Aparecerá un cuadro de dialogo el cual se llena con los datos previamente mencionados
Esta nos dará los datos en forma de lista:
Número de variables
Número de Datos
Tipo de distribución
Media
Desviación estándar
Donde se colocaran
los datos
20
4.- Nos dirigimos a la primera tabla para comenzar su llenado de datos
(Nota: Lo colocado dentro de algunos paréntesis “(B3:B102)” son el rango de celdas
donde se encuentran los datos)
5.- Después de esto nos dirigimos a contestar las columnas de la tabla 2.
En la columna de intervalos es dependiendo del resultado en
#INTERVALOS que se haya tomado en la tabla anterior, en caso
de tomarse un #INTERVALOS con decimales, se utiliza el numero
entero posterior a este. Por ejemplo de haber tomado 16.20, el
número de intervalos seria 17.
El #INTERV SE ESCOGE DE LA SIG FORMA:
- SI #DATOS < 100 STURGES
- DE LO CONTRARIO POR RAIZ DE N
21
Las columnas de límite inferior y límite superior son respectivamente para cada intervalo.
NOTA IMPORTANTE
La parte que sigue es de suma importancia de realizar paso por paso de la forma
como se explica, en caso contrario el resultado no será el deseado.
Se señalan las celdas en las cuales requeridas por el número de
intervalos
Se coloca la fórmula que corresponde
a la frecuencia, los números en azul
corresponden a todos los datos del
problema, y los números verdes
corresponden a todos los límites
superiores de los intervalos.
22
Al concluir la formula presionamos el conjunto de
teclas (Ctrl + Shift + Enter) y obtenemos la frecuencia
observada de cada intervalo, el cual es el número de
datos del problema que se encuentran dentro de esos
límites respectivamente.
Posteriormente se realiza la suma de todas las frecuencias para
corroborar que el número total de datos se encuentra dentro de estos
rangos.
Con la frecuencia observada podemos elaborar una gráfica en la cual muestre de esta manera si se
aproxima a ser normal o no lo es. Esto se realiza de la siguiente forma.
Señalamos todos los datos de frecuencia observada, nos dirigimos a:
Menú Insertar > Gráficos columna
23
Y así de esta manera se obtiene una gráfica de la frecuencia observada.
Ahora seguimos con la columna de Frecuencia observada relativa, la cual es el porcentaje en
frecuencia respecto al total de datos de la práctica.
24
La frecuencia esperada relativa, como su nombre lo dice es una frecuencia que se espera
obtener, mas no es exactamente la obtenida. Para sacar estos resultados esperados,
realizamos en la columna las siguientes operaciones.
La columna de ABS simboliza valor absoluto, la cual son para obtener los estadísticos de
Kolmogorov-Smirnov, estos se obtienen de la siguiente forma.
Cuando:
X Límite inferior del intervalo
Media Media del problema
Desv_estándar Desviación estándar del problema
Acum Si deseamos que se acumule colocamos “VERDADERO”
25
6.-Al concluir esta tabla nos dirigimos a concluir la práctica con la última tabla.
Nota: La fórmula de la estimación por tabla se obtiene de la siguiente.
Existe evidencia suficiente para pensar que la distribución no es normal. Se rechaza Ho
26
Veamos ahora la forma de realizar un ejercicio mediante la segunda opción que se
encuentra en la hoja de cálculo de IBM SPSS Statistics, que es una forma un poco más
rápida a la previamente elaborada en Microsoft Excel.
EJERCICIO 2
Las tallas, medida en metros de nueve peces espada capturados
por un palangrero fueron:
1.628, 1.352, 1.800, 1.420, 1.594, 2.132, 1.614, 1.924, 1.692
Con un nivel de significancia de 0.05. Comprobar si los datos
siguen una distribución normal.
DATOS OBTENIDOS DEL PROBLEMA
1.- Establecer la hipótesis nula y alternativa
; Los datos siguen una distribución Normal
; Los datos no siguen una distribución Normal
2.- Seleccionar el nivel de confianza
α = 0.05
3.- Seleccionar y obtener el estadístico de prueba de acuerdo al parámetro que se está
probando, y de acuerdo a su valor crítico definir la región de aceptación y de rechazo.
4.- Tamaño de la muestra N=9
5.- Media de la muestra = 1.684
6.- Desviación estándar = 0.241837
0.4
0.3
0.2
0.1
0.0
Densidad
Ho0.025 0.025
27
REALIZACION DE LA PRUEBA
Por medio de estas tablas podemos obtener el resultado de si se acepta Ho o se rechaza
Ho.
Estas tablas fueron obtenidas del programa IBM SPSS Statistics.
Existe evidencia suficiente para pensar que la distribución no es normal. Se rechaza
Ho
28
METODOLOGIA:
1.- Abrimos nuevo Documento en IBM SPSS Statistics.
2.- Capturamos los datos dados en una nueva columna como la siguiente.
Para el llenado de la columna tenemos que darle seguimiento
a estos pasos:
Seleccionamos la columna a llenar y damos doble clic
en el título de la columna (“var” en este caso)
Nos aparecerá una columna a la cual tenemos que
llenar como en el ejemplo siguiente:
3.- Regresamos a la parte de las columnas para el llenado de los datos, para regresar a
este nos vamos a la parte de abajo de la ventana y encontramos un par de botones,
damos clic en vista de datos para regresar a las columnas.
4.- Llenamos los datos que el ejercicio nos da en la columna que creamos.
29
5.- Ahora para hacer el procedimiento para comprobar mediante Kolmogorov-Smirnov nos
dirigimos a: Menú Analizar > Pruebas no paramétricas > Cuadro de dialogo antiguo > K-S
de 1 muestra… y damos clic.
Como se muestra en la siguiente imagen.
6.- Posteriormente nos aparecerá una ventana emergente la cual hay que completar de la
siguiente forma
30
Dentro de este cuadro de dialogo existe el botón de Opciones… el cual nos permite
modificar, quitar o agregar en el resultado de este. Aquí se muestra.
7.- Para finalizar el proceso solo basta en darle aceptar y nos mostrara el resultado
deseado en una nueva ventana.
31