notas de estadistica con excel2008 · para la elaboración de un histograma en excel, se tomará...
TRANSCRIPT
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
NOTAS DE ESTADISTICA DESCRIPTIVA
CON AYUDA DE EXCEL 2003 y 2007
TABLA DE CONTENIDO
Contenido
1 INTRODUCCIÓN .............................................................................................. 1
2 PROCEDIMIENTO MODULO ANÁLISIS DE DATOS DE EXCEL ................... 2
2.1 PASOS SIGUIENTES PARA EXCEL 2003 ................................................ 6
3 HISTOGRAMA CON EXCEL .......................................................................... 10
4 TABULACION DE UNA VARIABLE CUALITATIVA (CUANTITATIVA
DISCRETA CON EXCEL (PARA OFFICE 2007) .................................................. 15
5 TABULACION DE UNA VARIABLE CUALITATIVA (CUANTITATIVA
DISCRETA CON EXCEL (PARA OFFICE 2003) .................................................. 21
6 TABLA DE FRECUENCIAS E HISTOGRAMA DE UNA VARIABLE
CUANTITATIVA CONTINUA ................................................................................. 25
1 INTRODUCCIÓN
A continuación se darán unas pautas necesarias para la realización de un análisis
estadístico descriptivo preliminar con la ayuda de software Excel. Excel contiene
un módulo especial para estadística denominado ANALISIS DE DATOS, algunas
veces desconocidos por la mayoría de los usuarios de Excel. Es muy importante
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
manejar esta herramienta, utilizada por unos y desconocida por otros, ya que en la
mayoría de computadores personales.
Primero que todo habrá que tener en cuenta cargar el modulo de análisis de
datos de Excel . Puede pasar que cuando se hagan los siguientes pasos, el
computador le pida el CD de Excel, en cuyo caso habrá que tenerlo a mano. Esto
sobre todo cuando no se ha instalado Excel completamente. Se recomienda seguir
los siguientes pasos:
2 PROCEDIMIENTO MODULO ANÁLISIS DE DATOS DE EXCEL
a. Para office 2003. Se deberá ir la ventana de Excel y señalar en la barra
de herramientas: herramientas , luego complementos y dar doble
click , como se muestra en la figura 1
Figura 1
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Para los que tengan office 2007, habrá que señalar el botón de inicio (observe la
figura) y seleccionar las opciones de Excel, como se muestra a continuación
(figura 2)
Figura 2
Seguidamente seleccionar “opciones de Excel”, como se en figura No. 3
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Figura 3
Luego se debe ir y seleccionar “complementos”, ver figura 4
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Figura 4
Finalmente seleccionar el botón “IR….”, a l lado de “administrar” (ver fig. 5)
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Figura 5
De ahí en adelante se mostrará algo parecido que lo que se muestra en la figura 6
2.1 PASOS SIGUIENTES PARA EXCEL 2003
De aquí en adelante, todo será igual en office 2003, para obtenerse el cuadro
siguiente, que es el mismo que se muestra en office 2007 y 2003 (ver figura 6).
Debe seleccionar “herramientas para análisis ” (ojo no quitar nada mas) y darle
aceptar.
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Figura 6
Finalmente para buscar el modulo “análisis de datos” esta al final de la barra de la
herramientas, después de haber seleccionados “datos”, como se muestra a
continuación (fig 7 para office 2007 y la figura 8 para office 2003)
Figura 7
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Figura 8
2. luego de dar click en análisis de datos de la barra de herramientas, se debe
seleccionar estadística descriptiva en el cuadro de dialogo que se muestra en
la figura No 9.
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Figura 9
3. después de dar click en aceptar, se ha cargado el modelo de estadística
descriptiva y se debe analizar una variable cuantitativa por este modulo, se
mostrara un cuadro de dialogo de la figura No 8. seleccionar la variable con
nombre y todo, mediante una selección dando clic en la columna A,
posteriormente aceptar (figura 10). Debe tener en cuenta selccionar lo que se
muestra en la figura 10.
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Figura 10
4. finalmente seleccionar: rótulos en la primera fila o nueva hoja (por el titulo de
la variable), rango de salida y resumen de estadísticas, se finaliza con aceptar.
Enseguida se debe mostrar el resumen de estadísticos descriptivos de la
variable edad. Similarmente se hará un histograma y el cálculo de un grafico de
dispersión para dos variables cuantitativas.
3 HISTOGRAMA CON EXCEL
Para la elaboración de un histograma en Excel, se tomará como ejemplo los datos
siguientes (fig. 11). Obsérvese que la variable es una variable discreta.
Adicionalmente a la variable, se deberán construir las clases de acuerdo a lo visto
en el curso de estadística. Sin embargo en nuestro ejemplo, se tomarán los
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
números desde el valor mínimo hasta el máximo, por ser una variable cuantitativa
discreta (observe la figura 11).
Figura 11
Una vez definidas las clases, se seleccionara la opción “histograma” del modulo
de análisis de datos (figura 12).
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Figura 12
Después de seleccionar “histograma” en el cuadro anterior, aparecerá el siguiente,
en el se tienen varias opciones:
Rango de entrada: es donde se dirá que se lea los datos de la variable,
regularmente se selecciona toda la columna donde están incluidos los datos (ver
fig. 11).
Rango de clases: en este se introduce la selección de donde están las clases,
también con nombres.
Rótulos. Se debe seleccionar rótulos (títulos de las variables), en caso de que se
hayan seleccionado.
Finalmente seleccionar la opción de salida de los datos, ya sea en la misma hoja
seleccionando un rango de salid, en una hoja nueva o en un libro nuevo. Al mismo
tiempo se debe seleccionar la opción crear grafico y opcionalmente porcentaje
acumulado (crearía el histograma acumulado). Mas detalles ver figura 13.
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Figura 13
Los resultados se muestran en la figura 14. En ella se creará la tabla de
frecuencias absolutas y el porcentaje acumulado. Deberá tener en cuenta que
Excel no calcula las frecuencias relativas y estas deberán calcularse después.
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Figura 14
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
4 TABULACION DE UNA VARIABLE CUALITATIVA (CUANTITAT IVA
DISCRETA CON EXCEL (PARA OFFICE 2007)
Para explicar la tabulación se utilizará el ejemplo de los datos de la muestra3.xls,
ud lo debe abrir como se observa en la figura 15.
Fig. 15
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Ya en la tabla de Excel seleccionamos insertar en la barra de herramientas, para
obtener tablas dinámicas, como se ve en la figura 16.
Fig. 16
Luego de dar click en tabla dinámica, se obtiene el siguiente cuadro de dialogo
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Fig. 17
En dicho cuadro, donde dice tabla o rango se debe seleccionar los datos, con
todas las variables. Adicionalmente debe elegir donde debe colocar el informe de
la tabla dinámica (sugerencia: elegir nueva hoja de cálculo, como se observa en la
figura 17) y dar aceptar. En la nueva hoja de obtendrá lo siguiente, siempre y
cuando se señale una variable (en su defecto la variable zona). Deberá arrastrar
hasta rotulos en fila (observe figura 18), la misma variable y también hasta donde
dice valores. En el mismo deberá estar la palabra “cuenta de zona” (para ello
dando click en cuenta de zona aparece en confiracion de campo de valor en el
cuadro de dialogo), ver figura 18 y 19:
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Fig. 19
Al final se obtendrá la tabla de la figura 18. Para obtener las siguientes tablas, se
deberá primero copiar la tabla actual más abajo y luego cambiar en el cuadro de
campos de tabla dinámica, la zona por cualquier otra y así sucesivamente (ver
figura 20) (tener en cuenta solo una selección por tabla).
Nota: es importante una vez se ha terminado de construir las tablas,
seleccionarlas todas, copiar todas y pegar en solo valores (pegado especial) para
que desaparezcan las formulas y se pueda manipular sin que sean cambiadas.
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Fig. 20
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Figura 21
Una vez se tienen Ud. Deberá construir las frecuencias relativas con las formulas
de Excel. Algo parecido a lo que se observa en la siguiente figura (fig. 22).
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Figura 22
Observe en la figura 22, se construyen las frecuencias relativas con base en la
formula:
���%� =��
�× 100%
Observe en el prompt fx (figura 22). B4 es la posición que ocupa la frecuencia
196, $B$7 indica la posición del total de 202. Obsérvese que antes de la B y el 7
hay un $, esto indica que esta celda está fijada tanto en fila (el numero), como en
columna (la letra). Esto para que cuando la formula se arrastre hacia abajo, no se
mueva el total. Al final, se deberá tener calculado la tabla completa como se
observa en la figura 22.
5 TABULACION DE UNA VARIABLE CUALITATIVA (CUANTITAT IVA
DISCRETA CON EXCEL (PARA OFFICE 2003)
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
1. Lo primero que se hará es realizar una tabla de frecuencias para la variable
SEXO, para ello, se debe señalar la opción, datos en la barra de
herramientas… y posteriormente informe de tablas y gráficos dinámicos, como
se muestra la figura No 23.
Fig. No 23
2. posteriormente seleccionar las variables, Fig. No 24.
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Fig. No 24
3. Seguidamente seccionar diseño, en el siguiente cuadro de dialogo (Fig. No 25)
Fig. No 25
4. posteriormente saldrá este cuadro de dialogo, donde UD debe arrastrar la
variable sexo, hacia la fila y hacia el centro, fijándose que en el centro diga
contar o cuenta de sexo.
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Fig. No 26
5. finalmente se da aceptar y se muestra la siguiente ventana No 27 de graficas y
tablas dinámicas, donde se ha contado el número de veces que aparece
hombre y mujer, lo cual son las frecuencias absolutas. Las frecuencias
relativas se construirán e base a estas mismas a través de formulas de Excel.
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Fig. No 27
6 TABLA DE FRECUENCIAS E HISTOGRAMA DE UNA VARIABLE
CUANTITATIVA CONTINUA
Para el análisis estadístico descriptivo de una variable cuantitativa continua, se
utilizará el modulo análisis de datos de Excel como se mostró en la figura 10 y
siguientes. Para ello utilizaremos la variable hacinam (hacinamiento) de la base
muestra3.xls (vista en clase). Primero se obtendrá sus estadísticos descriptivos,
como se observa en la figura 28.
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Fig. No 28
Para ello se tendrá que calcular: numero de clases (K) y amplitud (A) de acuerdo
a las formulas
� =� ���
�
� = 1 + 3,32 × ��������
Esto permitirá construir las clases, como se observa en la figura 29
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Fig. No 29
Obsérvese que en el promtp fx aparece la formula de Sturges, la cual la puede
calcular mediante Excel,adicionalmente la amplitud. La formula de Sturges me
indica que con 9 8,65 ≈ 9 clases es suficiente. Adicionalmente la amplitud de cada
intervalo es de 0,889. Al final se construyen las clases. Empezando con el mínimo
obtenido más la amplitud y así sucesivamente hasta llegar al máximo o
sobrepasarlo un poco (observe la figura 29). Tenga en cuenta que en Excel no es
necesario construir sino los limites inferiores, ya que este lee por debajo del valor.
Por ejemplo: Excel leerá
�0,330 − 1,219�
�1,219 − 2,105�
�2,105 − 2,991�
.
.
.
�7,421 − 8,307�
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
Esto se mostrará a continuación:
Luego de construir las clases, se procederá a utilizar el modelo análisis de datos
de Excel. En el cual se deberá seleccionar los datos y las clases, como se muestra
a continuación (figura 30).
Fig. No 30
Se deberá seleccionar todos los valores de la variable, en su defecto la variable
hacinam (con el titulo también), observe que Excel leyó $A$1:$A$203 (ver rango
de entrada). Luego, se deberá introducir las clases en rango de clases. En este
caso $G$2:$G$11. Se deberá señalar rótulos (esto permitirá identificar los títulos).
Seleccionar el rango de salida (obsérvese que he seleccionado exactamente
Prof. Juan de J. Sandoval, Matemático, Especialista en Estadística, M Sc, Epidemiologia/Bioestadística
donde esta ni ). Finalmente seleccionar porcentaje acumulado y crear grafico. Los
resultados se muestran en la figura 31.
Fig. No 31