segunda guía de ayudantía estadística ii

13
Segunda guía de Ayudantía Estadística II Profesor Rodrigo Asún Ayudante Cristian Sandoval Contenido: 1) Comando explorar en SPSS 2) Comando tablas cruzadas en SPSS _________________________________________________________ I. Comando explorar en SPSS Básicamente se trata de una exploración más minuciosa de los datos de una variable, incluye información de comandos que ya revisamos anteriormente, pero también agrega nuevas herramientas sobre el comportamiento de valores atípicos y la estimación de parámetros. La forma de obtenerlo es en la siguiente ruta: Analizar Estadísticos descriptivos Explorar

Upload: cristian-sandoval-araya

Post on 21-Dec-2015

222 views

Category:

Documents


0 download

DESCRIPTION

Segunda Guía de Ayudantía Estadística II

TRANSCRIPT

Page 1: Segunda Guía de Ayudantía Estadística II

Segunda guía de Ayudantía Estadística II

Profesor Rodrigo AsúnAyudante Cristian Sandoval

Contenido:

1) Comando explorar en SPSS2) Comando tablas cruzadas en SPSS

_________________________________________________________

I. Comando explorar en SPSS

Básicamente se trata de una exploración más minuciosa de los datos de una variable, incluye información de comandos que ya revisamos anteriormente, pero también agrega nuevas herramientas sobre el comportamiento de valores atípicos y la estimación de parámetros. La forma de obtenerlo es en la siguiente ruta:

Analizar Estadísticos descriptivos Explorar

En la tabla de acceso rápido explorar se ofrece la lista completa de las variables de la base de datos, además de 3 ventanas donde es posible ingresar las variables que deseamos explorar. De esas 3 solo nos importan las primeras dos, en la primera de ellas (Lista de dependientes) se ingresan las variables que se desea analizar, mientras que la lista de factores sirve para ingresar una variable que segmentará la muestra de modo que la variable dependiente pueda

Page 2: Segunda Guía de Ayudantía Estadística II

ser explorada en distintos grupos (por ejemplo la exploración de la edad en cada uno de los sexos, en este caso).

Las propiedades que más nos interesa profundizar en este nivel se encuentran únicamente en la opción de “Estadísticos”, la cual nos ofrece las siguientes opciones (Las marcamos todas):

Descriptivos: Simplemente incorpora todos los estadísticos descriptivos que ya hemos visto en herramientas anteriores: Media, mediana, moda, mínimo, máximo, desviación estándar, etc. Lo importante de este comando es que ofrece la posibilidad de pedir la estimación de parámetros al nivel de intervalos de confianza, seleccionando el nivel de confianza que se desea pedir (cualquier valor entre 1 y 99,99)

Estimadores M: Se trata de un tipo distinto de estimación puntual en medidas de tendencia central (como la media o la mediana), basado en la noción de “Estimadores robustos”, los cuales tienen como principal propiedad ser mucho menos sensibles a los valores atípicos que la media aritmética (Por lo que en distribuciones muy asimétricas resulta más útil utilizar los estimadores M en lugar de la media). En términos prácticos se trata de una media ponderada, en donde los casos que se encuentran más alejados del centro de la distribución reciben una menor ponderación que los casos más centrales, aunque cada uno de los procedimientos que ofrece el comando utiliza una forma distinta para calcular dicha ponderación.

Valores atípicos: Muestra los 10 casos más extremos de la variable en análisis, los 5 mayores y los 5 menores, de modo que sirva para, preliminarmente, identificar casos atípicos dentro de la distribución.

Percentiles: Muestra medidas de posicionamiento para los percentiles 5, 10, 25, 50, 75, 90 y 95.

El resto de las opciones no las veremos por ahora, sin embargo de lo que queda lo más importante es que en la opción “gráficos” es posible pedir pruebas de normalidad para la variable en análisis.

Tablas de resultados

A)

Resumen de procesamiento de casos

Casos

Válido Perdidos Total

Page 3: Segunda Guía de Ayudantía Estadística II

N Porcentaje N Porcentaje N Porcentaje

Edad 1506 100,0% 0 0,0% 1506 100,0%

No requiere mayor análisis, ofrece la cantidad de casos válidos incluidos en el procesamiento y

la de casos perdidos.

B)

Descriptivos

Estadístico Error estándar

Edad Media 43,25 ,442

95% de intervalo de

confianza para la media

Límite inferior 42,38

Límite superior 44,12

Media recortada al 5% 42,58

Mediana 41,00

Varianza 294,451

Desviación estándar 17,160

Mínimo 18

Máximo 93

Rango 75

Rango intercuartil 27

Asimetría ,451 ,063

Curtosis -,667 ,126

Sobre la tabla de descriptivos, como ya se dijo, en gran parte introduce información similar a la que es posible obtener en los comandos “Frecuencias” y “Descriptivos”, sin embargo introduce algunos nuevos valores, el primero de ellos es el intervalo de confianza que le pedimos (Al 95% en este caso), entregando información sobre el límite superior y el inferior en el cual se encuentra dicho intervalo. Además, entrega la media recortada al 5%, que es un valor de la media que resulta menos sensible a los datos atípicos y se encuentra más cercano a la mediana que la media normal, pues en su cálculo se omiten los resultados del 5% inferior y el 5% superior de la distribución. Por último, entrega también el rango intercuartil, que corresponde a la distancia entre los cuartiles 1 y 3 (25% a 75%, o sea, el 50% central de la distribución).

C)

Estimadores-M

Estimador-M de

Hubera

Biponderado de

Tukeyb

Estimador-M de

HampelcOnda de

Andrewsd

Edad 41,66 41,63 42,08 41,64

Page 4: Segunda Guía de Ayudantía Estadística II

a. La constante de ponderación es 1,339.

b. La constante de ponderación es 4,685.

c. Las constantes de ponderación son 1,700, 3,400 y 8,500

d. La constante de ponderación es 1,340*pi.

Como ya se señaló, los estimadores M corresponden a un tipo estimador que es menos sensible al efecto de los de los casos atípicos y son útiles en cado de distribuciones asimétricas (Estimadores robustos). Sin embargo no dejan de ser medidas de tendencia central, por lo que su análisis es similar al de una media o una mediana. Su utilidad radica fundamentalmente en casos en que no es posible asumir los supuestos clásicos para los análisis estadísticos (tales como por ejemplo la distribución normal de los datos de una variable).

D)

Percentiles

Percentiles

5 10 25 50 75 90 95

Promedio

ponderado(Definición

1)

Edad

19,00 22,00 28,00 41,00 55,00 68,00 74,91

Bisagras de Tukey Edad 28,00 41,00 55,00

La tabla ofrece las medidas de posicionamiento para los percentiles ya señalados anteriormente, con esto podemos saber, por ejemplo, que aproximadamente el 95% de los chilenos tiene menos de 74,91 años. En algunos casos también puede servir para la identificación de valores atípicos.

E)

Valores extremos

Número del

caso Valor

Edad Mayor 1 1283 93

2 1494 92

3 1163 90

4 1363 90

5 630 89a

Menor 1 1489 18

2 1487 18

3 1356 18

4 1344 18

Page 5: Segunda Guía de Ayudantía Estadística II

5 1199 18b

a. Sólo se muestra una lista parcial de casos con el valor

89 en la tabla de extremos superiores.

b. Sólo se muestra una lista parcial de casos con el valor

18 en la tabla de extremos inferiores.

La tabla de valores extremos muestra, en primer lugar, el número del caso identificado, y luego el valor que posee en la variable en análisis. De modo que los 5 valores más extremos superiores e inferiores quedan incluidos en la tabla.

*Posteriormente el spss lanza un gráfico de tallo y hojas, sin embargo ese gráfico no lo utilizaremos para el análisis, el que si usaremos es el diagrama de cajas.

F)

La forma de funcionamiento del diagrama de cajas es muy simple, la “caja” del centro refleja el 50% central de la variable, de modo que la línea del centro corresponde a la mediana (percentil 50) y los límites de la caja corresponden a los cuartiles 1 y 3, es decir, al 25% y al 75% de la variable. Luego los límites del gráfico se extienden hasta los valores extremos de la variable, sin embargo, si el programa identifica un caso como atípico, automáticamente lo marca como tal y lo excluye del diagrama de caja, marcándolo con un asterisco en el lugar que ocuparía en la distribución, y señalando además el número del caso en la vista de datos para su posible eliminación.

Nota sobre el tratamiento de casos atípicos: Luego de haber identificado algún caso atípico, ya sea de modo manual con los casos extremos o con el diagrama de cajas que ofrece el SPSS,

Page 6: Segunda Guía de Ayudantía Estadística II

la forma de excluir a este (o estos) casos del análisis es simplemente mediante la herramienta “seleccionar casos”, la cual ya fue explicada en la guía anterior.Nota sobre sintaxis: Ya habiendo entendido el modo de funcionamiento de la sintaxis, están en condiciones de desarrollar por sus propios medios la habilidad en esta herramienta. Para poder averiguar el modo en que se trabaja una sintaxis con cada herramienta de SPSS, basta con hacer clic en la opción “pegar” que ofrecen casi todos los comandos del programa, y con esto se abre automáticamente una sintaxis con los comandos para pedir el procesamiento que estaban programando manualmente.

II. Comando tablas cruzadas (o tablas de contingencia)

Básicamente se trata de una tabla de frecuencia de doble entrada, en donde es posible observar el comportamiento conjunto de 2 variables. Se pide con la ruta:

Analizar Estadísticos descriptivos Tablas cruzadas

En los dos primeros recuadros se introducen las 2 variables que se desea analizar. Luego, vamos a la opción de “Estadísticos”, en donde es posible solicitar la prueba de chi cuadrado, además de otras pruebas para medir la fuerza de la relación entre las variables:

Page 7: Segunda Guía de Ayudantía Estadística II

Para efectos de la ayudantía los estadísticos que importan son, en primer lugar el chi cuadrado para medir la significación de la relación entre las variables, y luego los estadísticos Gamma para el caso de variables ordinales, así como también Phi y V de Cramer para variables nominales.

Por otra parte, la opción “Casillas” de las tablas cruzadas permite pedir una serie de opciones dentro de las casillas de cada categoría cruzada en la tabla, las que más nos interesarán en nuestro caso son los recuentos esperados (frecuencia esperada o teórica), los porcentajes (filas o columnas, dependiendo de la posición en que pongamos las variables y nuestro interés al estudiar la relación), además de los residuos estandarizados corregidos, que permiten evaluar la dirección de la asociación (en caso de existir).

Tablas de resultados

A)

Resumen de procesamiento de casos

Casos

Válido Perdidos Total

N Porcentaje N Porcentaje N Porcentaje

Nivel socioeconómico *

Posición política684 45,4% 821,986 54,6% 1505,986 100,0%

La primera tabla de resumen muestra el N total de casos incluidos en el análisis y el de casos perdidos, tomando en consideración que se requieren valores válidos en ambas variables para ser incluidos en el análisis.

Page 8: Segunda Guía de Ayudantía Estadística II

B)

Nivel socioeconómico*Posición política tabulación cruzada

Posición política

TotalDER CEN IZQ

Nivel socioeconómico Alto Recuento 32 7 13 52

Recuento esperado 17,4 10,5 24,1 52,0

% dentro de Nivel

socioeconómico61,5% 13,5% 25,0% 100,0%

Residuo corregido 4,5 -1,3 -3,2

Medio Recuento 125 62 162 349

Recuento esperado 116,8 70,4 161,7 349,0

% dentro de Nivel

socioeconómico35,8% 17,8% 46,4% 100,0%

Residuo corregido 1,3 -1,6 ,0

Bajo Recuento 72 69 142 283

Recuento esperado 94,7 57,1 131,2 283,0

% dentro de Nivel

socioeconómico25,4% 24,4% 50,2% 100,0%

Residuo corregido -3,7 2,3 1,7

Total Recuento 229 138 317 684

Recuento esperado 229,0 138,0 317,0 684,0

% dentro de Nivel

socioeconómico33,5% 20,2% 46,3% 100,0%

La segunda tabla corresponde a la tabla de contingencia propiamente tal, en la cual se ingresan las dos variables para analizar su comportamiento conjunto. En primer lugar se nos entrega el recuento de los casos para cada cruce de categorías. Luego viene el recuento esperado, el cual se calcula a partir de los marginales de la tabla y representa el valor que teóricamente debería poseer cada casilla. En tercer lugar viene el porcentaje que le hayamos pedido (fila, columna o ambas), en este caso corresponde al porcentaje dentro del nivel socioeconómico (filas), con lo que es posible afirmar, por ejemplo que el 61,5% de los casos de clase alta poseen una posición política de derecha, mientras que solo un 25,4% de la clase baja es de derecha.

Por último se nos entregan los residuos estandarizados corregidos (diferencia entre las frecuencias observadas y las esperadas estandarizada) para cada categoría, de los cuales el interés se debe focalizar en los residuos mayores y menores que 1,96 (trabajando con un 95% de confianza). Si el valor obtenido en una casilla es mayor a 1,96 significa que esa casilla tiene un valor mayor al que teóricamente debería obtener, mientras que si el valor es menor que -1,96 significa que la casilla tiene un valor que es inferior al que teóricamente debería tener. En este caso los resultados más interesantes serían que el NSE Alto posee un valor mucho mayor

Page 9: Segunda Guía de Ayudantía Estadística II

al esperado (residuos estandarizados corregidos de 4,5) en la posición política derecha, y uno mucho menor a lo esperado en la posición política izquierda (-3,2). Por otra parte, los residuos estandarizados indican que el NSE bajo posee valores menores a lo esperado en la posición política derecha (-3,7) y mayores a lo esperado en la posición política centro (2,3)

C)

Pruebas de chi-cuadrado

Valor gl

Sig. asintótica (2

caras)

Chi-cuadrado de Pearson 28,916a 4 ,000

Razón de verosimilitud 28,008 4 ,000

Asociación lineal por lineal 17,468 1 ,000

N de casos válidos 684

a. 0 casillas (0,0%) han esperado un recuento menor que 5. El recuento

mínimo esperado es 10,49.

La tercera tabla corresponde a la prueba de Chi cuadrado (solo analizamos ese primer estadístico), el cual entrega el valor obtenido por la fórmula de dicho estadístico, con una determinada cantidad de grados de libertad (4 en este caso) y el nivel de significación del estadístico, el cual si es menor a 0,05 indica que existe asociación entre las variables. Por otra parte, la nota al pie de la tabla indica el número y porcentaje de casillas que no alcanzan un valor teórico mayor a 5 (lo cual es uno de los requisitos para la prueba de chi cuadrado). Si el porcentaje es mayor al 20% de las casillas no debería aplicarse la prueba de asociación.

D)

Medidas simétricas

Valor

Error estándar

asintóticoa Aprox. Sb Aprox. Sig.

Nominal por Nominal Phi ,206 ,000

V de Cramer ,145 ,000

Ordinal por ordinal Gamma ,217 ,057 3,740 ,000

N de casos válidos 684

a. No se supone la hipótesis nula.

b. Utilización del error estándar asintótico que asume la hipótesis nula.

Por último, la tabla de medidas simétricas muestra las pruebas de fuerza de la relación que le pedimos al programa, en este caso Phi, V de Cramer y Gamma (las pedimos todas para verlas en la tabla, pero en la práctica debe elegirse cual aplicar en relación al nivel de medida de las variables a estudiar).

Gamma: Es una medida de asociación para tablas de más de 2x2 con variables ordinales, su valor oscila entre -1 y 1, siendo 0 la ausencia de asociación, y los valores extremos (1 y -1) la

Page 10: Segunda Guía de Ayudantía Estadística II

existencia de asociación perfecta. Convencionalmente se plantea que sobre 0,1 y bajo -0,1 es posible afirmar la existencia de asociación. Por otra parte, la significación aproximada se analiza del mismo modo que en chi cuadrado, un nivel menor a 0,05 indica la existencia de asociación.

Phi y V de Cramer: El primero de estos estadísticos (Phi) se suele usar para el estudio de la asociación en tablas de 2x2 (variables dicotómicas). Su valor oscila entre 0 y 1, en donde uno indica la asociación perfecta. Por otra parte, la V de Cramer está basada en Phi, con una pequeña modificación que permite su aplicación a tablas de más de 2x2. Sus valores se interpretan del mismo modo, oscilando entre 0 y 1.

*En todos los estadísticos antes vistos es posible estudiar la fuerza de la relación entre las variables, en donde un valor más cercano a 1 (o -1 en el caso de Gamma), significa una relación mucho más potente. Con respecto a los valores intermedios, hay propuestas diferentes, sin embargo una de las más generalizadas es la de Cohen, que indica que valores menores a 0,3 representan una asociación baja entre las variables, valores entre 0,3 y 0,5 indican una asociación media, y valores mayores a 0,5 indican una asociación fuerte.