unidad.2.spss.basico

34
Reportes de Frecuencias

Upload: bermeom

Post on 19-Nov-2015

18 views

Category:

Documents


2 download

DESCRIPTION

spss unidad 2

TRANSCRIPT

  • Reportes de Frecuencias

  • Pgina | 2

    Contenido

    Objetivo: ............................................................................................. 3

    Contenidos: ......................................................................................... 3

    1. Tablas de frecuencias .................................................................... 3

    2. Estadsticos ................................................................................. 6

    2.1 Medidas de posicin ................................................................ 6

    2.2 Medidas de dispersin ............................................................. 7

    2.3 Medidas de asimetra y apuntamiento ........................................ 7

    2.4 Medidas de apuntamiento ........................................................ 8

    3. Representacin grfica de variables ...............................................14

    3.1 Grficos de variables discretas y categricas .............................14

    3.2 Grficos de variables continuas ................................................27

  • Pgina | 3

    Al finalizar el curso de SPSS, usted estara en capacidad de

    Generar reportes y tablas de estadstica descriptiva sin construirlos en una hoja electrnica.

    REPORTES DE FRECUENCIAS

    Objetivo:

    Contenidos:

    1. Tablas de frecuencias

    2. Estadsticos

    3. Representacin grfica de variables

    1. Tablas de frecuencias

    Una de las formas ms simples de resumir la informacin de un conjunto de datos es por medio de una tabla de frecuencias, que consiste en calcular para

    cada valor de una variable el nmero (frecuencia) de casos en que aparece.

    Una tabla de frecuencias debe indicar el nombre de la variable en su

    encabezamiento, los valores que toma la variable, la frecuencia de cada uno de ellos y la suma de todas las frecuencias, que coincidir con el nmero

    total de casos vlidos. Tambin es aconsejable calcular las frecuencias relativas, o proporciones, que resultan al dividir cada frecuencia por su suma

    total. SPSS genera tablas de frecuencias de forma automtica. En primer lugar necesitamos abrir un banco de datos, por ejemplo el del archivo ambiente.sav, y con el men Analizar/Estadsticos

    descriptivos/Frecuencias se puede obtener la tabla de frecuencias asociada a cualquiera de las variables. La tabla para la variable ozono

    obtenida por SPSS es la siguiente:

  • Pgina | 4

    pasamos a la ventana Variables: Gas ozono por zona,

    No se olvide de mantener activada la opcin: Mostrar tablas de frecuencias y luego se da un clic en Aceptar, y los resultados son los

    siguientes:

  • Pgina | 5

    Frecuencias

    Estadsticos

    Gas ozono por zonas

    N

    Vlidos 15

    Perdidos 0

    Gas ozono por zonas

    Frecuencia Porcentaje Porcentaje vlido

    Porcentaje acumulado

    Vlidos

    normal 7 46,7 46,7 46,7

    alto 8 53,3 53,3 100,0

    Total 15 100,0 100,0

    La tabla nos indica que hay 15 casos vlidos y ninguno perdido, que la

    variable ozono tiene dos valores posibles Normal y Alto (en realidad son las

    etiquetas asociadas a los valores 0 y 1, respectivamente). Hay 7 casos (46,7%) en los que ozono toma el valor Normal y 8 (53,3%) el valor Alto.

    Ejercicio 1

    Los puntos del 1 al 3 guardar los resultados en un archivo llamado Ejercicio 1, que le servir para la nota de la semana 2 cuando lo

    suba a la plataforma, el punto 4 lo debe presentar su anlisis en el foro inquietudes.

    1. Ordena los datos por la variable ozono con la opcin: Datos/Ordenar

    casos o haciendo clic con el botn derecho del ratn sobre el nombre de

    la variable y comprueba que las frecuencias anteriores son correctas, volviendo a generar la opcin frecuencias.

    2. Obtener la tabla de frecuencias de la variable provin.

    3. Obtener la tabla de frecuencias de la variable sulfato.

    4. Qu utilidad tiene esta ltima tabla? Razona su conveniencia en este

    caso (interpretar como se lee la columna frecuencias) y colocar su razonamiento en el foro inquietudes de la semana dos.

  • Pgina | 6

    SPSS tambin cuenta con el men alternativo Analizar/Tablas

    personalizadas que posibilita alterar el formato del resultado.

    2. Estadsticos

    Los estadsticos son valores calculados con los datos de una variable cuantitativa y que miden alguna de las caractersticas de la distribucin muestral. Las principales caractersticas son: tendencia central, posicin,

    dispersin, asimetra y apuntamiento.

    2.1 Medidas de posicin

    Describe cmo se encuentra el resto de la muestra con respecto a ella.

    2.1.1 Medidas de Centralizacin:

    media es la suma de todas las observaciones dividida por el tamao de la muestra.

    mediana es el valor que divide a la muestra ordenada en dos mitades con el mismo nmero de datos.

    media recortada es una media calculada despus de eliminar algunos datos extremos. Es ms robusta que la

    media pues no tiene en cuenta los valores atpicos.

    moda es el dato que posee la mayor frecuencia. En caso de

    empates pueden darse varias modas.

    2.1.2 Otras medidas de posicin.

    Los cuartiles Q1,Q2 y Q3, son tres valores que dividen a la

    distribucin en cuatro partes iguales. El primer cuartil tiene un 25% de casos menores o iguales que dicho valor; el

    segundo cuartil coincide con la mediana y el tercer cuartil deja un 25% de valores superiores o iguales a l. Para obtenerlos, se calcula primero las posiciones de los cuartiles

    p(Q1) y p(Q3) y a partir de ellas se extraen los valores correspondientes. Las posiciones del primer y tercer cuartil

    (el segundo coincide con la mediana) son: p(Q1)=(n+1)/4 y p(Q3)=3(n+1)/4. Obtenidas las posiciones, si son enteras, se buscan los valores que las ocupan en la muestra ordenada.

  • Pgina | 7

    Los deciles (9 en total) y percentiles (99 en total) dividen

    a la distribucin en diez y cien partes iguales, respectivamente. Su forma de clculo es similar a la de los cuartiles.

    2.2 Medidas de dispersin

    Las ms utilizadas son:

    rango o amplitud que es la diferencia entre el mayor y el

    menor valor de la muestra.

    rango intercuartlico Q3-Q1, el intervalo [Q1,Q3] contiene al 50% central de los valores muestrales.

    varianza (s2) que mide el alejamiento medio de las diferencias al cuadrado de cada

    observacin a la media.

    desviacin tpica o estndar (s) est medida en las mismas unidades que la variable y es la raz cuadrada positiva de la

    varianza.

    coeficiente de variacin de Pearson es una medida de dispersin relativa. Es el cociente entre la desviacin tpica y el

    valor absoluto de la media. Carece de unidades y se usa para comparar la dispersin entre variables que tengan distintas

    unidades de medida. Se suele expresar en tantos por ciento.

    2.3 Medidas de asimetra y apuntamiento

    Su objetivo es expresar mediante un valor la forma simtrica o asimtrica de la distribucin. Veamos algunas de ellas.

    Para distribuciones unimodales que adems son simtricas i.e: la parte izquierda de la distribucin es similar a la derecha, los

    estadsticos: media, mediana y moda suelen tener valores idnticos o muy parecidos. En base a esto, aparece el Coeficiente de

    Asimetra de Pearson.

    Otra posibilidad, ms costosa de realizar a mano, es calcular el

    momento de orden 3 respecto de la media y dividirlo por la desviacin tpica al cubo obteniendo el coeficiente de asimetra

    de Fisher.

  • Pgina | 8

    2.4 Medidas de apuntamiento Indican el nivel de concentracin de los datos respecto de su

    media. Si el nivel de concentracin es alto, la distribucin es de forma puntiaguda y se llama leptocrtica, tendremos en este caso

    colas ms cortas que en una distribucin normal. Si las colas son ms largas que en una distribucin normal y por tanto con menos valores en el centro, la distribucin es ms achatada y se llama

    platicrtica. En el caso intermedio, se utiliza el trmino mesocrtica.

    El grado de apuntamiento, o curtosis, se puede medir por el momento de orden 4 dividido por la desviacin tpica elevada a 4.

    El cociente anterior se corrige de forma que la distribucin normal para este estadstico da el valor cero, restndole tres unidades.

    Para obtener los estadsticos con SPSS se usa el men Analizar/Estadsticos descriptivos/Descriptivos donde hay que

    seleccionar la variable o variables de inters y despus Opciones para escoger los estadsticos que interesan. Sin embargo con este men no se

    pueden obtener los percentiles. Para obtenerlos hay que usar Analizar/Estadsticos descriptivos/Frecuencias y entrar en la opcin Estadsticos en donde se seleccionan los percentiles deseados.

    Por ejemplo con la variable sulfato debemos usar Analizar/Estadsticos descriptivos/Frecuencias y entrar en la opcin Estadsticos:

  • Pgina | 9

    Desactivar el casillero Mostrar tabla de frecuencias.

  • Pgina | 10

    Pulsar sobre el botn Estadsticos.

    Y escoger todas loas opciones presentadas en la siguiente ventana:

  • Pgina | 11

    Luego de pulsar en el botn continuar, debes escoger el botn Grficos, y pulsar sobre Histogramas y en el casillero Mostrar curva normal en el

    histograma.

  • Pgina | 12

    Y los resultados sern los siguientes:

    Estadsticos

    Sulfato en la tierra

    N

    Vlidos 15

    Perdidos 0

    Media 3,125580

    Mediana 2,925800

    Moda ,4614a

    Desv. tp. 2,1521373

    Varianza 4,632

    Asimetra ,918

    Error tp. de asimetra ,580

    Curtosis ,495

    Error tp. de curtosis 1,121

    Rango 7,1515

    Mnimo ,4614

    Mximo 7,6129

    Suma 46,8837

    Percentiles

    25 1,178700

    50 2,925800

    75 3,824500

    a. Existen varias modas. Se mostrar el

    menor de los valores.

  • Pgina | 13

    Ejercicio 2

    Descargar del siguiente link el archivo comprimido de SPSS

    http://www.inec.gob.ec/estadisticas/index.php?option=com_remository&Itemid=&f

    unc=startdown&id=1249&lang=es&TB_iframe=true&height=250&width=800

    Realizar dos salidas de resultados la primera de frecuencias con la variable:

    NIVINST (Nivel de instruccin) y la segunda salida para una variable numrica p62j (Tiempo dedicado para dormir), los resultados guardar en un

    archivo de resultados con el nombre Ejercicio 2 y subirlo a la plataforma junto al ejercicio 1 zipeado (winzip o winrar).

  • Pgina | 14

    3. Representacin grfica de variables La utilizacin de grficos es necesaria en Estadstica. Se pretende resumir la

    informacin de la muestra de forma grfica con fines clarificadores o para enfatizar y descubrir determinadas caractersticas que de otra forma sera

    muy difcil apreciar. Por otro lado, un grfico siempre es ms inmediato de comprender que un conjunto de estadsticos. Por ejemplo, podemos dar una matriz de distancias entre un conjunto de ciudades pero aun teniendo esa

    informacin ser difcil que nos imaginemos su distribucin geogrfica si no se adjunta un grfico.

    Los grficos adecuados para representar variables discretas o categricas son diferentes de los de las continuas por lo que separaremos su estudio.

    3.1 Grficos de variables discretas y categricas

    Los grficos ms utilizados en estadstica para representar variables discretas o categricas son los grficos de sectores y los diagramas de barras.

  • Pgina | 15

    Grficos de sectores.

    Un grfico de sectores consiste en un crculo dividido en sectores de tamao proporcional a la frecuencia de cada valor de la variable. Se

    utilizan cuando hay pocos valores que representar (mximo de 7).

    Para obtener un grfico de sectores con SPSS usaremos el men

    Grficos/Cuadro de dilogo antiguos/Sectores y seleccionaremos una o varias variables apareciendo el cuadro de dilogo siguiente:

    Resmenes para distintas variables

    Permite que los sectores representen variables en lugar de grupos de casos. Cada sector representa una funcin de una determinada

    variable (por ejemplo, la suma de los valores de sus casos).

  • Pgina | 16

    Por ejemplo, las puntuaciones de 10 alumnos en tres exmenes de

    Estadstica han sido las siguientes:

    Podemos representar grficamente con un diagrama de sectores la suma de las puntuaciones en estos tres exmenes para ver si

    difieren mucho y para ver qu examen tuvo la mayor puntuacin relativa. Para ello, despus de introducir los datos

    en SPSS y elegir la opcin que estamos tratando, podemos obtener el siguiente grfico de sectores, en donde se observa,

    por ejemplo, que la suma de las puntuaciones en el Ex1 es de 69,20 y que representan un 35,2% de la suma de todas las

    puntuaciones (es decir su puntuacin relativa).

  • Pgina | 17

    Pasamos cada variable a la ventana: los sectores representan:

    Y el resultado es:

  • Pgina | 18

    Para observar la suma de las variables , damos un doble clic sobre el objeto y se visualiza la ventana del editos de grficos, y

    finalmente pulsamos sobre el botn Mostrar etiquetas de datos.

    Se presentala siguiente ventana:

  • Pgina | 19

    Nos ubicamos sobre la palabra Porcentaje, y pulsamos sobre la

    flecha verde que permite pasar a la ventana Mostrado:

  • Pgina | 20

    Luego en Aplicar y el resultado final es:

  • Pgina | 21

    Resmenes para grupos de casos

    Genera un grfico en el que cada sector corresponde a un valor

    de la variable seleccionada. El tamao del sector se determina por la opcin Los sectores representan, esta opcin aparece en

    el cuadro de dilogo que surge despus de apretar el botn

    Definir del cuadro anterior.

    Por ejemplo, supongamos que queremos representar los valores

    de la variable provin en un diagrama de sectores donde los

    sectores representan el nmero de casos de cada provincia. El grfico de sectores podra ser as:

  • Pgina | 22

  • Pgina | 23

    Seguimos el mismo procedimiento anterior para colocar las etiquetas y el resultado es:

  • Pgina | 24

    Valores individuales de los casos

    Se resume una nica variable.

    Ahora vamos a generar un grfico lineal para la variable sulfato del archivo ambiente:

  • Pgina | 25

    Pasamos la variable a graficar:

  • Pgina | 26

    Y el resultado es:

  • Pgina | 27

    3.2 Grficos de variables continuas Bsicamente se utilizan dos tipos de grficos para las

    representaciones de una nica variable continua: Histogramas y Diagramas de caja.

    Histogramas

    Parecidos en forma a los diagramas de barras, pero atencin: su

    uso se restringe nicamente a las variables continuas. Los histogramas representan frecuencias agrupadas de una variable

    continua sobre intervalos. A diferencia de los diagramas de barras, los histogramas dibujan rectngulos unidos entre s, lo que significa que existe una continuidad en la variable cuyos valores se

    representan en el eje horizontal. El eje horizontal se halla dividido en intervalos de igual amplitud (SPSS no permite alterar esta

    propiedad), sobre los que se elevan rectngulos de altura proporcional a su frecuencia. Por lo tanto, las reas de los rectngulos son proporcionales a las frecuencias que representan.

    Los histogramas se pueden editar haciendo doble clic con el botn izquierdo del ratn, lo que permite alterar el nmero de clases, su

    amplitud, etc. La grfica de un histograma puede ser muy distinta para los mismos datos, simplemente variando el nmero de clases, por lo que la eleccin del nmero de clases debe hacerse con

    cuidado.

  • Pgina | 28

    En la figura siguiente, el histograma de la izquierda se ha obtenido

    con el nmero de clases fijado por defecto por SPSS, en este caso 7. El segundo histograma solamente tiene 4 clases (fijado por el usuario). En ambos casos se ha superpuesto una curva normal con

    media y desviacin estndar coincidentes con las de la muestra para ver su parecido.

    Para obtener un histograma con SPSS se utilizan los mens Grficos/Cuadro de dilogo antiguos/Histograma. Con ste

    ltimo men podemos obtener el histograma de frecuencias.

    Pasamos a la ventana Histograma la variable sulfato.

  • Pgina | 29

    Y el resultado es:

  • Pgina | 30

    Diagramas de caja

    A diferencia de los otros grficos ya vistos, los diagramas de caja hacen nfasis en las medidas de posicin. Es muy til para hacer

    comparaciones entre muestras de distintas poblaciones.

    Un diagrama de caja consiste en un rectngulo cuya longitud es

    el rango intercuartlico, dividido por un segmento a la altura de la mediana y complementado por dos lneas (llamadas bigotes)

    que parten de los extremos del rectngulo, cuya longitud no supera 1,5 veces el rango intercuartlico y que intentan alcanzar

    los valores mnimo y mximo observados. Para obtener un diagrama de caja con SPSS se selecciona el men

    Grficos/Cuadro de dilogo antiguos//Diagrama de cajas.

  • Pgina | 31

    Pulsamos en definir, y en el argumento variable colocamos la

    variable numrica para este caso ph y en el Eje de categoras debemos colocar la variable por la cual se va a segmentar provincia.

  • Pgina | 32

    Y el resultado es el siguiente:

  • Pgina | 33

    Aqu, cada provincia est representada por una caja que muestra los niveles de ph. Se puede observar diferencias en cuanto la

    situacin de la mediana y a la dispersin. Por ejemplo, se observa que en Valencia los niveles de ph., son superiores a los de

    Castelln y que presentan una ligera mayor dispersin. Los casos extremos si los hay se representan por smbolos especiales a cuyo lado aparece el nmero de caso.

    Tambin nos da idea de la simetra de los datos por ejemplo, una mediana descentrada dentro del rectngulo nos indicara una

    asimetra. En este ejemplo podemos decir que las distribuciones no son lo suficientemente simtricas. El diagrama de cajas puede ser

    editado para su modificacin, haciendo doble clic sobre sus elementos. Se puede alterar ttulo, pie, anotaciones, leyenda y los valores y etiquetas de los ejes; las lneas como los ejes, las lneas

    de referencia y los bordes, la escala, el relleno y trama de la caja y los casos atpicos y extremos.

  • Pgina | 34

    Ejercicio 3

    CON EL ARCHIVO p1coches.sav que se encuentra en ARCHIVOS DE PRCTICA 2

    1. Calcular la moda, mediana, asimetra y curtosis del consumo de todos los coches.

    2. Calcula el consumo medio y la mediana de los coches de 4 cilindros.

    3. Construye un diagrama de cajas que sirva para comparar los consumos de cada tipo de coche dependiendo de su nmero de

    cilindros.

    4. Construye un histograma del peso de los coches. Superpn una curva

    normal.

    5. Construye un diagrama de cajas para comparar las cilindradas de los coches segn el origen del coche.

    6. Construye un diagrama de barras de la potencia media (en CV) de los coches segn su origen.

    7. Construye un grfico de sectores para ver las proporciones de coches

    en la muestra segn su origen.