manual de procedimientos del spss€¦ · archivo spss de cualquier tipo (aunque los archivos...
TRANSCRIPT
UNIVERSIDAD GRAN MARISCAL DE AYACUCHO FACLTAD DE ADMINISTRACIÒN
NÚCLEO DE EL TIGRE ESTADO ANZOATEGUI ASIGNATURA: ESTADÍSTICA
PROFESOR: HAMLET MATA MATA
MANUAL DE PROCEDIMIENTOS DEL SPSS
DOCENTE HAMLET MATA MATA
PARTICIPANTE KAREN ALFONSO
UGMA
INDICE
2
INTRODUCCIÓN ................................................................................................................. 3
1. DEFINICIÓN E HISTORIA DEL SPSS ............................................................................ 4
2. ENTORNO DE TRABAJO DEL SPSS ............................................................................. 6
2.1. MANEJO DE ARCHIVOS DE DATOS ........................................................................ 20
2.2 VARIABLES Y CASOS ................................................................................................ 20
2.3 CREACIÓN DE UN FICHERO DE DATOS ................................................................. 21
2.4. GRABACIÓN DE ARCHIVOS .................................................................................... 23
3. FUNCIONES PARA EL ANÁLISIS ESTADÍSTICO ....................................................... 23
3.1. ANÁLISIS DE LA VARIANZA (ANOVA) ..................................................................... 24
3.2 REGRESION LINEAL………………………………………………………………………..42
3.3 CORRELACION………………………………………………………………………………52
CONCLUSION…………………………………………………………………………………….66
BIBLIOGRAFIA……………………………………………………………………………………67
3
INTRODUCCIÓN
El principio Básico de toda actividad de investigación radica en la búsqueda del
conocimiento, en este caso en particular, la revisión de la valiosa herramienta dentro del
campo de las ciencias sociales el SPSS, nuestro fin último es el manejo y compresión de
las propiedades de tal programa para facilitar la obtención de datos confiables y fáciles de
interpretar por quienes manejan la información.
Además de la rapidez en la obtención de la información, y la solidez de la información que
se logra consolidar, un compendio de las habilidades básicas que se obtienen al poner en
práctica dichos conocimientos que aunque básicos son realmente valiosos dentro del
campo de las ciencias sociales.
Este manual pretende ser una introducción al manejo del paquete estadístico SPSS en su
versión 15 para Windows, el mismo no comprende un detalle completo de todas las
opciones presentes en el programa, sino más bien sirve de guía para ejecutar las funciones
básicas del programa y la manera como resolver el análisis estadístico de ANOVA,
Regresión y Correlación. Es importante destacar que con esta guía tampoco se pretende
realizar una exposición teórica de los fundamentos estadísticos de los análisis que se
contemplan, por el contrario, está enfocada en dar ejemplos prácticos que ayuden a
conocer los pasos para resolver problemas con el SPSS.
Dado el objetivo del documento, se debe mencionar para la solución de ejercicios también
se puede acudir al sistema de ayuda que trae el programa.
4
DEFINICIÓN E HISTORIA DEL SPSS
El SPSS es un programa estadístico informático muy usado en las ciencias sociales y las
empresas de investigación de mercado. Originalmente SPSS fue creado como el acrónimo
de Statistical Package for the Social Sciences aunque también se ha referido como
"Statistical Product and Service Solutions" (Pardo, A., & Ruiz, M.A., 2002, p. 3). Sin
embargo, en la actualidad la parte SPSS del nombre completo del software (IBM SPSS) no
es acrónimo de nada.
Como programa estadístico es muy popular su uso debido a la capacidad de trabajar con
bases de datos de gran tamaño. En la versión 12 es de 2 millones de registros y 250.000
variables. Además, de permitir la recodificación de las variables y registros según las
necesidades del usuario. El programa consiste en un módulo base y módulos anexos que
se han ido actualizando constantemente con nuevos procedimientos estadísticos. Cada uno
de estos módulos se compra por separado.
Actualmente, compite no sólo con softwares licenciados como lo son SAS, MATLAB,
Statistica, Stata, sino también con software de código abierto y libre, de los cuales el más
destacado es el Lenguaje R. Recientemente ha sido desarrollado un paquete libre llamado
PSPP, con una interfaz llamada PSPPire que ha sido compilada para diversos sistemas
operativos como Linux, además de versiones para Windows y OS X. Este último paquete
pretende ser un clon de código abierto que emule todas las posibilidades del SPSS.
Fue creado en 1968 por Norman H. Nie, C. Hadlai (Tex) Hull y Dale H. Bent. Entre 1969 y
1975 la Universidad de Chicago por medio de su National Opinion Research Center estuvo
a cargo del desarrollo, distribución y venta del programa. A partir de 1975 corresponde a
SPSS Inc.
Originalmente el programa fue creado para grandes computadores. En 1970 se publica el
primer manual de usuario del SPSS por Nie y Hall. Este manual populariza el programa
entre las instituciones de educación superior en EE. UU. En 1984 sale la primera versión
para computadores personales.
5
Desde la versión 14, pero más específicamente desde la versión 15 se ha implantado la
posibilidad de hacer uso de las librerías de objetos del SPSS desde diversos lenguajes de
programación. Aunque principalmente se ha implementado para Python, también existe la
posibilidad de trabajar desde Visual Basic, C++ y otros lenguajes.
El 28 de junio de 2009 se anuncia que IBM, meses después de ver frustrado su intento de
compra de Sun Microsystems, adquiere SPSS, por 1.200 millones de dólares.2
Versiones del SPSS: SPSS Inc. desarrolla un módulo básico del paquete estadístico
SPSS, del que han aparecido las siguientes versiones:
SPSS-X (para grandes servidores tipo UNIX)
SPSS/PC (1984, en DOS. Primera versión para computador portátil)
SPSS/PC+ (1986 (en DOS)
SPSS for Windows 6 (1992) / 6.1 para Macintosh
SPSS for Windows 7
SPSS for Windows 8
SPSS for Windows 9
SPSS for Windows 10 / for Macintosh 10 (2000)
SPSS for Windows 11 (2001) / for Mac OS X 11(2002)
SPSS for Windows 11.5 (2002)
SPSS for Windows 12 (2003)
SPSS for Windows 13 (2004): Permite por primera vez trabajar con múltiples bases
de datos al mismo tiempo.
SPSS for Windows 14 (2005)
SPSS for Macintosh 13 (2006)
SPSS for Windows 15 (2006)
SPSS for Windows 16 (Octubre de 2007): En la lista de usuarios de SPSS "SPSSX
(r) Discussion [SPSSX-L@LISTSERV. UGA. EDU]" varios funcionarios de la
empresa anunciaron previamente la salida de la versión 16 de este software. En ella
se incorporó una interfaz basada en Java que permite realizar algunas mejoras en
las facilidades de uso del sistema.
SPSS for Macintosh 16
6
SPSS for Linux 16
SPSS for Windows 17 (2008): Incorpora aportes importantes como el ser
multilenguaje, pudiendo cambiar de idioma en las opciones siempre que queramos.
También incluye modificaciones en el editor de sintaxis de forma tal que resalta las
palabras claves y comandos, haciendo sugerencias mientras se escribe. En este
sentido se aproxima a los sistemas IDE que se utilizan en programación.
SPSS for Windows 18 (2009): Cambia su denominación de SPSS por PASW 18.
IBM SPSS Statistics 19.0 (2010)
IBM SPSS Statistics 20.0 (2011)
ENTORNO DE TRABAJO DEL SPSS
El programa presenta un gran número de ventanas desde las que, por un lado, se gestiona
la introducción de datos y se deciden los análisis a realizar y, por otro lado, se accede a
distintos aspectos de la manipulación de los resultados generados. Todas ellas presentan
sus propias barras de herramientas que pueden ser, como en casi todas las aplicaciones
del entorno Windows, personalizadas a gusto del usuario.
ESTRUCTURA DEL SPSS
Como programa, el SPSS está organizado en base a comandos, que constituyen los
Elementos de un lenguaje. Cada procedimiento tiene asociado una serie de comandos y
con la combinación de los mismos se puede elaborar un fichero de sintaxis para llevar a
cabo análisis estadísticos más complejos. Los ficheros de sintaxis se ejecutan directamente
mediante la opción Ejecutar Proceso dentro del menú Utilidades. A esta opción se la
denomina Proceso por lotes.
Subsecciones
1.1 Ventanas
1.2 Botones
1.3 Menú Principal1.4 Iconos
7
1.4.1 Iconos de la Ventana Principal
1.4.2 Iconos del Visor
1.4.3 Iconos de la Ventana de Gráficos
1.5 Barra de Estado
1.6 Los Comandos
El programa tiene varios tipos de ventanas (las cuales permiten, por un lado, gestionar la
introducción de datos y decidir los análisis a realizar y, por otro lado, acceder a distintos
aspectos de la manipulación de los resultados generados. Todas ellas presentan sus
propias barras de herramientas que pueden ser, como en casi todas las aplicaciones del
entorno Windows, personalizadas a gusto del usuario.
Vista de datos/variables:
Puede considerarse la ventana principal del programa pues cerrándose ésta se termina con
la ejecución del mismo. Esta ventana cuenta con dos vistas diferentes: vista de datos en la
que se observan los datos a analizar y la vista de variables en la que se observan las
variables del fichero de datos. Recuerde que sólo puede haber un fichero de datos abierto
a un tiempo.
Visor de resultados
Los resultados generados por los distintos análisis (gráficos, estadísticos) se muestran en
el visor. Esta ventana se abre de forma automática en el momento en el que se ejecuta el
primer análisis. Si bien pueden coexistir varios visores simultáneamente sólo hay uno activo
en cada momento y éste viene identificado con un signo. Desde la herramienta utilidades
se puede elegir una de ellas mediante la opción designar ventana activa.
8
Visor de borrador
Las tablas de resultados generadas pueden observarse en modo texto evitando así toda la
parafernalia de edición de tablas pivote. Es algo más rápido y ágil pero de una apariencia
bastante más austera.
Editor de tablas pivote
Las tablas pivote son una potente (aunque complicada) herramienta de gestión de tablas.
Se puede editar el texto, intercambiar filas y columnas, crear tablas multidimensionales,
asignar estilos prediseñados, etc.
Editor de gráficos
Es otra potentísima herramienta de edición. Puede modificar los gráficos cambiando
cualquier aspecto del mismo: colores, fuentes tamaños, intercambiar ejes, además de una
elegante herramienta de rotación de nubes de puntos 3-D en tiempo real.
Editor de resultados de texto
Con este editor se pueden modificar los resultados tipo texto (fácilmente identificables pues
no están inmersos en una tabla). Es un simple editor (similar al Wordpad) para cambiar
aspectos básicos del texto. A destacar sólo su útil acceso rápido al glosario de términos.
Los elementos constitutivos del editor de datos son descritos seguidamente:
BARRA DE MENÚS
La barra de menús como la generalidad de los programas informáticos funciona con en el
sistema operativo Windows, en este caso el Editor de datos del programa SPSS presenta
una barra de menús desplegables, en la que se localizan las diversas opciones,
procedimientos y aplicaciones que son posibles elaborar con el paquete. El SPSS presenta
diez menús desplegables variados (ver Figura 1); en los que se hallan Archivo, Edición,
Ver, Datos, Transformar, Analizar, Gráficos, Utilidades, Ventana y Ayuda (?).
9
Figura.1
Las opciones y procesos de los menús Archivo, Edición y Ver, están dirigidos a las
propiedades de Editor de datos. Mientras que las opciones y procesos de los menús Datos
y Transformar se orientan hacia las propiedades y modificación de los datos (Casos o
variables) del archivo que se encuentre abierto. Los procesos de los menús Analizar y
Gráficos estas enfocados a la descripción y análisis de los datos por medio de pruebas
estadísticas o gráficos representativos. De la misma forma el menú Utilidades está
orientado a la generación y realización de los procesos automáticos; en otras palabras, sus
opciones y procedimientos se utilizan en la utilidad de producción.
ANÁLISIS DE LA BARRA DE HERRAMIENTAS DE SPSS
En las Barra de Herramientas (ver Figura 2), se localizan los botones de acceso directo a
los procesos usualmente utilizados del paquete estadístico. Los procesos que se realizan
en esta barra pueden ser modificados por el participante según su criterio y necesidades;
aprobando la personalización de su contenido. Normalmente el paquete circunscribe dentro
de la barra de herramientas los siguientes procedimientos:
Barra de Herramientas
1. Abrir Archivo: Muestra el cuadro de diálogo Abrir archivo, el cual permite abrir un
archivo SPSS de cualquier tipo (aunque los archivos listados por defecto son
archivos de datos en formato SPSS con extensión.sav) En ese sentido, al cliquear
en el botón Abrir archivo, aparece la ventana de exploración de Windows con lo cual
se puede situar un archivo en el computador (Sólo admite algunos tipos de formato.
2. Guardar archivo. Guarda el archivo de datos: Si el archivo no tiene nombre, abre el
cuadro de diálogo Guardar archivo, el cual permite asignar nombre y ruta al archivo
de la ventana activa. Al cliquear en el botón Guardar archivo, originara que los
cambios que se hayan realizado en el editor de datos del archivo activo (Abierto),
sean guardados.
10
3. Imprimir: Cuando se selecciona este botón se abre la ventana de impresión de
Windows; por medio de estas pestañas se imprime el contenido del archivo de datos;
correspondientes a, los casos y las variables. Esa opción es únicamente valida si el
número de datos es pequeño.
4. Recuperar cuadro de diálogo: Esta pestaña Muestra una lista con los últimos cuadros
de diálogo abiertos. Ese botón que permite acceder rápidamente a los últimos
procesos efectuados con el programa SPSS; en tal sentido, exterioriza los diversos
cuadros de diálogo (ventanas) que se hayan ejecutado (Empleado) con anterioridad
en el programa SPSS, tales como frecuencias, gráficos, tablas, etc. Al escoger esta
opción se despliega un cuadro de dialogo con el nombre de los procedimientos que
fueron realizados (ver figura 3) si se escoge alguno de ellos después de hacer clic
sobre él con el ratón, emergerá el cuadro de diálogo del procedimiento.
Figura 3
5. Deshacer y Rehacer: Deshace o rehace las últimas acciones de edición llevadas a
cabo tal y como: borrar un dato, una variable o un caso, cambiar el nombre de una
variable, etc. Este par de iconos además son comunes en la mayoría de los
programas de Windows, con la diferencia que en el programa SPSS 15, únicamente
permite deshacer o rehacer la última acción, solamente una. Para que se activen
estos botones, es necesario realizar ciertas operaciones en el Editor de datos
(Cortar, copiar, eliminar, etc.).
11
6. Ir a gráfico: Este botón convierte en ventana activa la ventana del Editor de gráficos
(si es que existe una ventana de este tipo abierta). Este icono permite ir ligeramente
al último gráfico efectuado durante la sesión actual del programa SPSS 15; al
seleccionarlo aparece la ventana de resultados y exterioriza el gráfico.
7. Ir a caso: Esta pestaña abre el cuadro de diálogo correspondiente, el cual permite
desplazar el cursor sobre un caso concreto del archivo de datos. Como su nombre
lo indica nos permite ir a un caso específico dentro del archivo de datos activo; En
tal sentido, sitúa en la posición donde se encuentra el caso. Al seleccionar esta
opción aparece la ventana correspondiente (ver figura 4), en este cuadro se debe
introducir el número del caso que nos interesa ubicar.
Figura 4
8. Variables: Este botón abre el cuadro de diálogo Variables, que contiene información
sobre el formato, las etiquetas y los valores perdidos de las variables del archivo de
datos. Por medio de esta opción es posible conseguir la información (Propiedades)
precisa de las variables del archivo activo. Cuando se elige este icono se abre un
otro cuadro de diálogo (ver figura 5), donde se localiza la información de las
diferentes variables (el nombre, la etiqueta, la existencia o no valores perdidos, el
nivel de medida, los valores y las etiquetas de cada valor).
12
Figura 5
Cuando se quiere determinar la información referente a otra variable, con tan solo
cliquear sobre ella aparecerá dentro de la casilla del cuadro de diálogo toda la
información referente a esa. Ese botón es de gran utilidad cuando se desconoce el
contenido de los datos o simplemente se ha olvidado el contenido de esa y se está
efectuando un análisis con los procedimientos del paquete estadístico SPSS.
9. Buscar: Este botón abre el cuadro de diálogo Buscar datos, el cual permite buscar
valores concretos en la variable en la que se encuentra el cursor. Utilizando este
icono es posible localizar el valor de una variable; entonces, este permite hallar un
número o una combinación de caracteres internos de los registros de una variable
determinada. Generalmente la búsqueda se efectúe en todo el archivo. Cuando se
elige el botón Buscar, se despliega un cuadro de diálogo, para identificar la variable
donde se efectuará la búsqueda (crest), el cuadro agrega en la parte superior de la
etiqueta “Buscar datos en la variable”. Para escoger una variable se debe cliquear
sobre ella directamente en el editor de datos, de forma tal que el nombre de la
variable en la frase cambie por el de la variable seleccionada.
13
Si se observa el cuadro de diálogo Buscar datos en variable crest, se precisará que
en la parte inferior del mismo se ubica la opción Coincidir mayúsculas y minúsculas;
esta pestaña permite explicarle al paquete estadístico que realice la búsqueda de
forma más exacta; es bueno resaltar esta opción únicamente es aplicable a las
variables que tengan caracteres alfanuméricos (Letras). Finalmente se encontrará el
botón Buscar siguiente; por medio de este botón es posible pasar de un caso o
registro encontrado, que concuerde con las condiciones de búsqueda, al posterior
10. Insertar caso e Insertar variable: Estas dos opciones permiten ingresar o introducir
un nuevo Caso o Variable. Al elegir la opción Ingresar caso, el paquete estadístico
consiente el ingreso de los valores del caso para las diferentes variables del archivo.
Mientras que Si elegimos la opción Insertar variable, el programa SPSS permitirá el
ingreso de una nueva variable o pregunta para los casos del archivo de datos activo.
11. Segmentar archivo: Este botón permite fraccionar la base de datos (Archivo activo)
en diferentes grupos según la variable que se manipule para la segmentación. Al
elegir esa opción, se despliega un cuadro de diálogo (ver Figura 6); donde se
encontrarán tres opciones de segmentación diferentes. La primera opción del cuadro
es Analizar todos los casos, no crear los grupos; esta opción nos admite trabajar con
todos los casos de la base y calcular los resultados de los estadísticos utilizando la
totalidad de los casos u observaciones.
14
Figura 6
La segunda opción pertenece a Comparar los grupos; esta opción permite contrastar los
resultados de los procedimientos que se ejecuten con el paquete estadístico para las
categorías de la variable de agrupación; para efectuar la comparación el paquete
estadístico efectúa los cálculos únicamente con los datos de cada categoría y exterioriza
los resultados de una manera comparativa; efectivamente sitúa de manera jerárquica los
resultados de cada categoría (por ejemplo: tabla categoría 1, tabla categoría 2, gráfico
categoría 1, gráfico categoría 2, estadístico categoría 1, estadístico categoría 2).
La tercera opción concierne a Organizar los resultados por grupos; esa opción es análogo
a la opción anterior, diferenciándose en que los resultados de los procedimientos que se
efectúen con el programa SPSS se centralizan en manera organizada (Por ejemplo: Tabla
Cat1, Gráfico Cat1, Estadístico Cat1, Tabla Cat2, Gráfico Cat2, Estadístico Cat2). Esta
opción es de gran utilidad si se quiere realizar un análisis separado de la muestra por algún
tipo de “rangos”, según el género, la región, la fecha, etc.
Para efectuar la segmentación de archivo se debe elegir una de las dos últimas opciones,
de una forma tal que se active la casilla “Grupos basados en”; después de activada se mete
en ella la variable o las variables que se quiere manipular como rango y para concluir se
15
cliquea en el botón Aceptar. Al finalizar la segmentación del archivo, los diferentes
procedimientos (tablas, gráficos o estadísticos) que se efectúe con el programa SPSS,
expondrá los resultados tomando en consideración de la segmentación.
12. Ponderar: Con este botón, es posible asignar un peso o ponderación diferente a los
diversos casos; lo que permitiría, darle mayor importancia a unos valores de registro
según sus características, acción que se realiza a los fines de poder sacar algún
resultado representativo de la población y no de la muestra.
13. Seleccionar casos: Esta pestaña abre el cuadro de diálogo Seleccionar casos, el
cual permite escoger una parte del archivo de datos utilizando diferentes criterios.
Con la utilización de ese botón, es posible elegir únicamente los casos que cumplan
con los criterios que el investigador imponga. Asimismo, con este procedimiento se
puede tomar un fragmento de los casos de forma aleatoria. Al activar la opción de
casos el paquete estadístico efectúa los cálculos de los procedimientos
exclusivamente con los casos que hayan sido elegidos.
14. Etiquetas de valor: Con este botón se exteriorizan las etiquetas de los valores como
contenidos de las celdas del editor de datos. Al presionarlo de nuevo, muestra los
valores. Con la utilización de ese botón, se permite visualizar en el editor de datos,
las ponderaciones de los datos o la categoría a la que corresponde. Al activar esta
pestaña se despliega en el editor de datos las categorías (palabras) de cada una de
las variables. Cuando se desactiva esta opción, se despliega en el editor de datos
los números (Valores) de cada variable. El beneficio de esta opción reside en la
capacidad que presenta de suministrar información referente a los datos que poseen
las diferentes variables categóricas.
15. Usar conjuntos: Esta pestaña abre el cuadro de diálogo “Usar conjuntos” donde se
puede seleccionar los conjuntos de variables que muestran los cuadros de diálogo y
que se utilizan para realizar los análisis estadísticos o transformaciones. Con la
utilización de ese botón, se puede generar o utilizar una serie de variables, para
restringir el número de variables expuestas en las listas originarias de los cuadros
de diálogo. La serie de variables pequeñas permiten que la búsqueda y la elección
de variables para realizar los análisis sean más fáciles y pueden optimizar el
rendimiento. Cuando el archivo de datos posee una gran cantidad de variables y los
16
cuadros de diálogo consumen mucho tiempo para abrir, es preciso limitar las listas
que originan cuadros con subconjuntos de variables más pequeños, para reducir el
tiempo empleado en abrirlos. Los conjuntos de variables (ver Figura 7) que trae por
defecto el SPSS son:
ALLVARIABLES y NEWVARIABLES, pero se pueden crear otros mediante la opción
Definir Conjuntos dentro del menú Utilidades. Después de cliquear en este icono se
abre un cuadro con un campo llamado Conjuntos en uso: donde aparecen
ALLVARIABLES y NEWVARIABLES. Si se quiere usar otro conjunto distinto, se
tendrán que extraer éstos de dicho campo.
Figura 7
BARRA DE ESTADO
La barra de estado que aparece en la parte inferior de cada ventana de SPSS proporciona
la siguiente información:
Estado del comando: En cada procedimiento o comando que se ejecuta, un
recuento de casos indica el número de casos procesados hasta el momento. En los
17
procedimientos estadísticos que requieren procesamientos iterativos, se muestra el
número de iteraciones.
Estado del filtro: Si ha seleccionado una muestra aleatoria o un subconjunto de
casos para el análisis, el mensaje Filtrado indica que existe algún tipo de filtrado
activado actualmente y por tanto en el análisis no se incluyen todos los casos del
archivo de datos.
Estado de ponderación: El mensaje Ponderado indica que se está utilizando una
variable de ponderación para ponderar los casos para el análisis.
Estado de división del archivo: El mensaje Segmentado indica que el archivo de
datos se ha segmentado en diferentes grupos para su análisis en función de los
valores de una o más variables de agrupación.
Para mostrar u ocultar la barra de estado
Elija en los menús:
Ver
Barra de estado
ICONOS DE LA VENTANA DE GRÁFICOS
Los iconos de la ventana de gráficos están destinados sobre todo a la modificación de los
gráficos.
Su función comenzando por la izquierda es:
Identificación de puntos. Sirve para identificar cualquier punto del gráfico con el
valor correspondiente. Pulsando sobre éste el cursor se convierte en un cuadrado, y
haciéndolo sobre el punto aparece el valor con que se corresponde.
Trama de relleno. Este icono abre una ventana para seleccionar el relleno a utilizar
en el gráfico.
Color. Con este icono se abre una ventana para seleccionar el color que deseamos
utilizar en el gráfico.
18
Marcador. Con éste botón se selecciona la forma de la marca con que se dibuja el
gráfico.
Estilos de línea. Este icono permite cambiar la forma de las líneas usadas en los
gráficos.
Estilos de barra. Esta pestaña permite seleccionar el formato de la barra que se
utiliza cuando se trata de un diagrama de barras.
Estilos de etiquetas de barra. Este botón sirve para etiquetar las barras con los
valores numéricos que representan.
Interpolación. Es una pestaña que permite unir los puntos de un gráfico de
dispersión mediante líneas de diferente forma.
Texto. Con este icono se elige el tamaño y la fuente del texto que aparecen en el
gráfico.
Rotación 3D. Es una pestaña que permite realizar una rotación de los ejes y por
tanto, del gráfico en el caso tridimensional.
Intercambiar ejes. Este icono permite intercambiar la colocación de los ejes.
Desgajar sector. Con esta opción es posible extraer algún sector circular de un
diagrama de sectores.
Romper líneas en valores perdidos. Con este botón se Permite cortar la línea del
gráfico para indicar los valores perdidos, en el caso de representaciones de variables
que los tengan.
Opciones del gráfico. Este icono abre una ventana para cambiar las opciones del
gráfico.
Activar/Desactivar modo de giro. Esta pestaña según se pulse o no activamos o
desactivamos la posibilidad de girar el gráfico.
BARRA DE POSICIÓN
La barra de posición está ubicada debajo de la barra de herramientas en el editor de datos
y nos permite identificar de forma rápida y sencilla el número del caso (Fila), la variable
(Columna) y el valor de la casilla de registro que hemos seleccionado (ver Figura 8). Para
activar la barra, debemos hacer clic sobre cualquiera de las casillas del editor de datos, con
lo que aparecerá de forma automática la información de la casilla. La utilidad de esta casilla
19
se pone en evidencia cuando trabajamos con archivos que cuenten con un número elevado
de registros.
Figura 8
Editor de sintaxis
Toda operación realizada con los distintos cuadros de diálogo del SPSS tiene una
traducción a un lenguaje de programación propio del programa. Desde cualquier ventana
donde se configura un análisis o cualquier operación sobre los datos, se puede pegar dicha
sintaxis a este editor. Estas órdenes de programación pueden editarse añadiendo incluso
otras órdenes no contempladas en dichos cuadros de diálogo. Como es de esperar, la
programación del SPSS es una herramienta de gran utilidad pero de extremada
complejidad.
Cada una de las ventanas mencionadas anteriormente posee una barra de estado que,
como su nombre indica, proporciona información acerca de la situación en la que se
encuentra el programa (la mayoría del tiempo muestra el mensaje "SPSS El procesador
está preparado") pero además se muestra información acerca de si los datos están bajo
algún criterio de ponderación, segmentación o filtrado.
Otras ventanas que aparecerán durante la sesión de trabajo son los cuadros de diálogo.
Esto comparece cada vez que se selecciona una opción de menú o barra de herramientas.
En ellos se introduce la información que el programa necesita para completar la operación
seleccionada.
Para el caso de los análisis estadísticos y creación de gráficos, los cuadros de diálogo
siempre presentan las siguientes características. Por un lado muestran las variables del
fichero de datos disponibles para el procedimiento en cuestión. Dependiendo del tipo de
análisis seleccionado, estarán disponibles unas variables y puede que otras no. Por otro
lado se presentan una o varias casillas donde introducir las variables que configurarán el
análisis (por ejemplo variable dependiente e independiente en un análisis de regresión lineal
20
simple). Además se muestran varios botones para, bien ejecutar el análisis (aceptar),
abandonar el cuadro (cancelar), para borrar todas las selecciones realizadas (restablecer),
para trasladar la sintaxis de la acción a realizar al editor de sintaxis (pegar) o para
seleccionar resultados y opciones adicionales del análisis (opciones...).
2.1. MANEJO DE ARCHIVOS DE DATOS
Antes de iniciar una sesión de análisis de datos, éstos deben ser introducidos en el
programa. Existen muchas formas distintas de administrar datos al programa. Desde la
introducción directa por el teclado, la lectura de un archivo, la importación de datos de otras
aplicaciones, el cortado y pegado desde otra tabla de datos, hasta una potente herramienta
de consultas a otras bases de datos (MSAccess, Excel, Dbase, etc) a través del servidor
ODBC de Windows. Antes de continuar profundizando en los entresijos del programa, se
presentan dos conceptos clave que aparecerán recurrentemente durante el resto del
documento y conviene detenerse en su clarificación.
2.2 VARIABLES Y CASOS
Todo conjunto de datos puede ser visto como una matriz. Las filas se corresponden con los
distintos sujetos o unidades de investigación, sobre los que se han realizado las distintas
observaciones. Ésta últimas se corresponden con las columnas. Los sujetos (filas) suelen
denominarse casos y las observaciones (columnas) suelen denominarse variables. A
modo de ejemplo, por caso, dependiendo del estudio, puede entenderse un paciente, o
bien una muestra de laboratorio, o una visita médica o un episodio de recurrencia de una
enfermedad. Por variables, asociadas a los casos anteriores, puede entenderse el sexo y
la edad del paciente, la fórmula leucocitaria de la muestra de laboratorio, la fecha y presión
arterial medidas en una determinada visita médica. Es importante notar que, con frecuencia
se confunde, en este último caso, cuál es el sujeto de análisis, si el paciente con varios
episodios de recurrencia o cada episodio de recurrencia es un caso en sí, pudiendo haber
varios episodios para un mismo paciente. La distinción de la unidad de análisis en cada
situación la marcará el objetivo de la investigación.
21
2.3 CREACIÓN DE UN FICHERO DE DATOS
Si optamos por introducir los datos directamente debemos trabajar sobre la ventana
principal (vista de datos). Esta vista nos muestra la matriz de datos con la que trabajará el
SPSS. Inicialmente está vacía y en columnas se presentarán las variables observadas y en
filas los sujetos de observación.
Es importante notar que sólo puede haber activa una única matriz de datos. Si los datos
estuviesen almacenados en distintos archivos, deberemos agruparlos en una única matriz
para poder analizarlos conjuntamente.
Lo primero que se debe definir son las variables que componen la matriz de datos. Para
ello se debe elegir la pestaña vista de variables situada en la parte inferior izquierda.
En esta vista de variables se pueden definir las siguientes propiedades para cada variable:
Nombre
22
Cadena de caracteres con un máximo de 8 caracteres alfa-numéricos. Nombres permitidos
son todos aquellos que comiencen con una letra (A-Z) y contengan letras ó números más
el carácter “_”.
Tipo
El programa permite definir los distintos tipos de variable. El tipo por defecto es numérico.
Mención especial se debe dar al hecho de que, por defecto, el separador de la parte decimal
es una coma. Para poder utilizar el punto como separador decimal, paradójicamente
deberemos seleccionar como tipo de variable coma, aunque esto se traduzca en que
aparecerá una coma (,) como separador de millares, millones, etc.
Anchura y decimales
Siguiendo una notación herencia de su origen de programación en lenguaje FORTRAN, la
anchura determina el número de dígitos con los que el programa mostrará los datos. Así,
un formato 8.2 mostrará en la matriz de datos un máximo de 8 número de los cuales 2 son
posiciones decimales: el dato 12345,6789 se mostrará como 12345,67.
Etiqueta
En este campo se puede introducir un comentario del contenido de la variable que nos
servirá para hacer más legibles los resultados de los distintos procedimientos del SPSS.
Valores
Bajo este epígrafe se pueden etiquetar valores que tomará la variable en cuestión. Así,
supongamos la variable Edad que tome valores numéricos del 0 al 4, éstos pueden ser
etiquetados de forma que por el valor 0 entendemos individuos que tienen un determinado
rango de edad (por ejemplo 10-19 años), etc.
Mediante las operaciones clásicas propias del ratón (botón derecho, pulsar, marcar,
arrastrar, etc) se pueden copiar, borrar y mover variables dentro de la matriz. También se
pueden aplicar las propiedades de una variable a otra u otras variables, todo ello con
acciones del ratón bastante intuitivas. Por ejemplo, pulsando con el botón derecho del ratón
23
sobre un número de orden situado al margen de la matriz, se despliega una ventana en la
que podremos elegir que la variable seleccionada sea copiada, borrada, etc. Si la variable
ha sido copiada, podremos pegarla como variable nueva o pegar sus propiedades sobre
una ya existente.
Una vez definidas las distintas variables de la matriz, para la introducción de datos se debe
volver a la pantalla de vista de datos, bien mediante la pestaña correspondiente o bien
mediante la combinación de teclas <control-T>.
La introducción de datos en la matriz se realiza de igual forma que en cualquier otro
programa. Mediante el ratón o las teclas del cursor situamos la celda activa que almacenará,
pulsando la tecla <Intro>, el dato tecleado. Mediante las flechas del cursor o el ratón
podremos desplazarnos por la matriz.
Es importante notar que si se intenta introducir un dato con un formato distinto a como ha
sido definida la variable, el dato no es aceptado. Esto ocurriría con un dato de caracteres
en una variable numérica, o una fecha inexistente (por ejemplo el 30 de febrero).
2.4. GRABACIÓN DE ARCHIVOS
Una vez finalizada la introducción de datos, si no antes, con cierta periodicidad para evitar
desastres, se debe grabar el archivo de datos. Para esta operación, desde el menú Archivo
se selecciona la opción Guardar o Guardar como...
El SPSS tiene una gran capacidad para leer y grabar archivos de datos en una gran
variedad de formatos. Por defecto, el tipo de archivos de datos SPSS reciben la extensión
<.sav>. En el campo Guardar como tipo aparecen listadas todas las extensiones hacia las
cuales el programa puede transformar los datos. Éstas van desde el Excel (.xls), dBase
(.dbf), lotus (.wks), etc. hasta otros formatos propios de SPSS de versiones anteriores.
3. FUNCIONES PARA EL ANÁLISIS ESTADÍSTICO
El SPSS es uno de los tres grandes programas, frecuentemente aludidos como paquetes
estadísticos, existentes en el mercado. Tiene implementados un elevadísimo número de
24
análisis estadísticos, la mayoría de ellos bajo el epígrafe análisis del menú principal. Al igual
que en el apartado relativo a los gráficos, un conocimiento profundo de los datos y una idea
clara de las preguntas que se desean responder facilitarán el correcto uso y el máximo
aprovechamiento de los análisis estadísticos disponibles. A continuación se describe
brevemente una serie de análisis estadísticos básicos de uso frecuente.
Al contrario que con los procedimientos gráficos, es evidente que, en este caso, la
experimentación con los distintos análisis está desaconsejada. La elección de un
procedimiento u otro dependerá del tipo de hipótesis que se desee contrastar.
3.1. ANÁLISIS DE LA VARIANZA (ANOVA)
El Análisis de Varianza (ANOVA) es un método de probar la igualdad de tres o más
medias poblacionales analizando las varianzas de las muestras.
DISTRIBUCIÓN F
Los métodos de ANOVA requieren el uso de la distribución F. Ésta tiene las
siguientes propiedades importantes:
La distribución F no es simétrica; es sesgada hacia la derecha.
Los valores de F pueden ser 0 o positivos, pero no pueden ser negativos.
Hay una distribución F diferente para cada par de grados de libertad para el numerador
y el denominador.
El análisis de varianza (ANOVA) está basado en la comparación de dos diferentes
estimados de la varianza comunes a diferentes poblaciones. Esos estimados (la varianza
entre las muestras y la varianza dentro de las muestras) serán descritos en una próxima
sección. El término de una sola dirección (“one-way”) es usado porque los datos de la
muestra están separados en grupos de acuerdo con una característica o factor.
25
ANOVA de un solo factor
ANOVA de un solo factor hace una comparación de más de dos medias poblacionales o
de tratamiento. En esta sección se considerarán las pruebas de hipótesis de que tres o más
medias poblacionales son iguales, como en H0: µ1 = µ2 = µ3. Las siguientes presunciones
aplican cuando se prueba la hipótesis nula de tres o más muestras que provienen de
poblaciones que tienen la misma media.
Las poblaciones tienen distribuciones que son aproximadamente normales.
Las poblaciones tienen la misma varianza σ2 (o desviación estándar σ).
Las muestras son muestras aleatorias simples. (Esto es, las muestras del mismo
tamaño tienen la misma probabilidad de ser seleccionada)
Las muestras son independientes una de la otra. (Las muestras no están pareadas
en forma alguna.)
Las diferentes muestras son de poblaciones que están categorizadas en únicamente
una sola dirección. (Esta es la base del nombre del método: análisis de varianza de
una sola dirección o un solo factor.)
Un tratamiento (o factor) es una propiedad, o característica que nos permita distinguir las
diferentes poblaciones, una de la otra.
El método del análisis de varianza está basado en un concepto fundamental: Con la
presunción de que las poblaciones todas tienen la misma varianza a 2, se estima el valor
común de a 2, usando dos diferentes formas. La prueba estadística F es la razón de esos
estimados. Las dos formas de estimar el valor común de a2 son las siguientes:
1. La varianza entre las muestras (también llamado “variation due to treatment”) es un
estimado de la varianza común de la población a2 que está basado en la variabilidad
entre las medias muestrales.
2. La varianza dentro de las muestras (también llamado “variation due to error”) es un
estimado de la varianza común de la población a2 basado en las varianzas de las
muestras.
26
Prueba Estadística Para ANOVA de un Solo Factor
El numerador de la prueba estadística F mide la variación entre las medias de la muestra.
El estimado de la varianza en el denominador depende únicamente de las varianzas de
la muestra y no es afectado por las diferencias entre las medias muestrales.
Cálculos con Muestras de Igual Tamaño
Grados de libertad con k muestras de igual tamaño n
grados de libertad para el numerador = k-1
grados de libertad para el denominador = k(n-1)
Cálculos con Muestras de Distinto Tamaño
Donde:
x = medias de todos los valores de la muestra combinados
k = número de medias poblacionales que están siendo comparadas
ni = número de valores en la i-ésima muestra
muestraslasdedentroianza
muestraslasentreianzaF
....var
...var
)1
)1(
12
2
)(
ni
ni
k
ni
F
Si
XiX
mediaslasdedentroianza
mediaslasentreianzaF
....var
...var
27
iX = media de valores en la i-ésima muestra
= varianza de valores en la i-ésima muestra
SS (total) o suma total de cuadrados, es una medida de la variación total
(alrededor de x ) en todas los datos combinados de la muestra
La suma total de cuadrados [SS(total)] puede ser expresado en dos componentes: suma
de cuadrados intergrupal [SS(tratamiento)] y suma de cuadrados intragrupal [SS(error)],
descrito como sigue:
SS (tratamiento) o suma de cuadrados intergrupal es la medida de variación entre las
medias muestrales.
En ANOVA de un solo factor, SS (tratamiento) es algunas veces referido como SS (factor).
Debido a que es una medida de variabilidad entre las medias muestrales, es también
conocido como SS (entre grupos) o SS (entre muestras).
SS (error) o suma de cuadrados intragrupal es la suma de cuadrados representando la
variabilidad que se cree es común para todas las poblaciones que están siendo
consideradas
Debido a que SS (error) es una medida de la varianza dentro de los grupos, es algunas
veces denotado como SS (dentro de los grupos) o SS(dentro de las muestras).
ECUACIÓN IMPORTANTE:
SS (total) = SS (intergrupal) + SS (intragrupal)
Si2
)(2
)( xxtotalSS
)()()()(222
2
2
1...
21)(int xxXXnXXnXXn ni
kergrupalSS
k
28
La suma total de cuadrados es igual a la suma de cuadrados intergrupal MÁS la suma de
cuadrados intragrupal.
MS (intergrupal) es el cuadrado medido del tratamiento, obtenido como sigue
MS (intragrupal) es el cuadrado medido del error, obtenido como sigue:
MS (total) es el cuadrado medido de toda la variación, obtenido como sigue:
TABLA RESUMEN DEL ANÁLISIS DE VARIANZA (ANOVA)
Fuente Suma de
Cuadrados
Grados de
Libertad
Cuadrado
Medio
Intergrupal
(Between) SSB k-1 MSB
Intragrupal
(Within – Error) SSW N-k MSW
EJERCICIO:
Un gerente quiere aumentar la productividad de su compañía incrementando la velocidad
con la que los empleados utilizan un determinado paquete de software. En vista de que no
tiene la manera de ejecutar un adiestramiento con personal de la empresa, se contrata a
una agencia externa que es especialista en este tipo de adiestramiento. La agencia ofrece
3 paquetes: para principiantes, nivel intermedio y avanzado. El gerente no está seguro cual
curso es necesario para el tipo de trabajo que se lleva a cabo en la compañía, así que
decide enviar a 10 empleados para el curso de principiante, 10 para el intermedio y 10 para
el avanzado. Cuando todos regresan del adiestramiento el gerente les da un problema que
deben resolver utilizando el paquete de software que han aprendido a usar y les toma el
1
)(int)(int
k
ergrupalSSergrupalMS
kN
ragrupalSSragrupalMS
)(int)(int
1
)()(
N
totalSStotalMS
29
tiempo que emplean en completarlo. El gerente desea comparar los 3 cursos para saber si
existe alguna diferencia en el tiempo promedio que les tomó completar el ejercicio, y de
esta manera saber que tipo de adiestramiento se requiere dentro de su empresa.
- En función del alcance de este manual, se mostrará paso a paso como resolver este
ejercicio utilizando el programa SPSS V.15
a) En el programa SPSS, se separaron los grupos de análisis creando una variable llamada
“Curso” y se le dio al curso principiante el valor “1”, al intermedio el valor “2” y al avanzado
el valor “3”. Para esta variable se asigna la etiqueta “Adiestramiento en Paquete de
Software” y se selecciona la medida tipo “Nominal”
30
b) El tiempo para completar el ejercicio se hizo bajo la variable “Tiempo”, a la cual se le
asignó la etiqueta “Tiempo en Completar el Problema” y se selecciona la medida tipo
“Escala”
31
c) Seguidamente, en la pestaña “Vista de Datos” se completa la información. En la variable
“Curso”, se coloca el valor 1 (principiante), el valor 2 (intermedio) y el valor 3 (avanzado) en
10 casillas cada uno, tal como lo indica el planteamiento del problema. Igualmente se
completa la variable “Tiempo” con los datos suministrados:
32
Procedimiento para calcular la ANOVA en SPSS
1. Hacer clic en el menú superior en Analizar > Comparar medias > Anova de un
factor
33
2. Aparecerá la siguiente pantalla.
34
3. Se debe añadir las variables a las cajas correspondientes: “Tiempo en Completar
Problema” como variable dependiente y “Adiestramiento en Paquete de Software”
como factor.
35
4. Hacer clic en el botón Post Hoc y marcar la casilla “Tukey”, como se muestra a
continuación.
36
5. Hacer clic en el botón “Opciones” y marcar las casillas “Descriptivo”, “Test de
Homogeneidad de varianza” y “Welch”, como se muestra a continuación:
6. Hacer clic en el botón “Continuar”
7. Hacer clic en el botón “Aceptar”
ANÁLISIS DE RESULTADOS CON SPSS
El programa SPSS generará una serie de tablas en su modalidad “ANOVA de un solo factor”
las cuales se explican a continuación.
Tabla Descriptiva
La tabla descriptiva provee de información estadística de gran utilidad, que incluye la media,
la desviación estándar y los intervalos de confianza de 95% de la variable dependiente para
cada grupo por separado (Principiante, Intermedio y Avanzado) y también como un total.
37
Tabla de Prueba de Homogeneidad de Varianzas
Una de las suposiciones del Anova de un factor es que la varianza de los grupos que se
compara es similiar. La tabla de la prueba de homogeneidad de varianza muestra los
resultados de la tabla de varianza de Levene, la cual prueba para varianzas similares. Si el
valor es mayor de 0.05 (se encuentra en la columna Sig.) entonces se tiene homogeneidad
de varianza. Se puede ver en este ejemplo que la estadística de Levene tiene un valor
significativo de 0.865, entonces la suposición de homogeneidad de varianza se cumple.
38
Tabla ANOVA
Esta es la tabla que muestra la respuesta del análisis de ANOVA y si existe una diferencia
estadística significativa entre los grupos. Se puede ver en este ejemplo que el nivel de
relevancia es 0.04, lo cual está por debajo de 0.05 y por ende hay una diferencia en el
promedio del tiempo para completar la tarea entre los diferentes cursos tomados por los
empleados. Este resultado es bueno saberlo, sin embargo, no se puede apreciar cuales de
los grupos difieren; esto se puede observar en la tabla de comparaciones múltiples que
contiene los resultados de la evaluación post-hoc.
Tabla de pruebas robustas de igualdad de las medias
Se mencionó anteriormente que aun si hubiese una violación de la suposición de la
homogeneidad de variable, se podría determinar si hay diferencias significativas entre los
grupos usando la evaluación Welch. Así como en método ANOVA, si el valor es menor que
0.05 entonces hay diferencias significativas entre los grupos.
39
Tabla de Múltiples Comparaciones
De los resultados que se tienen hasta ahora se sabe que hay 2 diferencias significativas
entre los grupos. La tabla que se muestra a continuación muestra cuales grupos difieren
entre si. El post-hoc Tukey es, por lo general, la prueba mas usada para la ANOVA de un
solo factor. Se puede observar en esta tabla que existe diferencia significativa en el tiempo
para completar el problema entre el grupo que tomó el curso de principiante y el intermedio
(P=0.06), así como también existe diferencia entre el curso de principiante y el avanzado
(P=0.14). Sin embargo, no hay diferencia significativa entre los grupos que tomaron el curso
intermedio y avanzado (P=0.944)
40
3.2 REGRESIÓN
En muchas investigaciones, se hace necesario estudiar variables de manera tal que pueda
determinarse la existencia de cierta relación entre ellas con el fin de realizar a cabo
explicaciones más precisas sobre la naturaleza de cierto fenómeno.
De esta manera pueden analizarse una serie de casos en los que puede identificarse la
dependencia de una variable; la cual es conocida como variable dependiente, explicada,
predicha, regresada, entre otras, con respecto a una o más variables que se denominan
independientes, explicativas, predictoras, regresadas. Para el tratamiento de estos casos
se recomienda hacer un análisis de regresión, el cual se encarga de investigar la relación
de dos o más variables de manera determinista. De tal manera que si se estudia la
dependencia de una variable con respecto a otra variable, dicho estudio es conocido como
análisis de regresión simple; mientras que si el estudio muestra la relación de una variable
con respecto a un conjunto de dos o más variables el análisis se conoce como análisis de
regresión múltiple.
41
El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación
entre variables cuantitativas. Tanto en el caso de dos variables (regresión simple) como en
el de más de dos variables (regresión múltiple), el análisis regresión lineal puede utilizarse
para explorar y cuantificar la relación entre una variable dependiente o criterio(Y) y una o
más variables independientes o predictoras (X1, X2, …, Xp), así como para desarrollar una
ecuación lineal con fines predictivos.
Regresión Lineal Simple
Cuando solo existe una variable independiente, la recta viene dada por la siguiente
expresión:
donde los coeficientes b0 y b1 son parámetros que definen la posición e inclinación de la
recta. Es importante destacar que se emplea el símbolo para representar el valor
de Y calculado por la recta ya que este análisis consiste en un estudio aproximado, por lo
tanto, el valor real de Y rara vez coincide exactamente con el valor calculado.
El parámetro b0, conocido como la indica el valor de Y cuando X=0. El parámetro b1,
conocido como la "pendiente” indica el crecimiento de Y por cada aumento de una unidad
en X. En el análisis de regresión, estas estimaciones se obtienen por medio del método
de mínimos cuadrados.
2. Estimación de la Recta de Regresión.
Para estimar los coeficientes por medio de mínimos cuadrados, se utilizan las siguientes
fórmulas:
42
Coeficiente de Determinación ( ).
En el análisis de regresión, existe una medida de ajuste llamada coeficiente de
determinación ( R2 ) o el cuadrado del coeficiente de correlación múltiple, se trata de un
factor entre 0 y 1, en la cual, 0 cuando las variables son completamente independientes
una de la otray 1 cuando existe una relación perfecta. La interpretación de esta variable
representa el grado de ganancia al predecir una variable en función de otras variables ya
conocidas.
Dicho valor se interpreta como el porcentaje de la variabilidad de la variable dependiente
que es explicado por el modelo de regresión que se está estimando.
Coeficiente de Determinación corregida (R2corregida ).
La expresión 2 R corregida es una corrección a la baja de 2 R basada en el número de
casos y de variables independientes que participan en el análisis.
donde p designa el número de variables independientes. Cuando el número de casos es
pequeño y el número de variables independientes aumenta R2 corregida es considerado un
buen estimador del valor poblacional.
43
El coeficiente de correlación muestral (r)
El coeficiente de correlación muestral r es una medida que permite determinar que tan fuerte
es el grado de relación que presentan dos variables. Asimismo, indica el tipo de relación
existente, directa o inversa.
Dada dos variables x, y, un conjunto de n observaciones, el coeficiente de correlación
muestral r viene dado por
Según su definición el coeficiente de correlación oscila entre –1 y 1. Por tanto, un valor de
r cercano a –1 indica la existencia de una relación fuerte entre las variables pero en forma
inversa, esto es, que conforme una variable aumenta, la otra disminuye. Por otro lado, un
valor de r cercano 1 muestra una relación fuerte entre las variables. En este caso, la relación
se dice directa, es decir, conforme una variable aumenta, la otra también lo hace. Un valor
de r cercano a cero indica la posibilidad de que no existe relación entre las variables o que
por lo menos la relación no es lineal.
Error típico de estimación (Se)
Se define como la desviación típica de los residuos o distancias entre las puntuaciones en
la variable dependiente (Yi). Este error se representa por la rais cuadrada de la media de la
variabilidad de la variable dependiente:
44
Regresión Múltiple
Hasta ahora hemos considerado únicamente el caso de la regresión simple. En el caso más
general de la regresión múltiple, existen dos o más variables independientes:
La estimación de los coeficientes de una regresión múltiple es un cálculo bastante
complicado y laborioso, por lo que se requiere del empleo de programas de computación
especializados. Sin embargo, la interpretación de los coeficientes es similar al caso de la
regresión simple: el coeficiente de cada variable independiente mide el efecto separado que
esta variable tiene sobre la variable dependiente. El coeficiente de determinación, por otro
lado, mide el porcentaje de la variación total en Y que es explicado por la
variación conjunta de las variables independientes.
Regresión lineal con SSPS
Ejercicio práctico de regresión Lineal
Supongamos la existencia de dos variables x, y de manera que se obtienen 10
observaciones durante un proceso de investigación. Los resultados obtenidos se muestran
a continuación.
n 1 2 3 4 5 6 7 8 9 10
X 12 14 19 21 28 35 49 54 56 63
Y 6,2 7,3 8,9 8,1 9,2 8,1 9,6 10 10,2 10
En primer lugar, se deben identificar los datos dependientes y los datos independientes,
para ello se recomienda graficar los valores a fin de establecer las variables en base a su
distribución en el gráfico. Esta acción se ejecuta mediante los comandos de gráficos
(GRÁFICOS→GENERAR GRÁFICOS)
45
Para este ejemplo se toman los valores de X como variables independientes y los valores
de Y como valores dependientes.
En primer lugar se deben identificar las variables a introducir en el SSPS en la hoja
de “vista de variables”, tal como se muestra a continuación:
Una vez identificadas las variables se procede a introducir los valores en la hoja de
“vista de datos”:
46
Para ejecutar la regresión lineal de los valores mostrados, se sigue la siguiente ruta:
ANALIZAR →REGRESION→LINEAL
En este caso, el análisis a realizar será una regresión lineal, por lo que aparecerá
una ventana
47
En esta ventana se identifican las variables dependientes e independientes de la
muestra y se presiona la opción ACEPTAR.
Aparte de los comandos que se están empleando en el ejercicio, existen otras opciones
Una vez realizado el análisis, el SSPS arroja los siguientes resultados:
48
En primer lugar se muestra un resumen del modelo con el coeficiente de correlación R y
el coeficiente de determinación R2 . El valor R = 0,859 indica que existe una relación lineal
directa y relativamente fuerte entre las variables.
El valor R2 = 0,739 indica que el 73,9% de la variabilidad de la variable. Y es explicada o
modelada por el modelo de regresión que se está estimando.
El en la hoja de resultados, el SSPS muestra también la anova, la cual permite determinar
si existe o no una relación significativa entre las variables. La prueba F permite evaluar la
hipótesis nula de que el valor R poblacional es cero (R = 0), equivalente a decir que la
pendiente de la recta de regresión es igual a cero. El nivel de significancia Sig. = 001 indica
que no existen evidencias significativas, al nivel del 5%, para afirmar que R = 0, o de la
misma manera que la pendiente de la recta de regresión es 0 y, en consecuencia, puede
asumirse que las variables en estudio están linealmente relacionadas.
Para comprobar el resultado, es recomendable graficar la recta producto de la regresión
lineal . En el SSPS,
ANALIZAR→REGRESIÓN→LINEAL
49
Sobre la ventana emergente de regresión lineal, seleccione la opción de gráficos y en el
define las variables dependientes e independientes. Cuando el SSPS genera el resultado,
incluye el gráfico con los valores ya alineados según la ecuación de la recta de regresión
lineal.
Particularmente en esta sección solo se explican los resultados de la regresión dados por
el SSPS. Existen otros métodos para la elaboración de una regresión en función del grado
de dispersión el tipo de gráfico requerido.
50
3.3 CORRELACION
El primero en medir la correlación en 1888 fue Francis Galton, pero el primero en utilizar el
término “coeficiente de correlación” en 1892 fue Francis Y. Edgeworth.
La fórmula de cálculo del coeficiente de correlación se debe a Karl Pearson que la publicó
en dos trabajos aparecidos en 1896. También fue el primero en hacer inferencia con
grandes muestras. Sin embargo el método utilizado para estas inferencias no era
demasiado bueno y Student (William Gosset) lo demostró así en 1908.
La correlación es la relación existente entre dos variables, su intensidad y su sentido
(positivo o negativo).
La correlación sirve para:
a) Explorar la existencia de la relación particular estadísticamente significativa entre las
dos variables, es decir, si los cambios en una son consistentes en la otra.
b) Conocer si la relación es positiva o negativa.
c) Cuantificar el grado de significación estadística de la relación, es decir, la confianza
(estadística) relacionada con dicha relación.
d) Averiguar que parte de la variación de una variable es explicada por la otra.
El análisis de la correlación implica los siguientes pasos:
a) El estudio descriptivo mediante el “gráfico de dispersión”.
b) La estimación del coeficiente de correlación (incluyendo su intervalo de confianza).
c) La valoración de este coeficiente de correlación (signo y magnitud) y la significación
estadística.
d) La interpretación del coeficiente de correlación evaluando el coeficiente de
determinación.
Coeficiente de correlación lineal: es la expresión matemática de la relación entre las dos
variables aleatorias.
Es una versión estandarizada de la covarianza entre X e Y :
51
𝑟 = 𝑆𝑋𝑌
𝑆𝑋𝑆𝑌
La ventaja que tiene este coeficiente sobre otras herramientas para medir la correlación,
como puede ser la covarianza, es que los resultados del coeficiente de correlación están
acotados entre -1 y +1. Esta característica nos permite comparar diferentes correlaciones
de una manera más estandarizada.
Propiedades del coeficiente de correlación lineal
Carece de unidades de medida (adimensional).
Es invariante para transformaciones lineales (cambio de origen y escala) de las
variables.
Solo toma valores comprendidos entre −1 y 1,
Cuando |r| esté próximo a uno, se tiene que existe una relación lineal
muy fuerte entre las variables.
Cuando r ≈ 0, puede afirmarse que no existe relación lineal entre ambas variables.
Se dice en este caso que las variables son incorreladas.
CORRELACION CON SPSS
Con el programa SPSS se pueden calcular correlaciones paramétricas y no paramétricas
entre variables, así como correlaciones parciales.
Debemos acceder al programa SPSS 15.0, luego nos vamos al menú Analizar →
Correlaciones:
52
Luego debemos escoger entre las 3 opciones de Correlaciones que son:
1. CORRELACIONES BIVARIADAS: permite medir el grado de dependencia existente
entre dos o más variables mediante la cuantificación por los denominados
coeficientes de correlación lineal de Pearson, de Spearman y la Tau-b de Kendall
con sus respectivos niveles de significación.
1..1 Pearson: Es una medida de la asociación lineal entre dos variables. Los
valores del coeficiente de correlación van de -1 a 1. El signo del coeficiente
indica la dirección de la relación y su valor absoluto indica la fuerza. Los
valores mayores indican que la relación es más estrecha.
Tau-b de Kendall: Medida no paramétrica de asociación para variables ordinales
o de rangos que tiene en consideración los empates.
Spearman: Versión no paramétrica del coeficiente de correlación de Pearson,
que se basa en los rangos de los datos en lugar de hacerlo en los valores reales.
También debemos conocer las pruebas de significación, que son aquellas que permiten
contrastar la hipótesis nula de que el valor poblacional del coeficiente es cero.
53
Bilateral: Probabilidad de obtener resultados tan extremos como el obtenido, y en
cualquier dirección, cuando la hipótesis nula es cierta.
El subcuadro Opciones permite solicitar estadísticos adicionales.
Si elegimos el coeficiente de Pearson, las opciones de este recuadro permiten seleccionar
una o más de las siguientes opciones:
Medias y desviaciones típicas: Muestra, para cada variable, la media, la desviación
típica (insesgada) y el número de casos válidos.
54
Productos cruzados y covarianzas: Muestra, para cada par de variables, los
productos cruzados de las desviaciones de cada puntuación respecto de su media y
la covarianza
2. CORRELACIONES PARCIALES: Este tipo de coeficientes de correlación describe
la relación lineal existente entre dos variables sin tener en cuenta los efectos o
influencias de una o más variables adicionales, con el objeto, bien de identificar la
existencia de posibles variables interpuestas, o de correlaciones neutralizadas por el
efecto de estas variables.
Luego aparece la siguiente ventana:
55
En el campo Variable se agregan aquellas variables para las que se les va a calcular el
coeficiente de correlación parcial.
En el campo Controlar para se agregan las variables que se les va a eliminar la
influencia.
En el campo de Prueba de significación se selecciona si se desea obtener la opción
Bilateral o Unilateral.
Si presionamos el botón de opciones, aparecerá la siguiente ventana:
56
Esta permite obtener, además de la matriz de correlación, las medias y desviaciones
típicas, y la matriz de correlaciones entre todas las variables. En el campo de Valores
perdidos se indica la forma de eliminar casos en los cálculos de la matriz de correlación.
3. DISTANCIAS: este procedimiento incluye un gran número de medidas que se
diferencian, básicamente, por el tipo de datos para el que han sido diseñadas. Estas
medidas pueden utilizarse tanto para obtener distancias entre variables como entre
casos. Llamaremos elemento tanto a los casos como a las variables.
Luego aparecerá la siguiente ventana:
57
En Variables se trasladan las variables cuya distancia se desea calcular.
En Etiquetar los casos mediante: Por defecto, en los resultados los casos se
identifican mediante el número de caso.
Calcular distancias: este procedimiento permite calcular distancias entre casos y entre
variables, en ambos opciones las distancias se calculan a partir de las puntuaciones de
los casos en el conjunto de variables seleccionadas.
Medida. Las medidas de distancias están agrupadas en dos bloques: Disimilaridad y
Similaridad.
El botón Medidas conduce a un subcuadro de diálogo que permite elegir la medida de
distancia que se desea utilizar, tiene dos versiones (que se diferencian por el tipo de
medida que ofrecen) dependiendo de la opción marcada en el recuadro:
- Disimilaridades: Medidas de diferencias o lejanía. Los valores más altos indican que
los elementos son muy distintos o que se encuentran muy alejados.
- Similaridades: Medidas de parecido o cercanía. Los valores más altos indican que los
elementos son muy parecidos o que se encuentran muy próximos.
EJERCICIO PRÁCTICO DE CORRELACION CON SPSS
El Equipo Directivo de un Centro de Educación Secundaria está interesado en conocer
la relación que existe entre el tiempo semanal (horas) que dedican los alumnos al
estudio y las calificaciones medias de los mismos al final de trimestre. Eligiendo 11
alumnos al azar, han encontrado los siguientes resultados. Calcular el coeficiente de
correlación de Pearson.
Primero debemos introducir nuestras variables, como se refleja en la siguiente
pantalla:
58
Una vez identificadas las variables se procede a introducir los valores en la hoja
“vista de datos”:
Para ejecutar la correlación de los valores mostrados, se sigue la siguiente ruta:
ANALIZAR → CORRELACION → BIVARIADAS
59
Luego aparecerá la ventana donde seleccionaremos las variables sobre las que
vamos a cuantificar los coeficientes de correlación.
El coeficiente de correlación para este ejercicio será el de Pearson y la prueba de
significación Bilateral.
Luego vamos a pinchar el botón de opciones y aparecerá la siguiente ventana:
60
Donde tildaremos todas las opciones de Estadísticos y en Valores Perdidos
seleccionaremos “Excluir casos según pareja”. Presionamos continuar → Aceptar.
Una vez realizado el análisis, el SSPS arroja los siguientes resultados:
Los resultados reflejan que estamos ante una correlación muy alta, lo que quiere decir que
para obtener puntuaciones altas en cuanto a notas se necesitan altas horas de trabajo y
estudio semanal.
También podemos elaborar el gráfico de dispersión.
61
Seleccionamos el eje de cada variable
62
Y obtenemos el gráfico:
63
CONCLUSIÒN
Las aplicaciones del programa Spss dentro del área de las ciencias sociales abarca un
aspecto bien importante y a la vez un tema vital dentro de toda investigación que es
procesamiento de datos y emisión de resultados, sin embargo, es un programa amplio y
con diversidad de funciones que no fueron abarcadas por completo en el presente estudio.
Las aplicaciones de la informática en la investigación son importantes, teniendo en cuenta
que cada vez más la cantidad de datos que se manejan y la variedad de análisis que se
realizan rebasan la capacidad del cálculo manual, para ello existen diversos programas,
dentro de los cuales tenemos el SPSS, lo cual hace que la realización de este manual sea
un inicio importante para el manejo de esta valiosa herramienta que permite a quien realice
un estudio de campo poder procesar la información desde datos sencillos y presentarla en
forma de resultados compactos que puedan llevar a tomas de decisiones acertadas a
quienes requieran dicha información basados en información sólida y confiable, es
importante destacar que el uso del Spss hace posible cálculos más exactos, evitando los
redondeos y aproximaciones del cálculo manual y a la vez Permite trabajar con grandes
cantidades de datos, utilizando muestras mayores e incluyendo más variables.
64
BIBLIOGRAFÍA
Benavente del Prado, Arturo Núñez(1992): Estadística Básica par Planificación.Editorial
Interamericana. 6ª. Edición. México.
Berenso, Mark.(1.992): Estadística Básica en Administración. Editorial. Harla. Cuarta Edición.
México.
Best,J. W. (1987): Como Investigar en Educación. Editorial Morata. Madrid – España.
Budnick Frank S. (1992): Matemáticas Aplicadas para Administración, Economía y Ciencias
Sociales. Tercera Edición. Editorial McGaw-Hill Interamericana de México, S.A de C.V. México.
Caballero, Wilfredo (1975): Introducción a la Estadística. Editorial ICA. Costa Rica.
Cadoche, L. S.; G. Stegmayer, J. P. Burioni y M. De Bernardez (1998). Material del Seminario de
Encuestas en Educación, impartido vía internet por parte de la Universidad Nacional del Litoral, en
Santa Fe, y de la Universidad Tecnológica Nacional, Regional Santa Fe, en la República de Argentina.
Castañeda J., J.(1991): Métodos de Investigación 2. Editorial McGraw-Hill. México.
Carono, R., Minujin, A. y Vera, G.(1982): Manual de técnicas de evaluación yajuste de
información Estadísticas. Fondo de cultura económica. México.
Chao, L.(1993): Estadística para la Ciencia Administrativa. Editorial McGraw –Hill. 4ta Edición.
Colombia
CHOU, YA-LUN (1972): Análisis Estadístico. Editorial Interamericana. México
DANIEL WAYNE, W. y Otros (1993): Estadística con Aplicación a las Ciencias Sociales y a la
Educación Editorial McGraw-Hill Interamericana de México, S.A. de C.V. México.
De Oteyza de O., E; Emma Lam O., Carlos Hernández G. y Ángel M. Carrillo H. (1998). Temas
Selectos de Matemáticas. Prentice Hall. México
Enciclopedia Microsoft Encarta 2003 (2003): Censo- Cuestionario- Encuesta. Estadística. Editorial
Microsoft corporation. USA.
ERKIN KREYSZIA (1978): Introducción a la Estadística Matemática. Editorial Limusa, S.A.
México.
FREUD J: E. y Otros (1990): Estadística para la Administración con Enfoque Moderno.Editorial,
S.A. México.
Gomes Rondón, Francisco (1985): Estadística Metodologica: Ediciones Fragor. Caracas.
González, Nijad H. (1986): Métodos estadísticos en Educación. Editorial Bourgeón, Caracas.
Guilford, J. Y Fruchter, B. (1984): Estadística aplicada a la Psicología y la Educación.Editorial
McGraw-Hill Latinoamericana, S. A., Bogotá.
Hamdan González, Nijad (1986): Métodos Estadísticos en Educación. Editorial BourgeónC.A.
Caracas – Venezuela.
65
KEVIN, RICHARD I. (1988): Estadística para Administradores. Editorial Hispanoamericana.
México.
LARSON HAROLD, J. (1985): Introducción a la Teoría de Probabilidades e inferencia Estadística.
Editorial Limusa. México.
LEHMANN, CHARLES H. (1995): ÁLGEBRA. Editorial limusa, S.A. DE C.V. Grupo Noriega
Editores. México.
LEITHOLD, LOUIS (1992): El Cálculo con Geometría Analítica. Editorial HARLA México.
LINCON L., CHAO (1996): Estadística para Ciencias Administrativas. Cuarta edición. Editorial
McGaw-Hill. Usa.
Lenin, R.y Kubin, D.(1992): Estadística para Administradores. Editorial Hispanoamérica. VI
edición. México.
LOPEZ CASUSO, R. (1984): Introducción al Cálculo de Probabilidades e Inferencia Estadística.
Editorial Instituto de Investigaciones Económicas, UCAB. Caracas- Venezuela.
Martínez E., Andrés G.: Introducción al SPSS. Curso de www.spssparatodos.com. 2005.
Mason, Robert (1.992): Estadística para la Administración y Economía. Ediciones Alfaomega
S.A.N. México.
MENDENNAF, W. y OTROS (1981): Estadística para Administradores y Economía. Editorial
Iberoamericana. México.
Mode, Elmer B. (1988): Elementos de Probabilidades y Estadística Editorial Reverte Mejicana.
México.
Murria, R.(1993): Estadística. Edición Interamericana.2da Edición. México.
Murray R. Spiegel (2002): Estadística. Segunda Edición. Serie Schaum. Mc Graw Hill.
PARZEN, E. (1986): Teoría Moderna de Probabilidades y sus Aplicaciones Editorial Limusa:
México
Pérez L., César: Métodos Estadísticos Avanzados SPSS. Thomson Editores Spain S.A. España, 2005.
PUGACHEV, V. S. (1973): Introducción a la Teoría de Probabilidades Editorial Mir. Moscú.
Rivas González, Ernesto(1980): Estadística General. Ediciones de la Biblioteca UCV. Caracas –
Venezuela.
Soto Negrin, Armando (1982): Iniciación a la estadística. Editorial José Marti. Caracas – Venezuela.
Stephen P., Shao (1986): Estadística para Economistas y Administradores deEmpresa.Editorial
Herreros Hermanos, Sucs., S.A., México.
Stevenson, William(1991): Estadística para la Administración y Económica. Editorial Harla.
México.
66
Universidad Nacional Experimental “Simón Rodríguez” (1983): Estadística 1. Ediciones UNESR,
Caracas.
Visanta V., Bienvenido: Análisis Estadístico con SPSS para Windows. Volumen I Estadística Básica. Ediciones Mc Graw Hill, Segunda Edición. España, 2002.
WALPOLE, R. y Myers, R. (1987): Probabilidad y Estadística para Ingenieros. Editorial
Interamericana. México.
Webster, Allen L. (1996): Estadística Aplicada a la Empresa y la Economía. Editorial Irwin. Segunda
edición. Barcelona – España.
Weimer, Richard C. (1996) Estadística. Compañía Editorial Continental, SA de CV. México.
Wonnacott, T. H. y Wonnacott, R: J. (1989): Fundamentos de Estadística para Administración y
Economía. Editorial LIMUSA. México.
Direcciones de Internet que puede consultar
http://es.wikipedia.org/wiki/An%C3%A1lisis_de_la_varianza
http://e-stadistica.bio.ucm.es/web_spss/indice_spss.html
http://www.quimica.urv.es/quimio/general/anovacast.pdf
http://www.ucm.es/info/socivmyt/paginas/D_departamento/materiales/analisis_datosyMultivariable/14anova1_SPSS.pdf
http://www.pucpr.edu/facultad/ejaviles/ED%20800%20PDF%20Files/ED%20800%20An%E1lisis%20de%20Varianzas.pdf
http://asesoriasspss.blogspot.com/2009/08/como-hacer-una-correlacion-de-pearson.
http://fcm.ens.uabc.mx/~chelo/estadistica/doc-pdf/lec-8-2-1.pdf
http://www.uoc.edu/in3/emath/docs/RegresionLineal.pdf
http://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal
http://www.uclm.es/profesorado/raulmmartin/Estadistica/PracticasSPSS/REGRESION_LINEAL_CON_SPSS.pdf
http://www.cicma.una.ac.cr/CICMA2008/REPOSITORIO/REGRESION%20LINEAL%20SIMPLE%20CON%20SPSS.pdf
https://www.uclm.es/profesorado/raulmmartin/Estadistica/PracticasSPSS/REGRESION_LINEAL_
CON_SPSS.pdf
http://www.sc.ehu.es/sbweb/fisica/cursoJava/numerico/regresion/regresion.htm
http://es.wikipedia.org/wiki/Nivel_de_medida
http://html.rincondelvago.com/regresion-lineal-simple.html
http://www.dm.uba.ar/materias/estadistica_Q/2011/1/clase%20regresion%20simple.pdf
http://www.vitutor.com/estadistica/bi/8.html
https://www.uam.es/personal_pdi/economicas/sgarcia/regresionlinealsimple.pdf
http://www.rcumariacristina.com/wp-content/uploads/2010/12/11-Elena-Martinez_1.pdf
http://www.monografias.com/trabajos27/regresion-simple/regresion-simple.shtml
http://es.slideshare.net/patolink/ecuacin-de-regresin-lineal
http://es.wikipedia.org/wiki/M%C3%ADnimos_cuadrados
67
http://es.wikipedia.org/wiki/M%C3%ADnimos_cuadrados_ordinarios
http://www.wordreference.com/definicion/correlaci%C3%B3n
http://www.ditutor.com/estadistica_2/correlacion_estadistica.html
http://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Pearson
http://es.wikipedia.org/wiki/Coeficiente_de_determinaci%C3%B3n
http://es.wikipedia.org/wiki/Matriz_de_correlaci%C3%B3n
http://es.wikipedia.org/wiki/An%C3%A1lisis_de_la_varianza
http://www.infecepi.unizar.es
http://www.lt.bioestadistica.uma.es
http://www.uaq.mx/matematicas/estadisticas/xu3.html
http://www.members-americas.tripod.com
http://www.msip.lce.org
http://www.bnv.co.cr/sesion/nota.aspg
http://www.altavista.com.
http://www.auyantepuy.com
http://www.ine.es.
http://www.udec.cl.
http://www.rincondelvago.com
http://www.monografias.com
http://www.festadistica.fguam.es/indicadores/ipri.html
http://www.uaq.mx/matematicas/estadistica/xu3.html
http://www.ine.go.bo/iwd0801.html#E
http://www.itlp/pública.edu.mx/tutoriales/economia2/portada.htm
http://www.itlp.edu.mx
http://www.ecla.evespanovestadistica/sna93nn/snann7es.html
http://w3mor.itesm.mx/~cmendoza/maest/estoo.html
http://www.mty.itesm.mx/data/materiales/estadistica/ALFREDO.html
http://www.uaq.mx/matematicas/estadistica/xtra.html#funcion
http://www.unl.edu.ar/fave/sei/encuestas/index.html
http://www.monografias.com/trabajos11/opera/opera.shtml
http://www.monografias.com/trabajos6/hiso/hiso.shtml
http://es.wikipedia.org/wiki/Historia_de_los_sistemas_operativos
http://www.monografias.com/trabajos16/sistema-operativo/sistema-operativo.shtml#TIPPOS
http://www.taringa.net/posts/ciencia-educacion/10684779/Tipos-de-Sistemas-operativos.html
http://www.monografias.com/trabajos7/sisinf/sisinf.shtml#ei
http://www.monografias.com/trabajos/anaydisesis/anaydisesis.shtml
http://hamletyelaprendizajevirtual.jimdo.com/inform%C3%A1tica/sistema-operativo
http://www.sliderhare.net/isa06t/características–de-software
http://www.sscc.co.cl/informatica/conceptos.html
http://www.opinionynoticias.com/.../8565-software-libre-en-el-pais-se-nutr ... http://www.cad.com.mx/historia_de_la_computacion.htm http://www.es.wikipedia.org/wiki/Bus_(inform%C3%A1tica)
http://www.cavsi.com/preguntasrespuestas/que-es-un-monitor-o-pantalla/
http://www.cavsi.com/preguntasrespuestas/que-es-el-teclado/
http://www.info-ab.uclm.es/labelec/Solar/elementos_del_pc/.../tipos.htm