guia de uso básico de spss
TRANSCRIPT
Guía de uso básico de SPSS
0. Introducción
El objetivo de esta guía es que el estudiante aprenda a preparar los datos, interpretar
los resultados y formular sus conclusiones mediante SPSS. Los temas a cubrir son:
Importación y propiedades de variables.
Comparación de muestras de una población.
Asociación de variables.
Construcción de gráficos multivariados.
Para realizar los ejercicios se usarán siguientes documentos: (1) Organizaciones.xls,
con datos de organizaciones económicas de la SAGARPA; (2) Seguros, con datos de
aseguradoras; (3) Rehabilitacion.sav, con datos de una población de reclusos; (4)
Leche.sav, con datos de los lecheros de los Altos de Jalisco, y (5) Graficos1.xls y
Graficos2.xls que contienen datos para la construcción de gráficos.
1. Preparación de datos
El análisis de datos casi siempre comienza en una hoja de cálculo, aunque es posible
hacerlo también en la hoja de datos de SPSS. Si se decide comenzar en MS Excel,
entonces debe colocar en la primera fila el nombre de las variables y en las filas
siguientes los datos. Al finalizar se recomienda hacer una inspección de las celdas con
el propósito de asegurarse que ha introducido los datos correctamente.
Las tareas de preparación consisten en: (a) auditar los datos, (b) documentar variables,
(c) transformación de variables (recodificar), y (d) verificación de escalas de medida.
Estas tareas se dividen en dos fases: la primera usualmente se realiza mediante MS
Excel, mientras que las demás en SPSS.
Durante el Taller se usará MS Excel para la adquisición de datos, su auditoría y su
documentación correspondiente. Por su parte, en SPSS se usará el procedimiento para
importar datos, transformación de variables y verificación de escalas de medida1.
1 Las opciones para Excel son Calc de OpenOffice y Gnumeric; las alternativas para SPSS son SAS, BMP (de también de SAS), eViews, STATA, StatGraphics, PSPP, MyStat, MathLab y una gran cantidad de macros programadas para Excel como AnalizeIt, EZAnalize, NumXL, XLStat y XLStatistics. Para elaborar gráficos de negocios las opciones son BMP, SPSS y Origin, entre muchas otras.
2
Abra el documento “Organizaciones.xls”, que contiene tres hojas: Hoja1 (base de datos
de las organizaciones de la SAGARPA), Aspectos del IDO (componentes del índice de
desarrollo organizacional) y VarDescr (descripción de variables).
1.1. Auditoría de datos
La Hoja 1 de “Organizaciones.xls” contiene celdas con datos extremos, incorrectos,
fuera de lo común o no esperados en las celdas AG2, AG8, AG10 y AG11. Una
herramienta que nos ayuda en esta tarea de exploración el filtro y la tabla dinámica.
La siguiente ilustración muestra la apariencia de las columnas cuando se les aplica un
filtro. Cuando se hace “clic” en cualquiera de las columnas aparecen todas las variantes
de los valores. Al usar la barra de desplazamiento vertical (marcada con color rojo) es
posible explorar y descubrir errores en los datos.
3
1.2. Documentación de variables
Con frecuencia es necesario trabajar con datos que prepararon otras personas, de modo
que se dificulta su análisis porque no se está familiarizado con la estructura de la hoja
de cálculo, las variables ni los valores que adoptan. Por eso es necesario documentar la
hoja de datos.
Para documentar una hoja de cálculo en MS Excel existen dos posibilidades. La primera
es añadir comentarios tanto en los títulos de las variables como en sus valores. Note
que los comentarios no alteran las propiedades numéricas de los datos.
La siguiente ilustración muestra los nombres de las variables (los cuales usualmente
son muy cortos para optimizar el espacio visual), que sólo las entiende el autor o quien
las preparó, pero dificulta que otras personas comprendan la estructura de esa hoja de
cálculo. Aquí también se describe el procedimiento para añadir comentarios.
La celda I1 contiene un comentario. Mediante esta herramienta es posible explicar a
otras personas los nombres cortos de las variables y también los valores que adoptan.
Observe al hacer clic o pasar el puntero del ratón en la marca roja de la celda que
contiene un comentario es posible saber quién lo introdujo. También ofrece la
posibilidad de modificarlo y buscar los demás, hacia atrás o hacia adelante.
4
La segunda posibilidad es añadir otra hoja de cálculo donde se ponga en cada renglón
el nombre corto de las variables y a su derecha una descripción detallada de esa
variable y los valores que contiene.
1.3. Importación de datos en SPSS
En las versiones nuevas de SPSS los datos se pueden pegar desde el Portapapeles de
Windows (copiar y pegar). Sin embargo, en versiones anteriores, como la 17, pegar los
datos produce resultados indeseados. Por ejemplo, no asigna correctamente los
nombres de las variables, tampoco interpreta bien las escalas de medida ni los valores.
Para ilustrar esto, observe la siguiente figura.
Para evitar esto, es mejor usar el procedimiento para importar datos. La secuencia de
pasos para abrir un conjunto de datos es esta: File / Open / Data.
5
Se debe indicar en qué directorio están los datos, tipo de archivo, hoja y rango2. La
correcta importación debe tener una apariencia (tanto en variables como en valores)
como la siguiente.
1.4. Verificación de las propiedades de las variables
El siguiente paso es verificar las propiedades de las variables. Esto quiere decir que se
debe indicar a SPSS cómo interpretar la información en lo que se refiere a tipo de datos
y escalas. Para hacer esto se debe escoger la pestaña “Variable view”, que está colocada
en la parte inferior izquierda, junto a “Data view”.
La columna “name” se usa para cambiar el nombre de las variables. Se recomienda que
el nombre sea corto (unos 12 caracteres), ya que “label” sirve para poner el nombre
largo de la variable (usualmente entre 13 y 20 caracteres); “type” se utiliza para indicar
el tipo de valor que tendrá dicha celda, donde los más comunes son “numeric”
(numérico) y “string” (texto); “decimal” se usa para indicar los lugares decimales;
“measure” sirve para modificar la escala de las variables: nominal, ordinal y “scale”
(también llamada de intervalo, razón o proporción).
La escala nominal (o categórica) se utiliza en variables cuyos valores (números o texto)
representan categorías, mientras que la escala ordinal emplea números que expresan
sólo el orden, además de que no tiene las todas las propiedades numéricas que sí tiene
la escala fuerte (también llamada de razón o proporción). Con las escalas nominal y
ordinal sólo se pueden realizar análisis de datos cualitativos (no paramétricos). Por su
parte, la escala fuerte sólo admite números, teniendo la posibilidad de calcular
estadísticos o parámetros, algo típico de las ciencias cuantitativas. Debe notarse que
cualquier varieble con escala fuerte puede transformarse en ordinal y también en
nominal, pero no al revés.
2 Hay que considerar que las versiones de SPSS anteriores no pueden leer archivos de Excel 2007 (*.xlsx), de modo que hay guardarlos en formatos de versiones Excel 2003 o anteriores (*.xls).
6
La figura anterior muestra varios errores en las propiedades de la variable EdadNum
(edad de la organización), ya que SPSS la considera “texto” y le asignó una escala
nominal (debe ser numérica y con escala de intervalo, razón o proporción).
La siguiente figura muestra los cambios realizados en la variable EdadNum, donde se
cambió el tipo (de “String” a “Numeric”); también se añadió su descripción completa en
la columna “Label”; después, en la columna “Measure” el cambio fue de “Nominal” a
“Scale”.
A veces se requiere añadir una descripción de los valores que adoptan las variables
cualitativas. Un ejemplo es cuando la variable tiene valores 0 y 1 para indicar “Sí”, “No”,
“Masculino”, “Femenino”, y así por el estilo. La siguiente figura muestra cómo usar el
procedimiento “Values” en la misma hoja de propiedades de las variables (Variable
view”), ahí donde se cambia la escala y los lugares de decimales.
7
Para ello, se modifica la variable “Alternancia” que tiene valores de 0 y 1, para indicar
que 0 significa “No hubo alternancia” y 1 “Sí hubo alternancia”. En la hoja de
propiedades de las variables se hace clic en la columna de Valores (“Values”), acción
que lleva a la ventana “Values labels”.
En la ventala “Values labels” se escribe el valor 0 en la casilla “Value” y en la casilla
“Label” tecleamos “No hubo alternancia”, después se hace clic en el botón “Add”. Se
repite este paso para el valor 1 (“Sí hay alternancia”). En caso de cometer un error se
debe eliminar la etiqueta presionando el botón “Remove”. Finalmente se presiona el
botón OK, según se muestra en la siguiente figura.
Este procedimiento de añadir etiquetas (“labels”) a los valores de las variables no las
afecta en absoluto, pero al hacer análisis o gráficos con esas variables, en lugar de
mostrar 0 y 1, aparecerán las etiquetas “No hubo alternancia” y “Sí hubo alternancia”,
lo cual evita confusiones y tiene más significado para los lectores.
1.5. Modificar la escala de las variables (recodificar)
Una tarea que se facilita en SPSS es convertir una variable con escala fuerte en ordinal
y nominal (ello implica convertir una variable cuantitativa en ordinal o nominal). El
procedimiento se llama “Recode” (recodificar). Hay dos formas de hacerlo: (i) en la
misma variable y (ii) construir otra variable.
En seguida se ilustra cómo convertir la variable edad de una organización económica
rural en México en varias categorías (transformar una variable cuantitativa en ordinal).
Las categorías son: 0-10, 11-20, 21-30, 31-40, 41-50 y más de 50. La nueva variable se
llamará EdadOrd (edad por categorías). La secuencia es: Transform / Recode into
different variables.
8
En la parte izquierda de la figura aparece una lista de todas las variables. Observe que
las de tipo texto (“string”) tienen la apariencia de esferas junto a una letra, las que son
ordinales se asemejan a una escalera y las numéricas parecen una cinta de medir. Eso
facilita la identificación de los tipos de variables existentes, escoger la técnica de
análisis apropiada y el tipo de gráficos que se puede hacer.
Se selecciona la variable “Edad de la organización” y se presiona el botón flecha derecha
para que dicha variable ingrese en la sección “Input Variable -> Output variable”,
mientras que en la sección “Output variable” se escribe en la casilla “Name” el nombre
corto que tendrá la nueva variable y en la casilla “Label” su descripción completa. En
seguida se presiona el botón “Change”. Observe que en la parte central ya existía la
variable “EdadNum --> ?”, que ahora aparece como “EdadNum --> EdadOrd”. Después
se hace clic en el botón “Old and new values”.
Se usa la opción “Range” para indicar que a todos los valores de cero a diez años los
agrupe en una categoría que se llame “1. De 0-10”, y así sucesivamente. Para crear las
categorías los pasos a seguir son los siguientes: (1) en la sección “Range” se escribe el
valor menor en la primera celda y el valor mayor en la celda “through”; (2) se hace clic
en la casilla “Output variables are strings” para indicar que el nombre de la categoría
serán caracteres alfanuméricos (letras, números y guiones); (3) se escribe el nuevo
nombre o valor que tendrá esa categoría en “New value”; (4) después se presiona el
botón “Add”. Se hace esto mismo para todos los grupos de edad; (5) en la casilla “Width”
se pone un valor mayor de 8 para que los nombres de las categorías no salgan
9
truncados; (6) al terminar se presiona el botón “Continue”. Después se hace clic en el
botón OK. La nueva variable se puede localizar en la última columna de la hoja de datos.
El siguiente ejemplo muestra cómo recodificar la variable una variable nominal
(Vinc_asoc) en variable ordinal (VincOrd). La nueva variable no es categórica en sentido
estricto, sino que expresa diversos grados, calificaciones u orden; tendrá valores
numéricos, pero sin llegar a tener las propiedades de una escala fuerte.
Al hacer clic en el botón “Old and new vales…” se pasa a la sección “Recode into Different
variables: Old and new values”, donde se escribirán los valores nuevos que adoptará la
variable Vinc_asoc (nominal), que se transformará en VincOrd (ordinal). Los nuevos
valores serán: 0 para el vínculo asociativo Débil, 1 para el Medio y 2 para el Fuerte. Las
partes coloreadas con rojo indican las casillas que se están usando.
10
Se presiona el botón “Continue” y después el botón OK. Ahora ya está creada una nueva
variable, localizada en la última columna de la hoja de datos. En la hoja de propiedades
de las variables (Variable view) es necesario indicar que no tendrá decimales y que en
lugar de escala fuerte será una variable ordinal.
Ahora se debe guardar el archivo de datos. En SPSS casi siempre hay dos ventanas
abiertas: una que tiene dos vistas (Data view y Variable view) que al guardarse produce
un archivo de datos nativo de SPSS, con extensión *.sav. La otra ventana se denomina
“Output”, que es un documento donde se guarda la historia de instrucciones, cuadros y
gráficos que resultan del análisis de datos, con extensión *.spo o *.spv3 que se puede
guardar o exportar como *.doc, *.htm, *.pdf, *.ppt y *.rtf (documento básico de MS Word).
Los archivos *.sav pueden abrirse en otras aplicaciones para análisis de datos como SAS,
StatGraphics, STATA y eViews. También existe la posibilidad de generar un archivo de
datos “portable”, cuya extensión es *.por que se puede abrir en otras aplicaciones
similares y otros sistemas operativos como Unix y Macintosh.
Por su parte, los documentos *.spo sólo se pueden abrir en SPSS (aún sin abrir los datos
que le dieron origen); se pueden seleccionar sus cuadros y gráficos para pegarlos en MS
Word. Una ventaja de hacerlo así es que se puede modificar el contenido de las celdas.
3 Estos dos tipos de documento no han cambiado durante el tiempo, de modo que un archivo *.sav y otro *.spo generado con la versión 21 de SPSS pueden abrirse en versiones anteriores.
11
Como ejercicio final de esta sección 1, el estudiante debe hacer las transformaciones
necesarias, tanto en MS Excel y como en SPSS para lograr los resultados que se
muestran en el siguiente cuadro. Los valores que deberán adoptan las variables son:
Variable Descripción de la variable Escala Valores que adopta la variable
Exitosa Si la organizaciónes exitosa
Nominal ORE: Organización rural exitosa; ORNE: Organización rural no exitosa
Estado Estado de la república Nominal No aplica
RegSocEco Región socioeconómica del INEGI Ordinal 1: Chs, Gro, Oax; 2: Cam, Hgo, Pue, SLP, Tab, Ver; 3: Dgo, Gto, Mic, Tla, Zac; 4: Col, Méx, Mor, Nay, QR, Qro, Sin, Yuc; 5: BCN, BCS, Son, Tam; 6: Ags, Chh, Coa, Jal, NL; 7: DF
Figura Figura legal de la organización Nominal No aplica
Vinc_asoc Grado del vínculo asociativo Nominal Débil, Medio, Fuerte
EdadNum Edad de la organización (años) Razón / Proporción 0-100
ActEcoPrin Actividad económica principal Nominal 0: PCTP; 1: Serv; 2: IRNA
Id_Financ Índice de desarrollo financiero Razón / Proporción 0-100%
Id_Profes Índice de desarrollo profesional Razón / Proporción 0-100%
Id_CapFis Índice de desarrollo capital físico Razón / Proporción 0-100%
Id_Inform Índice de desarrollo informático Razón / Proporción 0-100%
Id_Estrat Índice de desarrollo estratégico Razón / Proporción 0-100%
Id_ValSoc Índice de desarrollo valor entregado a sus socios
Razón / Proporción 0-100%
Id_Comer Índice de desarrollo comercial Razón / Proporción 0-100%
Id_General Índice de desarrollo general (promedio de los anteriores)
Razón / Proporción 0-100%
PIB_2003 Participación del PIB del sector agropecuario en el estado
Razón / Proporción 0-100%
Compet_global Índice global de competitividad global Ordinal 0: Bajo, 1: Medio, 2: Alto Compet_econo Indice de competivitidad económica Ordinal 0: Bajo, 1: Medio, 2: Alto Compet_caphu Indice de capital humano Ordinal 0: Bajo, 1: Medio, 2: Alto Compet_infra Indice de infraestructura Ordinal 0: Bajo, 1: Medio, 2: Alto Compet_marreg Indice de marco regulatorio Ordinal 0: Bajo, 1: Medio, 2: Alto Compet_opiemp Indice de opinión empresarial Ordinal 0: Bajo, 1: Medio, 2: Alto Compet_mejreg Indice de mejora regulatoria Ordinal 0: Bajo, 1: Medio, 2: Alto Compet_rapape Indice de rapidez apertura empresas Ordinal 0: Bajo, 1: Medio, 2: Alto Compet_pagext Indice de pagos extraordinarios Ordinal 0: Bajo, 1: Medio, 2: Alto Compet_procjus Indice de procuración de justicia Ordinal 0: Bajo, 1: Medio, 2: Alto Compet_projuez Indice de probidad de los jueces Ordinal 0: Bajo, 1: Medio, 2: Alto Compet_rapjm Indice de rapidez de un juicio Ordinal 0: Bajo, 1: Medio, 2: Alto Compet_efisen Indice de aplicación de sentencias Ordinal 0: Bajo, 1: Medio, 2: Alto Compet_aplirec Indice de aplicación de recursos Ordinal 0: Bajo, 1: Medio, 2: Alto Autoconsumo Proporción de alimentos destinada al
autoconsumo en el estado en 2003 Razón / Proporción 0-100%
Alternancia Si hubo un gobernador postulado por un partido político distinto
Nominal 0: No, 1: Sí
EdadCat Edad de la organización por categorías Ordinal 1: 0-10, 2: 11-20, 3: 21-30, 4: 31-40, 5: 41-50, 6: Más de 50
Vinc_asoc Grado del vínculo asociativo Ordinal 0: Débil, 1: Medio, 2: Fuerte
1.6. Exploración de datos
La primera tarea que debe realizar un analista es hacer un diagnóstico exploratorio de
los datos. Esto es diferente de lo que se hace en la auditoría, donde lo que se busca es
12
que los datos estén “limpios” o capturados sin errores. Con la exploración lo que se
pretende es obtener la estadística descriptiva de esos datos a fin de descubrir algunos
patrones o relaciones estadísticas.
En SPSS hay dos tres opciones para ello: (1) Frecuencias, (2) Estadísticos descriptivos
y (3) Tabulaciones cruzadas. Casi siempre nos interesa conocer la media, la desviación
estándar, el valor mínimo, el valor máximo, el rango, la asimetría y la curtosis.
Adicionalmente interesa averiguar si los datos se ajustan a una distribución normal.
Para este ejercicio abra el archivo Clientes.sav. Vaya al menú principal, elija la secuencia
de órdenes: Analyze / Descriptive statistics / Frecuencies. Arrastre con el puntero Edad
e Ingreso anual hacia la sección de “Variables”. Presione el botón Statistics para obtener
los indicadores o parámetros deseados (media, desviación estándar, etc.). El botón
“Chart” ofrece la posibilidad de obtener un gráfico de frecuencias, además de mostrar n
forma visual si las variables se ajustan a la distribución normal.
Algunos resultados del análisis exploratorio son los siguientes:
13
Estadístico descriptivo Edad (años) Ingreso anual (pesos)
N Valid 5,000 5,000 Mean 46,94 261,167 Median 46,00 180,310 Mode 18 104,390 Std. Deviation 17,703 263,559 Skewness .097 5,125 Kurtosis -1,174 56.259 Range 61 5,048,680 Minimum 18 42,705 Maximum 79 5,091,385
De forma visual se puede inferir que ninguna de las variables cumple con el supuesto
de normalidad. Sin embargo, la forma correcta de hacerlo es aplicar una prueba no
paramétrica que permite probar si una variable se ajusta a alguna distribución Normal,
Binomial, Poisson, Exponencial, etc. Otra alternativa es aplicar esta regla: se cumple el
requisito de normalidad sólo si los coeficientes de asimetría (skewness) y curtosis
(kurtosis) representan menos del doble de su error estándar respectivo.
La secuencia de órdenes es: Analyze / Nonparametric Tests / 1-Sample K-S. Se debe
“arrastrar” las variables deseadas hacia la sección “Test Variable List”, asegurarse de
marcar la casilla “Normal” en la sección “Test Distribution” y hacer clic en el botón OK.
14 One-Sample Kolmogorov-Smirnov Test
Edad (años) Ingreso anual (pesos) N 5,000 5,000 Normal Parameters (a,b) Mean 46.940 261,167.650 Std. Deviation 17.703 263,559.840 Most Extreme Differences Absolute 0.073 0.204 Positive 0.073 0.175 Negative -0.062 -0.204 Kolmogorov-Smirnov Z 5.131 14.390 Asymp. Sig. (2-tailed) 0.000 0.000
a Test distribution is Normal. b Calculated from data.
El supuesto o la hipótesis nula (H0) es que ambas variables cumplen con este criterio.
Ahora solo basta con localizar el renglón “Asymp. Sig (2-tailed) para saber si las
variables cumplen con el supuesto de distribución normal. Como el valor de p es menor
a 0.05, se concluye que el Ingreso anual y la Edad no se distribuyen normalmente4.
2. Comparación de muestras de poblaciones
Con frecuencia interesa saber si dos poblaciones (representadas por sus muestras) son
independientes o diferentes entre sí, y a veces en cuánto, dependiendo de su escala5.
Las aplicaciones informáticas para análisis de datos son útiles en esta tarea. Para ello lo
primero que se hace es determinar el tipo (o escala) de variables que se disponen, ya
que de eso depende la prueba estadística que se usará. El siguiente cuadro ilustra el tipo
de variable dependiente, variable independiente, tipo de prueba recomendada e
hipótesis nula más común.
Ahora hagamos cuatro ejercicios, utilizando el archivo de datos “org.sav”. El primero de
ellos será demostrar si dos muestras son independientes entre sí mediante la Ji-
cuadrada (2) con dos variables nominales. El segundo será la prueba “U” de Mann-
Whitney con una variable nominal y una ordinal para comprobar las diferencias entre
poblaciones. El tercero ser una comparación de medias con la Prueba “t”. El cuarto será
la comparación de poblaciones mediante el análisis de varianza (ANOVA: analysis of
variance) con variables nominales y de proporción/intervalo (escala fuerte).
4 La hipótesis nula (H0) supone que todo “sigue igual”, “sigue como está”, que “no pasa nada”, que “no existe diferencia” o que “todo está bien”. Para facilitar la decisión se propone responder la pregunta: ¿Hay elementos para rechazar (H0)? La respuesta debe ser: Sí, y solo si p<0.05. 5 Cuando se desea saber si una población es diferente de otra se puede aplicar la comparación de muestras. Para saber el grado de asociación se puede usar el análisis de correlación y el análisis de varianza. Si se necesita ir más allá, como descubrir una relación de dependencia estadística o cuánto contribuye una variable en el desempeño de otra se aplica el análisis regresión u otras técnicas de análisis multivariado. Esto no implica una relación de causa y efecto, sino una relación de carácter estadístico.
15
Criterios para seleccionar la prueba estadística para
diferencias entre medias poblacionales
Escala de medición mínima Prueba apropiada Ejemplo Hipótesis nula típica
Var. indep. Var. dep.
Nominal Nominal Dos o más medias: Ji–cuadrada (2)
Preferencia por una variedad de semilla
No hay diferencia significativa entre productores de dos o más regiones en cuanto a la preferencia por dos o más variedades de semilla
Nominal Nominal* Dos medias: Mann–Whitney U(z)
Más de dos medias: Kruskal-Wallis
Valoración del programa por nivel de escolaridad
No hay diferencia significativa entre productores con diferente nivel de escolaridad en la valoración del programa
Nominal Intervalo Dos medias: Prueba “t”
Más de dos medias: Análisis de varianza
Rendimientos por hectárea según el tipo de productor
No hay diferencia significativa entre los rendimientos de los productores ejidales y privados.
* Ordinal sólo si se la escala de intervalo no se distribuye normalmente.
Fuente: Tomado de Santoyo, Ramírez y Murari, 2000, Manual para la evaluación de programas de desarrollo rural, 2a
edición, Mundi-Prensa, México.
2.1. Comparación de dos muestras: variables nominal/nominal
Mediante la prueba de Ji-cuadrada6 se probará si la variable Exitosa (organización
exitosa según el padrón de la SAGARPA) y VincAsoc (fortaleza del vínculo asociativo de
una organización) están relacionadas. La hipótesis nula (H0) es que no hay una
diferencia estadísticamente significativa en la fortaleza del vínculo asociativo entre el
selecto grupo de 24 organizaciones que se consideran exitosas y las otras 1,821.
La secuencia de acciones del menú en SPSS es esta: Analyze / Descriptive statistics /
Cross-tabulations.
6 Según la Wikipedia, “la letra griega χ se transcribe a otros idiomas (alemán, inglés o latín) como ‘chi’. En cualquier caso, la pronunciación en castellano es ‘ji’. Tal diferencia es debida a la ausencia una letra para el sonido ‘j’ español en tales idiomas, y el sonido se imita con el dígrafo ‘ch’”.
16
Después se selecciona “Exitosa” y se pulsa el botón flecha derecha en la sección “Row”
y “VincAsoc” en la sección “Column”. El botón “Statistics” tiene varias opciones, dentro
de las cuales nos interesa “Chi-Square”.
El resultado son tres cuadros. El primero es de doble entrada que funciona como una
tabla de frecuencias múltiple, mientras que el segundo ofrece el valor de Ji-cuadrada,
sus grados de libertad (“degree of freedom”) y la significancia estadística con dos colas
(“two tails” o “two-sided”). El tercero sirve para medir la correlación.
Cross-tabulation: Exitosa * Fortaleza del vínculo asociativo
Tipo de organización Fortaleza del vínculo asociativo
Total Débil Fuerte Medio ND
Organización rural exitosa 6 11 7 0 24 Organización rural no exitosa 253 810 657 101 1,821
Total 259 821 664 101 1,845
Chi-square tests
Value df Asymp. Sig.
(2-sided)
Pearson Chi-Square 3.737a 3 0.291 Likelihood Ratio 4.681 3 0.197 N of Valid Cases 1,845
a 2 cells (25.0%) have expected count less than 5. The minimum expected count is 1.31.
Symmetric measures
Value Asymp. Std.
Error(a) Approx.
T(b) Approx.
Sig.
Nominal by Nominal Phi 0.045 .291 Cramer’s V 0.045 .291
Ordinal by Ordinal Kendall's tau-c 0.010 .006 1.672 .095
N of Valid Cases 1,845 a Not assuming the null hypothesis. b Using the asymptotic standard error assuming the null hypothesis.
17
Interpretación: Como el valor calculado de p = 0.291 para la Ji-cuadrada de Pearson
(2) es mayor al valor crítico de p < 0.05, no hay elementos para rechazar la hipótesis
nula (H0) de que las muestras son iguales. En pocas palabras: ambas muestras son
estadísticamente iguales, ya que p > 0.05.
2.2 Comparación de dos muestras: variables nominal/ordinal
Para probar la diferencia entre dos muestras con una variable nominal y otra ordinal se
puede utilizar la prueba “U” de Mann-Whitney. Para este caso se usará como variable
nominal “Alternancia” y como ordinal “RegSocEco” para probar que el desarrollo
socioeconómico regional (donde 1 es pobre y 7 es más desarrollado) no tiene que ver
con la alternancia política (elección de gobernador de diferente partido).
La secuencia de opciones del menú es esta: Analyze / Non parametric tests / 2
indepentent-sample tests. No hay que marcar ninguna otra casilla, puesto que la casilla
para “U” está marcada por defecto. Sólo resta indicar cuáles son los grupos o categorías
en que se divide la variable independiente (Alternancia): 0 para “No” y 1 para “Sí” en el
botón “Grouping variable”, haciendo clic en el botón “Define groups”.
Los resultados de la prueba Mann-Whitney para probar la relación de una variable
nominal y una ordinal son los siguientes:
Ranks
Variable Gobernador de
diferente partido N
Mean Rank
Sum of Ranks
Región socioeconómica del INEGI
No hubo alternancia 1,081 867.44 937,701.50 Sí hubo alternancia 764 1,001.61 765,233.50
Total 1,845
18 Test statistics (a)
Estadístico Región socioeconómica INEGI
Mann-Whitney U 352,880.500 Wilcoxon W 937,701.500 Z -5.419 Asymp. Sig. (2-tailed) .000
a Grouping Variable: Gobernador de diferente partido.
Interpretación: La prueba “U” de Mann-Whitney tiene una p menor al valor crítico
(< 0.05), por lo hay elementos para rechazar la hipótesis nula (H0) de que ambas
muestras son iguales. En pocas palabras: la elección de un gobernador distinto sí tiene
relación con el desarrollo regional donde se ubica la organización.
2.3. Comparación de muestras: variables nominal/razón (proporción)
Cuando se comparan una muestra nominal y otra de razón (proporción) se usa la
Prueba “t”. Se utilizará la variable “Alternancia” con “Id_CapFis” para probar que la
costumbre de “bajar” subsidios no se ve reducida con el cambio de gobernador.
La secuencia del menú es esta: Analyze / Compare means / Independet sample T tests.
La variable Id_CapFis se coloca en la sección “Test variables”, mientras que en la sección
Grouping variable se coloca la variable “Alternancia” para distinguir a las muestras, que
adoptan los valores de 0 y 1 (“No” y “Sí”).
Independent samples test
Variable Supuesto
Levene’s Test for Equality of Variances
t-test for Equality of Means
F Sig. t df Sig. (2-tailed)
Mean Difference
Std. Error Difference
95% Confidence Interval of the
Difference
Lower Upper
Índice de capital físico
Equal variances assumed
.488 .485 .548 1,843 .584 .929 1.697 -2.39 4.25
Equal variances not assumed
.547 1,629 .585 .929 1.701 -2.40 4.26
19
Interpretación: La prueba de Levene indica que las varianzas son homogéneas (la H0
supone que “que no pasa nada”) porque su significancia es de 0.485 (mayor a 0.05);
además, “t” tiene un valor de p = 0.584 (mayor al valor crítico de p < 0.05), por lo se
acepta la hipótesis nula (H0) que no hay diferencia entre las medias de ambas muestras.
O sea, que no existe una reducción en “bajar” subsidios y el cambio de gobernador de
distinto partido político. Esta práctica existe con o sin alternancia política.
Por otra parte, se aplica el análisis de varianza cuando se comparan muestras de varias
poblaciones. El ANOVA de una vía sólo indica si hay diferencia entre las muestras, pero
no dice cuáles ni en cuánto se diferencian. Por ello se añadieron a esta prueba los
“contrastes” que clasifican las medias según sus diferencias. Uno de los contrastes más
conocidos es el de Tukey, pero hay otros más como el de Scheffe.
A continuación se ilustra si existe variabilidad o diferencia entre el índice de capital
físico (Id_CapFis) y el desarrollo socioeconómico regional (RegSocEco). Se supone que
entre más desarrollada esté una región está menos acostumbrada a “bajar” los apoyos
o subsidios gubernamentales y se rige por criterios profesionales (en vez de políticos).
La secuencia del menú es esta: Analyze / Compare means / One-way ANOVA. La
variable Id_CapFis (escala de proporción) se coloca en la sección “Dependent list”,
mientras que en la sección de “Factor” se pone “RegSocEco” (escala ordinal, que en este
caso particular trataremos como nominal). Dentro de las comparaciones Post Hoc
elegiremos “Scheffe”, y dentro de las opciones se escogerán las estadísticas descriptivas
y la prueba de homogeneidad de varianza. La hipótesis nula es que no hay diferencia
del índice de capital físico entre las regiones socioeconómicas.
Test of homogeneity of variances: Indice de capital físico
Levene Statistic df1 df2 Sig.
21.146 6 1,838 .000
ANOVA: Índice de capital físico
Sum of Squares df Mean Square F Sig.
Between Groups 97,879.559 6 16,313.260 13.156 .000 Within Groups 2,279,028.602 1,838 1,239.950
Total 23,769,08.160 1,844
20 Homogeneous Subsets: Scheffe (Índice de capital físico)
Región socio-económica INEGI
N Subset for alpha = .05
2 3 1
1 358 50.559 4 425 53.333 2 390 57.692 57.692 3 239 59.554 59.554 59.554 5 182 69.963 69.963 7 79 70.886 6 172 71.124
Sig. 0.384 0.066 0.104 Means for groups in homogeneous subsets are displayed. a Uses Harmonic Mean Sample Size = 195.197. b The group sizes are unequal. The harmonic mean of the group sizes is used. Type I error levels are not guaranteed.
Interpretación: El estadístico “F” de la tabla ANOVA es altamente significativo, lo que
indica que sí hay variabilidad o diferencias entre las diferentes regiones
socioeconómicas (la H0 supone que no hay diferencias). Hay que aclarar que no se
cumple el supuesto de homogeneidad de varianzas.
La prueba de Scheffe indica que las regiones socioeconómicas se pueden clasificar en
tres grupos, ya que la 1, 4, 2 y 3 tienen un índice de capital físico similar. La 2, 3 y 5
también tienen similitudes entre ellas. La 3, 5, 7 y 6 también se parecen entre sí.
Podemos concluir que en lo referente a este indicador, el Distrito Federal se asemeja
más a los estados norteños de Baja California, Baja California Sur, Sonora, Tamaulipas,
Chihuahua, Coahuila y Nuevo León, así como Aguascalientes y Jalisco.
3. Asociación de variables
En la sección anterior sólo se probó si las muestras de las variables eran diferentes
entre sí. Ahora veremos qué tanto están correlacionadas o el grado en que las variables
“caminan juntas”. Eso no indica una relación de causa y efecto. Si el valor de un
coeficiente es cercano a cero significa que hay poca relación entre ellas; si es negativo,
pudiera sugerir que los valores de una variable aumentan mientras disminuyen los de
otra; si el coeficiente es cercano a 1 indica que están altamente correlacionadas o tal
vez signifique que una variable es de algún modo múltiplo de otra.
A continuación se trabajarán tres ejemplos de asociación entre variables: (i) nominal-
nominal, (ii) ordinal-ordinal, y (iii) de proporción-proporción.
21
Criterios para seleccionar la prueba estadística para relaciones entre variables
Escala de medición Prueba apropiada Ejemplo Hipótesis nula típica
1ª variable 2ª variable
Nominal Nominal Coeficiente de contingencia () o V de Cramer
Tipo de adopción tecnológica y nivel de ingreso del productor
No existe relación entre el tipo de adopción tecnológica y el nivel de ingreso al que pertenece el productor
Ordinal Ordinal Tau () de Kendall Rho () de
Spearman
Valoración del programa y nivel de escolaridad
No existe relación entre la valoración del programa y el nivel de escolaridad del productor
Intervalo Intervalo 2 variables: r de Pearson
Dosis de fertilizante y rendimiento por superficie
No existe relación entre la dosis de fertilizante y el rendimiento por hectárea
3 ó más variables: regresión múltiple
Rentabilidad vs rendimiento y costo por tonelada
La rentabilidad no tiene relación con el rendimiento por hectárea y costo por tonelada
Fuente: Tomado de Santoyo, Ramírez y Murari, 2000, Manual para la evaluación de programas de desarrollo rural, 2a
edición, Mundi-Prensa, México.
3.1. Asociación de dos variables nominales
Al estimar el grado de asociación entre dos variables nominales produce el un
coeficiente como el de Contingencia (’ o la V de Cramer.
Ahora relacionemos la edad de las organizaciones por categorías y la alternancia
política (EdadOrd vs Alternancia). La hipótesis nula es que la edad de las organizaciones
no tiene que ver con la alternancia política en los estados (suposición de que las
organizaciones permanecen aún con la alternancia política).
En el menú se elige Analyze / Descriptive statistics / Cross tabulations7. En la sección
“Rows” se coloca la variable Alternancia y en la sección “Columns” la variable Índice de
competitividad global. Se presiona el botón “Statistics” para indicar los indicadores a
calcular. Después se hace clic en el botón “Continue” y luego se presiona el botón “OK”.
Symmetric measures
Nominal by Nominal Value Approx. Sig.
Phi () .097 .008
Cramer's V . 097 .008
Contingency Coefficient (’) . 097 .008
N of valid cases 1,845 a Not assuming the null hypothesis. b Using the asymptotic standard error assuming the null hypothesis. c Correlation statistics are available for numeric data only.
7 La alternativa es usar Analyze / Correlate / Bivariates, pero no ofrece todas las opciones.
22
Interpretación. La correlación (de 0.097) entre estas dos variables es irrelevante,
según Davis, 1971 (citado por Santoyo, Ramírez y Murari, 2000). Hinkle, Wiersma y Jurs
(1970, también citados por Santoyo et al) indican que esta es muy pequeña o ausente.
Por lo tanto, la edad de las organizaciones no se ve afectada por la alternancia política.
3.2. Asociación de dos variables ordinales
El siguiente ejemplo se hará con dos variables ordinales: el índice de competitividad
global del Instituto Mexicano de la Competitividad (IMCO) y la regionalización
socioeconómica del INEGI. El sentido común indica que entre más alto sea el desarrollo
socioeconómico regional mejor será su índice general de competitividad porque tiene
mejor marco regulatorio, mejor infraestructura, mejor sistema educativo y mayor
desarrollo institucional, entre otros aspectos.
Symmetric measures
Tipo de variable Estadístico Value Asymp. Std.
Error(a) Approx.
T(b) Approx.
Sig. Nominal by Nominal Phi () .484 .000
Cramer’s V .342 .000
Contingency Coefficient (’) .435 .000
Ordinal by Ordinal Kendall’s tau-b .094 .022 4.354 .000 Kendall’s tau-c .103 .024 4.354 .000
Spearman Correlation .108 .025 4.645 .000(c)
Interval by Interval Pearson’s r .132 .025 5.718 .000(c)
N of Valid Cases 1,845 a Not assuming the null hypothesis. b Using the asymptotic standard error assuming the null hypothesis. c Based on normal approximation.
En el cuadro anterior debe notarse que también se calculan los coeficientes de
correlación para variables nominales y de razón o proporción, siendo éstos mucho más
altos que los coeficientes de variables ordinales. En este caso particular, tal vez sea
mejor considerar las variables ordinales como nominales.
Interpretación. Los coeficientes Tau b, Tau c y de Spearman indican que, contrario a lo
esperado, hay una asociación baja entre la regionalización socioeconómica y el índice
de competitividad que calcula el IMCO.
3.3. Asociación de dos variables de razón o proporción
Ahora toca el turno a la correlación entre dos variables fuertes (de razón o proporción).
Relacionemos la participación del PIB agropecuario en la economía del estado, la
proporción de los productos agropecuarios que se destina al autoconsumo y la edad de
las organizaciones. Supongamos que entre más peso tenga el sector agropecuario en el
estado, mayor será su nivel de autoconsumo y que sus organizaciones son las que tienen
23
mayor edad. En este caso se puede utilizar la correlación bi-variada: Analyze / Correlate
/ Bivariate como alternativa al procedimiento de tabulaciones cruzadas8 porque existe la
posibilidad de que se ponga una etiqueta (“flag”) a la significancia de las correlaciones
mediante asteriscos. Otra ventaja es que se puede indicar si la significancia abarca las dos
colas (“tails”) o solo una.
Correlations
Variable Estadístico Edad de la
organización (años)
Participación del PIB
agropecuario
Índice de autoconsumo
del estado
Edad de la organización (años) Pearson Correlation 1 -.035 -.005 Sig. (2-tailed) .142 .830 N 1,760 1,760 1,645
Particip. del PIB agropecuario Pearson Correlation -.035 1 .201(**) Sig. (2-tailed) .142 .000 N 1,760 1,845 1,722
Índice de autoconsumo Pearson Correlation -.005 .201(**) 1 Sig. (2-tailed) .830 .000 N 1,645 1,722 1,722
** Correlation is significant at the 0.01 level (2-tailed).
Interpretación. Este cuadro muestra que una participación importante del PIB
agropecuario en la economía del estado se relaciona ligeramente en forma positiva con
el índice de autoconsumo (esa es la única correlación significativa, que se indica
mediante asteriscos). Eso quiere decir que tiene mucho peso la economía campesina.
8 Cuando se trata de medir la correlación de variables nominales u ordinales la mejor alternativa es usar las opciones Analyze / Descriptive statistics / Cross tabulations que ofrece más opciones para construir cuadros (tabulaciones cruzadas) e indicadores, además de que se puede escoger cuáles variables se ubicarán como columnas y cuáles como renglones.
24
3.4. Análisis de regresión lineal
El análisis regresión es muy amplio. Tan es así que es frecuente que en la licenciatura
se imparta primero un curso de “Estadística”, y después uno o dos cursos de
“Econometría”, así como otro de “Series de tiempo”.
En esta sección se mostrará la contribución estadística que tiene una variable sobre
otra. Mientras la correlación indica el grado de asociación entre variables (“que
caminan juntas”), el análisis de regresión intenta descubrir una relación causal
estadística entre ellas. El análisis de regresión pretende estimar el comportamiento de
una variable dependiente en función del comportamiento de las independientes.
A continuación se ilustra un ejemplo de regresión, utilizando para ello la variable Índice
general de desarrollo organizacional, el nivel de autoconsumo, la edad de las
organizaciones y la participación del PIB del sector agropecuario en la economía del
estado. La secuencia de pasos es: Analyze / Regression / Linear.
En la casilla de “Dependent variable” se introduce Id_general (que es la que se va a
estimar y que depende de las otras), mientras que en la sección “Independent variables”
se colocan las explicativas o predictoras9.
9 Casi siempre se utilizan variables con escalas fuertes, aunque es posible utilizar también variables
categóricas. El análisis en esos casos adopta nombres como regresión logística, modelos probit, variables
25 ANOVA(b)
Sum of Squares df Mean
Square F Sig.
Regression 7,043.210 3 2,347.737 5.449 .001(a) Residual 707,040.339 1,641 430.859 Total 714,083.549 1,644
a Predictors: (Constant), Índice de autoconsumo del estado, Edad de la organización (años), Participación del PIB agropecuario. b Dependent Variable: Índice de desarrollo organizacional.
Coefficients(a)
Unstandardized
Coefficients Standardized Coefficients t
Sig. Std. Error
B Std. Error Beta
Intercepto (Constant) 32.729 1.259 25.999 .000 Edad de la organización (años) .083 .042 .049 1.991 .047 Participación del PIB agropecuario .317 .091 .087 3.479 .001 Índice de autoconsumo del estado .003 .037 .002 .082 .934
a Dependent Variable: Índice de desarrollo organizacional.
Primero se debe observar los valores de la columna “t” o significancia (“Sig.”). Debe
procurarse que el valor de “t” sea mayor a 1.96 y que tenga una significancia menor que
p < 0.05. En nuestro ejemplo, el único valor significativo es la participación del PIB
agropecuario en la economía del estado, cuyo coeficiente es de 0.317, su error estándar
de 0.091, su valor “t calculado” de 3.47 y una significancia menor a 0.05%. La edad de
la organización tiene buen valor de “t”, pero su coeficiente no es relevante.
Para informar el resultado de una regresión es escribir el modelo con su intercepto y
sus variables significativas, poniendo debajo del parámetro su error estándar:
Ŷ = 32.729 + 0.317 PIB
(1.25) (0.91)
Interpretación: Por cada unidad que aumente la participación de PIB agropecuario en
el estado se logrará que el índice general de desarrollo organizacional aumente 0.3
unidades, si todo lo demás permanece constante (ceteris paribus).
Comentarios adicionales. En el análisis de regresión aparece primero la tabla ANOVA,
donde lo más importante es el valor de “F” y su significancia. Si “F” es significativo (p
< 0.05) indica que el modelo (el conjunto de variables independientes) sí tienen una
influencia sobre la variable dependiente que está siendo estimada.
Dummy o con panel. Asimismo, las opciones que ofrecen los botones, Method, Statistics, Plots, Save y
Options usualmente se explican en cursos avanzados de Econometría.
26
El segundo cuadro contiene los coeficientes o parámetros individuales, algunos de los
cuales pueden tener una influencia pobre o nula sobre la variable dependiente, no
obstante que el modelo completo contenido en la tabla ANOVA así lo indique. Aquí es
donde cobra relevancia el valor del estadístico “t”. Este cuadro ofrece para cada variable
independiente el valor del parámetro (), su error estándar, el coeficiente Beta
normalizado, el estadístico “t” y su significancia individual.
El valor de R2 (“coeficiente de determinación”) tiene relevancia en las ciencias
biológicas (no es lo mismo que el coeficiente de correlación r de Pearson). Sin embargo,
en las ciencias sociales este coeficiente tiene poca importancia. Eso es así porque un
valor alto de R2 indica que el modelo global sirve para estimar muy bien la variable
dependiente, pero es posible que los parámetros individuales no sean significativos.
Por esta razón es mejor centrarse en los valores individuales de “t”, que se calcula
dividiendo el valor del parámetro entre su error estándar. El criterio de decisión es
que dicho valor sea mayor a 2.0, ya que el valor de “t de tablas” para 20 observaciones
con una significancia de p < 0.05 es de 1.96. En pocas palabras: “t calculado” debe ser
mayor que el valor crítico (“t de tablas”).
Una regla para el análisis de regresión es utilizar variables con escalas fuertes (a menos
que se trate de modelos logit, probit, con variables Dummy o en panel). También se
requiere tener al menos 20 observaciones para cada variable. Además, las aplicaciones
modernas para análisis estadístico incluyen muchas herramientas y procedimientos
para hacer diagnósticos de multicolinealidad, heterocedasticidad y autocorrelación. Así
que se recomienda profundizar en estos temas porque muchos de los modelos que se
estiman frecuentemente están mal diseñados.
Los problemas de heterocedasticidad aparecen cuando se analizan muestras pequeñas,
se analizan datos heterogéneos o cuando hay deficiencias en la captura de datos, por lo
que no se cumplen los supuestos de la distribución normal. La multicolinealidad se
presenta cuando se construye un modelo con variables que “caminan juntas” o que
“casi” son múltiplos unas de otras. Por su parte, la autocorrelación se produce cuando
se analizan variables con observaciones que dependen de datos anteriores (por
ejemplo, los presupuestos muchas veces dependen de la inflación del año anterior).
4. Uso de gráficos
Aunque en el mercado hay muchas aplicaciones para producir gráficos, el programa
informático SPSS tiene muchas ventajas por su facilidad de uso, la calidad, versatilidad
y sofisticación de las figuras que se pueden elaborar.
27
Abra el documento “Graficos1.xls” que contiene datos de la participación del PIB del
sector agropecuario en la economía durante 2003, así como el índice de autoconsumo
de la producción de ese sector en ese mismo año. Las variables son: Edo, PIB y IAC. El
archivo “Graficos2.xls” contiene algunos estados para las mismas variables anteriores.
Una opción para construir gráficos en SPSS es usar el “Chart Builder”, el cual permite
arrastrar o mover (“drag”) las variables con el puntero del ratón hacia los ejes del
gráfico y él área de leyendas. Lo primero que se hace es escoger un tipo de gráfico de la
galería y después arrastrar o colocar las variables en la sección correspondiente.
En este Taller se construirán dos gráficos. El primero ilustra las bondades de SPSS con
los gráficos “scatter dot” (diagrama de dispersión) para mostrar texto en lugar de los
datos de las variables. El segundo enriquecerá el análisis de datos mediante gráficos de
caja (“box plot”).
4.1. Construcción de gráficos en cajas
Para construir una figura de cajas que muestre los estados en lugar de los valores de las
variables, se escoge la opción “Simple boxplot”. Se arrastra ese tipo de gráfico hacia el
área de dibujo. Luego se “arrastra” la variable categórica hacia el eje de las X y la
variable cuantitativa hacia el eje Y.
28
Este tipo de gráficos muestra los valores mínimos y máximos que adoptan las variables,
al mismo tiempo que muestran otros elementos interesantes. Observe la figura
anterior. La longitud de la caja se llama “rango intercuartil”. Los valores superiores a
1.5 veces el rango intercuartil se conocen como observaciones no regulares (“outliers”).
Las obervaciones entre 1.5 y 3.0 veces el rango intercuartil son los datos extremos.
4.2. Construcción de diagramas de dispersión
En el Chart Builder se debe escoger el tipo “grouped scatter dot” de la galería,
arrastrarlo hacia el área de gráficos, arrastrar las variables y presionar el botón OK. Esto
permitirá alterar los atributos de los marcadores.
Estado
NLJalDFChhBCNAgs
Id_G
ener
al
100
80
60
40
20
0
29
Una vez que ya se ha generado el gráfico se debe hacer doble clic sobre este, a fin de
poder modificar los ejes, leyendas, etiquetas, rellenos, marcadores y otras opciones.
En el menú, ir a la opción “Elements” y localizar “Show data labels”. Esto también
aparece si se presiona el botón derecho del ratón.
Ahora observe que se muestran junto a los marcadores los valores de las variables. Note
también que al lado derecho aparece también la venta de “Properties”. En la pestaña
“Data Value Labels” aparece la sección de “Displayed” se muestra una regla con el
nombre “Case number” que se debe marcar y luego hacer clic en el botón que tiene la X
en color rojo para eliminar y poner en su lugar “Estado” que está en la sección “Not
displayed” mediante hacer clic en el botón que tiene la flecha de color verde. Hacer clic
en el botón Apply.
30
En lugar mostrar los datos de las variables ahora se muestran los estados, encerrados
en un cuadro. En la ventana “Properties” que está al lado derecho se debe indicar que
no se desea relleno (“fill”) ni línea de contorno (“border”) mediante hacer clic en sus
respectivos botones y luego marcar la casilla que tiene una raya diagonal en color rojo.
El objetivo es lograr que tanto “Fill” y “Border” tengan una diagonal roja. Hecho esto se
puede borrar la leyenda de los estados que se localiza al lado derecho.