análisis, diseño y comparación de indicadores sintéticos
TRANSCRIPT
Análisis, diseño y comparación de indicadores sintéticos
XVI Jornadas ASEPUMA – IV Encuentro Internacional
Rect@ Vol Actas_16 Issue 1:803
1
Análisis, diseño y comparación de indicadores
sintéticos Pérez García, Fátima – [email protected]*
Blancas Peral, Francisco Javier - [email protected]** González Lozano, Mercedes – [email protected]*
Guerrero Casas, Flor Mª. - [email protected]** Lozano Oyola, Macarena - [email protected]**
Ruiz Camacho, Manuel – [email protected]*** *Departamento de Economía Aplicada (Matemáticas)
Universidad de Málaga **Dpto. de Economía, Métodos Cuantitativos e Hª Económica
Universidad Pablo de Olavide ***Departamento de Estadística e I.O.
Universidad de Málaga
RESUMEN
En el presente trabajo presentamos un nuevo indicador sintético fruto de la combinación
de dos métodos plenamente contrastados: análisis en componentes principales y DP2. Dicho
indicador trata de combinar las buenas propiedades de los precedentes y superar sus
inconvenientes. Además, se implementa un programa informático de fácil y sencilla utilización
que se adapta a las necesidades requeridas por los usuarios que trabajan con este tipo de
herramientas. Por último, tanto el funcionamiento del indicador creado como del programa
desarrollado son contrastados con datos correspondientes al turismo en las costas españolas.
Palabras claves:
Indicadores sintéticos; análisis en componentes principales; indicadores de distancia.
Clasificación JEL (Journal Economic Literature):
C10, L83, O21.
Área temática: Turismo y Métodos Cuantitativos.
Pérez, F., Blancas, F.J., González, M., Guerrero, F.M., Lozano, M., Ruiz, M.
XVI Jornadas ASEPUMA – IV Encuentro Internacional
Rect@ Vol Actas_16 Issue 1:803
2
1. INTRODUCCIÓN
Dado el constante cambio de la sociedad en la que vivimos, las autoridades
políticas se encuentran con la necesidad de conocer, tan rápido como sea posible,
cuándo estos cambios toman direcciones equivocadas, de cara a la posterior toma de
decisiones y a la planificación futura de actuaciones encaminadas a un mejor y mayor
avance de la sociedad. Cada uno de estos cambios, así como la representación de la
situación actual, pueden reflejarse por medio de una serie de variables, denominadas
indicadores simples, que de forma conjunta reflejan la estructura de la sociedad en todos
los niveles o ámbitos que se desean estudiar. Por tanto, de forma general se puede
definir un indicador simple como una medida cuantitativa o cualitativa derivada de una
serie de hechos observados que pueden proporcionar la posición relativa de un país, por
ejemplo, en cualquier ámbito dado. Además, cuando se evalúa en intervalos regulares,
proporciona la dirección de cambio a través del tiempo.
Ahora bien, una vez recogida toda la información influyente en el estudio, el
agente político encargado de él puede encontrarse frente a un amplio conjunto de
indicadores simples medidos sobre una serie de estados, localidades, regiones,…, (a los
que de forma general denominaremos observaciones) que, de forma desagregada, no le
proporcionan ninguna información clara o directa que sirva para una mayor
comprensión de la situación actual de cada observación con respecto a las demás. Es,
por tanto, dentro de este contexto donde aparecen los indicadores sintéticos o
compuestos, que son índices agregados de indicadores simples, que se obtienen al
ponderar éstos con unos pesos que representan la importancia relativa que cada uno de
ellos debe tener en el índice agregado. De forma ideal, esta agregación debería medir
conceptos multi-dimensionales que no pueden ser capturados por los indicadores
simples de forma individual. Sin embargo, su construcción no es directa y, si no se
realiza de forma eficiente, puede conducir a resultados que podrían ser malinterpretados
o manipulados.
Por tanto, se hace necesario que tanto dicha construcción como el posterior uso
que se le otorgue, se realice de la forma más cuidadosa posible, prestando especial
atención a aquellos factores que puedan ser decisivos en la obtención de resultados
Análisis, diseño y comparación de indicadores sintéticos
XVI Jornadas ASEPUMA – IV Encuentro Internacional
Rect@ Vol Actas_16 Issue 1:803
3
ambiguos o poco rigurosos. El análisis de la literatura existente nos permite afirmar que
no existe una metodología claramente aceptada como la más adecuada para la
construcción de indicadores sintéticos. Así, debe ser el analista el que decida, tanto el
procedimiento a utilizar en función del análisis que necesite realizar, como las
elecciones subjetivas siguientes: la elección de los indicadores de partida, la forma de
agruparlos, el uso o no de un método de normalización de los datos, la elección de dicho
método, el procedimiento de ponderación de la información proporcionada por cada
indicador y la forma de agregación de dicha información (Nardo et al., 2005).
Dentro de las técnicas más usadas en la actualidad, podemos destacar las
siguientes por ser las que presentan menor número de inconvenientes en su ejecución:
las basadas en el análisis en componentes principales; el análisis de distancia P2 (Pena,
1978) y la ponderación de distancias L1 y L∞ (Díaz-Balteiro y Romero, 2004).
El análisis en componentes principales fue desarrollado por Pearson en 1920
(Chatfield y Collins, 1980; Morrison, 1967), y es uno de los procedimientos propios de
la estadística descriptiva y del análisis multivariante más utilizados para sintetizar la
información contenida en un número elevado de indicadores sobre diversos factores
determinantes del nivel de desarrollo, calidad de vida, bienestar,… Su aplicación en la
construcción de indicadores sintéticos requiere, una vez seleccionadas las componentes
principales, la determinación de los pesos y el procedimiento mediante el cual se van a
agregar éstas para definir dicho indicador sintético. El principal obstáculo que plantea es
que las técnicas que hasta ahora han hecho uso de él no presentan unicidad en cuanto a
los pesos otorgados a las variables ya que, aunque en valor numérico sí son únicos, no
lo son en signo.
La distancia P2 es un indicador sintético basado en el concepto de distancia y, a
su vez, es una modificación de la distancia-I de Ivanovic. Dicha modificación se obtiene
mediante la incorporación del coeficiente de determinación en el sistema de pesos, de
forma que se ponderan las diferencias entre los indicadores y sus valores de referencia
por el porcentaje de información nueva que proporciona cada indicador al incluirse en la
medida global. Con ello se elimina la información que proporciona el indicador i-ésimo
que ya está contenida en los i-1 indicadores precedentes (Zarzosa et al., 2005); esto es,
elimina la duplicidad de información. Su principal desventaja es que el orden de
Pérez, F., Blancas, F.J., González, M., Guerrero, F.M., Lozano, M., Ruiz, M.
XVI Jornadas ASEPUMA – IV Encuentro Internacional
Rect@ Vol Actas_16 Issue 1:803
4
introducción de los indicadores simples hace variar el resultado final obtenido. Además,
la jerarquización propuesta para compensar esto no tiene en cuenta la importancia que
para el decisor puedan tener ciertos indicadores simples, atendiendo sólo a si éstos están
altamente correlacionados o no con respecto al indicador sintético que se construye en
cada iteración.
El Indicador sintético propuesto por Díaz-Balteiro y Romero es un problema de
programación por metas cuya función de logro trata de maximizar la suma ponderada de
las distancias L1 y L∞, representando la primera (L1) aquella ordenación que resulta la
más consensuada al no destacar ninguna observación por encima de otra, y la segunda
(L∞) aquélla en la que se trata de maximizar la distancia con respecto a un punto de
referencia de la observación más alejada, lo cual permite recoger un criterio de equidad
entre ambas. Su principal desventaja es que tanto el parámetro de control como los
pesos que utiliza no están definidos, de forma que quedan a elección del usuario.
Por tanto, ante la carencia, por un lado, de un marco teórico único consolidado
para la obtención de medidas sintéticas y, por otro, la presencia de estas desventajas
mostradas, en este trabajo nos proponemos desarrollar una nueva técnica basada en las
anteriores que las mejore. La idea es poder hacer uso de las buenas propiedades
mostradas por los indicadores sintéticos basados en dichas técnicas, intentando al
mismo tiempo compensar las deficiencias y dificultades que presentan. Además,
crearemos un programa informático en el que implementaremos tanto las metodologías
más usuales como la nueva desarrollada de forma que podamos comparar su
funcionamiento y contrastar los resultados obtenidos con ellas.
2. FORMULACIÓN DEL NUEVO INDICADOR SINTÉTICO
Nuestro principal objetivo será construir una nueva herramienta que nos permita
hacer uso de las buenas características aportadas por las técnicas existentes en este
campo, al tiempo que contrarrestemos las desventajas o debilidades que presentan. Para
ello, supongamos que tenemos un conjunto de p indicadores simples I1, I2,… Ip, de los
que disponemos de valores para un conjunto de n observaciones de forma que
Análisis, diseño y comparación de indicadores sintéticos
XVI Jornadas ASEPUMA – IV Encuentro Internacional
Rect@ Vol Actas_16 Issue 1:803
5
notaremos por Xij al valor que toma la observación i-ésima para el indicador j-ésimo,
con pjni ≤≤≤≤ 1,1 .
Para poder hacer uso de estas observaciones de la forma más óptima posible, en
un primer paso tendremos que convertir todos nuestros indicadores simples en
indicadores del tipo “cuanto más mejor”, esto es, cambiaremos de signo los que sean a
minimizar para convertirlos en indicadores a maximizar. En un segundo paso,
tendremos que normalizar los datos para evitar sesgos debidos a que los indicadores
simples vengan dados en distintas escalas de valores. Así, haciendo uso del vector de
valores ideales de los indicadores (X*1, X*2,…, X*p) y del de valores antiideales (X*1,
X*2,…, X*p), hemos considerado dos tipos de normalizaciones:
Normalización por Mínimos: pjniXXXX
XNjj
jijij ≤≤≤≤
−
−= 1,1
**
*
Normalización por Máximos: pjniXXXX
XNjj
ijjij ≤≤≤≤
−
−= 1,1
**
*
Una vez realizadas estas consideraciones, definiremos el nuevo indicador
sintético, al que denominaremos DCP, utilizando como sistema de pesos valores
proporcionados por el análisis en componentes principales. Además, al definir el nuevo
indicador sintético lo haremos de dos formas, una en la que haremos uso de la distancia
L1 y otra en la que haremos uso de la L∞. Por tanto, sobre la misma base teórica,
definiremos dos indicadores sintéticos (uno para cada distancia) que quedarán como
sigue:
Según la distancia L1: niCorrXNVEIq
j
p
kkjikji ≤≤= ∑ ∑
= =
1)]([1 1
, donde:
• q es el número de componentes seleccionadas en el análisis en componentes
principales.
• VEj es la proporción de variabilidad de los indicadores originales explicada por
la j-ésima componente principal.
• Corrkj es la correlación existente entre la k-ésima variable y la j-ésima
componente (valor correspondiente a la matriz de cargas).
Según la distancia L∞:
Pérez, F., Blancas, F.J., González, M., Guerrero, F.M., Lozano, M., Ruiz, M.
XVI Jornadas ASEPUMA – IV Encuentro Internacional
Rect@ Vol Actas_16 Issue 1:803
6
a) Con la normalización por máximos: niCorrXNVEIp
kkjikjji ≤≤= ∑
=
1))((max1
b) Con la normalización por mínimos: niCorrXNVEIp
kkjikjji ≤≤= ∑
=
1))((min1
representando cada variable y subíndice lo mismo que en el caso anterior.
De esta forma se obtienen los valores correspondientes a los dos indicadores
sintéticos propuestos para cada una de las p observaciones. Con respecto a la
metodología DP2, la principal ventaja que presentamos es que el resultado devuelto por
DCP es independiente del orden de introducción de los indicadores. Y con respecto a las
técnicas basadas en el análisis en componentes principales, la ventaja proporcionada por
DCP es que el sistema de pesos es único y carece de ambigüedad.
Además, estos indicadores definidos son “buenos” en el sentido de que las
funciones matemáticas que hemos descrito cumplen todas las propiedades que se
consideran deseables a la hora de contrastar si un indicador sintético refleja de forma
precisa la situación requerida (Zarzosa, 1996).
3. ENTORNO INFORMÁTICO
Una vez que hemos construido el nuevo indicador sintético, el siguiente paso es
crear un programa informático en el que implementar tanto las metodologías en las que
éste está basado (DP2 y análisis en componentes principales) como la nueva
desarrollada (DCP) de forma que podamos comparar su funcionamiento y contrastar los
resultados obtenidos con ellas. Para ello, utilizaremos el lenguaje de programación C#,
que fue propuesto por Microsoft con el objetivo de satisfacer las necesidades actuales y
de un futuro cercano en este ámbito. C# hereda un rico legado de programación ya que
proviene de dos de los lenguajes con más éxito del mundo: C y C++, además de estar
estrechamente relacionado con otro de los más exitosos: Java (Charte, 2002).
De esta forma, hemos desarrollado un programa informático, al que hemos
denominado IndiSin que posee un entorno fácil de utilizar por el usuario de forma que
se encuentra al alcance de cualquier persona que pretenda hacer uso de él,
independientemente de los conocimientos en la materia que posea. Además, los datos
Análisis, diseño y comparación de indicadores sintéticos
XVI Jornadas ASEPUMA – IV Encuentro Internacional
Rect@ Vol Actas_16 Issue 1:803
7
suministrados y devueltos por el programa están en un formato que es de dominio
común para evitar problemas de compatibilidad y/o conocimiento de su gestión. En base
a esto, para el usuario resulta mucho más cómodo trabajar con bases de datos en
archivos de tipo .xls, por lo que sólo tendrá que preocuparse de que el archivo que cree
esté en el formato requerido por el programa para su lectura.
En cuanto a las características operativas el programa sirve para calcular, tanto
algunos de los indicadores compuestos más utilizados en la actualidad, como el
indicador DCP. En dicho programa y en base a los resultados devueltos, se puede
realizar un ranking de las observaciones consideradas a partir de cada uno de los
indicadores propuestos. Además, a este programa se le han incluido mecanismos tanto
gráficos (diagramas de barras) como analíticos (coeficiente de correlación de Spearman)
a través de los cuales se pueden comparar los resultados obtenidos con las técnicas
tradicionales y con la nueva herramienta definida.
4. RESULTADOS
Como ilustración del funcionamiento general del indicador sintético construido,
así como del programa implementado, realizaremos ahora una aplicación práctica sobre
un conjunto de datos referidos al estudio del turismo en las costas de España.
En concreto, hemos considerado treinta y ocho indicadores simples que recogen
aspectos económicos, medioambientales y sociales de las costas españolas. En cuanto a
los destinos costeros considerados para el análisis, su determinación se ha realizado de
acuerdo a la delimitación de zona turística proporcionada por el Instituto Nacional de
Estadística.
El objetivo es agregar la información proporcionada por el sistema de
indicadores simples para calcular un índice global, para lo que será necesario hacer una
selección de indicadores de la base de datos inicial puesto que el número de indicadores
que tenemos es mayor al número de observaciones, siendo entonces imposible, tanto
metodológica como estadísticamente, llevar a cabo el estudio. Para la selección
utilizaremos la metodología basada en el análisis en componentes principales ya que el
cálculo se hace de forma objetiva y la información que se utiliza posee una base
Pérez, F., Blancas, F.J., González, M., Guerrero, F.M., Lozano, M., Ruiz, M.
XVI Jornadas ASEPUMA – IV Encuentro Internacional
Rect@ Vol Actas_16 Issue 1:803
8
estadística que garantiza la recogida de la máxima, y de mayor calidad, información de
los indicadores simples de partida. Por tanto, analizaremos las correlaciones existentes
entre los indicadores simples de partida y las componentes principales calculadas. Así,
como estas últimas acumulan la variabilidad de los datos originales sin duplicar
información, al tomar aquellos indicadores que están altamente correlacionados con
ellas nos aseguramos que no perdemos información de aquellos indicadores que no
seleccionamos.
Comencemos entonces seleccionando los indicadores simples más
representativos del ámbito social. Dicha dimensión consta de 8 indicadores, por lo que
la selección la haremos considerando las 8 componentes principales (para perder la
mínima información útil posible) y el nivel de correlación lo situaremos en 0.7 (en valor
absoluto) de forma que, se seleccionan 5 de los 8 indicadores simples de partida en
función de estos parámetros, tal y como podemos apreciar en la siguiente figura:
Como podemos ver, el entorno en el que trabaja el usuario es muy intuitivo y
fácil de utilizar. Además, está completamente adaptado a sus necesidades, por lo que
éste puede encontrar en IndiSin todas las herramientas que necesita para analizar en
profundidad los indicadores simples que posee en su base de datos original.
De igual forma, y utilizando los mismos parámetros, en el ámbito económico se
seleccionan 7 de los 14 indicadores que posee; y en el ambiental 6 de los 16 que
presenta. Tomando, entonces, todos estos indicadores simples como base para construir
el indicador compuesto global se obtiene el siguiente gráfico de resultados para el
indicador que hemos construido en sus dos formas (L1 y L∞):
Análisis, diseño y comparación de indicadores sintéticos
XVI Jornadas ASEPUMA – IV Encuentro Internacional
Rect@ Vol Actas_16 Issue 1:803
9
pudiéndose apreciar que hay un gran número de observaciones que poseen resultados
similares entre sí con ambas formulaciones.
Por otro lado, se hace necesario comparar los resultados obtenidos con el
indicador DCP con los obtenidos por las otras dos metodologías con el objetivo de
constatar que DCP nace de la unión de ambas. Para ello, el programa hace uso del
coeficiente de correlación Rho de Spearman (Conover, 1980), tal y como vemos a
continuación:
A la vista de los coeficientes de correlación de Spearman obtenidos, podemos
apreciar que existen altas correlaciones generales entre todas las metodologías. Tal y
como habíamos comentado, consideramos que este hecho es positivo pues la idea de la
que partimos era la de construir un indicador sintético que tomara información tanto del
análisis en componentes principales como de los indicadores de distancia (sin que uno
prevaleciera sobre el otro). Así, del análisis en componentes principales hemos tomado
la información con la que hemos construido los pesos a utilizar para ponderar los
indicadores originales, con la salvedad de que los pesos que hemos definido carecen de
ambigüedad. Y, en relación a los indicadores de distancia, nuestro indicador DCP
conserva la idea de tomar un vector de referencia (el ideal en este ejemplo) de forma
Pérez, F., Blancas, F.J., González, M., Guerrero, F.M., Lozano, M., Ruiz, M.
XVI Jornadas ASEPUMA – IV Encuentro Internacional
Rect@ Vol Actas_16 Issue 1:803
10
que, en la ordenación final obtenida, las observaciones mejor situadas son aquéllas que
se encuentran más cercanas a él.
Por otro lado, la interpretación de los datos obtenidos es muy sencilla puesto que
si, por ejemplo, observamos la costa que ocupa el primer lugar en el ranking: Costa
Blanca, podemos dar una explicación clara a la posición que ocupa si, tomando los
resultados obtenidos, nos remitimos a los datos originales de dicha costa y los
comparamos con los del vector de referencias. Así, podemos observar que, en aquellos
indicadores con valores altos, tanto en la matriz de carga como en la cantidad de
variabilidad explicada por las componentes principales, los datos originales de dicha
costa se encuentran muy próximos al valor ideal correspondiente de referencia para cada
uno de dichos indicadores. Igual puede hacerse con el resto de observaciones de forma
que, a la vista de los resultados obtenidos, se puede dar una clara interpretación de ellos
haciendo uso de la información de partida y la proporcionada por el sistema de pesos y
el vector de referencias.
Por tanto, hemos alcanzado el objetivo de construir una nueva metodología
formada a partir de dos de las ya existentes, actualmente muy utilizadas, de forma que
conservamos los aspectos positivos de ambas (obtener la información útil de los datos
originales y hacer uso de los vectores de referencia para una fácil interpretación de los
resultados) y contrarrestamos los negativos (tal y como vimos en el epígrafe 2).
5. CONCLUSIONES
En el presente trabajo hemos visto que el problema del cálculo de indicadores
compuestos no es sencillo ni directo. En este contexto, hemos definido una nueva
herramienta de construcción que presenta las siguientes características y ventajas:
• Posee un sistema de pesos claramente definido y carente de ambigüedad.
• El resultado obtenido es independiente del orden en el que se introducen los
indicadores simples para el cálculo del indicador compuesto.
• Al ser una técnica creada a partir de la base del Análisis en Componentes
Principales y de las Medidas de Distancia, hereda las ventajas proporcionadas por
Análisis, diseño y comparación de indicadores sintéticos
XVI Jornadas ASEPUMA – IV Encuentro Internacional
Rect@ Vol Actas_16 Issue 1:803
11
ambas técnicas de forma que obtenemos un indicador compuesto claro, bien
definido, objetivo y de fácil interpretación.
Por otro lado, también hemos construido un programa, denominado IndiSin, a
partir del cual el cálculo de indicadores compuestos se resuelve de forma rápida y
cómoda para el usuario, cuyas características principales son:
• Está implementado en el lenguaje de programación C#.NET, un nuevo lenguaje
de Microsoft que está reconocido como uno de los mejores que existen actualmente
en el mercado ya que proporciona un entorno flexible, práctico y sencillo de utilizar,
además de estar plenamente integrado en los sistemas operativos de Windows.
• La operabilidad entre C# y Microsoft Excel facilita tanto el tratamiento de los
datos como de los resultados obtenidos por parte del usuario.
• La interfaz con la que se opera responde a las necesidades y a la comodidad del
usuario para el tratamiento de la información, tanto la insertada como la obtenida. De
esta forma, la interoperabilidad usuario – programa se realiza de forma fácilmente
interpretable y asequible.
Por último, las posibles líneas de investigación que quedan abiertas como
continuación de este trabajo son:
• Construir un meta-indicador a partir de una ponderación y agregación de los
indicadores compuestos más representativos que obviara las deficiencias, prestando
especial atención a las ventajas de cada una de las técnicas. Además, al variar los
pesos, podríamos obtener una frontera eficiente de indicadores.
• Aplicar los resultados a diversos problemas reales donde se analicen aspectos que
puedan ser tratados por este tipo de herramienta, independientemente de que
pertenezcan o no al ámbito de la sostenibilidad.
6. REFERENCIAS BIBLIOGRÁFICAS
• CHARTE, F. (2002). Visual C#.NET. Ediciones Anaya Multimedia, Madrid.
• CHATFIELD, C. y COLLINS, A. J. (1980). Introduction to Multivariate Analysis.
Science Paperbacks published by Chapman and Hall, London.
Pérez, F., Blancas, F.J., González, M., Guerrero, F.M., Lozano, M., Ruiz, M.
XVI Jornadas ASEPUMA – IV Encuentro Internacional
Rect@ Vol Actas_16 Issue 1:803
12
• CONOVER, W. J. (1980). Practical nonparametric statistics. Ed. Wiley Series in
Probability and Mathematical Statistics, New York.
• DÍAZ BALTEIRO, L. y ROMERO, C. (2004). “In Search of a Natural Systems
Sustainability Index”. Ecological Economics, 49, pp. 401-405.
• MORRISON, D. F. (1967). Multivariate Statistical Methods. Ed. McGraw-Hill
Series in Probability and Statistics, New York.
• NARDO, M., SAISANA, M., SALTELLI, A. y TARANTOLA, S. (2005).
“Handbook on Constructing Composite Indicators: Methodology and User Guide”.
OECD Statistics Working Paper.
• PENA, J. A. (1978). “La Distancia P: un Método para la Medición del Nivel de
Bienestar”. Revista Española de Economía, 8, pp. 49-89.
• ZARZOSA, P. (1996). Aproximación a la Medición del Bienestar Social.
Secretariado de Publicaciones e Intercambio Científico, Universidad de Valladolid,
Valladolid.
• ZARZOSA, P. (dir.), MOLPECERES, M. M., PÉREZ, A., PRADA, M. D.,
PRIETO, M. M., RODRÍGUEZ, C. y ZARZOSA, F. (2005). La Calidad de Vida en
los Municipios de la Provincia de Valladolid. Diputación Provincial de Valladolid,
Valladolid.