análisis, diseño y comparación de indicadores sintéticos

Análisis, diseño y comparación de indicadores sintéticos

XVI Jornadas ASEPUMA – IV Encuentro Internacional

Rect@ Vol Actas_16 Issue 1:803

1

Análisis, diseño y comparación de indicadores

sintéticos Pérez García, Fátima – [email protected]*

Blancas Peral, Francisco Javier - [email protected]** González Lozano, Mercedes – [email protected]*

Guerrero Casas, Flor Mª. - [email protected]** Lozano Oyola, Macarena - [email protected]**

Ruiz Camacho, Manuel – [email protected]*** *Departamento de Economía Aplicada (Matemáticas)

Universidad de Málaga **Dpto. de Economía, Métodos Cuantitativos e Hª Económica

Universidad Pablo de Olavide ***Departamento de Estadística e I.O.

Universidad de Málaga

RESUMEN

En el presente trabajo presentamos un nuevo indicador sintético fruto de la combinación

de dos métodos plenamente contrastados: análisis en componentes principales y DP2. Dicho

indicador trata de combinar las buenas propiedades de los precedentes y superar sus

inconvenientes. Además, se implementa un programa informático de fácil y sencilla utilización

que se adapta a las necesidades requeridas por los usuarios que trabajan con este tipo de

herramientas. Por último, tanto el funcionamiento del indicador creado como del programa

desarrollado son contrastados con datos correspondientes al turismo en las costas españolas.

Palabras claves:

Indicadores sintéticos; análisis en componentes principales; indicadores de distancia.

Clasificación JEL (Journal Economic Literature):

C10, L83, O21.

Área temática: Turismo y Métodos Cuantitativos.

Pérez, F., Blancas, F.J., González, M., Guerrero, F.M., Lozano, M., Ruiz, M.



2

1. INTRODUCCIÓN

Dado el constante cambio de la sociedad en la que vivimos, las autoridades

políticas se encuentran con la necesidad de conocer, tan rápido como sea posible,

cuándo estos cambios toman direcciones equivocadas, de cara a la posterior toma de

decisiones y a la planificación futura de actuaciones encaminadas a un mejor y mayor

avance de la sociedad. Cada uno de estos cambios, así como la representación de la

situación actual, pueden reflejarse por medio de una serie de variables, denominadas

indicadores simples, que de forma conjunta reflejan la estructura de la sociedad en todos

los niveles o ámbitos que se desean estudiar. Por tanto, de forma general se puede

definir un indicador simple como una medida cuantitativa o cualitativa derivada de una

serie de hechos observados que pueden proporcionar la posición relativa de un país, por

ejemplo, en cualquier ámbito dado. Además, cuando se evalúa en intervalos regulares,

proporciona la dirección de cambio a través del tiempo.

Ahora bien, una vez recogida toda la información influyente en el estudio, el

agente político encargado de él puede encontrarse frente a un amplio conjunto de

indicadores simples medidos sobre una serie de estados, localidades, regiones,…, (a los

que de forma general denominaremos observaciones) que, de forma desagregada, no le

proporcionan ninguna información clara o directa que sirva para una mayor

comprensión de la situación actual de cada observación con respecto a las demás. Es,

por tanto, dentro de este contexto donde aparecen los indicadores sintéticos o

compuestos, que son índices agregados de indicadores simples, que se obtienen al

ponderar éstos con unos pesos que representan la importancia relativa que cada uno de

ellos debe tener en el índice agregado. De forma ideal, esta agregación debería medir

conceptos multi-dimensionales que no pueden ser capturados por los indicadores

simples de forma individual. Sin embargo, su construcción no es directa y, si no se

realiza de forma eficiente, puede conducir a resultados que podrían ser malinterpretados

o manipulados.

Por tanto, se hace necesario que tanto dicha construcción como el posterior uso

que se le otorgue, se realice de la forma más cuidadosa posible, prestando especial

atención a aquellos factores que puedan ser decisivos en la obtención de resultados




3

ambiguos o poco rigurosos. El análisis de la literatura existente nos permite afirmar que

no existe una metodología claramente aceptada como la más adecuada para la

construcción de indicadores sintéticos. Así, debe ser el analista el que decida, tanto el

procedimiento a utilizar en función del análisis que necesite realizar, como las

elecciones subjetivas siguientes: la elección de los indicadores de partida, la forma de

agruparlos, el uso o no de un método de normalización de los datos, la elección de dicho

método, el procedimiento de ponderación de la información proporcionada por cada

indicador y la forma de agregación de dicha información (Nardo et al., 2005).

Dentro de las técnicas más usadas en la actualidad, podemos destacar las

siguientes por ser las que presentan menor número de inconvenientes en su ejecución:

las basadas en el análisis en componentes principales; el análisis de distancia P2 (Pena,

1978) y la ponderación de distancias L1 y L∞ (Díaz-Balteiro y Romero, 2004).

El análisis en componentes principales fue desarrollado por Pearson en 1920

(Chatfield y Collins, 1980; Morrison, 1967), y es uno de los procedimientos propios de

la estadística descriptiva y del análisis multivariante más utilizados para sintetizar la

información contenida en un número elevado de indicadores sobre diversos factores

determinantes del nivel de desarrollo, calidad de vida, bienestar,… Su aplicación en la

construcción de indicadores sintéticos requiere, una vez seleccionadas las componentes

principales, la determinación de los pesos y el procedimiento mediante el cual se van a

agregar éstas para definir dicho indicador sintético. El principal obstáculo que plantea es

que las técnicas que hasta ahora han hecho uso de él no presentan unicidad en cuanto a

los pesos otorgados a las variables ya que, aunque en valor numérico sí son únicos, no

lo son en signo.

La distancia P2 es un indicador sintético basado en el concepto de distancia y, a

su vez, es una modificación de la distancia-I de Ivanovic. Dicha modificación se obtiene

mediante la incorporación del coeficiente de determinación en el sistema de pesos, de

forma que se ponderan las diferencias entre los indicadores y sus valores de referencia

por el porcentaje de información nueva que proporciona cada indicador al incluirse en la

medida global. Con ello se elimina la información que proporciona el indicador i-ésimo

que ya está contenida en los i-1 indicadores precedentes (Zarzosa et al., 2005); esto es,

elimina la duplicidad de información. Su principal desventaja es que el orden de




4

introducción de los indicadores simples hace variar el resultado final obtenido. Además,

la jerarquización propuesta para compensar esto no tiene en cuenta la importancia que

para el decisor puedan tener ciertos indicadores simples, atendiendo sólo a si éstos están

altamente correlacionados o no con respecto al indicador sintético que se construye en

cada iteración.

El Indicador sintético propuesto por Díaz-Balteiro y Romero es un problema de

programación por metas cuya función de logro trata de maximizar la suma ponderada de

las distancias L1 y L∞, representando la primera (L1) aquella ordenación que resulta la

más consensuada al no destacar ninguna observación por encima de otra, y la segunda

(L∞) aquélla en la que se trata de maximizar la distancia con respecto a un punto de

referencia de la observación más alejada, lo cual permite recoger un criterio de equidad

entre ambas. Su principal desventaja es que tanto el parámetro de control como los

pesos que utiliza no están definidos, de forma que quedan a elección del usuario.

Por tanto, ante la carencia, por un lado, de un marco teórico único consolidado

para la obtención de medidas sintéticas y, por otro, la presencia de estas desventajas

mostradas, en este trabajo nos proponemos desarrollar una nueva técnica basada en las

anteriores que las mejore. La idea es poder hacer uso de las buenas propiedades

mostradas por los indicadores sintéticos basados en dichas técnicas, intentando al

mismo tiempo compensar las deficiencias y dificultades que presentan. Además,

crearemos un programa informático en el que implementaremos tanto las metodologías

más usuales como la nueva desarrollada de forma que podamos comparar su

funcionamiento y contrastar los resultados obtenidos con ellas.

2. FORMULACIÓN DEL NUEVO INDICADOR SINTÉTICO

Nuestro principal objetivo será construir una nueva herramienta que nos permita

hacer uso de las buenas características aportadas por las técnicas existentes en este

campo, al tiempo que contrarrestemos las desventajas o debilidades que presentan. Para

ello, supongamos que tenemos un conjunto de p indicadores simples I1, I2,… Ip, de los

que disponemos de valores para un conjunto de n observaciones de forma que




5

notaremos por Xij al valor que toma la observación i-ésima para el indicador j-ésimo,

con pjni ≤≤≤≤ 1,1 .

Para poder hacer uso de estas observaciones de la forma más óptima posible, en

un primer paso tendremos que convertir todos nuestros indicadores simples en

indicadores del tipo “cuanto más mejor”, esto es, cambiaremos de signo los que sean a

minimizar para convertirlos en indicadores a maximizar. En un segundo paso,

tendremos que normalizar los datos para evitar sesgos debidos a que los indicadores

simples vengan dados en distintas escalas de valores. Así, haciendo uso del vector de

valores ideales de los indicadores (X*1, X*2,…, X*p) y del de valores antiideales (X*1,

X*2,…, X*p), hemos considerado dos tipos de normalizaciones:

Normalización por Mínimos: pjniXXXX

XNjj

jijij ≤≤≤≤

−

−= 1,1

**

*

Normalización por Máximos: pjniXXXX

XNjj

ijjij ≤≤≤≤

−

−= 1,1

**

*

Una vez realizadas estas consideraciones, definiremos el nuevo indicador

sintético, al que denominaremos DCP, utilizando como sistema de pesos valores

proporcionados por el análisis en componentes principales. Además, al definir el nuevo

indicador sintético lo haremos de dos formas, una en la que haremos uso de la distancia

L1 y otra en la que haremos uso de la L∞. Por tanto, sobre la misma base teórica,

definiremos dos indicadores sintéticos (uno para cada distancia) que quedarán como

sigue:

Según la distancia L1: niCorrXNVEIq

j

p

kkjikji ≤≤= ∑ ∑

= =

1)]([1 1

, donde:

• q es el número de componentes seleccionadas en el análisis en componentes

principales.

• VEj es la proporción de variabilidad de los indicadores originales explicada por

la j-ésima componente principal.

• Corrkj es la correlación existente entre la k-ésima variable y la j-ésima

componente (valor correspondiente a la matriz de cargas).

Según la distancia L∞:




6

a) Con la normalización por máximos: niCorrXNVEIp

kkjikjji ≤≤= ∑

=

1))((max1

b) Con la normalización por mínimos: niCorrXNVEIp

kkjikjji ≤≤= ∑

=

1))((min1

representando cada variable y subíndice lo mismo que en el caso anterior.

De esta forma se obtienen los valores correspondientes a los dos indicadores

sintéticos propuestos para cada una de las p observaciones. Con respecto a la

metodología DP2, la principal ventaja que presentamos es que el resultado devuelto por

DCP es independiente del orden de introducción de los indicadores. Y con respecto a las

técnicas basadas en el análisis en componentes principales, la ventaja proporcionada por

DCP es que el sistema de pesos es único y carece de ambigüedad.

Además, estos indicadores definidos son “buenos” en el sentido de que las

funciones matemáticas que hemos descrito cumplen todas las propiedades que se

consideran deseables a la hora de contrastar si un indicador sintético refleja de forma

precisa la situación requerida (Zarzosa, 1996).

3. ENTORNO INFORMÁTICO

Una vez que hemos construido el nuevo indicador sintético, el siguiente paso es

crear un programa informático en el que implementar tanto las metodologías en las que

éste está basado (DP2 y análisis en componentes principales) como la nueva

desarrollada (DCP) de forma que podamos comparar su funcionamiento y contrastar los

resultados obtenidos con ellas. Para ello, utilizaremos el lenguaje de programación C#,

que fue propuesto por Microsoft con el objetivo de satisfacer las necesidades actuales y

de un futuro cercano en este ámbito. C# hereda un rico legado de programación ya que

proviene de dos de los lenguajes con más éxito del mundo: C y C++, además de estar

estrechamente relacionado con otro de los más exitosos: Java (Charte, 2002).

De esta forma, hemos desarrollado un programa informático, al que hemos

denominado IndiSin que posee un entorno fácil de utilizar por el usuario de forma que

se encuentra al alcance de cualquier persona que pretenda hacer uso de él,

independientemente de los conocimientos en la materia que posea. Además, los datos




7

suministrados y devueltos por el programa están en un formato que es de dominio

común para evitar problemas de compatibilidad y/o conocimiento de su gestión. En base

a esto, para el usuario resulta mucho más cómodo trabajar con bases de datos en

archivos de tipo .xls, por lo que sólo tendrá que preocuparse de que el archivo que cree

esté en el formato requerido por el programa para su lectura.

En cuanto a las características operativas el programa sirve para calcular, tanto

algunos de los indicadores compuestos más utilizados en la actualidad, como el

indicador DCP. En dicho programa y en base a los resultados devueltos, se puede

realizar un ranking de las observaciones consideradas a partir de cada uno de los

indicadores propuestos. Además, a este programa se le han incluido mecanismos tanto

gráficos (diagramas de barras) como analíticos (coeficiente de correlación de Spearman)

a través de los cuales se pueden comparar los resultados obtenidos con las técnicas

tradicionales y con la nueva herramienta definida.

4. RESULTADOS

Como ilustración del funcionamiento general del indicador sintético construido,

así como del programa implementado, realizaremos ahora una aplicación práctica sobre

un conjunto de datos referidos al estudio del turismo en las costas de España.

En concreto, hemos considerado treinta y ocho indicadores simples que recogen

aspectos económicos, medioambientales y sociales de las costas españolas. En cuanto a

los destinos costeros considerados para el análisis, su determinación se ha realizado de

acuerdo a la delimitación de zona turística proporcionada por el Instituto Nacional de

Estadística.

El objetivo es agregar la información proporcionada por el sistema de

indicadores simples para calcular un índice global, para lo que será necesario hacer una

selección de indicadores de la base de datos inicial puesto que el número de indicadores

que tenemos es mayor al número de observaciones, siendo entonces imposible, tanto

metodológica como estadísticamente, llevar a cabo el estudio. Para la selección

utilizaremos la metodología basada en el análisis en componentes principales ya que el

cálculo se hace de forma objetiva y la información que se utiliza posee una base




8

estadística que garantiza la recogida de la máxima, y de mayor calidad, información de

los indicadores simples de partida. Por tanto, analizaremos las correlaciones existentes

entre los indicadores simples de partida y las componentes principales calculadas. Así,

como estas últimas acumulan la variabilidad de los datos originales sin duplicar

información, al tomar aquellos indicadores que están altamente correlacionados con

ellas nos aseguramos que no perdemos información de aquellos indicadores que no

seleccionamos.

Comencemos entonces seleccionando los indicadores simples más

representativos del ámbito social. Dicha dimensión consta de 8 indicadores, por lo que

la selección la haremos considerando las 8 componentes principales (para perder la

mínima información útil posible) y el nivel de correlación lo situaremos en 0.7 (en valor

absoluto) de forma que, se seleccionan 5 de los 8 indicadores simples de partida en

función de estos parámetros, tal y como podemos apreciar en la siguiente figura:

Como podemos ver, el entorno en el que trabaja el usuario es muy intuitivo y

fácil de utilizar. Además, está completamente adaptado a sus necesidades, por lo que

éste puede encontrar en IndiSin todas las herramientas que necesita para analizar en

profundidad los indicadores simples que posee en su base de datos original.

De igual forma, y utilizando los mismos parámetros, en el ámbito económico se

seleccionan 7 de los 14 indicadores que posee; y en el ambiental 6 de los 16 que

presenta. Tomando, entonces, todos estos indicadores simples como base para construir

el indicador compuesto global se obtiene el siguiente gráfico de resultados para el

indicador que hemos construido en sus dos formas (L1 y L∞):




9

pudiéndose apreciar que hay un gran número de observaciones que poseen resultados

similares entre sí con ambas formulaciones.

Por otro lado, se hace necesario comparar los resultados obtenidos con el

indicador DCP con los obtenidos por las otras dos metodologías con el objetivo de

constatar que DCP nace de la unión de ambas. Para ello, el programa hace uso del

coeficiente de correlación Rho de Spearman (Conover, 1980), tal y como vemos a

continuación:

A la vista de los coeficientes de correlación de Spearman obtenidos, podemos

apreciar que existen altas correlaciones generales entre todas las metodologías. Tal y

como habíamos comentado, consideramos que este hecho es positivo pues la idea de la

que partimos era la de construir un indicador sintético que tomara información tanto del

análisis en componentes principales como de los indicadores de distancia (sin que uno

prevaleciera sobre el otro). Así, del análisis en componentes principales hemos tomado

la información con la que hemos construido los pesos a utilizar para ponderar los

indicadores originales, con la salvedad de que los pesos que hemos definido carecen de

ambigüedad. Y, en relación a los indicadores de distancia, nuestro indicador DCP

conserva la idea de tomar un vector de referencia (el ideal en este ejemplo) de forma




10

que, en la ordenación final obtenida, las observaciones mejor situadas son aquéllas que

se encuentran más cercanas a él.

Por otro lado, la interpretación de los datos obtenidos es muy sencilla puesto que

si, por ejemplo, observamos la costa que ocupa el primer lugar en el ranking: Costa

Blanca, podemos dar una explicación clara a la posición que ocupa si, tomando los

resultados obtenidos, nos remitimos a los datos originales de dicha costa y los

comparamos con los del vector de referencias. Así, podemos observar que, en aquellos

indicadores con valores altos, tanto en la matriz de carga como en la cantidad de

variabilidad explicada por las componentes principales, los datos originales de dicha

costa se encuentran muy próximos al valor ideal correspondiente de referencia para cada

uno de dichos indicadores. Igual puede hacerse con el resto de observaciones de forma

que, a la vista de los resultados obtenidos, se puede dar una clara interpretación de ellos

haciendo uso de la información de partida y la proporcionada por el sistema de pesos y

el vector de referencias.

Por tanto, hemos alcanzado el objetivo de construir una nueva metodología

formada a partir de dos de las ya existentes, actualmente muy utilizadas, de forma que

conservamos los aspectos positivos de ambas (obtener la información útil de los datos

originales y hacer uso de los vectores de referencia para una fácil interpretación de los

resultados) y contrarrestamos los negativos (tal y como vimos en el epígrafe 2).

5. CONCLUSIONES

En el presente trabajo hemos visto que el problema del cálculo de indicadores

compuestos no es sencillo ni directo. En este contexto, hemos definido una nueva

herramienta de construcción que presenta las siguientes características y ventajas:

• Posee un sistema de pesos claramente definido y carente de ambigüedad.

• El resultado obtenido es independiente del orden en el que se introducen los

indicadores simples para el cálculo del indicador compuesto.

• Al ser una técnica creada a partir de la base del Análisis en Componentes

Principales y de las Medidas de Distancia, hereda las ventajas proporcionadas por




11

ambas técnicas de forma que obtenemos un indicador compuesto claro, bien

definido, objetivo y de fácil interpretación.

Por otro lado, también hemos construido un programa, denominado IndiSin, a

partir del cual el cálculo de indicadores compuestos se resuelve de forma rápida y

cómoda para el usuario, cuyas características principales son:

• Está implementado en el lenguaje de programación C#.NET, un nuevo lenguaje

de Microsoft que está reconocido como uno de los mejores que existen actualmente

en el mercado ya que proporciona un entorno flexible, práctico y sencillo de utilizar,

además de estar plenamente integrado en los sistemas operativos de Windows.

• La operabilidad entre C# y Microsoft Excel facilita tanto el tratamiento de los

datos como de los resultados obtenidos por parte del usuario.

• La interfaz con la que se opera responde a las necesidades y a la comodidad del

usuario para el tratamiento de la información, tanto la insertada como la obtenida. De

esta forma, la interoperabilidad usuario – programa se realiza de forma fácilmente

interpretable y asequible.

Por último, las posibles líneas de investigación que quedan abiertas como

continuación de este trabajo son:

• Construir un meta-indicador a partir de una ponderación y agregación de los

indicadores compuestos más representativos que obviara las deficiencias, prestando

especial atención a las ventajas de cada una de las técnicas. Además, al variar los

pesos, podríamos obtener una frontera eficiente de indicadores.

• Aplicar los resultados a diversos problemas reales donde se analicen aspectos que

puedan ser tratados por este tipo de herramienta, independientemente de que

pertenezcan o no al ámbito de la sostenibilidad.

6. REFERENCIAS BIBLIOGRÁFICAS

• CHARTE, F. (2002). Visual C#.NET. Ediciones Anaya Multimedia, Madrid.

• CHATFIELD, C. y COLLINS, A. J. (1980). Introduction to Multivariate Analysis.

Science Paperbacks published by Chapman and Hall, London.




12

• CONOVER, W. J. (1980). Practical nonparametric statistics. Ed. Wiley Series in

Probability and Mathematical Statistics, New York.

• DÍAZ BALTEIRO, L. y ROMERO, C. (2004). “In Search of a Natural Systems

Sustainability Index”. Ecological Economics, 49, pp. 401-405.

• MORRISON, D. F. (1967). Multivariate Statistical Methods. Ed. McGraw-Hill

Series in Probability and Statistics, New York.

• NARDO, M., SAISANA, M., SALTELLI, A. y TARANTOLA, S. (2005).

“Handbook on Constructing Composite Indicators: Methodology and User Guide”.

OECD Statistics Working Paper.

• PENA, J. A. (1978). “La Distancia P: un Método para la Medición del Nivel de

Bienestar”. Revista Española de Economía, 8, pp. 49-89.

• ZARZOSA, P. (1996). Aproximación a la Medición del Bienestar Social.

Secretariado de Publicaciones e Intercambio Científico, Universidad de Valladolid,

Valladolid.

• ZARZOSA, P. (dir.), MOLPECERES, M. M., PÉREZ, A., PRADA, M. D.,

PRIETO, M. M., RODRÍGUEZ, C. y ZARZOSA, F. (2005). La Calidad de Vida en

los Municipios de la Provincia de Valladolid. Diputación Provincial de Valladolid,

Valladolid.

análisis, diseño y comparación de indicadores sintéticos

Documents