analisis e interpretacion de datos de la calidad del aire

19
ANALISIS E INTERPRETACION DE DATOS DE LA CALIDAD DEL AIRE BORRADOR SEPTIEMBRE 20/2005

Upload: rafael-aliaga-martinez

Post on 31-Jul-2015

57 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Analisis e Interpretacion de Datos de La Calidad Del Aire

ANALISIS E INTERPRETACION DE DATOS DE LA CALIDAD DEL AIRE

BORRADOR

SEPTIEMBRE 20/2005

Page 2: Analisis e Interpretacion de Datos de La Calidad Del Aire

ANALISIS E INTERPRETACION DE DATOS DE LA CALIDAD DEL AIRE

INTRODUCCIÓN. El análisis y la interpretación de los datos de la calidad del aire, son no solo una función de los objetivos del programa de vigilancia, sino, también que son función de la naturaleza específica y de la calidad de los datos disponibles. Cada programa de vigilancia tiene su propósito o propósitos específicos y los análisis deben estar íntimamente ligados a ellos. Se recomienda que el planteamiento de las tareas analíticas y del análisis mismo se inicie antes que se efectúe cualquier medición, de modo de asegurar así que los datos que se requieren para los análisis sean realmente colectados y que la información suplementaria sea incluida. La experiencia enseña que el análisis de los datos y los procedimientos de interpretación cambian y mejoran con el transcurso del tiempo.

El primer paso en el análisis de los datos consiste en la evaluación crítica de los datos colectados. Cada medición debe ser verificada, no sólo individualmente, sino también como unidad de un grupo de mediciones consecutivas en el tiempo simultáneamente en el espacio. Gran parte de la validación de los datos se hace mediante el examen cuidadoso de los mismos para ver si presentan fenómenos poco usuales. En este contexto, se necesita presentar especial atención a cambios rápidos o extremos registrados en los niveles de contaminación del aire, o en las variables meteorológicas, particularmente cuando la ocurrencia de tales cambios es poco usual y localizada. La detección de anomalías se facilita grandemente por el resumen y graficación de los conjuntos de datos bajo la forma de cuadros, tablas y gráficos. Si se encontraran anomalías, se debe rechazar o corregir los datos antes de proseguir con el análisis. Es claro que el más simple de los programas de vigilancia del aire puede, muy rápidamente, producir una gran cantidad de datos en bruto. Si bien algunos cuadros y gráficos simples de los datos originales pueden mostrar características interesantes, es necesario ocuparse adecuadamente de esta situación, para ello se requiere de preparar resúmenes estadísticos para lograr tener una clara visión de conjunto y, así mismo, para limitar el número de valores numéricos que se necesita a efecto de describir la situación real de la contaminación del aire. Estos resúmenes estadísticos forman también las bases para análisis e interpretaciones más avanzadas que son necesarios hacer para extraer la mayor

información posible del conjunto de datos recolectados.

GUÍA PARA LA REVISIÓN DE DATOS PRELIMINARES ELEMENTOS GENERALES En este paso de valoración de calidad de datos, el analista conduce a una evaluación del grupo de datos preliminares. Calcula algunas cantidades estadísticas básicas y examina el uso de datos en las representaciones graficas. Una revisión preliminar de los datos debe realizarse cada vez que son usados, para recordar si deben ser usados para soportar una decisión, estimar un parámetro poblacional o responder una pregunta de búsqueda exploratoria. Estas son dos formas elementales de una revisión de datos preeliminares: (1) Cantidades estadísticas básicas (sumario de estadísticos); (2) Representaciones graficas de los datos. Las cantidades estadísticas son funciones de los datos que describen numéricamente los datos. Los ejemplos incluyen la media, la mediana, percentiles, rango y desviación estándar. Ellos pueden ser usados para proveer una imagen mental de los datos y son usados para hacer inferencias concernientes a la población de la cual los datos fueron obtenidos. Las representaciones graficas son usadas para identificar patrones y relaciones con los datos, confirmar o rechazar las hipótesis e identificar problemas. Por ejemplo, el diagrama de probabilidad normal debe permitir un análisis de descarte rápido y asumir la normalidad y debe identificar distancias potenciales. REVISIÓN DE LA SEGURIDAD Y CALIDAD DE LOS REPORTES La primera actividad en conducir la revisión de los datos preliminares es el revisar cualquier reporte de valoración de calidad relevante que describa la colección de datos y reporte el proceso como es implementado actualmente. Estos reportes Proveen información valiosa de los problemas potenciales y anomalías en los datos. Los puntos específicos que deben ser incluidos son:

• Reportes de validación de datos que documentan la toma de muestras, la manipulación, análisis, reducción de los datos, y el reporte de los procedimientos usados. • Reportes de control de calidad de laboratorios o estaciones de campo que documentan la acción del sistema de toma de muestras, incluyendo la revisión de los datos de las muestras, cuartear las muestras, anular muestras o cualquier otra medida interna de control de calidad; y

usuario
Highlight
usuario
Highlight
Page 3: Analisis e Interpretacion de Datos de La Calidad Del Aire

• Revisión de sistemas técnicos, acciones de auditoria y evaluación, auditoria de la calidad de los datos, incluyendo datos de la acción de evaluar las muestras.

CALCULO DE PARÁMETROS ESTADÍSTICOS BÁSICOS El objetivo de esta actividad es hacer un resumen de algunas de las características cuantitativas de los datos de calidad del aire obtenidos usando cantidades estadísticas comunes. Entre las cantidades estadísticas de mas amplio uso esta: Numero de observaciones; medidas de tendencia central, como la media, mediana y moda; medidas de dispersión como el rango, la varianza, desviación estándar, coeficiente de variación o rango intercuartilico; medidas de posición relativa como los percentiles y medidas de asociación entre 2 o mas variables, como las correlaciones. Estas medidas pueden ser usadas para descripción, comunicación y para probar algunas hipótesis que se hayan planteado. Medidas de tendencia central: Las medidas de tendencia central tienen aplicación directa a los estándares de contaminación del aire a largo plazo, desde que la mayoría de estos se expresan como valores de concentración promedio. Sin embargo, las mediciones de contaminación del aire son usualmente de alta variabilidad, y reflejan cambios en las emisiones de las fuentes, en las condiciones meteorológicas y en las reacciones químicas de la atmósfera. Cuando se comparan las mediciones tomadas en varios estaciones de monitoreo, el sitio que aparece como el más variable, ha sufrido a menudo la influencia de una fuente de emisión cercana, mientras que el sitio menos variable está localizado, sea en un ambiente limpio o, alternativamente, rodeado de un número de fuentes de emisión tales que un cambio en la dirección del viento no refleja necesariamente un cambio marcado en las concentraciones determinadas. Por consiguiente, además de describirse los datos por una medida que sea la más representativa de ellos (media, mediana o modo) se hace también necesario tener una identificación de la dispersión o variabilidad que exista en las observaciones. Media aritmética, media muestral o promedio,

X , Es la suma de los valores de todas las observaciones dividida por el número de observaciones. Este número refleja y engloba todos los datos y es altamente influenciado por los valores extremos. Un problema que se encuentra frecuentemente en los estudios técnicos sobre contaminación del aire se refiere a las

mediciones de contaminación que están por debajo del límite de detección del método analítico usado. Ellas se anotan usualmente como cero. Para resolver este problema, es práctica común introducir la mitad del valor límite de detección como el valor numérico de cada una de estas modificaciones. Si X1, X2 ..., Xn representa los n datos de concentración de un contaminante, entonces:

∑=

=n

i

iXn

X1

1

Mediana muestral X~

Es la segunda medida de tendencia central más popular. Este valor cae directamente en la mitad de los datos cuando la medida es por rangos en orden de la mas pequeña a la mas grande (así X1 es el mas pequeño, X2 es el segundo mas pequeño y Xn es el mas grande). Esto quiere decir que la mitad de los datos son más pequeños que la mediana muestral, y la mitad de los datos son más grandes que la mediana muestral. El otro nombre de la mediana es el percentil 50. La mediana no es influenciada por los valores extremos y, así, el problema de los valores por debajo del límite de detección queda eliminado. Si el número de puntos es impar, entonces

[ ]( )2/1~

+= nXX

Si el número de puntos es par, entonces

( ) [ ]( )

2

~ 12/2/ ++= nn XX

X

Moda Es el valor que ocurre con mayor frecuencia en el conjunto de datos. Si el histograma o la curva de frecuencias indican claramente que varios intervalos o valores muestran cierto grado de predominancia, existe entonces una curva de frecuencias multimodal que exhibe una primer moda, una segunda moda, y así sucesivamente. Una de las propiedades fundamentales de las curvas de frecuencias asimétricas que más frecuentemente ocurren en conjuntos de datos de contaminación del aire, es que la moda es más pequeña que la mediana, valor que, a veces, es más pequeño que la media aritmética o promedio. Media geométrica (o promedio geométrico) (Xg) Se define como la raíz enésima del producto de n valores.

usuario
Highlight
usuario
Highlight
usuario
Highlight
usuario
Highlight
usuario
Highlight
usuario
Highlight
usuario
Highlight
usuario
Highlight
Page 4: Analisis e Interpretacion de Datos de La Calidad Del Aire

n

n

i

in

nG xxxxxx ∏=

== ××××

1

321 ......

En el caso de gran cantidad de datos se plantea el cálculo mediante el antilogaritmo del promedio aritmético de los logaritmos de los n datos. Es válido para valores mayores a cero. En caso de valores por debajo del límite de detección, el valor asignado se establece como la mitad de la diferencia entre el límite de detección del método analítico usado y cero. Este valor sustituto debe usarse consistentemente en todos los cálculos subsiguientes. El cálculo se realiza de la siguiente forma:

=∑=

n

x

X

n

i

i

g

1

ln

exp

Ejemplo de cálculos de las medidas de tendencia central Usando las ecuaciones anteriores y los siguientes 10 datos de concentraciones de CO en (ppm): 4, 5, 6, 7, 4, 10, 4, 5, 7, y 8, se presenta el cómputo de la media muestral, mediana y moda. Media muestral:

así , la media muestral es 6ppm Mediana muestral: El orden de los datos es: 4, 4, 4, 5, 5, 6, 7, 7, 8 y 10 donde n es = 10 y es par, la media muestral es:

Así, la mediana muestral es 5.5 ppm. Moda muestral: computando el número de veces que cada valor ocurre: 4 aparece 3 veces; 5 aparece 2 veces;6 aparece 1 vez; 7 aparece 2 veces; 8 aparece 1 vez; y 10 aparece 1 vez . Porque el valor de 4 ppm aparece la mayoría de veces, este es la moda del grupo de datos. MEDIDAS DE DISPERSIÓN Las medidas de tendencia central son más dicientes si son acompañadas por información sobre la dispersión de los datos desde el centro.

Las medidas de dispersión en un grupo de datos incluyen el rango, la varianza, la desviación estándar muestral, el coeficiente de variación y el rango intercuartilico. Rango ó amplitud muestral. Es la diferencia entre los valores más alto y más bajo de las concentraciones registradas. Sufre la influencia de los valores extremos del conjunto de datos y, consecuentemente, tiene limitadas aplicaciones en la interpretación de las mediciones de contaminación del aire. S i X1, X2,.. Xn representan los n datos de monitoreo de un contaminante, tenemos: Rango Muestral: (R) es la diferencia entre el valor más grande y el valor más pequeño de la muestra R = máximo – mínimo. Varianza muestral Mide la dispersión desde la media en el grupo de datos. Una muestra grande implica una varianza que puede tener una gran dispersión entre sus datos y la mayoría de los datos están cercanos a la media. La varianza muestral es afectada por valores extremos o en gran numero de los no detectados. La desviación estándar muestral es la raíz cuadrada de la varianza muestral y tiene las mismas unidades de medida que los datos. Para computar la varianza muestral (S2), se emplea la siguiente expresión:

1

12

11

2

2

+

=∑∑==

n

xn

x

S

n

i

i

n

i

i

Desviación estándar muestral: (S) Es la medida de la variabilidad más comúnmente usada, se calcula como la raíz cuadrada de la varianza de la muestra de los valores con respecto a la media aritmética potenciada al cuadrado. Si se usara la media geométrica, la desviación estándar geométrica (Sg) es la medida aproximada de variabilidad. Para su cómputo se emplea la siguiente expresión:

2SS = Coeficiente de variación (CV) Es una medida sin unidad que permite la comparación de la dispersión entre un gran numero de grupo de datos. El (CV) es frecuentemente usado en aplicaciones ambientales porque la variabilidad (expresada como desviaciones estándar) es frecuentemente

usuario
Highlight
usuario
Highlight
usuario
Highlight
usuario
Highlight
usuario
Highlight
usuario
Highlight
usuario
Highlight
Page 5: Analisis e Interpretacion de Datos de La Calidad Del Aire

proporcional a la media. Se calcula al dividir la desviación estándar por la media muestra y es frecuentemente expresada en porcentaje.

x

SCV =

Rango Intercuartílico RI: Representa la diferencia entre el percentil 75 (3o cuartil) y el percentil 25 (2o cuartil), por lo que concentra el 50% de los datos alrededor de la mediana. Permite visualizar la variabilidad de la información, evitando la influencia de los casos extremos, ver gráfico siguiente.

RI= Q3 - Q1=P75 - P25

Figura 1. Rango Intercuartil.

Representación gráfica de algunos parámetros estadísticos (gráfica de “caja” o boxplot). Caso extremo o caso atípico (outlier). Dada la variación de un fenómeno la mayoría de las observaciones se concentran alrededor de un punto (media o mediana), aquellos que se alejan considerablemente de éste, se consideran como datos atípicos, es decir datos que no ocurren frecuentemente y se alejan del resto. Ejemplo de cálculo de las medidas de dispersión Los siguientes 10 datos de CO en ppm: 4, 5, 6, 7, 4, 10, 4, 5, 7 y 8 son usados para calcular las medidas de dispersión. De anterior ejemplo sabemos que:

Rango muestral: R = Max – Min = 10 – 4 = 6ppm

Varianza muestral:

Desviación estándar muestral:

Coeficiente de variación:

Rango intercuartilico : Para computar el presentí 25th y 75th para los datos (y(25)& (75)respectivamente). y(25) = X( 2 + 1 ) = X( 3 ) = 4 ppm y (75) = X( 7 + 1 ) = X( 8 ) = 7 ppm. El rango intercuartil (IQR) es la diferencia entre estos valores;IQR = y(75) - y(25) IQR = 7 - 4 = 3 ppm. MEDIDAS DE LOCALIZACIÓN Las medidas de localización para los datos empleados en este análisis estadístico, son la concentración máxima, la concentración mínima, la mediana o percentil 50, la moda, los percentiles 10, 25, 75, 90, 95 y 98. Percentil. Un percentil es el valor o dato de concentración debajo del cual se encuentra un determinado porcentaje de datos ordenados por su magnitud. En términos matemáticos pth percentil es el valor que es mas grande o igual al P % de valores de los datos y es menos o igual que (1 – P) % de los valores de los datos. Los percentiles son una de las medidas de ubicación relativa que debe también ser usada para sumar los datos. Algunas veces el analista de la calidad del aire, esta interesado en saber la posición relativa de una de las observaciones en relación a todas las mediciones efectuadas. Por ejemplo, el valor del Percentil 75 señala la concentración a partir de la cual se encuentran tres cuartas partes del total, en tanto que el Percentil 25 señala la concentración a partir de la cual se encuentra una cuarta parte del total. Usualmente los percentiles mas importantemente revisados son el percentil 25, 50 y 75. El percentil 50 es también llamado la muestra mediana y los valores de percentil 25 y 75 son usados para

Page 6: Analisis e Interpretacion de Datos de La Calidad Del Aire

estimar la dispersión del grupo de datos. También es importante para los dato ambientales los percentiles 90th, 95th, y 99th donde el tomador de decisiones puede como estar seguro que el 90%, 95% y 99% de los niveles de contaminación esta abajo del nivel de riesgo fijado. Ejemplo para calcular la medida de ubicación relativa (percentiles) . Tenemos X1, X2, ... Xn representan los n datos de concentración de un contaminante atmosférico. Para computar el percentil p, y(p), primero haga una lista de los datos del mas pequeño al mas grande, X1, X2, ... Xn.

Así t = p/100, y multiplicando el tamaño de la muestra n por t. Divida el resultado en la parte integral y en la parte fraccionaria, i.e. , si nt = j + g donde j es la parte entera y g es la parte fraccionaria, entonces el percentil, y(p), es calculado por: Si g = 0, y(p) = (X( j ) + X( j + 1 ))/2 De otra forma y(p) = X( j + 1) Ejemplo: Calcule los percentiles 90 y 95 para diez (10) mediciones de un contaminante atmosférico , cuyas concentraciones han sido de menor a mayor: 4, 4, 4, 5, 5, 6, 7, 7, 8, y 10 ppm. Para el percentil 95 , t = p/100 = 95/100 = 0.95 nt = (10)(0.95) = 9.5 = 9 + 0.5 así j = 9 y g = 0.5 Por que g = 0.5 ≠ 0, y (95) = X( j + 1) = X( 9 + 1) = X( 10 ) = 10 ppm. Así, 10 ppm es el percentil 95 de los datos anteriores. Para el percentil 90, t = p/100 = 90/100 = .9 nt = (10)(.9) = 9 entonces j = 9 y g = 0. Dado que g = 0, y (90) = (X( 9 ) + X( 10 )) / 2 = (8 + 10) / 2 = 9 ppm MEDIDAS DE ASOCIACIÓN Los datos de la calidad del aire frecuentemente incluyen medidas de varias características (variables) en cada punto de medición. De acuerdo a los problemas a resolver es necesario saber si existen relaciones o niveles de asociación entre dos o más de estas variables. Una de las medidas de asociación más comunes es el coeficiente de correlación. La medida del coeficiente de correlación es la relación entre dos (2) variables; es una relación lineal entre 2 grupos de medidas. Sin embargo el coeficiente de correlación no implica de por si causa y efecto. El analista debe establecer si la correlación entre dos variables es alta y la relación es fuerte, pero no debe decir que una variable causa el crecimiento o

decrecimiento, sin evidencias fuertes ni control estadístico. Para el manejo de la correlación existente entre un grupo de datos de calidad del aire, se emplea con frecuencia a los coeficientes de correlación de Pearson y Spearman. Coeficiente de Correlación de Pearson El coeficiente de correlación de Pearson mide la relación lineal entre dos variables. Una asociación lineal implica que una variable incrementa y lo hace linealmente, o que una variable decrece y la otra incrementa linealmente. Los valores de coeficiente de correlación cercanos a +1 (correlación positiva) implican que como una variable incrementa la otra también lo hace, el inverso contiene valores cercanos a –1. Un valor de +1 implica una correlación lineal positiva perfecta, todos los datos pares caen en una línea con una fuerte inclinación positiva. Los valores de –1 implican una perfecta correlación lineal negativa. Los valores iguales a cero implican que no existe una correlación entre las variables. Ejemplo 1: Durante un periodo de 12 horas, se toman lecturas de CO, SO2 y NO2, con los siguientes resultados:

CO (ppm)

SO2 (µg/m3)

NO2 ( µg/m3)

2 1 2 3 3 5 4 2 7 4 4 8 5 4 5 6 4 3 6 6 4 7 4 6 7 6 7 8 7 5

10 9 5 10 10 9

Si representamos las variables CO – SO2 en un diagrama y CO – NO2 en otro vemos que la correlación es mucho más fuerte en el primero que en el segundo ya que los valores están más alineados. El coeficiente de correlación no detecta relaciones no lineales, de tal forma que el debe ser usado en conjunto con un diagrama de dispersión. Un diagrama de dispersión puede ser usado para determinar si el coeficiente de correlación es significativo o si algunas de las medidas de las relaciones no lineales deben ser usadas. Una propiedad importante del coeficiente de correlación es que el no es afectado por cambios en la localización de los datos (adicionando o sustrayendo un valor constante de todas las medidas X y Y), y por cambios en la escala de los datos y/o valores de Y por una constante positiva.

Page 7: Analisis e Interpretacion de Datos de La Calidad Del Aire

Así las transformaciones lineales en los ejes XS y YS no afecta la correlación de las medidas. El grado de linealidad no es afectado por los cambios en la localización o escala. Por ejemplo si una variable es la temperatura en grados Celsius, la correlación no se cambia si los grados Celsius fueran convertidos a grados Fahrenheit. Por otra parte, si se realizan transformaciones no lineales de las medidas X y Y, entonces la correlación de Pearson entre los valores transformados puede ser diferente de la correlación de las medidas originales. Por ejemplo si X y Y representan respectivamente las concentraciones de PCB y dioxinas en el suelo, y x = log (X) y Y = log (Y) entonces la correlación de Pearson entre X contra Y, X contra x, x contra Y y x contra y, en general serán todas diferentes, dado que la transformación logarítmica es una transformación no lineal. Cálculos del Coeficiente de correlación de Pearson Si X1, X2,...Xn representa una variable de n puntos y si Y1,Y2,...,Yn representa una segunda variable de n puntos. El Coeficiente de correlación de Pearson, r, entre X y Y es computado por:

2/12

1

1

2

2

1

1

2

11

1

−=

∑∑

∑∑

∑∑∑

=

=

=

=

==

=

n

Y

Yn

X

X

n

YX

YX

rn

i

in

i

i

n

i

in

i

i

n

i

i

n

i

in

i

ii

Ejemplo: considere el siguiente grupo de datos (ppb): - muestra 1: arsénico (X) = 8.0; plomo (Y) = 8.0; - muestra 2: arsénico = 6.0; plomo =7.0; - muestra 3: arsénico = 2.0, plomo = 7.0 y - muestra 4: arsénico = 1.0, plomo = 6.0.

Y

Dado que el valor de r cercano a 1, existe una fuerte relación lineal entre estas dos variables. Coeficiente de correlación de Spearman. El coeficiente de correlación de Spearman es una técnica no paramétrica que se basa en los rangos en vez de en los valores originales de la variable. Denotado por rs se utiliza cuando alguna de las variables es ordinal o incluso dicotómica o para variables cuantitativas con muestras pequeñas. El cálculo del coeficiente se realiza primero por el reemplazo de cada valor de X por su rango (1 para los valores pequeños de X, 2 para los segundos más pequeños, etc.) Y cada valor de Y por su rango. Estos pares de rangos son luego tratados como datos (X, Y) y el rango de correlación de Spearman es calculado usado la misma formula que para el coeficiente de correlación de Pearson. Dado que las transformaciones significativas de los datos (incremento monótono) pueden no ser los rangos de las respectivas variables (los rangos para el log X pueden ser los mismos para los rangos de X), la correlación de Spearman no puede ser alterada por el incremento de transformaciones lineales de XS o de YS. Por ello la correlación de Spearman entre PCB y las concentraciones de Dioxina (X y Y) en el suelo serán las mismas que las correlacione entre sus log (x y y). Esta propiedad tan deseada y el hecho que la correlación de Spearman es menos sensitiva a valores extremos que la correlación de Pearson, hacen de ella, una alternativa atractiva o complementaria del coeficiente de correlación de Pearson. Existen algunas diferencias teóricas importantes entre Pearson y Spearman. En general la correlación de Pearson tiene más poder estadístico que la de Spearman, aunque esta ultima tiene aplicaciones mas variadas. Cálculo de Rangos: Para los datos de las variables Var1 y Var2 se calculan los rangos de los valores de éstas, a los que se denota por: Ri(Var1) y Ri(Var2), siendo Ri(Var1) los rangos de Var1 asociados al individuo i y Ri(Var2) los rangos de Var2 asociados al individuo i. Cálculo de valores intermedios: A continuación, se realizan los siguientes cálculos intermedios:

( ) ( )( )∑=

−=n

i

ii VarRVarRD1

221

Page 8: Analisis e Interpretacion de Datos de La Calidad Del Aire

( )∑ −=1

3

arempatesenV

oo

x empatesnempatesnT

( )∑ −=2

3

arempatesenV

oo

y empatesnempatesnT

12

3

xTnnA

−−=

12

3

yTnnB

−−=

Cálculo del coeficiente de correlación de Spearman A partir de los coeficientes calculados con anterioridad, se calcula el coeficiente de correlación rs de Spearman dado por:

AB

DBAr

2

−+=

Se puede demostrar que si se calcula el coeficiente de correlación de Pearson sobre las variables Ri(Var1) y Ri(Var2) se llega al mismo resultado. Significación del coeficiente de correlación de Spearman Para realizar el contraste: H0: r = 0 H1: r ≠ 0 Se construye el siguiente estadístico de contraste:

21

2

s

sr

nrt

−=

Que sigue una distribución t-Student con n - 2 grados de libertad. Ejemplo para calcular el coeficiente de correlación de Spearman Si X1,X2,....Xn Representa un grupo de rangos de n puntos de datos de un grupo de datos y si Y1,Y2,....Yn Representa un grupo de rangos de una segunda variable de n datos. El coeficiente de correlación de Spearman, r, entre X y Y es computado por:

2/12

1

1

2

2

1

1

2

11

1

−=

∑∑

∑∑

∑∑∑

=

=

=

=

==

=

n

Y

Yn

X

X

n

YX

YX

rn

i

in

i

i

n

i

in

i

i

n

i

i

n

i

in

i

ii

s

Ejemplo: Considere el siguiente grupo de datos en (ppb) muestra 1 — arsénico (X) = 8.0, plomo (Y) = 8.0; muestra 2 - arsénico = 6.0, plomo = 7.0; muestra 3 - arsénico = 2.0, plomo = 7.0; y muestra 4 - arsénico = 1.0, plomo = 6.0. Usando un rango de datos de menor a mayor de arsénico: muestra No. 4 3 2 1 arsénico 1.0 2.0 6.0 8.0 plomo 6.0 7.0 7.0 8.0 Convertir los datos iniciales a rangos, cualquier unión puede ser hecha como un promedio de que rangos que han sido asignados Muestra No. 1 3 2 4 Rango de arsénico 1 2 3 4 (X) Rango del plomo 1 2.5 2.5 4 (Y) Note como 7.0 (que tiene dos observaciones de plomo) fue convertido a un rango promedio (los rangos 2 y 3, tienen cada uno 2.5)

Al ser el valor de r cercano a 1, existe una fuerte relación lineal entre estos dos contaminantes. INDICADORES DE ESTADO O DE GESTION Son parámetros estadísticos descriptivos que resumen una gran cantidad de información, conceptualmente miden, eficientemente, el estado de avance o retroceso en la reducción de contaminantes emitidos a la atmósfera en un área especifica e ilustran la problemática de Calidad del Aire, para con ello evaluar el efecto de las estrategias de control. De ahí que se deban medir la frecuencia y la intensidad de concentraciones que exceden un estándar, la intensidad de las concentraciones pico e ilustrar el impacto del transporte de contaminantes hacia las áreas viento abajo, las cuales permitirán tener información base para evaluar los posibles efectos en salud1. Como Indicadores de Estado, se tienen los siguientes:

- Primera y segunda concentración máxima del año (hot spot) - Percentiles - media centrada - Promedio de las 30 concentraciones máximas diarias del año (top 30)

1 SEMAT. Ciudad de México D.F

Page 9: Analisis e Interpretacion de Datos de La Calidad Del Aire

- Indicadores temporales - Tiempo promedio de excedencias anuales - Promedio anual de exposición

Primera y segunda concentración máxima del año Estos indicadores se obtienen con la primera y la segunda concentración máxima anual registrada en las estaciones de monitoreo con el mejor desempeño histórico. Se recomienda este indicador para el ozono, el monóxido de carbono, el dióxido de nitrógeno, el dióxido de azufre y partículas en suspensión. Por su naturaleza extrema no se recomienda usar métodos para estimar datos faltantes. Número de días de excedencia anual Este indicador se obtiene como una frecuencia de horas o días en que una concentración establecida es rebasada, por lo general se asocia a una norma de protección a la salud. Este indicador permite observar cuando un área está cercana a lograr las normas permisibles de contaminación. En su obtención se pueden usar métodos para estimar datos perdidos o faltantes. Tiempo promedio anual de excedencias Este indicador señala el tiempo promedio de exposición anual en exteriores a concentraciones que exceden una norma de salud, proporcionando una medida del impacto de un contaminante en la salud de los habitantes. Se usa para ozono, por ser este el contaminante que con mayor frecuencia rebasa su norma de salud. Supone que los individuos se exponen a concentraciones medidas por la red de monitoreo, de manera que no considera los patrones de actividad diaria en microambientes, lo que puede aumentar o disminuir la exposición. Promedio ponderado de exposición anual Este indicador representa una ponderación de la exposición de los individuos de un área con problemas para alcanzar la norma de salud. Se obtiene como la suma de las diferencias entre la concentración horaria de un contaminante y el valor de la norma, su interpretación conlleva a la interpolación de sus valores en mapas. En caso de datos faltantes se pueden usar los datos de las estaciones que están en un radio de 50 km. En el caso de la exposición poblacional, la suma de las diferencias horarias de un año se multiplica por el número de habitantes de cada región. Para la exposición de área, la suma de las

diferencias horarias de cada región se multiplican por su área (en km2), el resultado es una exposición horaria para una región.

REPRESENTACIÓN GRÁFICA DE LOS DATOS CONSTRUCCIÓN DE GRÁFICOS El objetivo de este paso es identificar patrones y tendencias en los datos que pueden ser inadvertidos usando métodos puramente numéricos. Las graficas pueden ser usadas para identificar estos patrones y tendencias para una confirmación rápida o rechazo de la hipótesis, para descubrir nuevos fenómenos, para identificar problemas potenciales y para sugerir medidas correctivas. Adicionalmente algunas representaciones graficas pueden ser usadas para grabar y almacenar datos compactamente o para comunicar información a otros. La representaciones graficas incluyen exhibiciones de grupos de datos individuales, cantidades estadísticas, datos temporales, datos espaciales de dos o mas variables. Desde una representación grafica simple no se puede proveer una imagen completa del grupo de datos, el analista debe elegir entre diferentes técnicas graficas para iluminar las diferentes características de los datos. Como mínimo, el analista debe elegir una representación grafica de los puntos por datos individualmente, y una representación grafica de las cantidades estadísticas. Si los datos tienen un componente espacial o temporal, seleccione la representación grafica especifica de datos temporales o espaciales en adición a las que no lo son. Si el grupo de datos consiste en mas de una variable, tratar cada variable individualmente, después desarrollar una representación grafica para variables múltiples. Si el plan de muestreo o el método de análisis sugerido es confiable y no tiene supuestos críticos, considerar mejor un tipo particular de grafica que de luces en la validez de lo asumido. Dos de los métodos más antiguos para sumar la distribución de los datos es el diagrama de frecuencia y el histograma. REPRESENTACIONES GRAFICAS, HISTOGRAMAS Y PLANOS DE FRECUENCIA Para hacer más clara y evidente la información que nos dan las tablas se utilizan los gráficos , que pueden ser :

• Diagramas de barras (datos cualitativos y cuantitativos de tipo discreto). En el eje y se pueden representar frecuencias absolutas o relativas.

Page 10: Analisis e Interpretacion de Datos de La Calidad Del Aire

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7 8 9

Notas

Frecu

encia Absoluta

Figura 2. Diagrama de Barras

• Un histograma es una representación gráfica de una distribución de frecuencias. Consiste en un conjunto de rectángulos que tiene su base en el eje de las X (horizontal), tiene sus anchos proporcionales a los intervalos de clase, y tienen sus alturas (en el eje Y) proporcionales a las frecuencias. El histograma consiste en levantar sobre cada intervalo un rectángulo cuya área sea igual a su frecuencia absoluta.

área = base · altura

fi = ∆ xini

Luego la altura de cada rectángulo vendrá dada por ni que se llama función de densidad, Si por ejemplo un intervalo es el doble de ancho que los demás su altura ni debe ser la mitad de la frecuencia absoluta y así no se puede inducir a errores . Normalmente la amplitud de los intervalos es constante por lo que ni será proporcional a fi y por tanto podemos tomar fi como la altura ni ya que la forma del gráfico será la misma , aunque ahora el área del rectángulo ya no sea exactamente la frecuencia absoluta (a no ser que la amplitud del intervalo sea igual a 1).

Tabla 1. Distribución de frecuencias del promedio diario de concentración de anhídrido sulfuroso en el sitio.

Intervalo de concentración (µg

SO2/m3

Numero de días

Frecuencia relativa (%)

0-24 39 10,8

25-49 67 18,5

50-74 64 17,7

75-99 63 17,4

100-124 45 12,5

125-149 30 8,3

Intervalo de concentración (µg

SO2/m3

Numero de días

Frecuencia relativa (%)

150-174 17 4,7

175-199 9 2,5

200-224 7 1,9

225-249 6 1,7

250-274 5 1,4

275-299 3 0,8

300-324 1 0,3

325-349 0 0

350-374 2 0,6

375-399 1 0,3

400-424 1 0,3

425-449 0 0

450-474 1 0,3

475-499 0 0

Histograma

0

10

20

30

40

50

60

70

80

0-24

50-74

100-124

150-174

200-224

250-274

300-324

350-374

400-424

450-474

Concentracion SO2

Numero de Dias

Figura 3.Histograma

• Una curva de frecuencia es una curva continua que se ajusta a un histograma; preferentemente, es una curva que puede expresar una forma matemática simple. La línea punteada en la figura 4, es un ejemplo de una curva de frecuencias. La mayoría de los conjuntos de datos de contaminación del aire produce histogramas y correspondientes curvas de frecuencias que muestran una máxima desplazada hacía la izquierda, con una larga cola a la derecha (asimétrica a la derecha). Pueden presentarse otras formas, pero ellas pueden ser más bien excepcionales.

Page 11: Analisis e Interpretacion de Datos de La Calidad Del Aire

Curva de Frecuencia

0

10

20

30

40

50

60

70

80

0-24

50-74

100-124

150-174

200-224

250-274

300-324

350-374

400-424

450-474

Concentracion SO2

Numero de Dias

Figura 4. Curva de Frecuencia.

• Polígono de frecuencias: La frecuencia total de los valores menores que el limite superior de un determinado intervalo de clase se llama la frecuencia acumulativa, que llega hasta e incluye esa clase. La tabla 2 representa los datos de la tabla 1 organizados en la forma de frecuencia acumulativa, y los porcentajes que resultan pueden ser puestos en un gráfico contra los límites superiores de las clases escogidas para formar un polígono de frecuencias acumulativas, el cual muestra de un vistazo el porcentaje de observaciones por debajo de cualquier valor especificado. Alternativamente, los datos pueden ser reordenados para mostrar la proporción de observaciones que exceden cualquier valor dado. Los polígonos usualmente se alisan, como muestra el gráfico, para obtener curvas continuas que corresponden a las curvas de frecuencias que se ajustan a los histogramas.

Tabla 2. Distribución de frecuencias del promedio diario de concentración de anhídrido sulfuroso en

el sitio

Promedio Diario (µg SO2/m3

Frecuencia Acumulativa

Porcentaje de la Frecuencia Acumulativa

Menos de 25 39 10,8

Menos de 50 106 29.3

Menos de 75 170 47.0

Menos de 100 233 64.6

Menos de 125 278 76.9

Menos de 150 308 85.2

Menos de 175 325 89.9

Menos de 200 334 92.4

Menos de 225 341 94.3

Menos de 250 347 96.0

Menos de 275 352 97.4

Menos de 300 355 98.2

Menos de 325 356 98.5

Menos de 350 356 98.5

Menos de 375 358 99.1

Menos de 400 359 99.4

Menos de 425 360 99.7

Menos de 450 360 99.7

Menos de 475 361 100.0

Menos de 500 361 100.0

Curva de Frecuencias Acumulativas del Promedio Diario de Concentraciones de Anhidrido Sulfuroso en el Sitio.

0

20

40

60

80

100

120

25 75125

175225

275325

375425

475

Concentracion SO2

Frecu

encia Acu

mulativa%

Figura 5. Curva de frecuencias acumulativas.

Tanto el histograma como el diagrama de frecuencias usan los mismos principios básicos para representar los datos: Dividen el rango de datos en unidades, contando el numero de puntos con las unidades, y exhibiendo los datos como el alto o área con una barra grafica. Estos tienen sutiles diferencias, en el diagrama de frecuencia, la altura relativa de las barras representa la densidad relativa de los datos. En un histograma el área con las barras representa la densidad relativa de los datos. La diferencia entre los dos diagramas llega a ser más distinta cuando son usadas cajas de tamaños diferentes. El histograma y el diagrama de frecuencias provee una forma de interpretar la simetría y variabilidad de los datos. Si los datos son simétricos, entonces la estructura de esos diagramas puede ser simétrica alrededor de un punto central como la media. El histograma y los diagramas de frecuencia indican generalmente si los datos son agrupados y la dirección de ese agrupamiento. Instrucciones para generar un histograma y un diagrama de frecuencias

Page 12: Analisis e Interpretacion de Datos de La Calidad Del Aire

Si X1, X2,.....Xn representan n número de datos. Para generar un histograma o un diagrama de frecuencia, proceda de la siguiente manera: Paso 1: Seleccione intervalos que cubran el rango de las observaciones. Si es posible, estos intervalos pueden tener igual ancho. Una regla es tener de 7 a 11 intervalos. Si es necesario especifique una convención para el punto final. Paso 2: Compute el numero de observaciones con cada intervalo. Para un diagrama de frecuencias con igual tamaño de intervalos el número de observaciones representa la altura de las cajas en el diagrama de frecuencias. Paso 3: determinar el eje horizontal basado en el rango de los datos. El eje vertical para un diagrama de frecuencias es el número de observaciones. El eje vertical del histograma es basado en porcentajes. Paso 4: Para un histograma calcule el porcentaje de observaciones con cada intervalo por la división del numero de observaciones con cada intervalo (paso 3) por el numero total de observaciones. Paso 5: Para un histograma, seleccione una unidad común que corresponda al eje x. Calcule el numero de unidades comunes en cada intervalo y divida el porcentaje de observaciones con cada intervalo (paso 4) por este numero. Este paso es necesario solamente cuando los intervalos no son de igual ancho. Paso 6: Usando cajas, el diagrama de intervalos contra los resultados del paso 5 por un histograma o el intervalo contra el numero de observaciones en un intervalo (paso 2) para un plano de frecuencias. Ejemplos de generación de histogramas y diagramas de frecuencia Considere los siguientes 22 muestras de concentración de contaminantes en ppm: 17.7, 17.4, 22.8, 35.5, 28.6, 17.2 19.1, <4, 7.2, <4, 15.2, 14.7, 14.9, 10.9, 12.4, 12.4, 11.6, 14.7, 10.2, 5.2, 16.5, y 8.9. Paso 1: estos datos están entre 0 - 40 ppm. Son usados intervalos de tamaños iguales de 5ppm. La convención del punto final es que los valores son ubicados en el intervalo mas alto que contiene los valores. Un valor de 5ppm puede ser ubicado en el intervalo de 5 – 10 ppm en vez de 0 – 5 ppm Paso 2 : La tabla muestra el número de observaciones con cada intervalo definido en el paso 1.

Intervalo

Numero de observacione

s en el

intervalo

% de Observaciones en el Intervalo

% de Observaciones por ppm

0-5ppm 2 9,1 1,8 5-10ppm 3 13,6 2,7

10-15ppm 8 36,36 7,3 15-20ppm 6 27,27 5,5 20-25ppm 1 4,55 0,9 25-30ppm 1 4,55 0,9 30-35ppm 0 0 0 35-40ppm 1 4,55 0,9

Tabla 3. Numero de Observaciones.

Paso 3 : El eje horizontal para los datos es de 0 – 40ppm. El eje vertical para el diagrama de frecuencias es de 0 – 10 y el eje vertical para el histograma es de 0 – 10% Paso 4: Estas son 22 observaciones en total y el numero de observaciones muestra en la tabla como esta dividida por 22. El resultado es mostrado en la columna 3 de la tabla. Paso 5: La unidad común para estos datos es 1ppm. En cada intervalo hay 5 unidades comunes del porcentaje de las observaciones (columna 3 de la tabla 3) puede ser dividida por 5 (columna 4) Paso 6: El diagrama de frecuencias esta en la figura 6 y el histograma esta mostrado en la figura 7.

Figura 6.Ejemplo de diagramas de Frecuencia.

Figura 7.Ejemplo de un Histograma.

Page 13: Analisis e Interpretacion de Datos de La Calidad Del Aire

DIAGRAMA DE LA PROBABILIDAD NORMAL. (DIAGRAMA DEL QUANTILE-QUANTILE) hay dos tipos de diagramas Cuantile-Cuantile o diagramas q-q. El primer tipo, un diagrama empírico cuantile-cuantile, implica trazar los Cuantiles de dos variables de los datos una contra la otra. El segundo tipo de un diagrama Cuantile-Cuantile, un diagrama teórico Cuantile-quantile implica el representar los Cuantiles gráficamente de un sistema de datos contra los Cuantiles de una distribución específica. La discusión siguiente se centrará en el más común de estos diagramas para los datos ambientales, el diagrama de la probabilidad normal (el diagrama normal q-q); sin embargo, la discusión se mantiene para otros diagramas q-q. Se utiliza el diagrama de la probabilidad normal aproximadamente para determinar si los datos del sistema están bien modelados por una distribución normal. Las direcciones para desarrollar un diagrama de la probabilidad normal se muestra en el cuadro 1 y un ejemplo se muestra en el cuadro 2. Un diagrama de la probabilidad normal es el gráfico de los Cuantiles de un sistema de datos contra los Cuantiles de la distribución normal usando el papel de gráfico de la probabilidad normal (figura 8). Si el gráfico es lineal, los datos pueden ser normalmente distribuidos. Si el gráfico no es lineal, las salidas de linealidades dan la información importante sobre cómo la distribución de los datos se desvía desde una distribución normal. Si el gráfico del diagrama de la probabilidad normal no es lineal, el gráfico se puede utilizar para determinar el grado de simetría (o de asimetría) mostrado por los datos. Si caen los datos de la cola superior y los datos en la cola más baja caen debajo de la línea cuartil, los datos son demasiado delgados para ser bien modelados por una distribución normal, es decir, hay pocos valores en las colas del sistema de datos del que se espera de una distribución normal. Si caen los datos en la cola superior y los datos en la cola más baja caen sobre la línea cuartil, entonces las colas de los datos son demasiado pesadas ser bien modeladas usando una distribución normal, es decir, hay más valores en las colas de los datos del que se espera de una distribución normal. Un diagrama de la probabilidad normal se puede utilizar para identificar afloramientos potenciales. Un valor de los datos (o algunos valores de los datos) mucho más grandes o mucho más pequeños que el resto hará que los otros valores de los datos se compriman en el centro del gráfico, arruinando la resolución. Instrucciones para construir un diagrama de probabilidad normal

Dejar X1, X2...., Xn representan los n puntos de referencia. PASO 1: Para cada valor de los datos, compute la frecuencia absoluta, AFi. La frecuencia absoluta es el número de tiempos que le ocurre a cada valor. Para valores distintos, la frecuencia absoluta es 1. Para las observaciones no-distintas, cuente el número de tiempos que ocurre en una observación. Por ejemplo, considere los datos 1, 2, 3, 3. La frecuencia absoluta del valor 1 es 1 y la frecuencia absoluta del valor 2 es 1. La frecuencia absoluta del valor 3 es 2 puesto que aparece 3 2 veces en el sistema de datos. PASO 2: Compute las frecuencias acumulativas, CFi. La frecuencia acumulativa es el número de los puntos de referencia que son menores o iguales a XI, es decir,

∑=

=i

j

jAFCF1

usando los datos dados en el

paso 2, la frecuencia acumulativa para el valor 1 es 1, la frecuencia acumulativa para el valor 2 es 2 (1+1), y la frecuencia acumulativa para el valor 3 es 4 (1+1+2). PASO 3: Compute y trace los pares (Yi, XI) usando el papel de probabilidad normal (figura 8). Si el gráfico de estos pares forma aproximadamente una línea recta, entonces los datos son probablemente normalmente distribuidos. Si no, los datos no pueden ser distribuidos normalmente. Ejemplo del diagrama de probabilidad normal considere los siguientes 15 puntos de referencia: 5, 5, 6, 6, 8, 8, 9, 10, 10, 10, 10, 10, 12, 14, y 15. PASO 1: Debido a que el valor 5 aparece 2 veces, su frecuencia absoluta es 2. Igualmente, la frecuencia absoluta de 6 es 2, de 8 es 2, de 9 es 1, de 10 es 5, etc. Estos valores se demuestran en la segunda columna de la tabla de abajo. PASO 2: La frecuencia acumulativa del dato 8 es 6 porque hay 2 valores de 5, 2 valores de 6, y 2 valores de 8. Las frecuencias acumulativas se demuestran en la 3ra columna de la tabla.

Page 14: Analisis e Interpretacion de Datos de La Calidad Del Aire

PASO 3: Compute )1(

*100+

=n

CFY ii y trace

los pares (Yi, XI) usando el papel de probabilidad normal (figura 8). Si el gráfico de estos pares forma aproximadamente una línea recta, entonces los datos son probablemente normalmente distribuidos. Si no, los datos no pueden ser distribuidos normalmente.

Figura 8. Figura de papel de probabilidad normal

DISTRIBUCIÓN DE PROBABILIDAD LA DISTRIBUCIÓN NORMAL Los datos, especialmente medidos, ocurren en los patrones naturales que se pueden considerar para ser una distribución de valores. En la mayoría de los casos los valores de los datos serán agrupados alrededor de una cierta medida de tendencia del control tal como la media o mediana . La extensión de los datos (según lo determinado por la suma de las distancias de los cuadrados del punto de referencias de la mediana) se llama varianza (la raíz cuadrada de esto se llama la desviación estándar). Una distribución con una varianza grande será separada hacia fuera que una con una varianza pequeña (Figura 9). Cuando los valores de los datos bajan en un patrón sistemático alrededor de la media y después disminuyen rápidamente a las colas, es a menudo una distribución normal o una curva en forma de campana.

Figura 9.la distribución normal

Figura 10.curva normal estándar (z-curva).

Las características de una distribución normal son bien conocidas matemáticamente y también cuando están referidas, se escriben generalmente como "Dato distribuido N (µ,σ2)” donde la primera característica es la media (µ) y el segundo la varianza (σ2). Se puede mostrar que cualquier distribución normal se puede transformar a una distribución normal estándar, N(0,1), y esta normal estándar designada simplemente Z (Figura 10). Es frecuentemente necesario referir a los porcentajes de una normal estándar y en este documento, el subíndice para un valor z denotará el porcentaje (o el área bajo la curva, acumulativa de la izquierda), véase figura 10.

RESÚMENES GEOGRÁFICOS

La determinación del perfil de distribución de la contaminación del aire sobre un área es tan importante como la medición de la contaminación misma. Los cuadros, tablas y gráficos a que se ha hecho referencia en las secciones, precedentes tienen principalmente relación con variaciones temporales y no hacen que se visualice el perfil espacial de la distribución de la contaminación del aire. El perfil espacial es conveniente para: 1.) Obtener una perspectiva visual de las variaciones en el espacio de la calidad del aire y establecer patrones de niveles de exposición humana. 2.) Juzgar las tendencias de la calidad del aire en relación con el crecimiento de la población

Page 15: Analisis e Interpretacion de Datos de La Calidad Del Aire

3.) Apreciar la relación entre la configuración de las fuentes, de contaminación del aire. Las variaciones meteorológicas, y los niveles ya sean medidos o computados, de contaminación del aire.

Uno de los procedimientos más ampliamente usados para representar perfiles espaciales de concentraciones de contaminación del aire son los mapas de isopletas (una isopleta es una línea que une los puntos de igual concentración de contaminación del aire). Para desarrollar un mapa; de isopletas. una red de estaciones de vigilancia del aire debe cubrir adecuadamente el área de interés para el estudio, Para contaminantes primarios, tales como el dióxido de azufre, el monóxido de carbono y las partículas en suspensión para los cuales las llamadas áreas representativas son bastante pequeñas para cada estación de vigilancia, es posible que se requiera de un número relativamente grande de estaciones, para tener una mayor cobertura de la región evaluada. Otros factores a ser tomados en consideración son: las condiciones geográficas del área en estudio, las características no comunes que pueda tener el sitio y el tener completos los datos.

Cuando hay datos disponibles en varios sitios el primer paso a darse al levantar un mapa isoplético es colocar en el mapa la ubicación de las estaciones y las correspondientes concentraciones de contaminantes expresadas como media aritmética (promedio) media geométrica (promedio geométrico), 95mo percentil o valores máximos.

Al dibujar mapas isopléticos, varios factores geográficos o meteorológicos pueden ser de importancia. Se presentan dos tipos de situaciones. La primera es el procedimiento de dibujar paso a paso tales mapas cuando sólo se utilizan concentraciones de contaminación del aire y sitios de vigilancia. La segunda ocurre, cuando en el procedimiento para dibujar paso a paso un mapa isoplético se consideran accidentes geográficos (en este caso montañas) junto con los sitios de vigilancia y las concentraciones de contaminación del aire. En el primer caso y comenzando desde el punto que muestra el valor más alto se trazan líneas entre ese punto y los puntos que quedan cerca de él .Luego conviniendo la cifra entera más próxima al valor más alto, determinado, se marca el punto que representa ese valor, por interpolación, en cada una de las líneas de interconexión ya trazadas. (Aunque no existe una regla estricta acerca de esto, es costumbre tomar estos valores de diez en diez ug/m3. Por ejemplo si el primer contorno corresponde a 50 ug/m3, el segundo contorno en la figura se conviene que es 40 ug/m3). El próximo

paso es unir todos los puntos marcados con el mismo valor. Cuando se unen todos los puntos que llevan una misma cifra, se obtiene una isopleta elíptica. De un modo similar otros valores se marcan en el mapa y se trazan líneas de contorno por ellos.

Cuando se tiene también en consideración una característica geográfica el mapa isoplético puede tomar una apariencia muy diferente de la que se ha descrito arriba. Básicamente, el proceso de dibujar tal mapa es el mismo que se ha reseñado anteriormente, pero por el hecho de asumirse que una masa de aire contaminado en un lado de la montaña no se mezcla con aquella que se genera en el otro lado, se trazan líneas de contorno separadas para cada uno de los dos valles.

SERIES CRONOLÓGICAS

Una serie cronológica es un conjunto de observaciones tomadas en tiempos especificados, usualmente a intervalos iguales. Las mediciones continuas, así como ciertos esquemas de mediciones "intermitentes de contaminación del aire, casan con esa definición. Tal como se ha explicado previamente, las series cronológicas, cuando son graficadas apropiadamente, son muy útiles para detectar posibles anomalías en el conjunto de datos, para comparar fluctuaciones de contaminantes diferentes medidos en el mismo sitio, y para individualizar mediciones o períodos de mediciones que requieran de especial atención y/o de mayores análisis.

Las series cronológicas aplicadas a conjuntos de datos de contaminación del aire pueden dividirse en dos categorías principales: ciclos y tendencias. Los ciclos producidos más comúnmente en la contaminación del aire son: diurnos, semanales y de épocas (invierno o verano). En las regiones templadas, por ejemplo, son comunes los ciclos que se refieren al S02 como consecuencias de los períodos de uso o no uso de la calefacción. Las tendencias en áreas urbanas, o al "movimiento" que se advierte se producen a largo plazo, se refieren a la dirección general que parece que las series cronológicas están siguiendo durante largos intervalos de tiempo. En la práctica, se considera que estos largos períodos sean de 5 años por lo menos en lo que respecta a datos de la contaminación del aire.

Los ciclos diurnos son causados por una combinación de la influencia de los factores meteorológicos y de los cambios en las emisiones que ocasionan la contaminación del aire. Estas últimas se deben mayormente a la actividad humana. Los ciclos diurnos pueden analizarse sobre bases individuales por ejemplo, el ciclo diurno que resulta de la actividad de uno o más

Page 16: Analisis e Interpretacion de Datos de La Calidad Del Aire

contaminantes en un día específico ó sobre bases estadísticas como promedios de todas las observaciones tomadas a la misma hora del día durante un período de tiempo más largo.

A menudo es muy útil cuando se analiza ciclos, graficar factores meteorológicos específicos o datos sobre emisiones que contribuyen a la contaminación del aire, en la misma escala de tiempo usada para las concentraciones de la contaminación. Por ejemplo, la inversión de la temperatura diaria graficada. La primera consideración a tenerse en cuenta para determinar si existe o se manifiesta una tendencia en los valores de las mediciones de calidad del aire es seleccionar el parámetro o parámetros de interés. Algunos parámetros de utilidad son, por ejemplo: el promedio anual y ciertos percentilos particularizados como los percentilos 50mo y 90mo También puede ser de interés el porcentaje de observaciones que exceden una norma determinada.

El marco de tiempo de los datos bajo consideración puede afectar seriamente la observación que se hace de la tendencia dominante. Por ejemplo, si las concentraciones decrecen abruptamente en los cuatro años que corren entre 1960 y 1963, pero permanecen estables en los ocho años que van de 1964 a 1971, la tendencia en el periodo de 12 años de 1960 a 1971 se inclinaría probablemente hacia abajo, mientras que la tendencia de los 8 años 1964 1971 indicaría cambio alguno. En consecuencia, la clasificación de las tendencias depende claramente del marco temporal en el que se consideren.

El marco temporal para fines de evaluación debe ser seleccionado de una manera objetiva. La disponibilidad de los datos es usualmente el factor determinante, pero el intervalo puede preseleccionarse teniendo como base el conocimiento del perfil que toman las emisiones. Es útil, a menudo, efectuar la evaluación de la tendencia sobre diferentes intervalos de tiempo Con el fin de obtener una descripción más completa de la disposición global, y evitar así los problemas antes mencionados.

Cuando se efectúa un análisis de tendencias, es muy ventajoso ver los datos volcados en forma gráfica. El hecho de graficar las estadísticas trimestrales o anuales sobre un período de tiempo más o menos largo, es usualmente suficiente para tener una idea somera de la forma básica que toman los datos, e intuitivamente la tendencia qué configuran puede entonces aparecer con claridad. Para facilitar la interpretación del perfil predominante, conviene determinar una cierta

línea de tendencia objetiva para los datos. Esto se puede obtener por medio del cálculo del promedio móvil de las observaciones, lo cual permitirá, así mismo, una representación más simple y más suave, con menos altibajos, de los datos originales. El promedio móvil se obtiene calculando una serie de promedios aritméticos, recurriendo para ello al uso de un pequeño número de valores consecutivos en una serie cronológica. El cálculo de estos promedios aritméticos se realiza desechando cada vez el primer valor, y añadiendo en la misma vez el valor próximo que se da en la serie cronológica. Para estimaciones trimestrales, el cálculo de un promedio móvil anual que consista de cuatro estimaciones trimestrales eliminará las fluctuaciones estacionales y hará desaparecer, así mismo, las variaciones al azar que pudieran existir. Cuando se considera estimaciones anuales sobre períodos de varios años, un promedio móvil de tres años (promedio móvil de los promedios anuales) habrá de suavizar mucho la variación que se produce de año a año. Parece natural suponer que la opinión personal de los que intervienen en este proceso de estudio y análisis de las mediciones efectuadas pudiera llevar a una distorsión sobre la magnitud de las tendencias. Para evitar hasta donde sea posible que esto ocurra, se recomienda seguir una técnica cuantificable cuando se tenga que hacer un juicio estrictamente cualitativo. Una de estas técnicas que utiliza el análisis de correlación de rangos de Spearman es la prueba de Daniel para tendencias en las que se hace uso del coeficiente de Spearman de correlación de rangos. Condición para utilizar este procedimiento es la de tener disponibilidad por lo menos de 4 periodos de tiempo.

LIMITACIONES DE LOS CONJUNTOS INCOMPLETOS DE DATOS. El que un conjunto de datos de calidad del aire sea incompleto puede ser el resultado de fenómenos muy diferentes. Primero, un conjunto de datos puede ser incompleto debido al mal funcionamiento de la red de vigilancia, lo cual puede dar como resultado que algunos datos se pierdan. Si esto acontece sistemáticamente (por ejemplo, durante los fines de semana), o sobre extensos periodos de tiempo, la interpretación de los datos requiere de especial cuidado. De otro lado, si los vacíos existentes en el conjunto de datos ocurren al azar, puede aplicarse sin temor la mayoría de técnicas estadísticas. El mismo principio tiene validez cuando los vacíos en el conjunto de datos son intencionales – verbigracia, una red puede programarse para determinar un promedio diario de cada 5 días. Si se va a computar promedios anuales, el número de

Page 17: Analisis e Interpretacion de Datos de La Calidad Del Aire

mediciones en cada trimestre del año deberá ser sensiblemente igual. Una regla práctica puede ser asumir que una muestra se equilibra adecuadamente si cada trimestre del calendario contiene por lo menos el 20% del número total de observaciones. Los perfiles estaciónales que existen para ciertos contaminantes muestra por que la adopción de esta regla esencial. Muchos investigadores han tratado de enfrentar el problema de los conjuntos incompletos de datos adoptando un punto de vista pragmático. En cualquier enfoque estadístico que se escoja, es esencial tener un conocimiento acusado de la leyes de distribución de población. Se hace claro que la precisión de los indicadores estadísticos calculados (la media aritmética o promedio, la media geométrica, la desviación estándar, etc.) habrá de decrecer si la frecuencia del muestreo decrece y si se incrementa la variabilidad de la población de la cual se toman las muestras. Si se toman muestras de 24 horas cada dos días, la desviación que se produce, con relación al promedio anual obtenido si las muestras se toman diariamente, es, en la práctica, frecuentemente menor que +/- 2%. En forma similar, si se toman las muestras cada doce días, la desviación con respecto al promedio anual es +/- 5%. Es claro que el control de las normas de calidad del aire establecidas en la legislación ambiental, valores que se han establecido como nivéles que no se deben sobrepasar por sus efectos marcados en la salud de la población expuesta, puede ocasionar problemas en la práctica. Por ejemplo cuando se trabaja con valores incompletos de datos de calidad del aire, las concentraciones máximas, son generalmente subestimadas. Pese a lo anterior, existen dos posibles soluciones para el problema de los datos incompletos. • incrementar el número de mediciones del

parámetro en estudio • usar ecuaciones matemáticas para estimar

los valores máximos deducidos de los datos proporcionados.

EL ANÁLISIS COMO UNA FUNCIÓN DE LAS CONDICIONES METEOROLÓGICAS

La interpretación de las mediciones hechas para cuantificar la contaminación del aire requiere que se tenga información sobre las características de la atmósfera. Para este propósito se utilizan comúnmente datos referentes a condiciones meteorológicas y climatológicas. La asesoría técnica y el apoyó que preste el servicio nacional

del tiempo o un instituto nacional de meteorología es muy conveniente si no esencial en la mayoría de los casos.

El análisis real de los datos de la contaminación del aire como una función de uno o más parámetros meteorológicos es posible de hacerse en muy diferentes niveles. Se ha mencionado ya que el análisis de las mediciones individuales de contaminación del aire como función de un conjunto de parámetros meteorológicos medidos simultáneamente no sólo es interesante sino de apreciable utilidad. Por ejemplo, la graficación de la serie cronológica de datos meteorológicos y de contaminación del aire puede ilustrar ciertas relaciones funcionales o estadísticas. Los antecedentes físicos en que se basa lo anterior son a menudo, bastante complicados debido al hecho de que la mayoría de los fenómenos son el resultado de una combinación de la emisión de contaminantes y de las condiciones meteorológicas prevalentes factores estos que se influencian uno a otro simultáneamente. Las técnicas de análisis de correlación y regresión son útiles para confirmar estas relaciones. Si se combinan los datos meteorológicos y los de contaminación del aire en una llamada “rosa de contaminación atmosférica", se está utilizando una técnica de "detección e identificación de fuentes" que es de bastante uso y aplicación.

Se obtiene una "rosa de contaminación atmosférica" para un sitio contaminante y período específico, mediante el ordenamiento y agrupamiento de mediciones de contaminación del aire de acuerdo a la dirección promedio del que ocurra durante las mediciones. Cuando esto se hace sobre un período tiempo (por ejemplo, un año) cada clase de dirección del viento tiene un número suficiente de valores de concentración para justificar el arranque de un análisis estadístico. Para cada clase, se determina la distribución de frecuencias acumulativas, los valores extremos, los promedios y las desviaciones estándar. Ciertos parámetros estadísticos específicos (por ejemplo, el promedio aritmético, y el número de percentilos que se necesiten para análisis o interpretaciones adicionales) son registrados bajo la forma de un cuadro como una función de las clases de dirección del viento.

La tabla 4 ilustra lo anterior para un conjunto de promedios de S02 de media hora, medidos sobre el período de un año. No se han incluido en este análisis los datos de contaminación del aire que corresponden a velocidades de viento demasiado lentas para que puedan definir una dirección del viento claramente configurada. La velocidad y la dirección del viento se midieron a uno 15 metros sobre el nivel del terreno, en el sitio de vigilancia

Page 18: Analisis e Interpretacion de Datos de La Calidad Del Aire

para S02. Se determinaron las clases de dirección del viento con 10º de angularidad.

Tabla 4.Contaminación por anhídrido sulfuroso en mol, como una función de la dirección del viento.

Dir

ecci

ón

del v

ient

o

Num

ero

de

Mue

stra

s

50m

o

Per

cent

ilo

(µg/

m3 )

Med

ia

aritm

étic

a (µ

g/m

3 )

95m

o

perc

entil

o (µ

g/m

3 )

10 204 13 28 107 20 156 13 41 163 30 219 13 40 168 40 215 13 33 125 50 228 30 48 164 60 486 58 84 241 70 245 124 161 428 80 221 93 126 328 90 314 63 78 190

100 230 67 80 200 110 200 71 81 182 120 195 40 58 164 130 149 31 40 132 140 146 25 30 82 150 278 13 31 69 160 280 13 24 60 170 303 13 19 44 180 369 13 22 66 190 387 13 22 74 200 520 13 25 70 210 598 28 40 118 220 786 81 109 298 230 708 53 74 233 240 665 30 40 105 250 466 26 33 82 260 364 33 39 89 270 412 25 31 77 280 237 13 30 71 290 139 13 28 87 300 192 13 27 87 310 100 13 20 67 320 156 13 22 72 330 265 13 22 66 340 305 13 19 46 350 226 13 19 59 360 269 13 23 72

Aunque la tabla 4 muestra que existen dos direcciones diferentes (70° y 220°) que llevan importante contaminación por S02 hacia el sitio de vigilancia, los datos se hacen mucho más claros cuando son graficados, como se ilustra en la Figura 11. Para cada uno de los parámetros estadísticos seleccionados (x50, mx, x95) los valores se grafican como una función de la dirección del viento, de la misma manera que se hace para las rosas de los vientos (valores de contaminación del aire en la dirección en que viene el viento). Esto explica el término "rosa de contaminación atmosférica", y la importancia de ligar la contaminación por SO2 con las diferentes direcciones del viento se hace obvia. Una rosa de los vientos normal, basada en los valores

numéricos dados en la segunda columna de la tabla 4 completa la imagen. Esta información se requiere para interpretaciones posteriores desde que ella muestra la frecuencia con que ocurren las diferentes direcciones de los vientos. Revela así mismo la relativa importancia de los niveles de concentración que se da en las rosas de contaminación. Por ejemplo si aparece un gran máximo que viene de una dirección que no ocurre frecuentemente esto se considera como que tiene menos importancia que si el mismo máximo viniera de la dirección ,dominante del viento. Antes de utilizar la técnica de la rosa de contaminación atmosférica uno debe estar seguro de que los datos de dirección de viento son representativos para el sitio o sitios de vigilancia de la contaminación del aire. Es posible que dependiendo de la complejidad topográfica y de la extensión de la región donde se ejerce la vigilancia, se pueda necesitar uno o más sitios en los que se instalen instrumentos meteorológicos. Debe también prestarse atención a las condiciones meteorológicas locales tal como la frecuente ocurrencia, esto, sin embargo, no afecta el porcentaje de cambio.

Figura 11. Rosas de contaminación por anhídrido sulfuroso para los niveles del 50mo percentilo (mediana), la media aritmética, y el 95mo percentilo.

CARTAS DE CONTROL CONTROL ESTADÍSTICO DE PROCESOS E

INFORMACIÓN. El control de calidad consiste en medir las características de calidad del un producto compararlas con las especificaciones o requisitos y, cuando existe discrepancia, realizar las correcciones necesarias. Se considera como proceso como la combinación de máquinas, materiales, métodos, personal, entorno y mantenimiento, que intervienen en la producción de información. Este proceso se caracteriza por cierto grado de variabilidad que no es posible eliminar. Dentro del concepto general de variabilidad, se conoce como variación natural a la producida por innumerables pequeñas causas no asignables, comunes o aleatorias, que son ligeras y que no pueden considerarse individualmente como razón única de la

Page 19: Analisis e Interpretacion de Datos de La Calidad Del Aire

desviación. Pero existen variaciones denominadas accidentales producidas por causas asignables o atribuibles, que pueden investigarse para obtener la razón que la produce. El control del proceso empieza con la comprensión de su variabilidad. Pretende encontrar las causas atribuibles para tomar las acciones correctivas pertinentes y determinar la variabilidad de las causas aleatorias. De acuerdo al tipo de variable se distinguen dos tipos: uno basado en variables cualitativas, denominada control de atributos y la segunda que trabaja sobre variables cuantitativas, llamada de variables. Esta última se soporta sobre las mediciones precisas de dimensiones o magnitudes. Permite adicionalmente, vigilar y cuantificar por separado la tendencia de los valores y su dispersión. Para el análisis se aplican varias herramientas estadísticas dentro de las que se destacan los histogramas de frecuencia, gráficos de control, límites de tolerancia entre otros. Diagrama de control. Los diagrama de control es una técnica de control de procesos en línea para la corrección preventiva y para evaluar parámetros del proceso y partir de esta información para evaluar la capacidad del proceso. Estos han sido usados en el control de la producción en la industria a nivel de control preventivo. Evitan ajustes innecesarios a procesos debido a procesos derivados de variaciones supuestamente anormales. Es una representación gráfica de una característica de calidad, medida o calculada en función del número de muestras o en función del tiempo. El gráfico tiene una línea central que representa el valor medio de la característica de calidad bajo control. En la parte superior aparece una línea llamada línea superior de control (LSC) y la parte inferior (LIC) aparece otra línea llamada línea inferior de control. Se escoge estos límites de tal manera que si el proceso está bajo control casi todos los puntos se encuentren en esta franja. Mientras las observaciones se encuentren dentro de los límites, el proceso se encuentra controlado. Sin embargo si un punto está por fuera de la franja se dice que el sistema está fuera de control. Aun si todos los puntos se encuentran dentro de la franja, pero se comportan de manera sistemática o no aleatoria, esto indica que el proceso está fuera de control. Esencialmente un diagrama de control es un contraste de hipótesis, donde se considera como hipótesis nula H0 que el proceso está bajo control estadístico. La hipótesis alternativa, H1, será que

se encuentra fuera de control. El hecho de que un punto se encuentre dentro se acepta la hipótesis nula. En el caso que se encuentre por fuera se acepta la hipótesis alternativa. En el diseño de la gráfica de un diagrama de control son factores importantes la selección de los límites de control, la selección del tamaño de la muestra y la frecuencia de muestreo. En el caso de las series de datos tomar la totalidad de los datos para establecer el valor de tendencia central. Respecto a las características de calidad, es de práctica normalizada en los Estados Unidos determinar los límites de control como un múltiplo de la desviación estándar, casi siempre 3 sigmas. En Europa se usan los límites de control en función de la probabilidad con el nivel de probabilidad estándar de 0.001. Modelos de gráficos de control. Modelo de Shewart: Sea T un estadístico muestral que mide algunas características de la calidad, supóngase que la media de T es µT, y su desviación estándar es σT. Entonces la linea central y los límites superior (LSC) e inferior (LIC) del gráfico de control son:

LSC T k T

Linea central T

LIC T k T

Donde k es la distancia entre los límites de control y la línea central que representa la media. La condición básica de este modelo es que parte que la distribución de frecuencia de las observaciones es normal.

LIC T k T

Linea central T

LSC T k T