una aplicacion real del mÉtodo de …tesis.uson.mx/digital/tesis/docs/21312/capitulo2.pdf ·...
TRANSCRIPT
19
UNA APLICACION REAL DEL MÉTODO DE REGRESIÓN LINEAL
Planteamiento del problema
Desde siempre los seres humanos han buscado adelantarse a cualquier
eventualidad con la finalidad de minimizar los riesgos en cualquiera de sus
actividades tanto recreativas como aquellas de carácter económico.
Particularmente en agricultura, se ha vuelto indispensable contar con bases de
datos meteorológicos fiables, ya que todas las actividades agrícolas dependen en
gran parte del clima.
En México, la Comisión nacional del agua (Conagua), a través del Servicio
Meteorológico Nacional (SMN), es la fuente oficial de datos meteorológicos y
climáticos. No obstante, la base de datos con que cuenta el SMN no es la óptima
si lo que se busca es hacer inferencias para la agricultura, ya que las estaciones
del SMN no se encuentran en zonas agrícolas, además de que existe un retraso
considerable para la disposición de los datos (varía de región a región pero los
retrasos van desde meses hasta varios años). Es por estas razones que en
Sonora se impulsó con ayuda del gobierno y de los productores agrícolas el
establecimiento de la red de estaciones agro meteorológicas conocida en la
actualidad como la red AGROSON (AGROSON, 2004)
La red AGROSON tuvo sus inicios en 1996 con la instalación de tres estaciones
(Cd. Obregon (CIANO), Caborca (CIANO), Hermosillo (CECH)) y en la actualidad
cuenta con 52 estaciones, distribuidas en las diferentes regiones agrícolas del
Estado. Dichas estaciones registran rutinariamente en periodos de 10 minutos,
nueve variables meteorológicas (Temperatura ambiente, temperatura máxima,
temperatura mínima, humedad relativa, radiación solar, precipitación, humedad de
la hoja, velocidad y dirección del viento).
20
Con el establecimiento del Sistema de Alerta Fitosanitaria del Estado de Sonora
(SIAFESON, 2008) se volvió prioritario contar con un sistema de control de calidad
de los datos meteorológicos, por lo que entre los diversos objetivos del SIAFESON
se encuentra el de organizar y depurar las bases de datos climáticos y
meteorológicos existentes en Sonora. Como resultado de la depuración ya
mencionada se encontró que la base de datos de la red AGROSON contaba con
gran cantidad de “huecos” (Figura 7. Pag. 25) en sus registros de temperatura
ambiente, es decir pérdida de datos, como consecuencia de los altos costos de
mantenimiento y de errores en el manejo de la base de datos. Es por ello que el
personal del SIAFESON se ha dado a la tarea de “recuperar” los datos perdidos
en la medida de sus posibilidades.
Objetivo General
Estandarizar y rellenar las series de temperatura de las estaciones
agrometeorológicas del Valle del Mayo para su utilización en los diversos modelos
fitosanitarios aplicables al sur de Sonora.
Justificación
A lo largo del programa y de los estudios llevados por AGROSON, la información
obtenida y la certeza de los datos ofrecidos por AGROSON se ha visto seriamente
cuestionada, ya que se han encontrado datos fuera de rango, series incompletas,
demasiados huecos en la información, inhomogeneidad de la información
(corrimientos de cero) o columnas con los mismos datos. Los problemas antes
mencionados obedecen a diversas circunstancias que van desde el problema de
comunicación con las estaciones hasta un manejo inadecuado de la información.
Los modelos fitosanitarios requieren de series de tiempo fiables de las diversas
variables meteorológicas. Una serie de tiempo o serie temporal es una colección
de observaciones tomadas a lo largo del tiempo cuyo objetivo principal es
describir, explicar, predecir y controlar algún proceso. Las observaciones están
21
ordenadas respecto al tiempo y sucesivas observaciones son generalmente
dependientes.
Este trabajo busca dotar al SIAFESON de series de tiempo fiables y continuas en
el tiempo para la variable temperatura de las estaciones del Valle del Mayo para
su utilización en modelos fitosanitarios con fines de pronóstico. Lo anterior serviría
para prevenir o pronosticar problemas fitosanitarios en la zona con mayor certeza
de la que se tiene actualmente.
Delimitaciones del Estudio En Sonora existen 52 estaciones Agro meteorológicas, de las cuales este trabajo
se enfocará en nueve estaciones correspondientes a la zona agrícola del Valle del
Mayo (Figura 4). Cabe mencionar que si bien es necesario estandarizar y rellenar
las series de tiempo de las nueve variables que se registran en las estaciones,
este trabajo se centrará en las series de temperatura ambiente, que incluye:
temperatura mínima, máxima y promedio; ya que son las variables con mayor
demanda dentro de los modelos fitosanitarios.
Figura 4: Estaciones agro meteorológicas en el Valle del Mayo
22
El Valle del Mayo El Valle del Mayo es la zona que comprende desde las sierras de Alamos hasta
las costas de Huatabampo, este valle limita al norte con el Valle del Yaqui, al sur
con el estado de Sinaloa y al oriente con el Mar de Cortez. El Valle del Mayo
comprende los municipios de Huatabampo, Álamos, Etchojoa, Quiriego y Navojoa.
Esta zona se caracteriza por su riqueza en suelos, además por sus mantos
acuíferos localizados al sur de estado, por los cuales hacen ideal estas tierras
para la agricultura, que por sus características meteorológicas y geográficas, lo
hacen un lugar ideal para la siembra. El Valle del Mayo cuenta con una superficie
de alrededor de 140 mil hectáreas, de las cuales su principal producción es de
trigo.
MetodEl pro
en el
dología apocedimiento
esquema s
plicada o que se sig
siguiente, e
Id
Se
E
D
guió para r
l cual se ex
Figura 5. M
Analiz
entificar pa
eleccionar
De
stimar corr
Definir paráda
Estima
Anális
resolver la p
xplicara en
etodología a
zar base de
atrón de da
método de
epurar dat
relación ent
metros y matos faltant
r valores fa
sis de resul
problemátic
la sección
aplicada
datos
atos faltant
e imputació
tos
tre variable
modelos partes
altantes
ltados
ca plantead
de resultad
tes
ón
es
ra
2
da se resum
dos:
23
me
24
Resultados del caso
Analizar base de datos.
La base datos analizada incluye 80,109 registros correspondientes a 2967 días
comprendidos entre enero del 2002 hasta junio de 2010.
Se detectaron valores no factibles o improbables, además de múltiples datos
faltantes. Después de eliminar los valores improbables se identificó un total de
19,335 datos faltantes, que equivalen al 24.13%.
En la tabla 5 que aparece a continuación, se detallan los datos faltantes por
estación. Tabla 5: Resumen de datos faltantes por estación
Estación No.Datos No.Datos faltantes
% de faltantes Observaciones
Jupare 8901 2733 30.70% Inició operaciones el 1/1/2003
Buaysicobe 8901 2022 22.72%
Tesia 8901 1047 11.76%
Sahuaral 8901 2040 22.92%
Mumuncuera 8901 2055 23.09%
Tres Carlos 8901 2067 23.22%
Cemay 8901 111 1.25% Inició operaciones el 1/25/2002
Chapote 8901 3930 44.15% Inició operaciones el 1/23/2005
Huatabampo 8901 3330 37.41% Inició operaciones el 5/15/2005
TOTAL 80109 19335
Identificar patrón de datos faltantes.
Al analizar la matriz de datos faltantes, se puede identifica un patrón de datos
perdidos completamente al azar, es decir del tipo MCAR. Por las dimensiones de
la matriz (27x2967), no es posible reproducirla completamente para su
visualización, pero en la figura 6 se muestra un segmento de la misma, y en la
figura 7 se puede apreciar la ausencia de datos en las series de temperatura de
manera muy agregada.
25
Figura 6. Patrón general de datos faltantes
Figura 7. Patrón de series de datos de temperatura ambiente
26
Seleccionar método de imputación
Para seleccionar el método de imputación se consideraron los siguientes
aspectos:
El tipo de variable a imputar es continua (temperatura máxima, mínima y
promedio);
El propósito de la imputación es contar con una base datos completa y
consistente para que posteriormente estos datos puedan ser utilizados en
modelos fitosanitarios con fines de pronóstico, que sirvan para prevenir o
pronosticar problemas fitosanitarios en la zona con mayor certeza.
La base de datos no será utilizada para análisis de covarianza o
correlación.
La naturaleza de la variable a imputar y el patrón de datos faltantes.
La red AGROSON no cuenta con software especializado, por lo que es
necesario realizar la imputación con los recursos disponibles.
La opinión de expertos en meteorología.
El método de imputación seleccionado es el de Regresión Lineal a partir de
variables correlacionadas. El coeficiente de correlación mínimo aceptable se
estableció en 0.9.
Considerando que se requiere estimar los datos faltantes de 27 variables distintas
(3 variables x 9 estaciones), se necesita definir una ecuación de regresión lineal
para cada una de ellas.
Depurar datos
Para poder analizar la relación entre las variables de la base de datos, es
necesario estandarizar los tamaños de muestra de todas las estaciones; con este
propósito, se eliminaron todos los registros correspondientes a las fechas donde
existían observaciones con datos incompletos y se organizó la base de datos en
EXCEL.
27
Estimar correlación entre variables
Para calcular la correlación entre las variables, se construyeron 3 matrices (una
para cada tipo de variable faltante) a partir de la información obtenida aplicando la
herramienta análisis de datos de EXCEL. Las matrices de correlación aparecen
en las tablas 6, 7 y 8.
Tabla 6: Coeficiente de Correlación para la variable “Temperatura máxima”.
T.Max Jupare Buayisacobe Tesia Huatabampo Sahuaral Mumuncuera Tres Carlos Cemay Chapote
Jupare 0.9707 0.9567 0.9851 0.9832 0.9658 0.9746 0.9514 0.9617
Buayisacoba 0.9717 0.9817 0.9812 0.9739 0.9797 0.9694 0.9805
Tesia 0.9735 0.9761 0.9738 0.9775 0.9690 0.9701
Huatabampo 0.9859 0.9876 0.9877 0.9671 0.9727
Sahuaral 0.9763 0.9822 0.9664 0.9733
Mumuncuera 0.9832 0.9660 0.9666
Tres Carlos 0.9682 0.9731
Cemay 0.9624
Chapote
Tabla 7. Coeficiente de Correlación para la variable “Temperatura mínima”.
T.Min Jupare Buayisacobe Tesia Huatabampo Sahuaral Mumuncuera Tres Carlos Cemay Chapote
Jupare 0.9886 0.9795 0.9922 0.9929 0.9878 0.9907 0.9840 0.9907
Buayisacoba 0.9848 0.9881 0.9885 0.9804 0.9865 0.9848 0.9907
Tesia 0.9801 0.9802 0.9783 0.9821 0.9843 0.9872
Huatabampo 0.9915 0.9866 0.9918 0.9845 0.9907
Sahuaral 0.9908 0.9933 0.9861 0.9935
Mumuncuera 0.9941 0.9855 0.9888
Tres Carlos 0.9880 0.9926
Cemay 0.9895
Chapote
Tabla 8. Coeficiente de Correlación para la variable “Temperatura promedio”.
T.Prom Jupare Buayisacobe Tesia Huatabampo Sahuaral Mumuncuera Tres Carlos Cemay Chapote
Jupare 0.9935 0.9882 0.9965 0.9958 0.9908 0.9942 0.9830 0.9910
Buayisacoba 0.9917 0.9944 0.9933 0.9913 0.9938 0.9860 0.9942
Tesia 0.9920 0.9921 0.9923 0.9934 0.9881 0.9931
Huatabampo 0.9973 0.9965 0.9977 0.9871 0.9943
Sahuaral 0.9951 0.9963 0.9868 0.9946
Mumuncuera 0.9969 0.9877 0.9931
Tres Carlos 0.9881 0.9946
Cemay 0.9874
Chapote
28
Definir parámetros y modelos para datos faltantes
Se ajustó un modelo de Regresión Lineal para cada variable faltante, tomando
como variables predictoras las que tenían un coeficiente de correlación mayor y
datos disponibles en las fechas requeridas.
Por ejemplo, si consideramos la estación Tres Carlos y requerimos imputar la
variable “Temperatura máxima”, para las fechas comprendidas del 30 de enero de
al 21 de febrero de 2002 se utilizarían los datos de la estación Huatabampo ya
que tiene el mayor coeficiente de correlación: 0.987737311 (ver figura 6), pero en
este caso la estación Huatabampo no tiene datos disponibles en la fecha
requerida; la única estación con datos en esas fechas es Tesia con un coeficiente
de correlación de 0.9777.
El análisis de datos de EXCEL, también proporciona los parámetros de la
ecuación de regresión lineal, los cuales se organizaron en 27 matrices (una para
cada variable faltante) que aparecen en el anexo 2.
En la tabla 9 se muestra la matriz correspondiente a la variable Temperatura
máxima de la estación Tres Carlos:
Tabla 9: Matriz de Coeficientes de Correlación, Pendiente e Intersección
Tres Carlos
Estación Coef. Correlación Pendiente Intersección
Huatabampo 0.987737311 1.026521005 -0.412547279
Mumuncuera 0.983221225 0.996119398 0.209765894
Sahuaral 0.982241584 0.989327546 -0.271157996
Buayisacobe 0.979669398 0.939473246 -0.210107464
Tesia 0.977485269 1.008415564 -1.218797738
Jupare 0.97460431 -0.210107464 -0.210107464
Chapote 0.973061957 0.932072241 1.540377708
Cemay 0.968238191 0.903293815 2.344118732
29
por lo tanto la ecuación de regresión a utilizar para estimar las temperaturas
máximas es:
= -1.218 + 1.008 xi
Estimar valores faltantes
Para calcular los valores faltantes, se aplica la ecuación anterior y se obtienen los
valores que aparecen en la tabla 12. Tabla 10: Valores faltantes (yi) Tabla 11: Valores a utilizar (xi)
TRES CARLOS
Fecha T.Prom T.Max T.Min
30/01/2002 ¿
31/01/2002 ¿
01/02/2002 ¿
02/02/2002 ¿
03/02/2002 ¿
04/02/2002 ¿
05/02/2002 ¿
06/02/2002 ¿
07/02/2002 ¿
08/02/2002 ¿
09/02/2002 ¿
10/02/2002 ¿
11/02/2002 ¿
12/02/2002 ¿
13/02/2002 ¿
14/02/2002 ¿
15/02/2002 ¿
16/02/2002 ¿
17/02/2002 ¿
18/02/2002 ¿
19/02/2002 ¿
20/02/2002 ¿
21/02/2002 ¿
TESIA
Fecha T.Prom T.Max T.Min
30/01/2002 14.08 19.29 5.545
31/01/2002 13.53 20.81 4.655
01/02/2002 11.52 19.95 2.68
02/02/2002 16.29 25.96 9.76
03/02/2002 17.77 24.16 12.15
04/02/2002 16.17 18.28 14.03
05/02/2002 15.62 21.27 9.46
06/02/2002 15.41 25.01 7.88
07/02/2002 16.42 26.13 8.21
08/02/2002 17.28 29.19 8.28
09/02/2002 15.98 27.97 5.22
10/02/2002 16.11 26.85 4.001
11/02/2002 17.93 27.68 8.11
12/02/2002 16.28 26.59 6.832
13/02/2002 16.45 27.18 6.436
14/02/2002 17.6 28.04 8.08
15/02/2002 19.81 30.63 12.29
16/02/2002 20.06 29.95 11.86
17/02/2002 17.55 26.93 11.53
18/02/2002 15.49 23.11 7.39
19/02/2002 13.98 25.83 3.076
20/02/2002 15.55 27.81 4.166
21/02/2002 18.25 31.71 3.935
30
Tabla 12. Valores estimados Ecuación para T.Máxima Ecuación para T.Mínima Ecuación para T.promedio
y=a+bX Fecha T.Max y=a+bX T.Min y=a+bX T.Prom
a= -1.2188 30/01/2002 18.23354 a= 1.079526 6.575243 a= -0.84998 12.84686
b= 1.008416 31/01/2002 19.76633 b= 0.991112 5.693153 b= 0.972787 12.31182
01/02/2002 18.89909 3.735707 10.35652
02/02/2002 24.95967 10.75278 14.99672
03/02/2002 23.14452 13.12154 16.43644
04/02/2002 17.21504 14.98483 14.87998
05/02/2002 20.2302 10.45545 14.34495
06/02/2002 24.00168 8.88949 14.14066
07/02/2002 25.1311 9.216557 15.12318
08/02/2002 28.21685 9.285935 15.95977
09/02/2002 26.98659 6.253132 14.69515
10/02/2002 25.85716 5.044966 14.82161
11/02/2002 26.69415 9.117446 16.59209
12/02/2002 25.59497 7.850805 14.98699
13/02/2002 26.18994 7.458324 15.15236
14/02/2002 27.05717 9.087713 16.27107
15/02/2002 29.66897 13.26029 18.42093
16/02/2002 28.98325 12.83412 18.66412
17/02/2002 25.93783 12.50705 16.22243
18/02/2002 22.08569 8.403845 14.21849
19/02/2002 24.82858 4.128187 12.74958
20/02/2002 26.82524 5.208499 14.27685
21/02/2002 30.75806 4.979553 16.90338
El procedimiento descrito para el ejemplo es el que se siguió para estimar todas
las variables faltantes.
31
Análisis de resultados
Como resultado de la imputación por regresión lineal, se pudieron estimar todos
los datos faltantes. Todos los valores imputados se consideran factibles ya que se
encuentran dentro del rango esperado. No se detectan sesgos con respecto al
comportamiento de los datos.
Figura 8: Valores Imputados
0
5
10
15
20
25
30
35
T.Max
T.Min
T.Prom
Lineal (T.Prom)