junio 2017, pp. 1-31 - usta

31
Facultad de Estad´ ıstica Trabajo de Grado Junio 2017, pp. 1-31 Aproximaci´ on Bayesiana de un modelo semiparam´ etrico Cheimi Sayuri Toquica Vargas a [email protected] Wilmer Pineda R´ ıos. b [email protected] Resumen Los modelos de regresi´ on param´ etrica tienen como objetivo analizar la relaci´ on entre la respuesta y las variables explicativas, esta relaci´ on esta dada por una una funci´ on de distribuci´ on conocida que facilita la estimaci´ on de los par´ ametros y la interpretaci´ on del modelo. Sin embargo, es evidente que pueden existir relaciones complejas o no lineales. En tales circunstancias una posible soluci´ on es el uso de polinomios de orden superior, aunque esta pr´ actica puede aumentar la complejidad del modelo, y dificultar su interpretaci´ on.Por lo tanto, el enfoque param´ etrico no provee las he- rramientas necesarias para que el ajuste del modelo sea adecuado. La flexibilidad de los modelos semiparam´ etricos permite hacerle frente a tales situaciones, dado que poseen la ventaja de que las variables no necesariamente sigan una distribuci´ on de probabilidad te´ orica definida, sino que uti- lizan m´ etodos que mezclan la estimaci´ on de m´ axima verosimilitud con t´ ecnicas de suavizaci´ on.La estimaci´ on de regresi´ on semiparam´ etrica obtenida mediante el suavizado de splines penalizados se puede expresar bajo una estructura de modelos mixtos.Esto facilita los c´ alculos de las estimaciones y conduce a una amplia selecci´ on de t´ ecnicas computacionales para modelos mixtos y bayesianos. Por tal raz´ on este trabajo propone la estimaci´ on de un modelo semparametrico desde un enfoque Bayesiano utilizando m´ etodos computacionales en R, a trav´ es de los cuales se comprueba si la estimaci´ on bayesiana resulta ser mejor que la estimaci´ on cl´ asica. Palabras clave : P-splines, Modelos Mixtos, modelos semiparm´ etrico bayesianos. Abstract The parametric regression models aim to analyze the Relationship between the response and explanatory variables, this relation is given by a known distribution function that facilitates the estimation of the parameters and the interpretation of the model. However, it is evident that complex or non-linear relations may exist. In such circumstances a possible solution is the use of higher-order polynomials, although this practice may increase the complexity of the model and make it difficult to interpret it. Therefore, the parametric approach does not provide the necessary tools to make the model fit . The flexibility of the semi-parametric models allows them to deal with such situations, since they have the advantage that the variables do not necessarily follow a defined theoretical probability distribution, but use methods that mix the maximum likelihood estimation with smoothing techniques. Of semiparametric regression obtained by the smoothing of penalized splines can be expressed as a structure of mixed models. This facilitates estimation calculations and leads to a wide selection of computational techniques of mixed and Bayesian models. For this reason, this work proposes the estimation of a semiparametric model from a Bayesian approach using computational methods in R, by which it is possible to verify if the Bayesian estimation proves to be better than the classical estimate. Keywords : P-splines, Mixed Models,Bayesian Semiparametrics. 1. Introducci´ on Los modelos de regresi´ on param´ etrica tienen como objetivo analizar la relaci´ on entre las variables, y parten de una funci´ on de distribuci´ on conocida que facilita la estimaci´ on de los par´ ametros que mejor se ajustan al comportamiento de los datos. Cuando la relaci´ on entre las variables es compleja o no lineal, el enfoque param´ etrico no provee las herramientas para que el ajuste del modelo sea adecuado, sin embargo es posible obtener un ajuste de los datos mediante modelos polin´ omicos a Estudiante de Estad´ ısticaUniversidadSantoTom´asBogot´a b Docente de Estad´ ıstica Universidad Santo Tom´as Bogot´ a 1

Upload: others

Post on 17-Oct-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Junio 2017, pp. 1-31 - USTA

Facultad de EstadısticaTrabajo de Grado

Junio 2017, pp. 1-31

Aproximacion Bayesiana de un modelo semiparametrico

Cheimi Sayuri Toquica Vargasa

[email protected] Pineda Rıos.b

[email protected]

ResumenLos modelos de regresion parametrica tienen como objetivo analizar la relacion entre la respuesta ylas variables explicativas, esta relacion esta dada por una una funcion de distribucion conocida quefacilita la estimacion de los parametros y la interpretacion del modelo. Sin embargo, es evidenteque pueden existir relaciones complejas o no lineales. En tales circunstancias una posible soluciones el uso de polinomios de orden superior, aunque esta practica puede aumentar la complejidaddel modelo, y dificultar su interpretacion.Por lo tanto, el enfoque parametrico no provee las he-rramientas necesarias para que el ajuste del modelo sea adecuado. La flexibilidad de los modelossemiparametricos permite hacerle frente a tales situaciones, dado que poseen la ventaja de que lasvariables no necesariamente sigan una distribucion de probabilidad teorica definida, sino que uti-lizan metodos que mezclan la estimacion de maxima verosimilitud con tecnicas de suavizacion.Laestimacion de regresion semiparametrica obtenida mediante el suavizado de splines penalizados sepuede expresar bajo una estructura de modelos mixtos.Esto facilita los calculos de las estimacionesy conduce a una amplia seleccion de tecnicas computacionales para modelos mixtos y bayesianos.Por tal razon este trabajo propone la estimacion de un modelo semparametrico desde un enfoqueBayesiano utilizando metodos computacionales en R, a traves de los cuales se comprueba si laestimacion bayesiana resulta ser mejor que la estimacion clasica.

Palabras clave: P-splines, Modelos Mixtos, modelos semiparmetrico bayesianos.

AbstractThe parametric regression models aim to analyze the Relationship between the response andexplanatory variables, this relation is given by a known distribution function that facilitates theestimation of the parameters and the interpretation of the model. However, it is evident thatcomplex or non-linear relations may exist. In such circumstances a possible solution is the use ofhigher-order polynomials, although this practice may increase the complexity of the model andmake it difficult to interpret it. Therefore, the parametric approach does not provide the necessarytools to make the model fit . The flexibility of the semi-parametric models allows them to deal withsuch situations, since they have the advantage that the variables do not necessarily follow a definedtheoretical probability distribution, but use methods that mix the maximum likelihood estimationwith smoothing techniques. Of semiparametric regression obtained by the smoothing of penalizedsplines can be expressed as a structure of mixed models. This facilitates estimation calculationsand leads to a wide selection of computational techniques of mixed and Bayesian models. For thisreason, this work proposes the estimation of a semiparametric model from a Bayesian approachusing computational methods in R, by which it is possible to verify if the Bayesian estimationproves to be better than the classical estimate.

Keywords: P-splines, Mixed Models,Bayesian Semiparametrics.

1. Introduccion

Los modelos de regresion parametrica tienen como objetivo analizar la relacion entre las variables,y parten de una funcion de distribucion conocida que facilita la estimacion de los parametros quemejor se ajustan al comportamiento de los datos. Cuando la relacion entre las variables es complejao no lineal, el enfoque parametrico no provee las herramientas para que el ajuste del modelo seaadecuado, sin embargo es posible obtener un ajuste de los datos mediante modelos polinomicos

aEstudiante de Estadıstica Universidad Santo Tomas BogotabDocente de Estadıstica Universidad Santo Tomas Bogota

1

Page 2: Junio 2017, pp. 1-31 - USTA

2 Cheimi Sayuri Toquica Vargas & Wilmer Pineda Rıos.

(parametricos), puesto que a mayor grado del polinomio el ajuste de los datos mejora, no obstantetener un modelo polinomico de grado elevado puede aumentar la complejidad del modelo, disminuirsu precision y dificultar su interpretacion.

En estos escenarios es factible que los modelos no parametricos sean la mejor opcion para darsolucion a esta limitante, dado que su principal ventaja es la flexibilidad que poseen para el ajustede los datos, lo cual se debe a que la relacion entre las variables es determinada por los datos,mientras que en un marco parametrico la relacion es definida por el modelo considerado.

Actualmente existen diversos modelos de regresion no parametricos que permiten modelar dosvariables que presenten una relacion compleja o no lineal, entre los cuales estan los metodoskernel, regresiones spline, regresiones spline penalizadas, entre otros.

Estos metodos de suavizamiento y ajuste de datos tienen un papel importante en la actualidad;muchos trabajos y una serie de libros han aparecido (Silverman, 1986; Eubank, 1988; Hastie yTibshirani, 1990; Hardle ,1990; Wahba, 1990; Wand y Jones, 1993; Verde y Silverman, 1994).

En ocasiones se utiliza el termino “no-parametrico” para referirse a estos modelos, pero estenombre es solo adecuado si se utilizan modelos tipo kernel ya que el suavizado con splines se hacemediante parametros. (Durban et al. 2008)

Hay dos grandes enfoques en el tema de modelos de suavizado con splines:

Splines de suavizado (smoothing splines): Los splines de suavizado (ver por ejemplo Greenand Silverman (1994)) utilizan tantos parametros como observaciones, lo que hace que suimplementacion no sea eficiente cuando el numero de datos es muy elevado.

Splines de regresion (regression splines):pueden ser ajustados mediante mınimos cuadradosuna vez que se han seleccionado el numero de nodos, pero la seleccion de los nodos se hacemediante algoritmos bastante complicados.

Como se menciona en Ruppert (2003), los modelos de regresion por splines permiten realizarun ajuste mediante pedazos de curvas polinomiales que son unidos por sus puntos extremos, alos cuales se llaman nodos. Esto permite obtener ajustes adecuados; sin embargo, presenta elinconveniente de ser vulnerables a la cantidad que se emplee y a la ubicacion de los mismos conlo cual es posible incurrir en sobre ajustes en el modelo. Una manera de superar este problemaes limitar la influencia de los posibles nodos mediante una penalizacion, dando origen al modelode spline penalizado.Los splines con penalizaciones utilizan menos parametros que los splines desuavizado, pero la seleccion de los nodos no es tan determinante como en los splines de regresion.

Cuando en un modelo de regresion hay componentes parametricos y no parametricos, tenemos un“Modelo Semiparametrico” y en particular estos metodos permiten la estimacion de parametrossimultaneamente, sin supuestos especıficos respecto de las formas de las funciones desconocidas.

Como tal, los estimadores semiparametricos son menos sensibles a supuestos que los estimadoresparametricos, y son capaces de describir la estructura de los datos de forma mas clara que estos,Caguari (2009). La modelacion semiparametrica complementa lo mejor de ambos enfoques paraobtener un modelo de regresion que describa mejor el comportamiento de los datos, es decir, aque-llas caracterısticas de los datos que son adecuadas para la modelacion parametrica son modeladasde esta forma y las componentes no parametricas son empleadas solo donde sea necesario, Ruppertet al. (2009). Adicionalmente poseen la ventaja de que las variables no necesariamente sigan unadistribucion de probabilidad teorica definida sino que utilizan metodos que mezclan la estimacionde maxima verosimilitud con tecnicas de suavizacion.

Durante el periodo 2003-2007 modelos de regresion semiparametricos se han vuelto continuamentemas sofisticados en respuesta a la complejidad de los conjuntos de datos contemporaneos y cues-tiones cientıficas. La literatura expuesta en Hobert y Casella (1996), Sorensen y Gianola (2002)yRuppert et al. (2003) plantea la Inferencia bayesiana del modelo de regresion spline penalizado atraves de un marco de modelos lineales mixtos.

Facultad de Estadıstica Trabajo de Grado 0000

Page 3: Junio 2017, pp. 1-31 - USTA

3

En Ruppert (2003) se puede revisar que el modelo de regresion spline penalizado puede ser for-mulado dentro de un marco de modelos lineales mixtos. Esta relacion permite poder emplear losprogramas computacionales donde se han implementado los modelos mixtos. De este modo, losprogramas desarrollados para la inferencia bayesiana de modelos mixtos pueden ser utilizadospara el modelo de regresion spline penalizado. En Crainiceanu et al. (2005) se comenta que elmodelamiento bayesiano semiparametrico es atractivo debido a que disfruta de la flexibilidad quetienen los modelos no parametricos para el ajuste de los datos y que, ademas, posee la inferenciaexacta proporcionada por todos los mecanismos desarrollados para la inferencia bayesiana.

Este trabajo propone estimar desde el enfoque bayesiano un modelo de regresion semiparametricamediante P-splines, segun la literatura tradada en el estudio Semiparametric Regression realizadopor Ruppert, D., Wand, M. P. y Carroll, R. (2003).

La organizacion del trabajo es la siguiente. En la seccion 2 se expone las generalidades de laregresion parametrica. En la seccion 3 se describe de los metodos de suavizamiento no parametricoy su conexion con los modelos mixtos. En la seccion 4 se encuentran la especificacion del modelosemiparametrico propuesto desde el enfoque Bayesiano. En la seccion 5 se presentan la aplicacionde modelo propuesto a datos reales. En la seccion 6 se presentan las conclusiones y finalmente en elapendice se encuentra el codigo computacional del Software estadıstico R utilizado en el desarrollodel trabajo.

2. Regresion Lineal Parametrica

Es una de las tecnicas estadısticas mas antiguas y esta dada por la relacion de pares de datos(xi, Yi), i = 1, , , , n. El siguiente modelo de regresion lineal simple describe la relacion de lasvariables

y = β0 + β1x+ εi (1)

Donde β0 y β1 son los parametros del modelo y ε es una variable aleatoria, llamada error, queexplica la variabilidad de Y que no puede ser explicada con la relacion lineal entre x y y. Loserrores ε , se consideran variables aleatorias independientes distribuidas normalmente con mediacero y desviacion estandar σ. Esto implica que el valor medio o valor esperado de y, es denotadopor

E(Y/x) = β0 + β1x (2)

El objetivo principal de esta regresion es proporcionar un resumen o una reduccion de los datosobservados con el fin de explorar y presentar la relacion entre la variable de diseno x y la variablede respuesta y. Por lo tanto al graficar los datos es obvio y natural que se evidencie una linearecta que ratifica esta tendencia y relacion. La regresion lineal automatiza este procedimiento ygarantiza la comparabilidad de los resultados. El otro objetivo principal de la regresion es utilizarel modelo (1) para prediccion; dado un punto x, obtener una estimacion del valor esperado de y.Esta estimacion esta dada por la siguiente expression

Y = β0 + β1x (3)

Los modelos parametricos pueden ser facilmente interpretados y estimados con precision si lossupuestos subyacentes son correctos. Si acaso, son violados, entonces las estimaciones parametricaspueden ser inconsistentes y dar una imagen enganosa de la relacion de regresion.

Facultad de Estadıstica Trabajo de Grado 0000

Page 4: Junio 2017, pp. 1-31 - USTA

4 Cheimi Sayuri Toquica Vargas & Wilmer Pineda Rıos.

2.1. Regresion No Parametrica

Por lo general, el analisis de Regresion lineal implica relacionar una variable de respuesta como unafuncion de al menos una variable explicativa determinista, a traves de alguna relacion parametrica.En tales circunstancias, la relacion es especıficamente predefinida por el modelo,por lo cual estosmodelos son opciones faciles en la practica por la simplicidad y la interpretabilidad. Sin embargo, esevidente que pueden existir relaciones mas complejas entre la respuesta y las variables explicativas,y en tal caso no es viable la utilizacion de estos modelos.

El uso de polinomios de orden superior puede, pero no siempre, dar solucion a este proble-ma.Existen en la literatura tecnicas mas flexibles para hacer frente a tales situaciones. La lista detales tecnicas incluye, pero no se limita a, modelos de regresion no parametricos, tales como laestimacion a traves de Kernel (Azzalini & Bowman 1993), Regresion polinomial local(Cleveland &Loader 1996),y suavizado de spline (Silverman 1985) En general, el suavizado de spline puede di-vidirse en tres grandes categorıas. En primer lugar, suavizado con splines (ver, por ejemplo, Greeny Silverman, 1994) consideran cada una de las observaciones como un punto de nudo. Cuandose utiliza un numero fijo de puntos de nudo, y el modelo se ajusta usando mınimos cuadradosordinarios, la segunda categorıa conocida como superficies de splines de regresion. Junto a lossplines de regresion, cuando se considera alguna forma de penalizacion de los coeficientes de nudoacompanada de una penalizacion de rugosidad, se obtiene la tercera clase denominada splinespenalizada (por ejemplo, (Eilers & Marx 1996).

Los splines con penalizaciones combinan lo mejor de ambos enfoques: utilizan menos parametrosque los splines de suavizado, pero la seleccion de los nodos no es tan determinante como en lossplines de regresion. Hay tres razones fundamentales para el uso de este tipo de splines:

Son splines de rango bajo, es decir, que el tamano de la base utilizada es mucho menor quela dimension de los datos, al contrario de lo que ocurre en el caso de los splines de suavizadodonde hay tantos nodos como datos, lo que hace que sea necesario trabajar con matrices dealta dimension. El numero de nodos, en el caso de los P-splines, no supera los 40, lo que haceque sean computacionalmente eficientes, sobre todo cuando se trabaja con gran cantidad dedatos.

La introduccion de penalizaciones relaja la importancia de la eleccion del numero y la loca-lizacion de los nodos, cuestion que es de gran importancia en los splines de rango bajo sinpenalizaciones (ver por ejemplo Rice and Wu (2001)).

La correspondencia entre los P-splines y el BLUP en un modelo mixto permite, en algunoscasos, utilizar la metodologıa existente en el campo de los modelos mixtos y el uso de softwarecomo PROC MIXED en SAS y lme(),gamm () en S-PLUS y R.

Siguiendo a (Durban et al. 2008) se ilustrara la aplicacion de estas tecnicas por medio de laestimacion de datos simulados.

2.1.1. Bases y Penalizaciones

Supongamos que tenemos n pares de datos (xi, yi) y estamos interesados en ajustar un modelo noparametrico dado por la siguiente expresion:

Yi = f(xi) + ε ε ∼ N(0, σ2) (4)

donde f(.) es una funcion suave de los datos. Nos centraremos en el caso simple de datos indepen-dientes, es decir, una sola variable independiente t, con una correspondiente variable dependientey de naturaleza continua. El proposito principal de este ejercicio es mostrar el efecto de algunosde los factores clave asociados al suavizado, a saber, el parametro de suavizado y el numero depuntos de nudo.

Nuestro objetivo es estimar la funcion f(x) =sin(3πx) mediante splines con penalizaciones.Lametodologıa se puede resumir de la siguiente forma:

Facultad de Estadıstica Trabajo de Grado 0000

Page 5: Junio 2017, pp. 1-31 - USTA

2.1 Regresion No Parametrica 5

1. Utilizar la base para la regresion

2. Modificar la funcion de verosimilutud introduciendo una penalizacion basada en diferenciasentre coeficientes adyacentes.

En el caso de datos normalmente distribuidos tenemos el modelo de regresion y=Ba+ε, dondeε,∼ N(0, σ2I) y, B=B(x) es la base de regresion construida a partir de x. Para estimar loscoeficientes de regresion se minimiza la funcion de mınimos cuadrados penalizados:

S(a; y, λ) = (y −Ba)′ + (y −Ba) + λa′Pa (5)

Donde P es una matrix que penaliza los coeficientes de forma suave y λ es el parametro desuavizado. Fijado un valor de λ, minimizar (5) da lugar al sistema de ecuaciones

(B′B + λDD′)a = B′y (6)

Si λ = 0 se corresponde con las ecuaciones normales de regresion de y sobre B. Es importanteel hecho de que el tamano del sistema de ecuaciones anterior depende del tamano de la base yno del numero de observaciones. El parametro λ determina la influencia de la penalizacion: si es0, estamos en un caso de regresion con B-splines, y si λ es muy grande, estarıamos ajustando unpolinomio de grado p− 1 Es sencillo probar que:

y = B(B′B + λD′D)−1B′y = Hy (7)

H no es una matriz de proyeccion, ya que no es idempotente, pero su forma hace que el metodo desuavizado sea lineal. La traza de H corresponde a la dimension del modelo (el numero equivalentede parametros que estarıamos estimando).

2.1.2. Bases y nodos

La base para la regresion se puede calcular de muchas maneras, y de hecho hay dos grandesgrupos dentro de los estadısticos que utilizan los P-splines: los que utilizan las bases polinomiostruncados y los que utilizan las bases de B-splines. Ademas existen otras alternativas como thinplate regression splines; para efectos de este trabajo nos centraremos en B-splines.

Polinomios truncados Supongamos de nuevo que tenemos pares (xi, yi), i = 1, .., n. Para sim-plificar, vamos a suponer que x esta en [0, 1]. Tomamos k nodos equidistantes en ese intervalotj = j−1

k j = 2, .., k + 1. Una base de polinomios truncados de grado p viene dada por:

1, x, x2, ...., xp,{

(x− t1)+}p, ...,

{(x− tk)

p+

}p(8)

donde x+ = max(0, x) (por eso son truncados, ya que a partir de un cierto punto valen 0). Lafuncion {(x− t)}p tienen p−1 derivadas continuas,de modo que cuanto mayor sea p mas suave sonlas funciones en la base. En R es trivial el calculo de estas funciones(Ver codigo en R en el apendice)

Facultad de Estadıstica Trabajo de Grado 0000

Page 6: Junio 2017, pp. 1-31 - USTA

6 Cheimi Sayuri Toquica Vargas & Wilmer Pineda Rıos.

Figura 1: Bases de polinimios truncados de grado 0, 1, 2 y 3

En la figura 1 se observan las bases polinomicas de grado 0 a grado 3.

2.1.3. B-splines

Las referencias basicas son de (Boor 1978) y Dierckx (1993). Un B-spline esta formado por trozosde polinomios conectados entre si. En general un B-spline de grado p :

1. Consiste en p+ 1 trozos de polinomio de orden p.

2. Se unen en p nodos interno

3. En los puntos de union las derivadas hasta el orden p− 1 son continuas

4. El B-spline es positivo en el dominio expandido por p+ 2 nodos y 0 en es resto.

5. Excepto en los extremos, se solapa con 2p trozos de polinomios de sus vecinos.

6. Para cada valor de x, p+ 1 B-splines son no nulos.

Los B-splines no “padecen” los efectos de frontera comunes en otros metodos de suavizado, comoalgunos kernels, en los que al extender la curva ajustada fuera del dominio de los datos esta tiendehacia cero. De Boor (2001) presenta un algoritmo para el calculo de los Bsplines, este algoritmo sepuede simplificar facilmente en software como MATLAB, S-PLUS y R. (Ver codigo en el apendice)

Un ejemplo muy simple aparece en la parte superior izquierda de la Figura 2: un B-spline de grado1. Esta formado por dos trozos de polinomio lineal que se unen en un nodo, en la parte derechaaparecen mas B-splines, cada uno de los cuales esta basado en tres nodos. En la parte inferioraparece un B-spline de grado tres, esta formado por 4 trozos de polinomios unidos entre si, denuevo vemos que todas las funciones de la base tienen la misma forma, pero estan desplazadashorizontalmente (el desplazamiento es una funcion de la distancia entre los nodos).

Facultad de Estadıstica Trabajo de Grado 0000

Page 7: Junio 2017, pp. 1-31 - USTA

2.1 Regresion No Parametrica 7

Figura 2: Bases B-spline de grado 1 y 3

2.1.4. Penalizaciones y coeicientes

Supongamos que tenemos una base B construida con k nodos. Si utilizamos mınimos cuadradospara ajustar el modelo, la funcion objetivo sera:

S(a; y) = (y −Ba)′(y −Ba)⇒ (B′B)−1B′y (9)

y la curva ajustada f(x) = Ba dependera del tamano de la base.Cuanto mayor sea la base menossuave es la curva, cuando el numero de nodos coincide con el numero de datos obtenemos una curvaque interpola los datos. Para solucionar esta situacion,O’sullivan (1986) introdujo una penalizacionen la segunda derivada de la curva, de modo que la funcion objetivo paso a ser:

S(a; y, λ) = (y −Ba)′(y −Ba) + λ

∫x

(B′′a)2dx. (10)

La integral de la segunda derivada de la curva ajustada al cuadrado es una penalizacion bastantecomun (es la que se utiliza en los splines de suavizado), sin embargo, no hay nada de particularen la segunda derivada, se puede utilizar derivadas de cualquier orden. novedad que introducenlos P-splines es que la penalizacioon es discreta y que se penalizan los coeficientes directamente,en vez de penalizar la curva, lo que reduce la dimensionalidad del problema.

Eilers and Marx (1996) utiliza una penalizacion basada en la diferencias de orden d entre loscoeicientes adyacentes de la bases de B-splines, este tipo de penalizacion es mas flexible ya que esindependiente del grado del polinomio utilizado para construir los B-splines. Esta es una buenaaproximacion discreta a la integral de la d esima derivada al cuadrado. La penalizacion se anade ala funcion de mınimos cuadrados, dando lugar a una funcion de mınimos cuadrados penalizados,

S(a; y, λ) = (y −Ba)′ + (y −Ba) + λa′Pda⇒ a = (B′B + λPd)−1B′y (11)

donde Pd = (4d)′4d. En general se utiliza d = 2, aunque se puede utilizar ordenes superiores oinferiores, dependiendo de la variabilidad de la curva y de la cantidad de ruido en los datos. Porejemplo, una penalizacion de orden d = 2 equivale a

(a1 − 2a2 + a3)2 + ...+ (aK−2 − 2ak−1 + ak)2 = a′D′a (12)

Facultad de Estadıstica Trabajo de Grado 0000

Page 8: Junio 2017, pp. 1-31 - USTA

8 Cheimi Sayuri Toquica Vargas & Wilmer Pineda Rıos.

Donde

D =

1 −2 1 0 · · ·0 1 −2 1 · · ·0 0 1 −2 · · ·...

......

. . .

En la Figura 2.1.4 se muestra el ajuste de una curva mediante Bsplines sin y con penalizacion, semuestran los funciones que forman las bases (las columnas de la matriz B) multiplicadas por loscoeficientes, ası como los coeficientes (en un circulo), en la parte izquierda vemos como el patronerratico de los coeficientes da lugar a una curva poco suave, en cambio en la parte derecha, cuandose les impone que se pase de un coeficiente a otro de forma suave, la curva tambien lo es. Estegrafico muestra lo que esta haciendo la penalizacion: fuerza a los coeficientes a que sigan un patronsuave.

Figura 3: Curva estimada con 20 nodos, sin penalizar los coeficientes (izquierda) y penalizandolos coeficientes (derecha).

Se concluye en (Durban et al. 2008) Entre las propiedades de los P-splines con bases de B-splineshay que destacar que no tienen efecto de frontera (como le ocurre a los kernels), el efecto de fronteraes el que hace que al extender la curva fuera del dominio de x la curva caiga rapidamente hacia 0,esto no pasa con los P-splines. Ademas, los P-splines ajustan de forma exacta los polinomios, esdecir, si la curva es polinomica, un P-spline la recuperara exactamente. Por ultimo, se conservanlos momentos, es decir, que la media y la varianza de los valores ajustados sera la misma que lade los datos sea cual sea el parametro de suavizado, al contrario que los kernels que tienden aaumentar la varianza cuanto mayor es el suavizado.

La seleccion y localizacion de los nodos no esta hecha de antemano, como en el caso de lossmoothing splines, si se elige un numero suficientemente grande de nodos es suficiente con elegirlosde forma equidistante; aunque autores como Ruppert (2002) aconsejan elegir los nodos K nodosen los K − quantiles de x, es decir que cada nodo tk serıa el cuantil k/(K + 1)de x. En cuanto alnumero de nodos, la mayorıa de los autores utilizan como regla:

Facultad de Estadıstica Trabajo de Grado 0000

Page 9: Junio 2017, pp. 1-31 - USTA

9

numero de nodos = min{

40, valores unicos dex

4

}

2.1.5. Seleccion del parametro de suavizado

El papel del parametro de suavizado en los P-splines, es el mismo que tiene en cualquier otrometodo de suavizado: controlar la suavidad de la curva, pero aquı lo que hace es penalizar loscoeficientes que estan muy separados entre sı, y cuanto mayor sea λ, mas se aproximaran loscoeficientes a cero,de modo que si λ→∞ nos aproximamos a un ajuste polinomico.Por el contrario,cuando λ → 0 estaremos utilizando mınimos cuadrados ordinarios. Ahora, al igual que en otrosmetodos de suavizado, hemos de elegir un criterio para seleccionar el parametro de suavizado,podemos utilizar AIC, GCV, BIC, etc. Por ejemplo:

GCV =

n∑n=1

(yi − yi)2

n− traza(H);H = (B′B + λD′)−1)B′ (13)

AIC = 2log

(n∑n=1

(yi − yi)2)− 2log(n) + 2log(traza(H)) (14)

La ventaja de los P-splines es que es mucho mas rapido calcular la traza de esa matriz que conotro tipo de suavizadores

3. Regresion Semiparametrica

En terminos generales, los metodos semiparametricos son aproximaciones de medicion que man-tienen la estructura en un metodo empırico que es util para la interpretacion de los resultados,pero que no se apoya en supuestos especıficos sobre caracterısticas que resultan de interes se-cundario(Stoker,1991). En particular, los metodos semiparametricos permiten la estimacion deparametros y funciones simultaneamente, sin supuestos especıficos respecto de las formas de lasfunciones desconocidas. Como tal, los estimadores semiparametricos son menos sensibles a su-puestos que los estimadores parametricos, y son capaces de describir la estructura de los datos deforma mas clara que estos Caguari (2009).

La modelacion semiparametrica permite a un investigador tener lo mejor de ambos enfoques paraobtener un modelo de regresion que describa mejor el comportamiento de los datos, es decir, aque-llas caracterısticas de los datos que son adecuadas para la modelacion parametrica son modeladasde esta forma y las componentes no parametricas son empleadas solo donde sea necesario, Ruppertet al. (2009).

Dos caracterısticas importantes en gran parte de la regresion semiparametrica, Ruppert et al.(2009), son:

Emplear la representacion del modelo mixto de los splines penalizados Estas brindan variosbeneficios: los efectos longitudinales y espaciales pueden ser facilmente incorporados en elmodelo, el ajuste y la inferencia pueden ser desarrollados dentro de los marcos establecidosde maxima verosimilitud y mejor prediccion.

Facilitar la parte de regresion no parametrica utilizando splines penalizados de bajo rango.

yi = m(xi) + εi

donde los εiN(0, σ) e independientes de xi y m(.)es una funcion suavizada la cual se definecomo una funcion suave de los datos porque puede ser modelada facilmente utilizando splines

Facultad de Estadıstica Trabajo de Grado 0000

Page 10: Junio 2017, pp. 1-31 - USTA

10 Cheimi Sayuri Toquica Vargas & Wilmer Pineda Rıos.

como sugiere Crainiceanu et al. (2005). Es evidente que un modelo de este tipo es una gene-ralizacion de un modelo de regresion, que indudablemente, tendra un coste computacional,pero que permitira estimar la funcion de una forma mas precisa.

3.1. Modelos Mixtos

Los modelos mixtos son modelos de regresion que incorporan efectos aleatorios. Tener unamplio espectro de aplicaciones desde estudios longitudinales hasta analisis de supervivencia,tambien estan estrechamente relacionados con el suavizado. El suavizado de splines penali-zado corresponde exactamente a la prediccion optima en un marco de modelo mixto. Estohace posible el uso de metodologıa del modelo y software para la regresion spline penalizada.

Comenzamos con una breve revision de los modelos lineales mixtos, que pueden definirsecomo:

y = Xβ + Zu+ ε (15)

Ası, y es un vector de n variables observables aleatorias, β es p+1 la dimension de efectos fijos,tambien conocidos como efectos ”marginales.o ”promediados por la poblacion”Las matricesmodelo X y Z pueden ser bastante generales, dependiendo de la aplicacion, no especificamosninguna forma para estas matrices en este momento. K vector dimensional u de efectosaleatorios o sujeto especifico y n error dimensional ε son variables aleatorias no observables,tales que

E =

[uε

]Cov

[uε

]=

[G 00 R

]Donde G y R son matrices positivas de covarianza definida. Normalmente se supone que losefectos aleatorios y el termino de error se distribuyen normalmente.

La estimacion de los efectos fijos β puede realizarse a partir del modelo lineal

y = Xβ + ε∗ (16)

Donde ε∗=Zu + ε con Cov(ε∗) = ZGZ ′ + R =: V Para una matriz de covarianza dada VLos efectos fijos evaluan los resultados en

β = (X ′V −1X)−1X ′V −1y (17)

La estimacion β se denomina mınimos cuadrados generalizados (GLS) y es el mejor estimadorlineal no sesgado (BLUE) para β.

3.2. La conexion entre splines penalizados y modelos mixtos

La popularidad de las splines penalizadas deriva en parte de su conexion con modelos mixtos.Aquı hacemos una breve introduccion a la sinergia, un componente clave en el uso practicode splines penalizados. Para 1 ≤ j ≥ T y 1 ≤ k ≥ K Adoptemos ahora la siguiente notacionmatricial Xj = [1tj ]1≤j≥T , zj = [(tj − kk)+], β = β0, β1, b = (b1, ..., bk)′ and ε = (ε1, ..., εT )

Apilando estas matrices, una debajo de la otra, obtenemos la representacion:

y = Xβ + Zu+ ε

Observese que, el criterio generico de aplicacion de splines penalizado, responsable de laminimizacion, puede expresarse como (Ruppert et al. 2003)

Facultad de Estadıstica Trabajo de Grado 0000

Page 11: Junio 2017, pp. 1-31 - USTA

3.3 Spline Penalizados como Modelos Mixtos 11

1

σ2ε

‖ Y −Xβ − Zb ‖2 +λ2

σ2ε

‖ b2, λ > 0 (18)

Si se utiliza un gran numero de puntos de nudo, el modelo puede sobrecargar los datos.Ademas, el uso de un gran numero de nudos aumenta inherentemente la carga computacional.Una forma de eludir este problema es tratar a los coeficientes bk como aleatorios, extraıdosde una distribucion normal tal que bk ∼ N(0, σ2

b ) Se ha demostrado que la solucion a lasuavidad de spline penalizada que se acaba de describir corresponde al BLUP de un modelomixto

3.3. Spline Penalizados como Modelos Mixtos

Comparando:

y = B(B′B + λD′D)−1B′y = Hy

con

y = C(C ′R−1C +B)−1C ′R−1y

Podemos ver que el ajuste penalizado se puede obtener suponiendo que el coeficiente seaaleatorio. Consideramos el siguiente modelo:

y|u = N ∼ (Xβ + Zu, σ2ε In), U ∼ N(0, σ2, IK) (19)

con matrices X Que contienen polinomio y funciones de base polinomial Z ,con los resultadosanteriores obtenemos R = σ2

ε In y σ2, IK

y = C

(C ′C +

σ2ε

σ2u

D

)−1C ′Y (20)

con D = blockdiag(O(p+1)X(p+1), I−1K ) Ası, la relacion de varianzas

σ2ε

σ2u

en el marco de mode-

los mixtos juega el papel del parametro de suavizado λ. Con esto en mente, el suavizado desplines penalizado es equivalente a la estimacion de parametros en un modelo mixto lineal,que puede llevarse a cabo con cualquier software de modelo mixto estandar.

Observese que la inversa de la matriz de penalizacion impuesta a los coeficientes de splinetiene que ser una matriz de covarianza apropiada - simetrica y positiva definida. Si bienesto no es problematico para los polinomios truncados como se muestra arriba (matriz decovarianza es solo la identidad), otras funciones de base con las sanciones correspondientesdeben ajustarse para ser representados por un modelo mixto lineal.

4. Enfoque Bayesiano Modelo Semiparametrico

En estudios estadısticos, se puede tener informacion previa sobre los parametros de interesEsta informacion puede ser considerada formal para el analisis, resumiendose en una funcionde densidad de dichos parametros. Despues de que los valores de la variables de interes Yson observados, hay dos fuentes de informacion para los parametros, una esta dada por lafuncion de densidad prior P (β)y la otra fuente esta dada por la funcion de verosimilitudL(β|Y ). Ası en el analisis bayesiano, la inferencia esta basada en la funcion de densidad

Facultad de Estadıstica Trabajo de Grado 0000

Page 12: Junio 2017, pp. 1-31 - USTA

12 Cheimi Sayuri Toquica Vargas & Wilmer Pineda Rıos.

posterior de los parametros, denotada por π(β), la cual es obtenida a traves de la aplicaciondel Teorema de Bayes, expresado como (Hoff 2009):

π(β) ∝ L(β)Pβ (21)

Basados en la ecuacion (21) las funciones de densidad prior P (β) son componente esencialpara la obtencion de la distribucion posterior , de allı que dado su naturaleza son inde-pendientes y pueden o no aportar informacion al modelo, por tanto segun (Hoff 2009) sondenominadas: informativas y no informativas. Para el caso particular del plantemiento de laestimacion de los parametros del modelo se usaran de funciones prior no informativas quede manera general se denotan como:

β ∼N(0, σ2) (22)

donde el hiperparametro σ2 > 0

Por otro lado, dado que el manejo variables independientes permite el calculo de la funcionde versoimilitud a traves de una productoria, nuestra propuesta de modelo pone de mani-fiesto la complejidad que se genera en la obtencion de dicha funcion, ya que se obtienenfunciones conjuntas de probabilidad, debido la caracterıstica de correlacion ya mencionadaanteriormente.

Bajo la anterior premisa y haciendo uso de la ecuacion (22), la distribucion de probabilidadposterior se expresa como:

P (β|Y1, ..., Yk) ∝ P (Y1, ..., Yk|β)P (β) (23)

donde π(β) representa la distribucion posterior.

La estimacion de dichos parametros requiere metodos iterativos enmarcados en MCMC talcomo lo plantea (Gamerman & Lopes 2006), para lo que hace uso de algoritmos comoel Metropolis Hasting y el muestrador de Gibbs, con el unico fin de extraer muestras dedistribuciones posterior, y observar la convergencia de las cadenas y ası la estimacion de losparametros del modelo.

Antes de mostrar el comportamiento del dichos algoritmos, es necesario recordar que MCMCes una tecnica que simula una cadena de Markov cuyos estados siguen una funcion de pro-babilidad dado un estado de grandes dimensiones tal como lo senala (Hoff 2009). De igualforma, una cadena de Markov es un modelo matematico ligado a sistemas estocasticos, don-de los estados dependen de las probabilidad de transicion, es decir que el estado actual solodepende de su estado anterior. Segun lo expresado por (Koop & Tobias 2007) el metodo deMonte Carlo esta categorizado como un metodo no determinıstico utilizado para aproximarexpresiones matematicas complejas de evaluar con exactitud. Donde este metodo posee unerror absoluto de la estimacion, el cual decrece como 1√

Xcentral, de allI que a partir de

varias repeticiones busca reconocer el comportamiento del sistema, destacando que la basede estas simulaciones es ser generadas a apartir de numeros aleatorios.

Dado el modelo de semiparametrico:

yi = β0 + β1x1i + β2x2i +

k∑k=1

Ukzk(x2i) ε ∼ N(0, τ−1ε ), 1 ≤ n ≤ (24)

Donde zk(.) es un conjunto de funciones de base spline El correspondiente modelo mixtobayesiano puede ser representado por:

y|β, u, τε ∼ N(Xβ + Zu, τ1ε ) u|τ ∼ N(0, τ−1u I) (25)

β ∼ N(0, τ1βI), τ−1/2 ∼ Half − Cauchy(Au), τ−1/2ε ∼ Half − Cauchy(Aε) (26)

Facultad de Estadıstica Trabajo de Grado 0000

Page 13: Junio 2017, pp. 1-31 - USTA

4.1 Intervalos de Confianza 13

donde τβ , Au, Aε Son hiperparametros especificados

y =

y1...yn

, ββ0β1β2

, u =

u1...un

X =

1 X11 X21

......

...1 x1n x2n

Z =

z1(x21 · · · zK(x21...

......

z1(x2n · · · zK(x2n

β2 no necesita el direccionamiento directo del modelo (27) bajo restriccion del producto:

q(β, u, τu, τε = q(β, u), q(τu, τε)

Conseguimos alrededor de usar el mismo truco que describio la seccion 3.2 (Wand et al. 2011).Esto implica la introduccion del vector a de datos auxiliar nx1. El establecimiento del datoobservado para el igual que 0 y asumiendo un numero muy pequeno para el ajuste, el ajustedel modelo en (29) el esencialmente el resultado que el modelo (27). El modelo actual

y|β, u, τε ∼ N(Xβ + Zu, τ1ε ) a|β, uτ ∼ N([βu

],

[τ1βI 0

0 τ1UI

])(27)

, [βu

]∼ N(0,K−1I), β ∼ N(0, τ1βI), τU |bu ∼ Gamma(1/2, bu),

bu ∼ Gamma(1/2, 1/A2u), τε|bε ∼ Gamma(1/2, bε), bε ∼ Gamma(1/2, 1/A2

ε)

4.1. Intervalos de Confianza

En la aproximacion bayesiana, la estimacion por intervalos se define por una evaluacion sim-ple de las distribuciones a posteriori de los parametros. Se considera la curva que representala funcion de densidad que se obtiene a posteriori, y si el area bajo dicha curva entre losvalores X e Y es igual a 95 % entonces se puede hablar de que el verdadero valor este entreX e Y con una probabilidad del 95 %.

4.2. Diagnosticos de convergencia

Posterior a la estimacion bayesiana de los parametros del modelo, se busca validar las estima-ciones realizadas bajo la convergencia de las cadenas, siendo los diagnosticos de convergenciala herramienta que cumple con este objetivo. Por tanto, a continuacion se presentan tres delos criterios mas destacados dentro de la literatura :

• Heidelberger and Welch: es un diagnostico de control de longitud de ejecucion basado enun criterio de precision relativa para la estimacion de la media. El ajuste predeterminadocorresponde a una precision relativa de dos dıgitos significativos. Tambien elimina hastala mitad de la cadena para asegurar que los medios se estimen a partir de una cadenaque ha convergido. (P & PD 1981)

• Raftery and Lewis: es un diagnostico de control de longitud de ejecucion basado enun criterio de exactitud de estimacion del cuantil q. Esta pensado para su uso en unaprueba piloto corta de una cadena de Markov. Tambien calcula el numero de iteracionesde ”quemado”que se descartaran al principio de la cadena.(Raftery & Lewis 1995)

• Geweke: Diagnostico de convergencia para cadenas de Markov basado en una pruebade igualdad de los medias de la primera y ultima parte de una cadena de Markov (pordefecto el primer 10 50 estadıstica de Geweke tiene una distribucion normal asintotica-mente estandar. (Geweke 1992)

Facultad de Estadıstica Trabajo de Grado 0000

Page 14: Junio 2017, pp. 1-31 - USTA

14 Cheimi Sayuri Toquica Vargas & Wilmer Pineda Rıos.

5. Aplicacion a un modelo de Distribucion de Consumo Ma-sivo

El modelo en estudio tiene como objetivo establecer la relacion entre varacion mensual del numerode clientes como variable respuesta y el ICC (Indice de Confianza del Consumidor) y los resultadosde la variacion de ventas mensual del proveedor Papeles Nacionales como variables explicativas.

VARIMP:Variacion mensual del numero de clientes compradores del proveedor de PapelesNacionales.(Fuente Distribuidor de consumo masivo ZYS).

VARVENTAS: Variacion Porcentual Mensual de ventas del canal Supermercados Indepen-dientes del proveedor Papeles Nacionales. (Fuente Distribuidor de consumo masivo ZYS)

ICC:Indice de confianza del Consumidor. (Fedesarrollo Centro de investigacion de EconomıaSocial)

El ICC se construye a partir de una encuesta denominada Encuesta de Opinion del Con-sumidor (EOC). Se calcula como un promedio simple de los balances de sus respuestas, esdecir, porcentaje de respuestas favorables menos porcentaje de respuestas desfavorables quecuestionan la opinion de los hogares, tanto de las condiciones actuales como de perspectivasa futuro del paıs.

El ICC reune cinco componentes, cuyo detalle se expone en el Cuadro 1. Los primeros treshacen referencia a las expectativas de los hogares a un ano vista, mientras que los otros doshacen alusion a la percepcion de los consumidores acerca de la situacion economica actual.Con los tres primeros se construye el Indice de Expectativas del Consumidor (IEC) y conlos dos restantes el Indice de Condiciones Economicas (ICE).

Tabla 1: Componentes del ICC (Balances entre respuestas favorables y desfavorables)

Variable/ Balance % 2015 2016 2017

Indice de Confianza del Consumidor - ICC Abril Abril Marzo Abril

Indice de Confianza del Consumidor - ICC 8,2 -13,0 -21,1 -12,8

A. Indice de Expectativas del Consumidor - IEC 8,0 -6,3 -18,3 -10,9

¿Dentro de un ano a su hogar le estara yendo economicamentemejor?

38,6 26,3 10,5 18,7

Durante los proximos 12 meses vamos a tener buenos tiemposeconomicamente

-10,0 -31,5 -39,4 -33,6

Dentro de 12 meses, ¿cree usted que las condiciones economicasdel paıs en general estaran mejores?

-4,6 -13,6 -25,9 -17,8

B. Indice de Condiciones Economicas - ICE 8,5 -23,1 -25,4 -15,7

¿Cree ud. que a su hogar le esta yendo economicamente mejor opeor que hace un ano?

4,7 -15,8 -22,1 -17,4

¿Cree ud. que este es un buen momento o un mal momento para quela gente compre muebles, nevera, lavadora, televisor, y cosas como esas?

12,3 -30,3 -28,8 -14,1

Fuente: Encuesta de Opinion del Consumidor (EOC) – Fedesarrollo.

La informacion del ICC es crucial para la toma de decisiones de polıtica economica ya que esuna variable exogena que afecta directamente al componente mas importante del PIB, el consumoprivado. Por lo tanto, se constituye en un buen predictor de los ciclos de la economıa colombiana.

Facultad de Estadıstica Trabajo de Grado 0000

Page 15: Junio 2017, pp. 1-31 - USTA

5.1 Contexto de las variables 15

5.1. Contexto de las variables

Figura 4: Tendencia Lineal de los indicadores Enero 2016-Abril 2017

En la figura 4 se observa la grafica lineal de las variables en estudio donde se evidencia una mejoraen la confianza de los consumidores frente al primer trimestre del ano se debe a una recuperacionimportante tanto en la percepcion acerca de la situacion economica del paıs como en la del hogar,despues de la contraccion economica causada por incremento de impuestos. Los balances para laspreguntas relacionadas con la valoracion del hogar se ubicaron en terreno levemente positivo y enniveles superiores a los del primer trimestre.

El numero de clientes y las ventas se recuperan en Enero Febrero del ano presente sin embargo,y, apesar de que las ventas incrementa 5.6 puntos porcentuales en los ultimos 2 meses, decae elnumero del clientes en 17puntos ,lo cual indica una concentracion de venta en clientes pareto dela compania.

Facultad de Estadıstica Trabajo de Grado 0000

Page 16: Junio 2017, pp. 1-31 - USTA

16 Cheimi Sayuri Toquica Vargas & Wilmer Pineda Rıos.

Figura 5: Analisis univariado VARIMP,ICC,y VARVENTAS

VARIMP Se observa Concentracion de los datos el rango de valores negativos entre el -10 yCero dado por los 4 mes donde se presenta decremento constante del numero de clientes. Ladistribucion de los datos no es normal, y es asimetrica a la derecha

ICCSe evidencia baja dispersion en los datos, con una curva de distribucion ligeramentepositiva fundamentada por la recuperacion de la economıa en el ano despues de la contraccioneconomica del paıs causada por el alza de impuestos.se observa un ligera tendencia linealpositiva.

VARVENTAS Presenta alta dispersion, los datos no tienen una distribucion normal debidoa los crecimientos de venta causados por las ferias comerciales , la baja demanda de lascategorıas de producto de aseo hogar en la temporada de fin de ano, se observa una tendenciadefinida.

Facultad de Estadıstica Trabajo de Grado 0000

Page 17: Junio 2017, pp. 1-31 - USTA

5.2 Analisis Descriptivo Multivariado 17

5.2. Analisis Descriptivo Multivariado

Se presenta un diagrama de dispersion entre las covariables y la variable de respuesta VARIMPAC,donde se puede revisar algunas relaciones existentes entre variables.

Figura 6: Analisis bivariado VARIMP VARVENTAS

En la figura 6 se observa que existe una fuerte relacion lineal positiva en cierto modo logica,puestoque un incremento en el numero de clientes, genera un incremento automatico en el valor de venta.

Figura 7: Grafico dispersion VARIMP ICC

En la figura 7 se observa que no existe una relacion lineal definida,parece ser altamente no linea,aunque se muestra un ligero comportamiento negativo en los datos.

Facultad de Estadıstica Trabajo de Grado 0000

Page 18: Junio 2017, pp. 1-31 - USTA

18 Cheimi Sayuri Toquica Vargas & Wilmer Pineda Rıos.

5.3. Resultados de la estimacion

5.3.1. Resultados de la parametrica y Semiparametrica

Dado que es posible estructurar un modelo con P-splines como un modelo mixto, utilizaremos lafuncion gam(), para esto necesario cargar el paquete mgcv de Wood (2006). Este paquete contienedos funciones que permiten utilizar P-splines: gam y gamm, la diferencia entre las dos es que lasegunda permite elegir el parametro de suavizado mediante REML, mientras que la primera essimilar a la funcion escrita por Hastie y Tibshirani, pero permite utilizar splines de rango bajo, yelige el parametro de suavizado mediante GCV .

En la siguiente tabla se presenta los valores del Criterio de informacion de Akaike(AIC) y Va-lores del criterio de seleccion de del parametro de suavizado para los diferentes modelos que secontemplaron en la escogencia del modelo final.

La diferencia de los modelos de estimacion propuestos estan basadas en el numero de nodos ytipos de bases.En la primer seccion con la base thin plate regression splines predeterminada por lafuncion y en la segunda seccion con bases de splines penalizados.Todos los modelos son estimadossin intercepto, por efecto de validaciones previas.

Tabla 2: Resultados Regresion Lineal y Semiparametrica

Formula, k=nodos,bs=P Splines VARVENTAS Pr(>—t—) S(ICC) GCV AIC

VARIMP ∼-1+ICC+VARVENTAS 0,3232 0,00384** 0,310 119,37VARIMP ∼-1+s(ICC,k=3)+VARVENTAS 0,3234 0,00204** 0,211 133,12 117,41VARIMP ∼-1+s(ICC,k=4)+VARVENTAS 0,2283 0,00747** 0,012* 84,82 109,96VARIMP ∼-1+s(ICC,k=6)+VARVENTAS 0,2393 0,00555** 0,021* 79,81 108,05VARIMP ∼-1+s(ICC,k=7)+VARVENTAS 0,2345 0,00704** 0,023* 81,69 108,48

VARIMP ∼-1+s(ICC,bs=”ps”,k=4) +VARVENTAS 0,2382 0,0104* 0,035* 101,89 112,74VARIMP ∼-1+s(ICC,bs=”ps”,k=6)+VARVENTAS 0,2376 0,00648* 0,022* 85,03 108,82VARIMP ∼-1+s(ICC,bs=”ps”,k=7)+VARVENTAS 0,2177 0,017* 0,033* 103,32 111,81

En la tabla 2 se observa en que la estimacion del primer modelo mediante regesion lineal la variableICC no es significativa , lo mismo sucede en el segundo modelo semiparametrico con 3 nodos, dondela variable ICC se incluye como la parte no parametrica del modelo. En el tercer modelo se utiliza 4nodos y, se evidencia que la variable ICC es significativa, generando un GCV(84.82) y AIC(109.96)mucho menor comparado con las anteriores calculos lo que indica un mejor ajuste del modelo .En la cuarta estimacion se utiliza 6 nodos en este caso se reduce el valor del GCV a (79.1) y delAIC a (108.05), en el quinto modelo se incrementa el numero de nodos a 7, no obstante el valordel GCV(84.82) y AIC(109.96) aumenta, por esto confirmamos que el modelo con mejor ajuste escon 6 nodos por tener los GVC y AIC mas bajos.

En la segunda seccion se plantea la estimacion de los modelos con bases p splines, con 4,6,7 nodos,y nuevamente el mejor modelo es con 6 nodos.Teniendo en cuenta los resultados de las 2 seccionesdel modelo de semiparametrico la estimacion clasica con 6 nodos con bases thin plate regressionsplines es mejor que la estimacion con bases spline penalizadas.

Facultad de Estadıstica Trabajo de Grado 0000

Page 19: Junio 2017, pp. 1-31 - USTA

5.3 Resultados de la estimacion 19

Figura 8: Graficos funcion no lineal semiparametrica

En la figura 8 Se observan las funciones de distribucion no lineales de la variable ICC, los tresprimeros graficos corresponden al ajuste con bases thin plate regression splines, con el respectivoajuste segun el numero de nodos, en esta seccion se evidencia que el mejor modelo es con 6 nodos.

Los ultimos 3 graficos representan las funciones de distribucion de la estimacion con bases Pspli-nes,y se puede concluir que el modelo con 6 nodos capta con precision el comportamiento de losdatos.

5.3.2. Resultados Regresion Semiparametrica Bayesiana

Esta estimacion, se realiza bajo el marco semiparametrico bayesiano. Las formas explıcitas de lascondicionales no estan provistas, por tanto recurrimos a estimar los parametros por medio delpaquete BayesGESM v1.3 de Luz Marina Rondon. La funcion gesm() es utilizado para obtener lainferencia estadıstica basada en el enfoque bayesiano para modelos de regresion bajo la suposicionde que los errores aditivos independientes siguen una escala de mezclas de distribucion normal.Donde los parametros de ubicacion y dispersion de la distribucion de variables de respuesta inclu-yen componentes aditivos no parametricos descritos por B-splines

Los argumentos para la especificacion del modelos son:

Formula: La formula del argumento consta de tres partes, a saber: (i) variable de respuestaobservada; (Ii) covariables para el parametro de localizacion que incluye el componente noparametrico; Y (iii) covariables para el parametro de dispersion que incluye el componenteno parametrico. Los componentes no parametricos se pueden especificar utilizando la funcionbsp () que usa funciones de B Splines es opcional especificar el valor el numero de nudos

internos. El valor predeterminado es n15 . Donde n es el tamano de la muestra (O’sullivan

1986)

Facultad de Estadıstica Trabajo de Grado 0000

Page 20: Junio 2017, pp. 1-31 - USTA

20 Cheimi Sayuri Toquica Vargas & Wilmer Pineda Rıos.

family:Una descripcion de la distribucion de errores que se utilizara en el modelo.

burn.in: El numero de iteraciones de burn-in para el algoritmo MCMC.

post.sam.s:El tamano requerido para la muestra posterior de los parametros de interes

thin:el intervalo de dilucion utilizado en la simulacion para obtener el tamano requerido parala muestra posterior.

Esta funcion utiliza un algoritmo MCMC eficiente combinando el algoritmo de muestreo Gibbs yel algoritmo Metropolis-Hastings, que se basa principalmente en la capacidad de las B-splines deexpresarse linealmente y en el hecho de que la distribucion del error del modelo se puede obtenercomo una mezcla de escala de Distribuciones normales. Suponemos que a priori, los cuatro vectoresde parametros (componentes parametricos y no parametricos en los submodelos de localizaciony dispersion) son independientes y normalmente distribuidos. Los valores considerados para loshiperparametros permiten una comparacion directa de los resultados con los obtenidos bajo elenfoque clasico.

Tabla 3: Resultados Regresion Semiparametrica Bayesiana

Formula,k=nodos, bs=P Splines VARVENTAS C.I.95 % DIC

VARIMP∼ICC+VARVENTAS 0,324 0,1274 0,520 119,692VARIMP∼bsp(ICC)+VARVENTAS 0,2495 0,0658 0,4382 116,9206VARIMP∼bsp(ICC,3)+VARVENTAS 0,2515 0,0846 0,419 112,914VARIMP∼bsp(ICC,4)+VARVENTAS 0,2674 0,061 0,472 115,0631VARIMP∼bsp(ICC,7)+VARVENTAS 0,3245 0,0286 0,6121 121,0767

En la tabla 3 Se evidencia que al incluir la variable ICC como parte no paremetrica , se hacesignificativa y aporta en ajuste del modelo dado que valor de DIC se reduce a (116.92).Por otraparte al especificar 3 nodos, en la formula se obtiene un DIC inferior(112.914), y un intervalo decredibilida mas preciso. En el modelo 4 y 5 se observa que el DIC aumenta si se incrementa elnumero de nodos.

Figura 9: Graficos funcion no lineal Bayesiana

Facultad de Estadıstica Trabajo de Grado 0000

Page 21: Junio 2017, pp. 1-31 - USTA

5.3 Resultados de la estimacion 21

En la figura 9 Se observan las funciones de distribucion del modelamiento de la relacion no linealde la variable ICC con diferentes numeros de nodos. El grafico 2 corresponde al modelo elegidok = 3 DIC (112.91). Adicional al chequear de los intervalos de credibilidad, y como se menciona en la seccion teoricase puede hablar de que el verdadero valor del parametro esta entre 0.0846 y 0.419 con una proba-bilidad del 95 %. Sumado a esto se observa que dentro de este intervalo no esta contenido el ”0”,con lo que se garantiza la existencia de correlacion de la variable respuesta.

5.3.3. Diagnostico de Heidelberger and Welch

Como se puede observar en la tabla 4 en lo que respecta a las pruebas de convergencia, los valoresde probabilidad p en el diagnostico de convergencia fueron todos mayores a 0.05, lo que indicaque no hay evidencias contra la convergencia. Todos los parametros pasaron las pruebas de lamitad de ancho de banda de Heidelberger y Welch y las pruebas estacionarias. En general, losresultados de estas pruebas sugirieron que el numero de iteraciones (10000) para las simulacionesMCMC fue suficiente para satisfacer el criterio de convergencia. Por tal razon, se concluye quelas estimaciones de los parametros del modelo estan dadas bajo cadenas que convergen lo que dafiabilidad a las mismas.

Tabla 4: Diagnosticos de la Cadena

Stationarity start

test iteration p-valuebeta 1 passed 1 0.603alpha 1 1 passed 1 0.640alpha 1 2 passed 1 0.605alpha 1 3 passed 1 0.753alpha 1 4 passed 1 0.762alpha 1 5 passed 1 0.421alpha 1 6 passed 1 0.627tau alpha 1 passed 1 0.803gamma 1 passed 1 0.105

Halfwidth Mean Halfwidthbeta 1 passed 0.252 0.00164alpha 1 1 passed -36.613 0.42100alpha 1 2 passed 56.965 0.35067alpha 1 3 passed -12.331 0.24981alpha 1 4 passed 7.346 0.38065alpha 1 5 passed -4.521 0.33209alpha 1 6 passed -9.154 0.16042tau alpha 1 passed 1.641.274 3.883.261gamma 1 passed 4.218 0.01016

En la figura 10 se confirma que la cadena del valores de la distribucion posterior parametro delmodelo (VARVENTAS), se evidencia que la cadena es casi que invariable y constante entorno aun mismo valor. (0.252)

Facultad de Estadıstica Trabajo de Grado 0000

Page 22: Junio 2017, pp. 1-31 - USTA

22 Cheimi Sayuri Toquica Vargas & Wilmer Pineda Rıos.

Figura 10: Grafico de convergencia y densidad del parametro VARVENTAS

En la figura 11 se muestra la cadena del valores de la varianza de los componetes del modelo, seevidencia que las estimaciones seleccionadas no presentan tendencia ni estacionalidad y son casique invariables y constantes entorno a un mismo valor(4.210).

Figura 11: Diagnostico Gamma

Facultad de Estadıstica Trabajo de Grado 0000

Page 23: Junio 2017, pp. 1-31 - USTA

23

(a) Grafico Dispersion (b) Grafico qqnormn

Figura 12: Analisis de Residuales

En la figura 12 Se considera que los errores presentan baja variabilidad ,la media de los residualeses igual a -0.079 su valor promedio esta cercano a cero, en este caso los errores negativos son masfrecuentes que los positivos.

(a) Divergencia Kullback Leiber (b) Divergencia Ji Cuadrado

Figura 13: Analisis Datos influyentes

En la figura 13 se observa el grafico de Divergencia de Kullback- Leibler el cual mide la distanciaentre las distribuciones a posterioris con todos los datos y eliminando el i-esimo dato. Un valorgrande de DKL(i) implica mayor influencia de la observacion i-esima en la estimacion. Los datosinfluyentes detectados por DKL corresponden al impacto causado por el incremento de ventas dela 2 feria anual de descuentos que es realizada en Octubre y el notorio decremento en ventas parael siguiente mes dado que los clientes no compran en la misma proporcion porque tiene un stockalto de inventarios de productos.

6. Conclusiones

En el enfoque clasico las bases thin plate regression splines aportan mayor ajuste a los datostiene un menor AIC comparado con las bases P splines.

Los modelos semiparametricos clasicos requieren de un mayor numero de nodos que losbayesianos, y pueden ser calculados el valor minimo de nodos establecidos para obtener elmejor ajuste. Por otra parte el algoritmo bayesiano es bastante eficiente y aplicable a unaamplia variedad de problemas.

Dada la flexibilidad de los modelos semiparametricos el modelo propuesto puede ser com-plementado con otras variables como la variacion de ventas del canal mayorista calculada en

Facultad de Estadıstica Trabajo de Grado 0000

Page 24: Junio 2017, pp. 1-31 - USTA

24 Cheimi Sayuri Toquica Vargas & Wilmer Pineda Rıos.

la encuesta de comercio minorista, e incluir un factor determinado por las zonas geograficaspara aplicar datos longitudinales.

Referencias

Azzalini, A. & Bowman, A. (1993), ‘On the use of nonparametric regression for checking linearrelationships’, Journal of the Royal Statistical Society. Series B (Methodological) pp. 549–557.

Boor, D. (1978), A practical guide to splines, Vol. 27, Springer-Verlag New York.

Cleveland, W. S. & Loader, C. (1996), Smoothing by local regression: Principles and methods, in‘Statistical theory and computational aspects of smoothing’, Springer, pp. 10–49.

Durban, M., Lee, D.-J. & Ugarte, M. D. (2008), Splines con penalizaciones (P-splines): teorıa yaplicaciones, Universidad Publica de Navarra= Nafarroako Unibertsitate Publikoa.

Eilers, P. H. & Marx, B. D. (1996), ‘Flexible smoothing with b-splines and penalties’, Statisticalscience pp. 89–102.

O’sullivan (1986), ‘Automatic smoothing of regression functions in generalized linear models’,Journal of the American Statistical Association 81(393), 96–103.

Ruppert, D., Wand, M. P. & Carroll, R. J. (2003), Semiparametric regression, number 12, Cam-bridge university press.

Silverman, B. W. (1985), ‘Some aspects of the spline smoothing approach to non-parametricregression curve fitting’, Journal of the Royal Statistical Society. Series B (Methodological)pp. 1–52.

Wand, M. P., Ormerod, J. T., Padoan, S. A., Fuhrwirth, R. et al. (2011), ‘Mean field variationalbayes for elaborate distributions’, Bayesian Analysis 6(4), 847–900.

Facultad de Estadıstica Trabajo de Grado 0000

Page 25: Junio 2017, pp. 1-31 - USTA

25

7. Apendice Codigos R

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

# *Grafica de la funcion no lineal

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

n = 200

x = seq(0,1,length=n)# nemeros secuenciales de 1 hasta 0 # numero de secuencias

y = sin(3*pi*x) + 0.5*rnorm(n)

lengths(y)

plot(x,y,pch=1,bty="l",col=12)

lines(x,sin(3*pi*x),col=6)

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

# *Polinomios Truncados ejemplo Durban

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

tpoly<-function(x,t,p){

#Polinomios truncados de grado p

B=NULL

for(i in 1:length(t)){

B=cbind(B,(x-t[i])^p*(x>t[i]))}

B

}

#Tomamos los nodos, por ejemplo, si queremos 10 nodos

K=10

knots=seq(0,1,length=(K+2))[-c(1,K+2)]

#entonces,

B0=tpoly(x,knots,0)

B1=tpoly(x,knots,1)

B2=tpoly(x,knots,2)

B3=tpoly(x,knots,3)

B4=tpoly(x,knots,5)

par(mfrow=c(2,2))

plot(x,B0[,1],type="n",ylim=c(0,1),ylab="")

title("Polinomios truncados de grado 0",cex.main=1)

for(i in 1:10){lines(x,B0[,i],col=i,lty=i)}

plot(x,B1[,1],type="n",ylim=c(0,1),ylab="")

title("Polinomios truncados de grado 1",cex.main=1)

for(i in 1:10){lines(x,B1[,i],col=i,lty=i)}

plot(x,B2[,1],type="n",ylim=c(0,1),ylab="")

title("Polinomios truncados de grado 2",cex.main=1)

for(i in 1:10){lines(x,B2[,i],col=i,lty=i)}

plot(x,B3[,1],type="n",ylim=c(0,1),ylab="")

title("Polinomios truncados de grado 3",cex.main=1)

for(i in 1:10){lines(x,B3[,i],col=i,lty=i)}

plot(x,B4[,1],type="n",ylim=c(0,1),ylab="")

title("Polinomios truncados de grado 5",cex.main=1)

for(i in 1:10){lines(x,B4[,i],col=i,lty=i)}

plot(x,B5[,1],type="n",ylim=c(0,1),ylab="")

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

# *Bases B-Spline grados 1 y3 con nodos

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

library(splines)

Facultad de Estadıstica Trabajo de Grado 0000

Page 26: Junio 2017, pp. 1-31 - USTA

26 Cheimi Sayuri Toquica Vargas & Wilmer Pineda Rıos.

bspline <- function(x, xl, xr, ndx, bdeg){

dx <- (xr-xl)/ndx

knots <- seq(xl-bdeg*dx, xr+bdeg*dx, by=dx)

B <- spline.des(knots,x,bdeg+1,0*x)$design

B

}

xl=-0.0000001

xr=1.0000001

bdeg=3

pord=2

ndx=8

B <- bspline(x, xl, xr, ndx, bdeg)

BB=bspline(x,xl,xr,ndx=9,1)

par(mfrow=c(2,2))

plot(x,BB[,6],type="l",col=12,ylab="",ylim=c(0,1))

points(x[c(89,112,134)],BB[c(89,112,134),6],col=12,pch=19)

points(x[c(89,112,134)],rep(0,3),col=12,pch=19)

plot(x,BB[,1],type="n",ylim=c(0,1),ylab="")

for(i in 1:10){lines(x,BB[,i],col=i,lty=i)}

plot(x,B[,6],type="l",col=12,ylab="",ylim=c(0,1))

points(x[c(51,76,100,125,150)],B[c(51,76,100,125,150),6],col=12,pch=19)

points(x[c(51,76,100,125,150)],rep(0,5),col=12,pch=19)

plot(x,B[,1],type="n",ylim=c(0,1),ylab="")

for(i in 1:10){lines(x,B[,i],col=i,lty=i)}

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

# *Coeficientes y penalizaciones

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

n <- 200

x <- seq(0,1,length=n)

y <- sin(3*pi*x) + 0.5*rnorm(n)

library(splines)

xl=-0.0000001

xr=1.0000001

bdeg=3

pord=2

ndx=8

bspline2=function(x, xl, xr, ndx, bdeg){

dx <- (xr-xl)/ndx

knots <- seq(xl-bdeg*dx, xr+bdeg*dx, by=dx)

B <- spline.des(knots,x,bdeg+1,0*x)$design

knots

}

par(mfrow=c(1,2))

plot(x,y,pch=".",cex=3)

BBB=bspline(x,xl,xr,ndx=20,3)

a2=solve(t(BBB)%*%BBB)%*%t(BBB)%*%y

lines(x,BBB%*%a2,col=6,lwd=2)

Facultad de Estadıstica Trabajo de Grado 0000

Page 27: Junio 2017, pp. 1-31 - USTA

27

knots=bspline2(x,xl,xr,ndx=20,3)

points(knots[3:25],a2,col=6,pch=21,cex=2)

points(knots[3:25],a2,col=6,pch=20)

for(i in 1:ncol(BBB)){

lines(x,BBB[,i]*a2[i])}

d=ncol(BBB)

D=diff(diff(diag(d)))

P=t(D)%*%D

a22=solve(t(BBB)%*%BBB+P)%*%t(BBB)%*%y

plot(x,y,pch=".",cex=3)

lines(x,BBB%*%a22,col=4,lwd=2)

points(knots[3:25],a22,col=4,pch=21,cex=2)

points(knots[3:25],a22,col=4,pch=20)

for(i in 1:ncol(BBB)){

lines(x,BBB[,i]*a22[i])}

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

# *Lambdas

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

n <- 200

x <- seq(0,1,length=n)

y <- sin(3*pi*x) + 0.5*rnorm(n)

library(splines)

xl=-0.0000001

xr=1.0000001

bdeg=3

pord=2

ndx=8

bspline2=function(x, xl, xr, ndx, bdeg){

dx <- (xr-xl)/ndx

knots <- seq(xl-bdeg*dx, xr+bdeg*dx, by=dx)

B <- spline.des(knots,x,bdeg+1,0*x)$design

knots

}

par(mfrow=c(1,2))

plot(x,y,pch=".",cex=3)

BBB=bspline(x,xl,xr,ndx=20,3)

a2=solve(t(BBB)%*%BBB)%*%t(BBB)%*%y

lines(x,BBB%*%a2,col=6,lwd=2)

knots=bspline2(x,xl,xr,ndx=20,3)

points(knots[3:25],a2,col=6,pch=21,cex=2)

points(knots[3:25],a2,col=6,pch=20)

for(i in 1:ncol(BBB)){

lines(x,BBB[,i]*a2[i])}

d=ncol(BBB)

D=diff(diff(diag(d)))

P=t(D)%*%D

Facultad de Estadıstica Trabajo de Grado 0000

Page 28: Junio 2017, pp. 1-31 - USTA

28 Cheimi Sayuri Toquica Vargas & Wilmer Pineda Rıos.

a22=solve(t(BBB)%*%BBB+P)%*%t(BBB)%*%y

plot(x,y,pch=".",cex=3)

lines(x,BBB%*%a22,col=4,lwd=2)

points(knots[3:25],a22,col=4,pch=21,cex=2)

points(knots[3:25],a22,col=4,pch=20)

for(i in 1:ncol(BBB)){

lines(x,BBB[,i]*a22[i])}

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

# Estimacion semiparametrica Clasica

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

library(foreign)

library(nlme)

library(mgcv)

#Regresion Lineal

ols.1Panal <- gam(VARIMP ~ -1+ICC+ VARVENTAS, data=Panal)

summary(ols.1Panal)

plot(ols.1Panal)

AIC(ols.1Panal)

#Regresion Semiparametrica 3 Nodos n/4

gam.1Panal<- gam( VARIMP ~-1+ s(ICC,k=3,m=2)+VARVENTAS, data=Panal)

summary(gam.1Panal)

plot(gam.1Panal)

AIC(gam.1Panal)

#Regresion Semiparametrica 4 Nodos

gam.2Panal<- gam( VARIMP ~ -1+s(ICC,k=4,m=2)+VARVENTAS,data=Panal)

gam.2Panal$deviance

summary(gam.2Panal)

gam.2Panal$fit

plot(gam.2Panal)

AIC(gam.2Panal)

predict(gam.2Panal)

gam.2Panal$smooth["Xu"]

#Regresion Semiparametrica 6 Nodos

gam.3Panal<- gam( VARIMP ~ -1+s(ICC,k=6)+VARVENTAS, data=Panal)

gam.3Panal$deviance

summary(gam.3Panal)

gam.vcomp(gam.3Panal)

attr(gam.3Panal,"constant")

plot(gam.3Panal)

AIC(gam.3Panal)

par(mfrow=c(1,1))

#Regresion Semiparametrica 7 Nodos

gam.4Panal<- gam( VARIMP ~ -1+s(ICC,k=7)+VARVENTAS, data=Panal)

gam.4Panal$deviance

summary(gam.4Panal)

plot(gam.4Panal)

AIC(gam.4Panal)

###Bases B Spline Penalizadas

Facultad de Estadıstica Trabajo de Grado 0000

Page 29: Junio 2017, pp. 1-31 - USTA

29

#Regresion Semiparametrica p splines 4 Nodos

gam.5Panal<- gam( VARIMP ~ -1+s(ICC,bs="ps",k=4)+VARVENTAS, data=Panal)

gam.5Panal$deviance

summary(gam.5Panal)

plot(gam.5Panal)

AIC(gam.5Panal)

#Regresion Semiparametrica p splines 6 Nodos

gam.6Panal<- gam( VARIMP ~ -1+s(ICC,bs="ps",k=6)+VARVENTAS, data=Panal,method="ML")

gam.6Panal$deviance

summary(gam.6Panal)

plot(gam.6Panal)

AIC(gam.6Panal)

gam.vcomp(gam.6Panal)

#Regresion Semiparametrica p splines 7 Nodos

gam.7Panal<- gam( VARIMP ~ s(ICC,bs="ps",k=7)+VARVENTAS, data=Panal)

gam.7Panal$deviance

summary(gam.7Panal)

AIC(gam.7Panal)

plot(gam.7Panal)

#Graficos funcion no parametrica ICC

par(mfrow = c(2, 3))

plot(gam.1Panal,main = "k=3 GCV=133.12 AIC=117.41")

plot(gam.2Panal,main = "k=4 GCV=84.82 AIC=109.96")

plot(gam.3Panal,main = "k=6 GCV=79.81 AIC=108.05",col="mediumspringgreen")

plot(gam.5Panal,main = "k=4 pspline GCV=101.89 AIC=112.74")

plot(gam.6Panal,main = "k=6 pspline GV=85.03 AIC=108.82",col="mediumspringgreen")

plot(gam.7Panal,main = "k=10 pspline GCV=103.32 AIC=111.81")

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

# Estimacion Bayesiana semiparametrica

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

####Modelo Bayesianos

library(BayesGESM)

library(ssym)

library(GIGrvg)

library(normalp)

library(Formula)

## Bayesiano Lineal

model <- gesm(VARIMP~-1+ICC+VARVENTAS,data=Panal,

burn.in=10000, post.sam.s=10000,thin=10,family="Normal")

summary(model)

#bsp.graph.gesm(model,which=1,var="ICC")no hay loc no parametrico

##Semiparametric

## Numero de nodos predeterminado

model1 <- gesm(VARIMP~-1+bsp(ICC)+VARVENTAS,data=Panal,

burn.in=10000, post.sam.s=10000,thin=10,family="Normal")

summary(model1)

bsp.graph.gesm(model1,which=1,var="ICC")

## Numero de nodos 3

Facultad de Estadıstica Trabajo de Grado 0000

Page 30: Junio 2017, pp. 1-31 - USTA

30 Cheimi Sayuri Toquica Vargas & Wilmer Pineda Rıos.

model2 <- gesm(VARIMP~-1+bsp(ICC,3)+VARVENTAS,data=Panal,

burn.in=10000, post.sam.s=10000,thin=10,family="Normal")

summary(model2)

model2$AIC

model2$LMPL

Cadena=(model2$chains)

MC2<- as.mcmc(Cadena)

heidel.diag(MC2)

library(mcmcplots)

mcmcplot(MC2)

model12$KL

## Numero de nodos 4

model3 <- gesm(VARIMP~-1+bsp(ICC,4)+VARVENTAS,data=Panal,

burn.in=10000, post.sam.s=10000,thin=10,family="Normal")

## Numero de nodos 7

model4 <- gesm(VARIMP~-1+bsp(ICC,7)+VARVENTAS,data=Panal,

burn.in=10000, post.sam.s=10000,thin=10,family="Normal")

summary(model4)

# Graficos funcion no lineal comparativos

par(mfrow = c(2, 2))

bsp.graph.gesm(model1,which=1,var="ICC",main="DIC=116.92")

bsp.graph.gesm(model2,which=1,var="ICC",main="DIC=112.91")

bsp.graph.gesm(model3,which=1,var="ICC",main="DIC=115.06")

bsp.graph.gesm(model4,which=1,var="ICC",main="DIC=121.06")

mcmcplot(MC2)

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

# Diagnosticos de Modelo Bayesiano semiparametrico

#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

########## Residual plot

par(mfrow=c(1,2))

plot(model2$res, ylim=c(-2,2), xlab="Index", ylab="", main="Residuals", cex=0.3,

type="p", lwd=3)

abline(h=0,lty=3)

qqnorm(model2$res, xlim=c(-2,2), ylim=c(-2,2), xlab="Quantile", ylab="Residuals",

cex=0.3, type="p", lwd=3)

abline(0,1,lty=3)

### Graficos residual en terminos de ggplot2

res=model2$res

par(mfrow=c(1,2))

qplot(x=1:15,y=model2$res,main="Analisis de Residuales")+geom_hline(aes(yintercept=h),

color="Blue")

ggplot(data=as.data.frame(qqnorm( res , plot=F)), mapping=aes(x=x, y=y)) +

geom_point() + geom_smooth(method="lm", se=FALSE)

mean(model2$res)

sqrt(sum(model2$res^2)/13)

Facultad de Estadıstica Trabajo de Grado 0000

Page 31: Junio 2017, pp. 1-31 - USTA

31

########## Datos influyentes Influence measures plot

library(ggplot2)

par(mfrow=c(1,2))

qplot(x=1:15,y=model2$KL,main="Divergencia de Kullback-Leibler")+xlab("Index")+ylab("")+

geom_hline(aes(yintercept=3*mean(model2$KL)),color="Blue")

qplot(x=1:15,y=model2$X_2,main="Divergencia Ji Cuadrado")+xlab("Index")+ylab("")+

geom_hline(aes(yintercept=3*mean(model2$X_2)),color="Blue")

Facultad de Estadıstica Trabajo de Grado 0000