modelos aditivos generalizados con p-splines · contenidoi 1 introduccion 2 p-splines bases,...

Modelos Aditivos Generalizados con P-splines

Maria Durban

Universidad Carlos III de MadridDepartamento de Estadistica

60a RBras, Presidente Prudente, 2015

Materialhttp://www.est.uc3m.es/durban/esp/web/cursos/GAMs/GAMs.html

Maria Durban (UC3M) GAMs 1 / 139

Contenido I

1 Introduccion

2 P-splinesBases, Penalizaciones, Nodos y coeficientesP-splines como modelos mixtosEstimacionDatos CorreladosP-splines MultidimensionalesModelos aditivos generalizados con P-splines

3 Softwaregamm() y gam()

4 AplicacionesModelos semiparametricosModelos aditivosDatos correladosDatos multidimensionalesDatos longitudinales

http://www.est.uc3m.es/durban/esp/web/cursos/GAMs/GAMs.html

Contenido

1 Introduccion

Introduccion

I Un modelo lineal es deseable porque es simple de ajustar, se entiendefacilmente, y existen muchas tecnicas disponibles para contrastar las hipotesisdel modelo.

I Sin embargo, en muchos casos, los datos no estan relacionados de forma linealI Un modelo de regresion no-lineal clasico tendria la siguiente forma:

y = f (Xβ) + ε

donde β = (β1, . . . βp)′ es un vector de parametros, que han de ser estimados, y

X es la matriz que contiene las variables predictoras.I La funcion f (.), relaciona el valor medio de la variable respuesta y con las

variables predictoras, y su forma esta especificada a priori .I A veces la estructura de los datos es tan complicada que es muy dificil encontrar

una funcion que estime la relacion existente de forma correcta

Introduccion

y = f (Xβ) + ε

Introduccion

y = f (Xβ) + ε

Introduccion

y = f (Xβ) + ε

Introduccion

y = f (Xβ) + ε

Introduccion0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−0.5

1Fixed weights of differences

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1−1

−0.5

1Exponentially varying weights of differences

Figure 13: Smoothing of simulated data (dots) with and without exponentiallyvarying weights on the differences in the penalty. Upper: uniform weights; lower:varying weights. Parameters optimized with grid search and leave-one-out cross-validation. Full line: fitted curve (100 cubic B-splines, second order penalty); brokenline: true curve.

position k. It follows, for large λ, α will be a smooth series, except for a kink atposition k. If both vk and vk−1 are zero, α will be smooth, except for a jump atαk. Depending on the number of knots, the kink or jump will show up in a moreor less smoothed way in the fitted curve. Of course, combinations of multiple kinksand jumps can be introduced this way.

In some application a gradually changing smoothness may be sufficient. This canbe accomplished by taking vk = eγk. Both λ and γ are optimized by cross-validationor AIC. Of course, this applies equally well to TPF. An example of smoothing withan exponential change of the weights in the penalty is shown in Figure 13, usingsimulated data: a sine function with changing frequency and amplitude. If we useuniform weights and optimize λ with leave-one-out cross-validation (which givesoptimal λ? = 0.1), we get a result that gives rather strong fluctuations of the fittedcurve in the low-frequency part and misses the data in the high-frequency part. If weintroduce weights eγk and optimize both γ and λ, we get a more reasonable result.A grid search gave (approximate) optimal values γ? = 0.2 and λ? = 3× 10−4. Thismeans that, with the 100 knots used here, the largest weight is about 5× 108 timeslarger than the smallest.

Sometimes it is fruitful to have multiple difference penalties, of different orders,or to add an extra ridge penalty. Marx and Eilers (2002) found, in the contextof multivariate calibration by penalized signal regression, markedly improved cross-validation behavior. Aldrin (2006) investigated the use of both first and second orderpenalties in additive models based on P-splines, and found improved prediction.

Introduccion

Una posible solucion: regression no-parametrica.

I El modelo general de regresion no-parametrica ise escribe de forma similar alanterior, pero f no tiene una forma explicita:

y = f (X) + ε = f (x1, . . . xp) + ε

I La mayoria de los metodos de regresion no-parametrica asumen que f (.) es unafuncion continua y suave, y que εi ∼ NID(0, σ2) (aunque esto Ultimo puederelajarse de forma sencilla).

Introduccion

Una posible solucion: regression no-parametrica.

I El modelo general de regresion no-parametrica ise escribe de forma similar alanterior, pero f no tiene una forma explicita:

y = f (X) + ε = f (x1, . . . xp) + ε

I La mayoria de los metodos de regresion no-parametrica asumen que f (.) es unafuncion continua y suave, y que εi ∼ NID(0, σ2) (aunque esto Ultimo puederelajarse de forma sencilla).

Contenido

1 Introduccion

Recordamos....Suavizado por splines

Spline:I Trozo de flexible de madera, goma o metal utilizado para dibujar curvas.I Pesos en ciertos puntos para imponer la curvatura.

Dos grandes enfoquesI splines de suavizado (‘smoothing splines’) Green y Silverman, 1994.:

Xutilizan tantos parametros como observaciones.Ximplementacion no eficiente cuando el n. de datos es muy elevado.

I splines de regresion (‘regression splines’):Xajuste mediante minimos cuadrados una vez que se han seleccionado eln. de nodos,Xseleccion de los nodos mediante algoritmos complejos.

Dos grandes enfoquesI splines de suavizado (‘smoothing splines’) Green y Silverman, 1994.:

Xutilizan tantos parametros como observaciones.Ximplementacion no eficiente cuando el n. de datos es muy elevado.

I splines de regresion (‘regression splines’):Xajuste mediante minimos cuadrados una vez que se han seleccionado eln. de nodos,Xseleccion de los nodos mediante algoritmos complejos.

IntroduccionSplines con Penalizaciones

P-splines (Eilers and Marx, 1996)X Combinan lo mejor de ambos enfoques:

I utilizan menos parametros que los splines de suavizadoI Se introduce una penalizacionsobre los parametros para controlar la

suavidad de la curvaI la seleccion de los nodos no es tan determinante como en los splines de

regresion.

ÃÂÃÂ¿Por que utilizar P-splines?I Son splines de rango bajo, i.e. “tamano de la base <<< dimension de

los datos”, al contrario que los splines de suavizado donde hay tantos nodoscomo datos⇒ trabajar con matrices de alta dimension.

I El n. de nodos ≤ 40, computacionalmente eficiente, sobre todo cuando setrabaja con gran cantidad de datos.

I La introduccion de penalizaciones relaja la importancia de la eleccion delnÃÂÃÂo y la localizacion de los nodos (Rice and Wu, 2001).

I La correspondencia entre los P-splines y el BLUP en un modelo mixto permite,en algunos casos, utilizar la metodologia de los modelos mixtos y uso desoftware como PROC MIXED en SAS y lme() en S-PLUS y R.

Splines con PenalizacionesP-splines unidimensionales

Supongamos que tenemos n pares de datos (xi, yi) y estamos interesados en ajustar el modelo

yi = f (xi) + εi εi ∼ N(0, σ2)

donde f ( ) es una funcion suave de los datos.

EL ARCHIVO bases.R

Datos simuladosn <- 200x <- seq(0,1,length=n)y <- sin(3*pi*x) + 0.5*rnorm(n)plot(x,y,pch=1,bty="l",col=12)lines(x,sin(3*pi*x),col=6)

f (x) = sin(3πx)

0.0 0.2 0.4 0.6 0.8 1.0

ObjetivoEstimar la funcion f (x) = sin(3πx) mediante splines con penalizaciones(P-splines) introducidos Eilers and Marx (1996) y que recientemente hanalcanzado gran popularidad (Ruppert et al., 2003).

Metodologia1 utilizar una base para la regresion, y2 modificar la funcion de verosimilitud introduciendo una penalizacion

basada en diferencias entre coeficientes adyacentes.

Contenido

1 Introduccion

Splines con PenalizacionesBases y nodos

Datos NormalesX Modelo de regresion:

y = Ba + ε , ε ∼ N(0, σ2I)

donde B = B(x) es la base de regresion construida a partir de x.

BasesLa base para la regresion se puede calcular de muchas maneras, y de hecho hay dosgrandes grupos dentro de los estadisticos que utilizan los P-splines:

I los que utilizan las bases polinomios truncados y losI las bases de B-splinesI otras como thin plate regression splines, splines ciclicos, etc..

Splines con PenalizacionesBases y nodos

Datos NormalesX Modelo de regresion:

y = Ba + ε , ε ∼ N(0, σ2I)

donde B = B(x) es la base de regresion construida a partir de x.

BasesLa base para la regresion se puede calcular de muchas maneras, y de hecho hay dosgrandes grupos dentro de los estadisticos que utilizan los P-splines:

I los que utilizan las bases polinomios truncados y losI las bases de B-splinesI otras como thin plate regression splines, splines ciclicos, etc..

Splines con PenalizacionesBases y Nodos

B-splines, De Boor (1977) y Dierckx (1993)Esta formado por trozos de polinomios conectados entre si.

B-splines de grado pI Consiste en p + 1 trozos de polinomio

de orden p.I Se unen en p nodos internosI En los puntos de union las derivadas

hasta el orden p− 1 son continuas.I El B-spline es positivo en el dominio

expandido por p + 2 nodos y 0 en esresto. −3 −2 −1 0 1 2 3

NotaLos B-splines no “padecen” los efectos de frontera comunes en otros metodos de suavizado,como algunos kernels, en los que al extender la curva ajustada fuera del dominio de los datosesta tiende hacia cero.

B-splines, De Boor (1977) y Dierckx (1993)Esta formado por trozos de polinomios conectados entre si.

B-splines de grado pI Consiste en p + 1 trozos de polinomio

de orden p.I Se unen en p nodos internosI En los puntos de union las derivadas

hasta el orden p− 1 son continuas.I El B-spline es positivo en el dominio

expandido por p + 2 nodos y 0 en esresto. −3 −2 −1 0 1 2 3

NotaLos B-splines no “padecen” los efectos de frontera comunes en otros metodos de suavizado,como algunos kernels, en los que al extender la curva ajustada fuera del dominio de los datosesta tiende hacia cero.

De Boor (2001) presenta un algoritmo para el calculo de los B-splines, estealgoritmo se puede simplificar facilmente en software como MATLAB, S-PLUSy R.

Por ejemplo, la funcion para el calculo de una base de B-splines de gradobdeg con ndx nodos seria:

Bases.Rlibrary(splines)bspline = function(x, xl, xr, ndx, bdeg)dx = (xr-xl)/ndxknots = seq(xl-bdeg*dx, xr+bdeg*dx, by=dx)B = spline.des(knots,x,bdeg+1,0*x)designB

B-splines de regresionI B-spline de regresion: f (x) = Ba, donde θ es un vector de coeficientesI Estimacion se puede hacer por minimos cuadrados, de modo que:

m«ın ‖y− Ba‖2 → a = (B′B)−1B′y

y = Ba

la curva ajustada f (x) = Ba dependera del tamano de la base.

cuando el n. de nodos = n. de datos obtenemos una curva que interpolalos datos.

B-splines de regresionI B-spline de regresion: f (x) = Ba, donde θ es un vector de coeficientesI Estimacion se puede hacer por minimos cuadrados, de modo que:

m«ın ‖y− Ba‖2 → a = (B′B)−1B′y

y = Ba

la curva ajustada f (x) = Ba dependera del tamano de la base.

cuando el n. de nodos = n. de datos obtenemos una curva que interpolalos datos.

Splines con PenalizacionesB-spline sin penalizacion

Curva estimada con 3, 10 y 30 nodos

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0−

3 nodos10 nodos30 nodos

Splines con PenalizacionesPenalizaciones

Para solucionar esta situacion, O’Sullivan (1986) introdujo una penalizacionen la segunda derivada de la curva, de modo que la funcion objetivo paso aser:

S(a; y, λ) = (y− Ba)′(y− Ba) + λ

(B′′a

La integral de la segunda derivada de la curva ajustada al cuadrado es unapenalizacion bastante comÃÂÃÂon (por ejemplo en los splines de suavizado),sin embargo, no hay nada de particular en la segunda derivada, se puedeutilizar derivadas de cualquier orden.

Para solucionar esta situacion, O’Sullivan (1986) introdujo una penalizacionen la segunda derivada de la curva, de modo que la funcion objetivo paso aser:

S(a; y, λ) = (y− Ba)′(y− Ba) + λ

(B′′a

La integral de la segunda derivada de la curva ajustada al cuadrado es unapenalizacion bastante comÃÂÃÂon (por ejemplo en los splines de suavizado),sin embargo, no hay nada de particular en la segunda derivada, se puedeutilizar derivadas de cualquier orden.

La penalizacion se anade a los minimos cuadrados para modular el ajuste.

Novedad de los P-splinesI La penalizacion es discreta yI se penalizan los coeficientes directamente, en vez de penalizar la curva

(penalizamos a en vez de Ba) lo que reduce la dimensionalidad del problema.I

Eilers and Marx (1996)Utilizan una penalizacion basada en la diferencias de orden d entre los coeficientesadyacentes de la bases de B-splines.

I Este tipo de penalizacion es mas flexible ya que es independiente del grado delpolinomio utilizado para construir los B-splines.

I Es es una buena aproximacion discreta a la integral de la d-esima derivada alcuadrado.

La penalizacion se anade a la funcion de minimos cuadrados, dando lugar a unafuncion de minimos cuadrados penalizados.

‖y− Ba‖2 + λ∑

(∆dj)2

︸︷︷︸P

donde ∆d es el operador diferencia de orden d.

I En general se utiliza d = 2, aunque se puede utilizar ordenes superiores oinferiores, dependiendo de la variabilidad de la curva y de la cantidad de ruido enlos datos.

I La suavidad de la curva, ahora depende del parametro de suavizado λ y no tantodel numero de nodos

La penalizacion se anade a la funcion de minimos cuadrados, dando lugar a unafuncion de minimos cuadrados penalizados.

‖y− Ba‖2 + λ∑

(∆dj)2

︸︷︷︸P

donde ∆d es el operador diferencia de orden d.

I En general se utiliza d = 2, aunque se puede utilizar ordenes superiores oinferiores, dependiendo de la variabilidad de la curva y de la cantidad de ruido enlos datos.

I La suavidad de la curva, ahora depende del parametro de suavizado λ y no tantodel numero de nodos

Por ejemplo,

∆aj = aj − aj−1 (Primer orden)

∆2aj = aj − 2aj−1 + aj−2 (Segundo orden)

y en forma matricial

−1 1 0 0 · · ·

0 −1 1 0 · · ·0 0 −1 1 · · ·...

......

.... . .

or D2 =

1 −2 1 0 · · ·0 1 −2 1 · · ·0 0 1 −2 · · ·...

......

.... . .

La penalizacion es entonces P = λD′D

Por ejemplo,

∆aj = aj − aj−1 (Primer orden)

∆2aj = aj − 2aj−1 + aj−2 (Segundo orden)

y en forma matricial

−1 1 0 0 · · ·

0 −1 1 0 · · ·0 0 −1 1 · · ·...

......

.... . .

or D2 =

1 −2 1 0 · · ·0 1 −2 1 · · ·0 0 1 −2 · · ·...

......

.... . .

La penalizacion es entonces P = λD′D

Splines con PenalizacionesEl efecto de λ

I Penalizacion de orden 2

Splines con PenalizacionesCoeficientes

I Ahora, para estimar los coeficientes, anadimos la penalizacion a la funcion deminimos cuadrados, es decir, la estimacion se lleva a cabo mediante minimoscuadrados penalizados:

m«ın (y− Ba)′ (y− Ba) + λa′D′Da

I Los coeficientes estimados:

aλ = (B′B + λD′D)−1B′y

I Cuanto mayor sea λ mas proximos a cero estan los coeficientesI si es 0, estamos en un caso de regresion con B-splinesI si λ→∞ estariamos ajustando un polinomio de grado p− 1.

Splines con PenalizacionesCoeficientes

I Ahora, para estimar los coeficientes, anadimos la penalizacion a la funcion deminimos cuadrados, es decir, la estimacion se lleva a cabo mediante minimoscuadrados penalizados:

m«ın (y− Ba)′ (y− Ba) + λa′D′Da

I Los coeficientes estimados:

aλ = (B′B + λD′D)−1B′y

I Cuanto mayor sea λ mas proximos a cero estan los coeficientesI si es 0, estamos en un caso de regresion con B-splinesI si λ→∞ estariamos ajustando un polinomio de grado p− 1.

Splines con PenalizacionesEstimacion de parametros y grados de libertad

aλ = (B′B + λP)−1B′y⇒ f (x) = Ba

ImportanteLa ecuacion anterior depende de λ, el parametro de suavizado, el cual, por elmomento vamos a suponer conocido (mas adelante abordaremos el tema de laestimacion de dicho parametro).

El otro parametro que queda por estimar es la varianza residual, σ2, la estimacion deeste parametro depende de los grados de liberdad del modelo.

aλ = (B′B + λP)−1B′y⇒ f (x) = Ba

Splines y PenalizacionesEstimacion de parametros y grados de libertad

Grados de libertad efectivosPara definir los grados de libertad en este tipo de modelos, la opcion maslogica es utilizar una definicion analoga a la que se utiliza en los modelos deregresion parametricos:

d.f . = traza(H) donde y = Hy

En este caso:H = B(B′B + λP)−1B′

por lo qued.f . = traza(H) = traza(B′B + λP)−1B′B

y la traza de esa matriz variara dependiendo del parametro de suavizado.

Splines y PenalizacionesEstimacion de parametros y grados de libertad

Estimacion de la varianza residualEn el caso de errores gaussianos, nuevamente utilizamos la equivalenciacon el caso de regresion lineal:

σ2 =‖y− Ba‖2

n− traza(H),

aunque este estimador no es insesgado, ya que depende del sesgointroducido por el suavizado, es el que se utiliza normalmente.

Splines y PenalizacionesSeleccion del parametro de suavizado

Seleccion de λI El papel λ en los P-splines, es el mismo que tiene en cualquier otro

metodo de suavizado: controlar la suavidad de la curva, pero aqui lo quehace es penalizar los coeficientes que estan muy separados entre si.

Cuanto mayor sea λ, mas se aproximaran los coeficientes a cero, de modoque si λ→∞ nos aproximamos a un ajuste polinomico.Cuando λ→ 0 estaremos utilizando minimos cuadrados ordinarios.

Criterios de Seleccion de λI Podemos utilizar AIC, GCV, BIC, etc. Por ejemplo:

GCV =n×∑n

i=1(yi − yi)2

(n− traza(H))2 ; H = B(B′B + λD′D)−1B′

AIC = n× log

(yi − yi)2

)+ 2log (traza(H))

VentajaEn los P-splines es mucho mas rapido calcular la traza de esa matriz que conotro tipo de suavizadores.

Criterios de Seleccion de λI Podemos utilizar AIC, GCV, BIC, etc. Por ejemplo:

GCV =n×∑n

i=1(yi − yi)2

(n− traza(H))2 ; H = B(B′B + λD′D)−1B′

AIC = n× log

(yi − yi)2

)+ 2log (traza(H))

VentajaEn los P-splines es mucho mas rapido calcular la traza de esa matriz que conotro tipo de suavizadores.

Curvas ajustadas para distintos valores de λ

EL ARCHIVO lambdas.R

0.0 0.2 0.4 0.6 0.8 1.0

Splines con PenalizacionesPropiedades a destacar de los P-splines con bases de B-spline

PropiedadesI No tienen efecto de frontera (como le ocurre a los kernels), el efecto de

frontera es el que hace que al extender la curva fuera del dominio de x lacurva caiga rapidamente hacia 0.

I Ajustan de forma exacta los polinomios: si la curva es polinomica, unP-spline la recuperara exactamente.

I Se conservan los momentos: la media y la varianza de los valoresajustados sera la misma que la de los datos sea cual sea el parametrode suavizado, al contrario que los kernels que tienden a aumentar lavarianza cuanto mayor es el suavizado.

PropiedadesI La seleccion y localizacion de los nodos no esta hecha de antemano,

como en el caso de los smoothing splines,si se elige un nÃÂÃÂo suficientemente grande de nodos es suficiente conelegirlos de forma equidistante.Autores como Ruppert (2002) aconsejan elegir los nodos K nodos en losK-quantiles de x, es decir que cada nodo tk seria el cuantil k/(K + 1) de x.En cuanto al nÃÂÃÂo de nodos, la mayoria de los autores utilizan comoregla:

numero de nodos = min40, valores ÃÂÃÂonicos de x/4

Contenido

1 Introduccion

P-splines como modelos mixtos

La gran revolucion de los P-splines producida en los ultimos anos es debida ala posibilidad de escribir un modelo no-parametrico o semiparametrico dondese utilizan P-splines como un modelo mixto (o modelo con efectos aleatorios).

Ventajas del enfoqueI Utilizar toda la metodologia desarrollada para los modelos mixtos, yI utilizar el software para modelos mixtos que esta disponible en la

mayoria de los programas estadisticos.

P-splines como modelos mixtos

La gran revolucion de los P-splines producida en los ultimos anos es debida ala posibilidad de escribir un modelo no-parametrico o semiparametrico dondese utilizan P-splines como un modelo mixto (o modelo con efectos aleatorios).

Ventajas del enfoqueI Utilizar toda la metodologia desarrollada para los modelos mixtos, yI utilizar el software para modelos mixtos que esta disponible en la

mayoria de los programas estadisticos.

P-splines como modelos mixtosI Partimos del modelo:

y = Ba + ε ε ∼ N(0, σ2I)

y buscamos reparametrizarlo:

y = Xβ + Zα + ε, ε ∼ N (0, Iσ2) yα ∼ N (0,G),

I Para ello necesitamos una trasformacion Ω, de modo que BΩ = [X : Z] , y

G = τ 2k I

I Hay muchas posibilidades, la mas frecunete es:

Ω = UΣ−1/2

donde U y Σ son matrices que forman parte de la descomposicion en valoressingulares de la matriz de penalizacion D′D.

I el parametro de suavizado es λ = σ2/σ2u , lo cual hace que sea posible estimar el

parametro de suavizado junto con los otros parametros del modelo

P-splines como modelos mixtosI Partimos del modelo:

y = Ba + ε ε ∼ N(0, σ2I)

y buscamos reparametrizarlo:

y = Xβ + Zα + ε, ε ∼ N (0, Iσ2) yα ∼ N (0,G),

I Para ello necesitamos una trasformacion Ω, de modo que BΩ = [X : Z] , y

G = τ 2k I

I Hay muchas posibilidades, la mas frecunete es:

Ω = UΣ−1/2

donde U y Σ son matrices que forman parte de la descomposicion en valoressingulares de la matriz de penalizacion D′D.

I el parametro de suavizado es λ = σ2/σ2u , lo cual hace que sea posible estimar el

parametro de suavizado junto con los otros parametros del modelo

P-splines como modelos mixtosEjemplo

Casos de leucemia linfoblastica agudaI Estudio llevado a cabo en la Universidad de Harvard con ninas afectadas por

leucemia linfoblastica aguda.I La obesidad y la corta estatura son efectos comunes en los adolescentes que

padecen o han padecido esta enfermedad. Los tratamientos que se aplicanintentan reducir al maximo este tipo de efectos secundarios sin comprometer sueficacia.

I Se estudiaron 618 ninos entre los anos 1987 y 1995 y se aplicaron tres terapiasdistintas: Terapia intracraneal sin radiacion, terapia intracraneal con radiacionconvencional y terapia intracraneal con radiacion dos veces al dia. Se midio laaltura de los ninos aproximadamente cada 6 meses.

Curva estimada para la altura de una nina en distintos instantes

10 12 14

La curva ajustada se descompone en una linea recta (si utilizamos una penalizacion de orden dos, opolinomios truncados de orden uno), mas una parte que no es lineal, en el contexto de los modelos mixtos estocorresponderia al efecto aleatorio.

Contenido

1 Introduccion

Estimacion

P-splines como modelos mixtosEstimacion

y = Xβ + Zα + ε, ε ∼ N (0, Iσ2) α ∼ N (0,G)

I Xβ es el termino de efectos fijos y Z es la matriz de efectos aleatorios conmatriz de covarianza G y componentes de la varianza τ 2

k .I La estimacion de los efectos fijos y aleatorios se obtiene resolviendo(

(X′X X′ZZ′X Z′Z + G−1

)−1( X′

β = (X′V−1

X)−1X′V−1

u = σ2uZ′V

−1(y− Xβ)

V−1 =1σ2 (I − Z(Z′Z + (σ2/σ2

u)Ic−2)−1Z′)

Estimacion

y = Xβ + Zα + ε, ε ∼ N (0, Iσ2) α ∼ N (0,G)

)−1( X′

β = (X′V−1

X)−1X′V−1

u = σ2uZ′V

−1(y− Xβ)

V−1 =1σ2 (I − Z(Z′Z + (σ2/σ2

u)Ic−2)−1Z′)

Estimacion

y = Xβ + Zα + ε, ε ∼ N (0, Iσ2) α ∼ N (0,G)

)−1( X′

β = (X′V−1

X)−1X′V−1

u = σ2uZ′V

−1(y− Xβ)

V−1 =1σ2 (I − Z(Z′Z + (σ2/σ2

u)Ic−2)−1Z′)

Estimacion

REMLEl metodo estandar para la estimacion de los parametros de la varianza (ypor lo tanto λ) es el metodo de maxima verosimilitud restringida (REML).

`R(σ2u , σ

2ε) = −1

2log |V| − 1

2log |X′V−1X| − 1

2y′(V−1 − V−1X(X′V−1X)−1X′V−1)y,

donde V = σ2uZZ′ + σ2I.

Contenido

1 Introduccion

Datos Correlados

P-splines como modelos mixtosDatos Correlados

I Si intentamos ajustar una curva sin tener en cuenta la correlacion que hay en losdatos,

los metodos de seleccion del parametro de suavizado van a elegir un valordel parametro menor al que correspondela curva no va a ser suave

I Si quisieramos estimar tanto λ como los parametros que determinan laestructura de correlacion, necesitariamos hacerlo de forma iterativa⇒ elresultado final muy sensible a la eleccion de los parametros iniciales.

Datos Correlados

X Con los P-splines como modelos mixtos es inmediato el introducir unaestructura de correlacion y estimarla simultaneamente a la curva suave.

I El modelo seguiria siendo el mismo:

y = Xβ + Zu + ε u ∼ N(0, σ2uIc−2) ε ∼ N(0, σ2R),

donde R representa la correlacion entre los datos, y la matriz V = σ2uZZ′ + σ2R.

Datos Correlados

X Con los P-splines como modelos mixtos es inmediato el introducir unaestructura de correlacion y estimarla simultaneamente a la curva suave.

I El modelo seguiria siendo el mismo:

y = Xβ + Zu + ε u ∼ N(0, σ2uIc−2) ε ∼ N(0, σ2R),

donde R representa la correlacion entre los datos, y la matriz V = σ2uZZ′ + σ2R.

Datos Correlados

P-splines como modelos mixtosDatos correlados

Curvas estimadas para los datos de temperatura

0 20 40 60 80 100

La Figura muestra datos de temperatura de Nueva York tomados en 111 dias consecutivos, la curva negracorresponde a la estimacion ignorando la estructura de correlacion en los datos y la verde se obtieneasumiendo un proceso AR(1).

Contenido

1 Introduccion

Caso multidimensional

P-splines MultidimensionalesModelos Aditivos (Hastie and Tibshirani, 1987)

Modelo Aditivo 2d

y = f (x1) + f (x2) + ε,

donde x1 y x2 son variables explicativas.

Popularidad de estos modelosI la hipotesis de aditividad controla los posibles problemas

computacionales que surgen a la hora de estimar las curvas.Esta hipotesis es demasiado restrictiva cuando, por ejemplo, los datosestan situados en un array y en vez de un modelo aditivo necesitaremossuavizar los datos mediante un superficie no aditiva.

Modelo Aditivo 2d

y = f (x1) + f (x2) + ε,

Modelo Aditivo 2d

y = f (x1) + f (x2) + ε,

P-splines MultidimensionalesCaso 2d

Ejemplo array en 2dI Datos: yij, i = 1, . . . , n1, j = 1, . . . , n2,I En un array con n1 filas y n2 columnas, yI Variables explicativas: x′1 = (x11, . . . , x1n1) y x′2 = (x21 , . . . , x2n2).

I Sea B1 una matriz n1 × c1 de B-splines para el suavizado a lo largo de x1,y B2 una matriz n1 × c2 de B-splines para el suavizado a lo largo de x2.

I Definimos la matriz de bases en 2 dimensiones como su producto deKronecker,

B = B2 ⊗ B1

Bases de B-splines en 2 dimensiones: B = B2 ⊗ B1

I La matriz de penalizaciones viene dada por:

P = λ1Ic2 ⊗ D′1D1 + λ2D′2D2⊗, Ic1

λ1 y λ2 son generalmente diferentes (modelo no-isotropico),permite la posibilidad de que el suavizado sea mayor en una dimension queen la otra (detalles y ejemplos en Durban et al., 2002 y Currie et al., 2004).

I La matriz de penalizaciones viene dada por:

P = λ1Ic2 ⊗ D′1D1 + λ2D′2D2⊗, Ic1

λ1 y λ2 son generalmente diferentes (modelo no-isotropico),permite la posibilidad de que el suavizado sea mayor en una dimension queen la otra (detalles y ejemplos en Durban et al., 2002 y Currie et al., 2004).

P-splines Multidimensionales

I Extension a 3 o mas dimensiones, utilizando el producto de kroneckerpara la base, y anadiendo mas terminos a la penalizacion

I Esta descomposicion de la base, hace que de forma sencilla se puedanajustar modelos del tipo:

y = f (x1) + f (x2) + f (x1, x2) + ε

I Aplicable al caso de datos dispersos (mas adelante).

y = f (x1) + f (x2) + f (x1, x2) + ε

P-splines Multidimensionalescomo modelos mixtos

Scottish Crop Research Institute (SCRI, Reino Unido)Los datos que provienen de un ensayo de campo llevado a cabo con cereales con el objetivo deestudiar las tendencias espaciales que aparecen en los cultivos debido a la situacion de losmismos.

P-splines Multidimensionalescomo modelos mixtos

Superficies ajustadas para los datos del SCRII En la figura vemos a la izquierda el ajuste de un modelo aditivo y a la derecha el modelo

con interaccion.

Columna

linear predictor

Columna

linear predictor

I Los ajustes son distintos. El modelo aditivo impone una estructura muy restrictiva a lasuperficie ajustada.

Contenido

1 Introduccion

Datos no-gaussianos

Modelos para datos no-gaussianosExtension a los Modelos Lineales Generalizados

GLM con PenalizacionesI Estos modelos fueron introducidos por Marx and Eilers (1998), en el

caso unidimensional yI Durban et al. (2002) y Currie et al. (2004), en el caso bidimensional.

Datos no-gaussianos

FormulacionI Sea µ = E[η], y suponemos que existe una funcion g() tal que η = g(µ) = Ba.I Minimizar la verosimilitud penalizada

`p(a) = `(a)− 12λa′D′Da,

donde `(a) es la verosimilitud ordinaria.I La version penalizada del “scoring algorithm”:

(B′WδB + λD′D)a = B′WδBa + B′(y− µ).

I Wδ es diagonal con elementos w−1ii = (∂ηi/∂µi)

2var(yi).

Datos no-gaussianos

`p(a) = `(a)− 12λa′D′Da,

2var(yi).

Datos no-gaussianos

`p(a) = `(a)− 12λa′D′Da,

2var(yi).

Datos no-gaussianos

`p(a) = `(a)− 12λa′D′Da,

2var(yi).

Datos no-gaussianos

Seleccion de variablesI La seleccion del parametro de suavizado y el calculo de los intervalos de

confianza de hace de manera similar al caso de datos GaussianosI La seleccion de varibles (comparacion de modelos) puede hacerse mediante

criterios de informacion como AIC o BIC, o mediante test approximados como losutilizados en el paquete mgcv

I Test de la razon de verosimilitud

γ = 2(l(η0)− l(η0))

.γ ≈ χ2

EDF1−EDF0

si λ conocido.

Datos no-gaussianos

γ = 2(l(η0)− l(η0))

.γ ≈ χ2

EDF1−EDF0

si λ conocido.

Datos no-gaussianos

γ = 2(l(η0)− l(η0))

.γ ≈ χ2

EDF1−EDF0

si λ conocido.

Datos no-gaussianos

Modelos para datos no-gaussianosExtension a los GLMM

GLMMI Si los modelos con penalizaciones admiten una representacion como

modelos mixtos, la extension natural seran los modelos lineales mixtosgeneralizados (GLMM).

I Coull et al. (2001) y Parise et al. (2001) entre otros, han mostrado comolos P-splines con polinomios truncados como bases se pueden utilizar eneste contexto y como usar el macro glmmix en SAS para ajustar dichosmodelos.

Datos no-gaussianos

Modelos para datos no-gaussianosExtension a los GLMM

GLMMI Si los modelos con penalizaciones admiten una representacion como

modelos mixtos, la extension natural seran los modelos lineales mixtosgeneralizados (GLMM).

I Coull et al. (2001) y Parise et al. (2001) entre otros, han mostrado comolos P-splines con polinomios truncados como bases se pueden utilizar eneste contexto y como usar el macro glmmix en SAS para ajustar dichosmodelos.

Contenido

1 Introduccion

Software

SoftwareUso y programacion en R

Dado que se puede ver un modelo con P-splines como un modelo mixto⇒utilizar la funcion lme() para ajustar este tipo de modelos.

Funcion lme()I Permite incluir efectos aleatorios,I estructuras de covarianza y correlacion,I Permite ajustar modelos aditivos,I analizar datos longitudinales, etc.

Implica la creacion de todas las matrices que intervienen en el modelo,aunque permite ver de forma clara lo que esta haciendo el programa.

Software

Otros paquetes/funciones basados en lme()I mgcv,I SemiPar,I funcion glmmPQL() (para el caso de datos que no son normales).

I Veremos funciones escritas especificamente para el caso de suavizadomultidimensional.

I La idea es que os familiariceis con todas las herramientas disponiblespara que podais elegir aquella que os sea mas ÃÂÃÂotil en cada caso.

Software

Otros paquetes/funciones basados en lme()I mgcv,I SemiPar,I funcion glmmPQL() (para el caso de datos que no son normales).

I Veremos funciones escritas especificamente para el caso de suavizadomultidimensional.

I La idea es que os familiariceis con todas las herramientas disponiblespara que podais elegir aquella que os sea mas ÃÂÃÂotil en cada caso.

Contenido

1 Introduccion

Software gamm() y gam()

SoftwareLa funcion gamm()

mgcv (Wood, 2006)I Contiene 2 funciones que permiten utilizar P-splines:

gamgamm

I gamm permite incluir efectos aleatorios, correlacionI gam Elige el parametro de suavizado mediante GCV o REMLI En ambos casos podemos imponer un cierto parametro de suavizado sin que

sea elegido por la propia funcion.

gamgamm

Libreria mgcv (Wood, 2006)I La base que utiliza por defecto, son los thin plate regression splines.I Sin embargo, es posible utilizar otras bases como splines cÃÂÃÂobicos, o

B-splines.I Se puede elegir el nÃÂÃÂo de nodos y el orden de la penalizacion.

gamm(formula,random=NULL,correlation=NULL,family=gaussian())

I Los 2 primeros argumentos son similares a los de lme,I permite especificar la parte no-parametrica del modelo de forma mas sencilla.I permite incluir estructuras de correlacion en el modelo, ademas de distribuciones

no Gaussianas.

gam(formula,method="GCV”,family=gaussian())

Libreria mgcv (Wood, 2006)I La base que utiliza por defecto, son los thin plate regression splines.I Sin embargo, es posible utilizar otras bases como splines cÃÂÃÂobicos, o

B-splines.I Se puede elegir el nÃÂÃÂo de nodos y el orden de la penalizacion.

gamm(formula,random=NULL,correlation=NULL,family=gaussian())

I Los 2 primeros argumentos son similares a los de lme,I permite especificar la parte no-parametrica del modelo de forma mas sencilla.I permite incluir estructuras de correlacion en el modelo, ademas de distribuciones

no Gaussianas.

gam(formula,method="GCV”,family=gaussian())

gamm()I Para especificar los terminos de suavizado se utiliza la funcion s(), sus

argumentos son:

k= Tamano de la base, nunca debe ser menor que el orden de la penalizacion.fx= indica si estamos utilizando un spline de regresion con grados de libertad

fijos (TRUE), o si estamos utilizando P-splines (FALSE)bs= Tipo de base que estamos utilizando, opciones:

cr: cubic regression splinescc: periodic splinestp: thin plate regression splinesps: P-splines con bases de B-splines

m= orden de la penalizacionby= permite multiplicar curvas por factores

argumentos son:

Resultados gammI Tiene dos componentes: $lme y $gam, cada uno de ellos contiene los objetos propios de

cada una de esas dos funciones.

ABRIMOS EL ARCHIVO girl1mgcv.R

library(mgcv)girl=read.table("girl.txt",header=TRUE)y=girl$heightx=girl$agefit = gam(y~s(x,k=5,m=2,bs="ps")) # elige el parametro de suavizado

# con GCVfit1 = gamm(y~s(x,k=5,m=2,bs="ps")) # elige el parametro de suavizado

# con REMLfit1$lmefit1$gamfit1$gam$sp[1] 0.0002114203fit$sp[1] 0.0002235214

9 10 11 12 13 14 15

yGCVREML

plot(fit2$gam)

9 10 11 12 13 14 15

Contenido

1 Introduccion

Aplicaciones

ObjetivoI Ver como es posible incluir metodos de suavizado con P-splines a los

modelos que se utilizan mas frecuentemente.

Contenido

1 Introduccion

Aplicaciones Modelos semiparametricos

AplicacionesModelos Semiparametricos

Modelo semiparametricoy = β0 + β1x1 + . . .+ βj−1xj−1 + f (xj) + ε

I La forma de ajustar el modelo es exactamente igual a la que hemos visto anteriormente,simplemente construimos la matriz X de forma que incluya todas las variablesindependientes.

Caso especialI La parte parametrica incluye un factor con dos o mas niveles.

I Al igual que en el caso de regresion lineal nos podemos plantear:

Ajustar dos rectas paralelas (modelo aditivo) ono paralelas (modelo con interaccion).

I Ademas, nos podemos preguntar si la cantidad de suavizado es la misma en el caso deque las curvas no sean paralelas.

Datos del archivo onions.txtI Datos de I.S.Rogers (South Australian Dept. of Agriculture & Fisheries).I El objetivo del estudio era establecer la relacion entre la produccion de

una planta de cebolla y la densidad de plantas cultivadas. Hay tresvariables:

Densidad (plantas/m2)Produccion (gramos/planta)Localidad

AplicacionesModelos SemiparametricosGrafico de los datos sobre produccion de cebollas en dos localidades, en azul corresponden a

Virginia y en verde a Purnong Landing.

50 100 150

Densidad

I Se observa que las cebollas cultivadas en Purnong Landing producen mas que lascultivadas en Virginia

La Figura muestra cierta curvatura en cada una de las localidades, lo quesugeriria el modelo:

log(Produccioni) = β1Localidadi + f (Densidadi) + εi

ABRIMOS EL ARCHIVO onions.RPara ajustar este modelo el codigo seria:

L=factor(Localidad)fit1=gam(log(Produccion)~L+s(Densidad,k=20,m=2,bs="ps"))

> summary(fit1)Formula:log(Produccion) ~ L + s(Densidad, k = 20, bs = "ps", m = 2)

Parametric coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 4.85011 0.01688 287.39 <2e-16 ***L1 -0.33284 0.02409 -13.82 <2e-16 ***---

Approximate significance of smooth terms:edf Ref.df F p-value

s(Densidad) 4.568 19 72.76 <2e-16 ***---

R-sq.(adj) = 0.946 Deviance explained = 94.9%-REML = -54.242 Scale est. = 0.011737 n = 84

50 100 150

Densidad

I En este caso ambas curvas son paralelas, pero no tenemos por queasumir este modelo.

I al igual que en el caso de regresion lineal podemos plantearnos lainteraccion entre Localidad y Densidad.

No tenemos por que suponer que el descenso de la produccion cuandoaumenta la densidad es el mismo en las dos localidades.

Modelo con interaccion:

log(Produccioni) = f (Densidadi)L(i) + εi

L(i) =

0 si el i-esimo dato fue recogido en Purnong Landing1 si el i-esimo dato fue recogido en Virginia

L(i) =

AplicacionesModelos SemiparametricosEl codigo seria:fit2=gam(log(Produccion)~L+s(Densidad,k=20,m=2,by=L))Formula:log(Produccion) ~ L + s(Densidad, k = 20, bs = "ps", m = 2, by = L)

(Intercept) 4.84407 0.01603 302.12 <2e-16 ***L1 -0.33003 0.02271 -14.54 <2e-16 ***---

edf Ref.df F p-values(Densidad):L0 3.097 18 37.62 <2e-16 ***s(Densidad):L1 4.728 17 52.10 <2e-16 ***---R-sq.(adj) = 0.952 Deviance explained = 95.7%

AIC(fit1)[1] -125.8341> AIC(fit2)[1] -132.25

AplicacionesModelos SemiparametricosCurvas ajustadas utilizando interaccion en el modelo (la linea discontinua corresponde a unmodelo sin interaccion

50 100 150

Densidad

Contenido

1 Introduccion

Aplicaciones Modelos aditivos

AplicacionesModelos Aditivos

Mortalidad por enfermedades respiratorias relacionadas con la polucion

I Archivo milan.txtI 5 variables:

dia: Dia en el que se tomaron los datos.temp: Temperatura media diaria.humed: Humedad relativa.resp.mort: Muertes por problemas respiratorios.NTP: Numero de particulas suspendidas en el aire.

X Buscamos establecer la relacion entre las variables meteorologicas y lasmuertes por cuestiones respiratorias.

Mortalidad por enfermedades respiratorias relacionadas con la polucion

I Archivo milan.txtI 5 variables:

dia: Dia en el que se tomaron los datos.temp: Temperatura media diaria.humed: Humedad relativa.resp.mort: Muertes por problemas respiratorios.NTP: Numero de particulas suspendidas en el aire.

X Buscamos establecer la relacion entre las variables meteorologicas y lasmuertes por cuestiones respiratorias.

Modelo√mort.resp = β0 + β1NTP + f (dia) + f (temp) + f (humed) + ε

En R (aditivo.R)

milan=read.table("milan.txt",header=TRUE)milan=milan[1:365,]attach(milan)

y=sqrt(resp.mort)

x1=NTPx2=diax3=tempx4=humed

library(mgcv)

fit.aditivo=gam(y~x1+s(x2,k=20,bs="ps",m=2)+s(x3,k=20,bs="ps",m=2)+s(x4,k=20,bs="ps",m=2))

Archivo aditivo.Rfit.aditivo=gamm(y~x1+s(x2,k=20,bs="ps",m=2)+s(x3,k=20,bs="ps",m=2)

+s(x4,k=20,bs="ps",m=2))par(mfrow=c(2,2))plot(fit.aditivo$gam)

0 100 200 300

−1.0

0 5 10 20 30

−1.0

20 40 60 80

−1.0

En el archivo lme_aditivo.R se muestra como ajustar el modelo aditivo con la funcion lme ycalcular las curvas.

Archivo aditivo.Rsummary(fit.aditivo)Formula:y ~ x1 + s(x2, k = 20, bs = "ps", m = 2) + s(x3, k = 20, bs = "ps",

m = 2) + s(x4, k = 20, bs = "ps", m = 2)

(Intercept) 1.6664877 0.1058152 15.749 <2e-16 ***x1 -0.0006259 0.0006641 -0.943 0.347---Signif. codes: 0 â***â 0.001 â**â 0.01 â*â 0.05 â.â 0.1 â â 1

Approximate significance of smooth terms:edf Ref.df F p-value

s(x2) 15.950 17.200 4.015 2.12e-07 ***s(x3) 3.672 4.729 1.599 0.1624s(x4) 1.000 1.000 3.092 0.0796 .

Contenido

1 Introduccion

Aplicaciones Datos correlados

AplicacionesDatos correlados

I Datos de Pandit and Wu (1983)I Archivo madera.txt, corresponden a 320 medidas tomadas en la

superficie de un bloque de madera, las medidas corresponden a laprofundidad de las muescas que aparecen en la madera cuando se pulecon una piedra circular.

AplicacionesDatos correladosEfecto del lijado en un trozo de madera

I La Figura muestra como cambia el tamano de la muesca con relacion al radio de la piedra.

0 50 100 150 200 250 300

distancia

X Pandit and Wu (1983) asumieron que la tendencia era a priori circular y utilizaron 3 parametros(dos para el centro y uno para el radio) para ajustarla, e iteraron entre la estimacion de estatendencia y la estructura de los errores.

Con el uso de los P-splines es posible flexibilizar la estructura de la tendencia y estimarsimultaneamente ambos efectos (algo que es muy dificil si no se utiliza la representacion de losP-splines como modelos mixtos).

Comenzamos por ajustar un modelo de suavizado, ignorando la estructura de correlacion en losdatos:

cor.gamm=gamm(profundidad~s(distancia, k=40, bs="ps",m=2))

Curva ajustada (izquierda) y autocorrelacion de los residuos delmodelo (derecha)

0 50 100 150 200 250 300

distancia

0 5 10 15 20 25

Series cor1.gamm$gam$resid

X Ignorar la estructura de correlacion tiene dos efectos:I una curva que no es suave yI unos residuos que no son incorrelados.

Para solucionar el problema podemos introducir una estructura de autocorrelacion enel modelo, por ejemplo un AR(1) y un AR(2).

Id=factor(rep(1,320))

cor1.gamm=gamm(profundidad~s(distancia, k=40, bs="ps",m=2),correlation=corARMA(form=~distancia|Id,p=1,q=0))

cor2.gamm=gamm(profundidad~s(distancia, k=40, bs="ps",m=2),correlation=corARMA(form=~distancia|Id,p=2,q=0))

Curva ajustada (izquierda) y autocorrelacion de los residuos delmodelo con autocorrelacion (derecha)

0 50 100 150 200 250 300

distancia

0 5 10 15 20 250.

Series residuos

Al asumir un proceso AR(2) para el termino de error, es posible separar la correlaciona corto plazo y la tendencia global, y no hay restos de correlacion en los residuos.

Podemos comparar los modelos ajustados mediante el test de maximaverosimilitud para confirmar que es necesario un modelo AR(2) para eltermino de error:

anova(cor.gamm$lme,cor1.gamm$lme,cor2.gamm$lme)

Model df AIC BIC logLik Test L.Ratio p-valuecor.gamm$lme 1 4 1853.437 1868.510 -922.7185cor1.gamm$lme 2 5 1660.112 1678.954 -825.0561 1 vs 2 195.32478 <.0001cor2.gamm$lme 3 6 1643.742 1666.352 -815.8711 2 vs 3 18.37015 <.0001

Contenido

1 Introduccion

Aplicaciones Datos multidimensionales

AplicacionesDatos multidimensionales

Ejemplo 2: Analisis de datos de mortalidadI Datosa: para cada ano entre 1947 y 1999 y cada edad (entre 11 y 100

anos) se dispone del numero de polizas cobradas (muertes) y delnumero de polizas que hay (exposicion o multiplicador de la tasa).

I Los datos se organizan en matrices Y y E cuyas filas estan indexadaspor edad y las columnas por anos, y definimos la mortalidad como:

R = Y/E

aContinuous Mortality Investigation Bureau (CMIB) del Reino Unido

Datos sobre mortalidad en el Reino Unido

I Datos: archivo mortalidad.txt.I Codigo archivo mortalidad.R.

mortalidad=read.table("mortalidad.txt",header=TRUE)attach(mortalidad)

library(mgcv)off=log(exposicion)

X Como los datos corresponden al numero de muertes, estamos en el caso de unmodelo lineal generalizado con distribucion de Poisson (seccion 4.1).

I Hemos de tener en cuenta el numero de polizas existentes en ese momento, esdecir, buscamos un modelo para la tasa de mortalidad:

log(y/e) = f (x, y)⇒ log(y) = log(e)︸︷︷︸offset

+f (x, y)

I Podemos plantear 2 modelos:

1 Modelo aditivo2 Modelo bidimensional

I Modelo aditivo suave para Edad-Periodo:

fit=gamm(muertes~s(edad,k=20,bs="ps",m=2)+s(periodo,k=20,bs="ps",m=2)+offset(off),family="poisson",niterPQL=30)

Este modelo ajusta la misma curva para todas las edades y la mismapara todos los anos.

Curvas ajustadas para edad y periodo con un modelo aditivo

linear predictor

Curva ajustada periodo con un modelo aditivo para dos grupos de edad

Periodo

1950 1960 1970 1980 1990 2000

Periodo

1950 1960 1970 1980 1990 2000

Edad: 34 Edad: 60

I Vemos claramente que no es apropiado asumir que el descenso en la mortalidad a lo largode los anos es el mismo para todas las edades.

I En el caso de los 34 anos, el modelo no es capaz de ajustar correctamente el hecho deque en los ultimos anos el comportamiento de los jovenes haya ralentizado el descenso dela mortalidad.

I En el caso de los 60 anos, el modelo tiende a subestimar la mortalidad en los primerosanos y a sobrestimarla recientemente.

Periodo

1950 1960 1970 1980 1990 2000

Periodo

1950 1960 1970 1980 1990 2000

Edad: 34 Edad: 60

Periodo

1950 1960 1970 1980 1990 2000

Periodo

1950 1960 1970 1980 1990 2000

Edad: 34 Edad: 60

I Modelo de suavizado bidimensional:

fit2=gamm(muertes~te(edad,periodo,k=c(10,10),bs=c("ps","ps"),m=2)+offset(off) ,family="poisson",niterPQL=30)

Superficie ajustada con un modelo bidimensional

linear predictorX Se pueden apreciar las diferencias sobre todo en las edades tempranas y en losancianos

Curva ajustada con un modelo bidimensional para dos grupos de edad

Periodo

1950 1960 1970 1980 1990 2000

Periodo

1950 1960 1970 1980 1990 2000

Edad: 34 Edad: 60

X Vemos como ahora el modelo ajusta correctamente las curvas para las distintasedades.

Ejemplo 3: Datos espacio-temporales-Polucion por OzonoI 45 estacione meteorologicasI Medias mensuales de niveles de O3 (en µg/m3)I desde Enero de 1999 a Diciembre 2005 (t = 1, ..., 84)

0 5 10 15 20 25

Monitoring stations

Latitude

2000 2002 2004 2006

Time series plot of three selected stations

Station n. 10Station n. 25Station n. 30

Monitoring stations Time series plot

Source: EEA

Spatial 2d + time

fs(x1, x2) + ft(xt)

0 5 10 15 20 25

Latitude

1999 2000 2001 2002 2003 2004 2005

yearf(

X Space-time interaction is not considered

X time smooth trend is additive

Spatial 2d + time-space + time interaction

Play animation =

y f(space)

f(time)

1999 : 1

f(space,time)

Aditivo VS ANOVAAjuste modelo aditivo Ajuste modelo ANOVA

fs(x1, x2) + fs(xt) fs(x1, x2) + ft(xt) + fst(x1, x2, xt)

2000 2002 2004 2006

Space and time main effects PS−ANOVA fit and forecast

2000 2002 2004 2006

Spatio−temporal PS−ANOVA fit and forecast

X Modelo aditivo Asume una superficie espacial suave para las estaciones que permanece constante a lolargo del tiempo.

X Modelo ANOVA Captura las catacteristicas individuales de las estaciones a lo largo del tiempo.

Contenido

1 Introduccion

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

Datos longitudinalesI Muy frecuentes en aplicaciones medicas y biologicas.I En general, corresponden a medidas tomadas a varios individuos en distintos

instantes de tiempo.

Se caracterizan por la dependencia que hay entre las medidas repetidashechas a un mismo individuo.

Como modelos mixtosI Cada individuo se representa como la suma de la media de la poblacion

(que varia con el tiempo) y que se modela como un efecto fijo, y unpolinomio de grado bajo (generalmente una linea) en la que loscoeficientes son aleatorios y sirve para modelar la variabilidadindividual (Laird and Ware, 1982).

Estos modelos pueden no ser apropiados (ej. cuando las trayectoriasindividuales sean una funcion no-lineal del tiempo).

Como modelos mixtosI Cada individuo se representa como la suma de la media de la poblacion

(que varia con el tiempo) y que se modela como un efecto fijo, y unpolinomio de grado bajo (generalmente una linea) en la que loscoeficientes son aleatorios y sirve para modelar la variabilidadindividual (Laird and Ware, 1982).

Estos modelos pueden no ser apropiados (ej. cuando las trayectoriasindividuales sean una funcion no-lineal del tiempo).

Datos sobre el estudio de distintas terapias para la leucemiainfantil

I Estos datos han sido modificados para preservar la confidencialidad de los mismos y seencuentran en el archivo leucemia.txt.

I El archivo tiene 4 columnas:

caso: Indica a que nina corresponden los datostratamiento: Toma valores 1, 2 o 3 segun el tipo de tratamiento quereciben.altura: Altura en centimetrosedad: Edad en anos.

I Tomamos 197 ninas que fueron diagnosticadas de leucemia linfoblastica aguda entre los 2y los 9 anos.

I La altura de estas ninas se midio en diferentes momentos y en total se recogieron 1988observaiones.

I El nÃÂÃÂo de observaciones por nina varia entre 1 y 21.

Datos sobre el estudio de distintas terapias para la leucemiainfantil

I Estos datos han sido modificados para preservar la confidencialidad de los mismos y seencuentran en el archivo leucemia.txt.

I El archivo tiene 4 columnas:

caso: Indica a que nina corresponden los datostratamiento: Toma valores 1, 2 o 3 segun el tipo de tratamiento quereciben.altura: Altura en centimetrosedad: Edad en anos.

I Tomamos 197 ninas que fueron diagnosticadas de leucemia linfoblastica aguda entre los 2y los 9 anos.

I La altura de estas ninas se midio en diferentes momentos y en total se recogieron 1988observaiones.

I El nÃÂÃÂo de observaciones por nina varia entre 1 y 21.

AplicacionesP-splines para datos LongitudinalesXAltura de las ninas a lo largo del tiempo para cada uno de los tres tratamientos

age (years)

5 10 15 20

hyperfractionated radiation

NO radiation

5 10 15 20

standard radiation

I Observamos como cuando llega la pubertad, la relacion deja de ser lineal.I El codigo de los modelos que vamos a ajustar se puede encontrar en los archivos

longitudinal.R y longitudinal2.R.

Modelo con ordenada en el origen aleatoria

yij = β0 + β1xij +L∑

γltril + Ui + εij

Ui ∼ N(0, σ2U) , εij ∼ N(0, σε)

siendo

1 ≤ i ≤ 1971 ≤ j ≤ ni

tril =

1 si la nina i-esima recibe el tratamiento l0 en otro caso

X Este modelo lo que supone es que todas las ninas tienen una tasa de crecimiento lineal e igualpara todas, y la variabilidad entre las ninas se tiene en cuenta mediante un efecto aleatorio Ui.

Modelo con ordenada en el origen aleatoria

yij = β0 + β1xij +L∑

γltril + Ui + εij

Ui ∼ N(0, σ2U) , εij ∼ N(0, σε)

siendo

1 ≤ i ≤ 1971 ≤ j ≤ ni

tril =

1 si la nina i-esima recibe el tratamiento l0 en otro caso

X Este modelo lo que supone es que todas las ninas tienen una tasa de crecimiento lineal e igualpara todas, y la variabilidad entre las ninas se tiene en cuenta mediante un efecto aleatorio Ui.

En el archivo longitudinal.REl codigo seria:

library(nlme)

leucemia=read.table("leucemia.txt",header=TRUE)

attach(leucemia)

model1 = lme(altura~factor(tratamiento)+edad,random=list(caso=pdIdent(~1)))

AplicacionesP-splines para datos LongitudinalesRectas ajustadas para las ninas que reciben el radiacionhiperfraccionada

5 10 15

X El modelo no explica de forma adecuada la trayectoria individual de las ninas.

Una extension natural del modelo anterior seria:

Modelo aditivo mixto

L∑l=2

γltril + f (xij) + Ui + εij Ui ∼ N(0, σ2U) εij ∼ N(0, σε)

donde f es una funcion suave que refleja la tendencia de crecimiento de lasninas.

Utilizando la funcion gamm()library(mgcv)

fit2.gamm=gamm(altura~factor(tratamiento)+s(edad,k=40,bs="ps",m=2),random=list(caso=pdIdent(~1)))

Curvas ajustadas para las ninas que reciben la radiacionconvencional.

5 10 15

altura

I El modelo aditivo mixto es demasiado simplista.I Ademas asumir que las curvas sean paralelas y con la misma forma no permite explicar las

trayectorias individuales de forma correcta.

Modelo con diferencias individuales linealesI Es una extension simple del modelo anteriorI asume que las diferencias individuales vienen dadas no solo mediante la ordenada en el

origen, sino tambien por la pendiente:

yij =L∑

γltril + f (xij) + ai1 + ai2xij + εij εij ∼ N(0, σε)

donde(ai1, ai2)T ∼ N(0,Σ)

yij =L∑

I Utilizando la funcion gamm():

fit3.gamm=gamm(altura~factor(tratamiento)+s(edad,k=40,bs="ps",m=2),random=list(caso=pdSymm(~edad)))

I Utilizando la funcion lme():

X=model.matrix(altura~factor(tratamiento)+edad)Z.block3=list(Id=pdIdent(~Z-1),caso=pdSymm(~edad))data.fr = groupedData( altura ~ X[,-1]|Id,

data =data.frame(altura,X,Z,caso,edad))model3 = lme(altura~X[,-1],data=data.fr,random=Z.block3)

AplicacionesP-splines para datos LongitudinalesCurvas ajustadas para las ninas que reciben el radiacion convencional, la linea solidacorresponde al modelo con pendiente aleatoria.

5 10 15

Este modelo permite que las curvas no solo se muevan en direccion vertical, sino que tambienoscilen, aun asi es posible relajar aun mas el modelo.

I Uno de los objetivos del estudio era comparar los efectos a largo plazo de las tres terapias,de modo que seria interesante ajustar una curva distinta para cada tratamiento.

I Para hacerlo utilizamos una interaccion entre un factor y un predictor continuo.

I Uno de los objetivos del estudio era comparar los efectos a largo plazo de las tres terapias,de modo que seria interesante ajustar una curva distinta para cada tratamiento.

I Para hacerlo utilizamos una interaccion entre un factor y un predictor continuo.

Interaccion de curva por factor

yij = fzi(xij) + ai1 + ai2xij + εij εij ∼ N(0, σ2ε)

donde tril = 1 si tri = l y 0 en otro caso.

Aplicaciones IP-splines para datos Longitudinales

En R:I Utilizando la funcion gamm():

fit4.gamm=gamm(altura~factor(tratamiento)+s(edad,k=40,bs="ps",m=2,by=factor(tratamiento)),random=list(caso=pdSymm(~edad)))

Curvas ajustadas para los distintos tratamientos

5 10 15

tratamiento 1tratamiento 2tratamiento 3

Los modelos mas flexibles son aquellos que permiten que las diferencias especificas individuales sean unafuncion no-parametrica (ver Ruppert et al. (2003)).

Curvas especificas para cada individuo mediante P-splines

yij =L∑

γltril + f (xij) + gi(xij) + εij εij ∼ N(0, σε)

I Cada curva individual gi() tiene dos componentes:uno lineal yotro no-parametrico

I Ambos componentes son aleatorios, a diferencia de lo que hacen otros autores como Brumback andRice (1998).

I Este nuevo enfoque soluciona los problemas computacionales a los que daba lugar el hecho detener que estimar 2m parametros para la parte lineal.

yij =L∑

I Nuestro interes en el analisis de estos datos son:Los efectos de los tratamientos en la altura a lo largo del tiempo ylas respuestas individuales al tratamiento.

Curvas estimadas para las medias poblacionales (izquierda) y curvas de contraste con intervalosde confianza (derecha)

5 10 15

terapia 1terapia 2terapia 3

5 10 15

terapia 3 vs 1terapia 2 vs 1

Todos los grupos siguen el mismo patron, pero la ninas que no recibieron radiacion (tratamiento1) son mas altas que las de los otros dos grupos. En particular, este grupo es significativamentemas alto que los demas cuando las ninas llegan a la adolescencia.

Efectos aleatorios estimados correspondientes a las curvas individuales del modelo para cadanina.

5 10 15

tos al

X Se aprecia que los efectos para algunas ninas son claramente no-lineales.

Curvas individuales de 6 ninas (linea continua) con I.C. al 95 % junto con la curva media delgrupo (linea discontinua)

5 10 15

)X Las curvas medias de las terapias no representan de forma adecuada la altura individual delas ninas, mostrando la perdida de informacion que tendriamos sobre las trayectorias individualessi no hubieramos incluido las curvas individuales en el modelo.

Bibliografia IBreslow, N. and Clayton, D. (1993). Approximate inference in generalized

linear mixed models. Journal of the American Statistical Association,88:9–25.

Brezger, A., Kneib, T., and Lang, S. (2005). Bayesx: Analysing bayesianstructured additive regression models. Journal of Statistical Software,14(11).

Brumback, B. and Rice, J. (1998). Smoothing spline models for the analysisof nested and crossed samples of curves. Journal of the AmericanStatistical Association, 93:961–994.

Coull, B., Schwartz, J., and Wand, M. (2001). Respiratory health and airpollution: Additive mixed model analyses. Biostatistics, 2:337–349.

Crainiceanu, C., Ruppert, D., Claeskens, G., and Wand, M. (2004). Restrictedlikelihood ratio in non-parametric longitudinal models. Statistica Sinica,14:713–729

Crainiceanu, C., Ruppert, D., and Vogelsang, T. (2002). Probabilty that themle of a variance component is zero with applications to likelihood ratiotests. Working Paper.

Bibliografia IICurrie, I., Durban, M., and Eilers, P. (2004). Smoothing and forecasting

mortality rates. Statistical Modelling (en prensa).De Boor, C. (1977). Package for calculating with B-splines. Journal of

Numerical Analysis, 14:441–472.De Boor, C. (2001). A practical guide to splines. Applied Mathematical

Sciences. Springer-Verlag, New York.Dierckx, P. (1993). Curve and surface fitting with splines. Clarendon, Oxford.Durban, M., Currie, I., and Eilers, P. (2002). Using P-splines to smooth

two-dimensional Poisson data. In Stasinopoulos, M. and Toulouimi, G.,editors, Proceedings of the 17th International Workshop on StatisticalModelling, pages 207–214, Crete, Greece.

Eilers, P. and Marx, B. (1996). Flexible smoothing with B-splines andpenalties. Statistical Science, 11:89–121.

Green, P. and Silverman, B. (1994). Nonparametric Regression andGeneralized Linear Models. Monographs on Statistics and AppliedProbability. Chapman & Hall, London.

Bibliografia IIIHastie, T. and Tibshirani, R. (1986). Generalized additive models. Statistical

Science, 1:297–318.Hastie, T. and Tibshirani, R. (1987). Generalized additive models: Some

applications. Journal of the American Statistical Association, 82:371–386.Kneib, T. (2005). Mixed Model Based Inference in Structured Additive

Regression. PhD thesis, Department of Statistics, Ludwig-MaximiliansUniversity, Munich.

Laird, N. and Ware, J. (1982). Random-effects models for longitudinal data.Biometrics, 38:963–974.

Lang, S. and Brezger, A. (2004). Bayesian p-splines. Journal ofComputational and Graphical Statistics, 13.

Marx, B. and Eilers, P. (1998). Direct generalized additive modeling withpenalized likelihood. Computational Statistics and Data Analysis,28:193–209.

Ngo, L. and Wand, M. (2004). Smoothing with mixed model software. Journalof Statistical Software, 9(1).

Bibliografia IVNychka, D. (1988). Confidence intervals for smoothing splines. Journal of the

American Statistical Association, 83:1134–43.O’Sullivan, F. (1986). A statistical perspective on ill-posed inverse problems.

Statistical Sciences, 1:505–527.Pandit, S. and Wu, S.-M. (1983). Time series and system analysis with

applications. Wiley, New York.Parise, H., Ruppert, D., Ryan, L., and Wand, M. (2001). Incorporation of

historical controls using semiparametric mixed models. Journal of the RoyalStatistical Society, C, 50:31–42.

Rice, J. and Wu, C. O. (2001). Nonparametric mixed effects models forunequally sampled noisy curves. Biometrics, 57:253–259.

Ruppert, D. (2002). Selecting the number of knots for penalized splines.Journal of computational and Graphical Statistics, 11:735–757.

Ruppert, D., Wand, M., and Carroll, R. (2003). Semiparametric Regression.Cambridge Series in Statistical and Probabilistic Mathematics. CambridgeUniversity Press.

Bibliografia VSelf, S. and Liang, K. (1987). Asymptotic properties of maximum likelihood

estimators and likelihood ratio tests under nonstandard conditions. Journalof the American Statistical Association, 82:605–610.

Speed, T. (1991). Comment on "BLUP is a good thing: The estimation ofrandom effects", by robinson, g.k. Statistical Science, 6:15–51.

Stram, D. and Lee, J. (1994). Variance components testing in the longitudinalmixed effects model. Biometrics, 50:1171–1177.

Verbyla, A., Cullis, B., Kenward, M., and Welham, S. (1999). The analysis ofdesigned experiments and longitudinal data using smoothing splines.Applied Statistics, 48:269–312.

Wahba, G. (1983). Bayesian confidence intervals for the cross-validatedsmoothing spline. J. Roy. Stat. Soc. B, 45:133–150.

Wand, M. (2003). Smoothing and mixed models. Computational Statistics,18:223–249.

Wood, N. (2003). Thin plate splines regression. Journal of the RoyalStatistical Society, 65(1):95–114.

Bibliografia VI

Wood, S. (2006). mgcv 1.3. r package. cran.r-project.org.

Wood, S. (2006). On confidence intervals for gams based on penalizedregression splines. Australian New Zealand Journal of Statistics ,48(49:445-464

modelos aditivos generalizados con p-splines · contenidoi 1 introduccion 2 p-splines bases,...

Documents

pseudo-polyharmonic div-curl splines and elastic splines

presentacion splines

splines and applications

machinery splines

splines metodos numericos

splines cúbicos

bézier splines - goessner

a crash course on p-splines - university of são paulo

estimateurs splines - mexico

splines 001

splines cubiques vf

manifold splines - cs.stonybrook.edu

flexible smoothing with b-splines and penalties or p-splines...

bezier / b-splines

splines and subdivisions

01machinery splines traduzir

interpolación. splines cúbicos

keys & splines

silvia bianconcini a reproducing kernel perspective of...

t splines cow