Download - Sele˘c~ao de Vari aveis em Modelos de Regress~ao Log stica

Ana Andrade Machado

Selecao de Variaveis em Modelos de

Regressao Logıstica

Niteroi - RJ, Brasil

10 de dezembro de 2018

Universidade Federal Fluminense

Ana Andrade Machado

Selecao de Variaveis em Modelos deRegressao Logıstica

Trabalho de Conclusao de Curso

Monografia apresentada para obtencao do grau de Bacharel emEstatıstica pela Universidade Federal Fluminense.

Orientadora: Profa. Dra. Patrıcia Lusie Velozo da Costa

Corientadora: Profa. Dra. Mariana Albi de Oliveira Souza

Niteroi - RJ, Brasil

10 de dezembro de 2018

Ficha catalográfica automática - SDC/BIMEGerada com informações fornecidas pelo autor

Bibliotecário responsável: Ana Nogueira Braga - CRB7/4776

M149s Machado, Ana Andrade Seleção de Variáveis em Modelos de Regressão Logística: / Ana Andrade Machado ; Drª. Patrícia Lusié Velozo daCosta, orientador ; Drª. Mariana Albi de Oliveira Souza,coorientador. Niterói, 2018. 57 p.

Trabalho de Conclusão de Curso (Graduação emEstatística)-Universidade Federal Fluminense, Instituto deMatemática e Estatística, Niterói, 2018.

1. Regressão logística. 2. Métodos de seleção devariáveis bayesianos. 3. Lasso. 4. SSVS. 5. Produçãointelectual. I. Lusié Velozo da Costa, Drª. Patrícia,orientador. II. Albi de Oliveira Souza, Drª. Mariana,coorientador. III. Universidade Federal Fluminense. Institutode Matemática e Estatística. IV. Título.

CDD -

Resumo

Este trabalho apresenta o modelo de regressao logıstica e alguns metodos de avaliacaode ajuste deste modelo, como testes para avaliar se as estimativas para os coeficientes deregressao sao significativas. Posteriormente, sao apresentados alguns metodos de selecaode variaveis nos quais modelos hierarquicos sao utilizados para selecionar as variaveisexplicativas. Comparam-se alguns metodos classicos com outros bayesianos. Sob oenfoque bayesiano, a inferencia sob os parametros desconhecidos do modelo e realizadaatraves de algoritmos de metodos de Monte Carlo via Cadeias de Markov (MCMC).

Palavras-chaves: Regressao logıstica; metodos de selecao de variaveis bayesianos; MCMC;Lasso; SSVS.

Sumario

Lista de Figuras

Lista de Tabelas

Lista de Abreviacoes p. 10

1 Introducao p. 1

2 Objetivos p. 4

3 Materiais e Metodos p. 5

3.1 Famılia Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5

3.2 Modelo de Regressao Linear . . . . . . . . . . . . . . . . . . . . . . . . p. 6

3.3 Modelo Linear Generalizado . . . . . . . . . . . . . . . . . . . . . . . . p. 7

3.4 Modelo de Regressao Logıstica . . . . . . . . . . . . . . . . . . . . . . . p. 7

3.4.1 Estimacao dos Parametros . . . . . . . . . . . . . . . . . . . . . p. 10

3.4.1.1 Estimacao Classica dos Parametros . . . . . . . . . . . p. 10

3.4.1.2 Estimacao Bayesiana dos Parametros . . . . . . . . . . p. 11

3.5 Metodos de Monte Carlo via Cadeias de Markov aplicado a Inferencia

Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 12

3.5.1 Cadeias de Markov . . . . . . . . . . . . . . . . . . . . . . . . . p. 13

3.5.2 Algoritmo de Metropolis-Hastings . . . . . . . . . . . . . . . . . p. 13

3.5.3 Algoritmo Amostrador de Gibbs . . . . . . . . . . . . . . . . . . p. 14

3.6 Medidas de Qualidade de Ajuste do Modelo . . . . . . . . . . . . . . . p. 15

3.7 Testes de Hipoteses para os Coeficientes de Regressao . . . . . . . . . p. 16

3.7.1 Teste de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17

3.7.2 Teste de Razao de Verossimilhanca . . . . . . . . . . . . . . . . p. 17

3.7.3 Teste de Razao de Chances a Posteriori . . . . . . . . . . . . . p. 18

3.8 Metodos de Selecao de Variaveis Bayesianos . . . . . . . . . . . . . . . p. 19

3.8.1 Selecao de Variaveis via Busca Estocastica (SSVS) . . . . . . . . p. 20

3.8.2 Operacao de Selecao e Contracao com Penalidade em Valor

Absoluto (Lasso) . . . . . . . . . . . . . . . . . . . . . . . . . . p. 23

4 Analise dos Resultados p. 26

4.1 Aplicacao em Dados Simulados . . . . . . . . . . . . . . . . . . . . . . p. 26

4.2 Aplicacao em Dados Reais . . . . . . . . . . . . . . . . . . . . . . . . . p. 38

5 Conclusao p. 42

Referencias p. 44

Lista de Figuras

1 Aplicacao da funcao de ligacao logito em um vetor de probabilidades. . p. 8

2 Curvas de densidade de distribuicao normal com medias zero e variancias

0,2 e 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 21

3 Curvas de densidade para cada valores simulados ao longo das cadeias

para cada βj utilizando o metodo proposto por Chipman et al.(2001) [1]. p. 23

4 Histograma das Probabilidades dos Dados Simulados . . . . . . . . . . p. 27

5 Distribuicoes a priori para β utilizadas nos algoritmos Monte Carlo via

cadeias de Markov (MCMC) . . . . . . . . . . . . . . . . . . . . . . . . p. 28

6 Box-Plot dos valores estimados para β1 dentre as replicacoes obtidas

atraves dos diferentes metodos. . . . . . . . . . . . . . . . . . . . . . . p. 32















Lista de Tabelas

1 Estimativa Maxima Verossimilhanca, via MCMC com diferentes

distribuicoes a priori e Selecao de Variaveis via Busca Estocastica (SSVS)

referente a primeira simulacao. . . . . . . . . . . . . . . . . . . . . . . . p. 29

2 Percentagem de vezes que o verdadeiro valor do parametro esta contido

no intervalo estimado nos metodos de Maxima Verossimilhanca, via

MCMC com diferentes distribuicoes a priori e SSVS. . . . . . . . . . . p. 30

3 Percentagem de vezes que o valor zero esta contido no intervalo estimado

nos metodos de Estimativa Maxima Verossimilhanca, via MCMC com

diferentes distribuicoes a priori e SSVS. . . . . . . . . . . . . . . . . . p. 30

4 Proporcao de vezes em que a hipotese nula nao foi rejeitada no teste de

Wald. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 31

5 Estimativa via Lasso Bayesiano referente a primeira simulacao. . . . . . p. 35

6 Medidas de Qualidade e Testes de Hipoteses para Estimativa de Maxima

Verossimilhanca e via MCMC com diferentes distribuicoes a priori. . . p. 36

7 Estimativas de Maxima Verossimilhanca, via MCMC com diferentes

distribuicoes a priori , SSVS e Lasso Bayesiano. . . . . . . . . . . . . . p. 39

8 Estimativas atraves do Lasso Bayesiano utilizando uma distribuicao a

priori impropria para λ . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 40

9 Teste de Wald aplicado aos dados reais . . . . . . . . . . . . . . . . . . p. 41

10

Lista de Abreviacoes

iid independentes e identicamente distribuıdas

MCMC Monte Carlo via cadeias de Markov

MLG modelos lineares generalizados

SSVS Selecao de Variaveis via Busca Estocastica

TRCP Teste de Razao de Chances a Posteriori

TRV Teste de Razao de Verossimilhanca

HPD Highest Posterior Density Interval

1

1 Introducao

Em diversas areas de conhecimento muitos pesquisadores buscam analisar a relacao

entre diversos fatores. Na area da saude, por exemplo, pode-se verificar a relacao entre a

quantidade de vitamina D no organismo e a quantidade de sol que uma pessoa toma por

dia; ja na area financeira, e possıvel associar a renda de uma empresa com a capacidade

de pagamento desta empresa para uma avaliacao de credito. Modelos de regressao sao

uma opcao para estas analises, pois contemplam situacoes em que a variavel de interesse

e explicada por um conjunto de variaveis explicativas, tambem chamadas de variaveis

independentes.

Modelos de regressao logıstica relacionam variaveis de interesse dicotomicas com

variaveis explicativas modelando a probabilidade da variavel de interesse. Este modelo

pode ser aplicado em diversas areas, como a financeira, para calcular a probabilidade de

o contribuinte ser inadimplente; e a de saude, associando caracterısticas fısicas com a

probabilidade de um indivıduo desenvolver uma determinada doenca.

Nos dias de hoje, a quantidade de dados disponıveis e extremamente grande. O

termo big data vem se popularizando cada vez mais e com isso diversas tecnicas com

fundamentos estatısticos para analise de dados e modelagem vem surgindo. Em algumas

situacoes a quantidade de variaveis explicativas e tao grande que pode-se levantar o

questionamento de quais variaveis deve-se utilizar para explicar a variavel resposta. O

excesso de informacao pode atrapalhar a efetividade do ajuste, pois o fato de utilizar

todas as variaveis disponıveis nao necessariamente indica um bom modelo. Por exemplo,

com o grande numero de covariaveis, aumenta a possibilidade de existencia de correlacao

entre elas, dando origem a um problema denominado multicolinearidade.

Na literatura sao propostos diversos metodos em que e possıvel medir a qualidade de

um modelo em relacao a outro proposto. O grande problema destes metodos e que para

cada ajuste proposto estas medidas devem ser calculadas e posteriormente comparadas.

1 Introducao 2

Quando ha dois modelos possıveis, isto e uma tarefa facil; porem, se tratando de um

exemplo em que ha vinte possıveis ajustes, esta tarefa se torna bem trabalhosa.

No sentido de reduzir o numero de variaveis explicativas e mantendo ainda aquelas

que trazem mais informacoes sobre a variavel resposta, uma serie de metodos estatısticos

vem sendo propostos na literatura, dando origem aos chamados metodos de selecao de

variaveis. Estes metodos buscam sempre o modelo mais parcimonioso, ou seja, aquele

que melhor explique o comportamento da variavel resposta e use a menor quantidade de

parametros possıvel.

Neste estudo, metodos de selecao de variaveis foram aplicados em um modelo de

regressao logıstica.

Os modelos de regressao logıstica vem tendo um uso extremamente grande nas

industrias financeiras, e com sua alta utilizacao sao propostas diferentes tecnicas de

ajuste. Em um estudo sobre a hepatite A, Santos et al. (2005) [2] utilizaram redes neurais

artificiais para ajustar um modelo de regressao logıstica. Mais recentemente o blog Curso-

R [3] feito por um grupo de cinco estatısticos e de um cientista da computacao de Sao

Paulo publicou um post utilizando tecnicas de deep learning para ajuste do modelo de

regressao logıstica.

Com o questionamento de quais variaveis usar para explicar melhor a variavel resposta,

a proposta deste trabalho e estudar alguns metodos de selecao de variaveis bayesianos

em que sao atribuıdas distribuicoes a priori de contracao para os parametros associados

as covariaveis a serem estimados no modelo. Este trabalho concentrou-se nos seguintes

metodos: Selecao de Variaveis via Busca Estocastica SSVS (George e McCulloch (1993))

e Operacao de Selecao e Contracao com penalidade em valor absoluto, conhecido por

Lasso (Tibshirani (1996) [4]). Tambem foram estudados alguns testes em que e possıvel

verificar a significancia das estimativas dos coeficientes associados as covariaveis, como o

teste de Wald e de Razao de Chances a posteriori.

Sob o enfoque bayesiano, a inferencia sobre os parametros desconhecidos do modelo

e realizada atraves da distribuicao a posteriori. Muitas vezes essa distribuicao nao possui

forma analıtica conhecida e recorrer aos metodos bayesiano de MCMC para avaliar

esta distribuicao, e uma solucao. Dentre esses metodos: o amostrador de Gibbs o de

Metropolis-Hastings foram utilizados neste trabalho.

Neste trabalho, no Capıtulo 2 sao apresentados brevemente os objetivos a serem

alcancados. No Capıtulo 3, e realizada uma revisao bibliografica sobre os metodos

1 Introducao 3

utilizados neste estudo, alem disso, tambem ha uma descricao dos materiais utilizados.

No Capıtulo 4 e apresentado um estudo simulado em que as variaveis independentes

foram geradas de distribuicoes conhecidas e o vetor de parametro de interesse tambem e

conhecido, e posteriormente e apresentada uma aplicacao dos metodos estudados em um

conjunto de dados reais; ao final sao comparados os metodos classicos com os metodos

bayesianos. Por fim, o Capıtulo 5 sao apresentadas as conclusoes referentes as aplicacoes

feitas no Capıtulo 4.

4

2 Objetivos

O objetivo deste trabalho e discutir como selecionar variaveis em modelos de regressao

logısticos atraves de uma abordagem bayesiana. Para isso, foram utilizados metodos

de selecao de variaveis nos quais foram atribuıdas distribuicoes a priori de contracao,

concentradas no zero, para os preditores lineares.

A discussao se da atraves de um estudo simulado no qual uma grande quantidade

de covariaveis e utilizada para gerar dados atraves de um modelo de regressao logıstica,

e, a seguir, metodos de selecao de variaveis e estimacao bayesiana foram utilizados para

selecionar e estimar os parametros do modelo e comparados com o metodo classico da

maxima verossimilhanca.

5

3 Materiais e Metodos

Neste capıtulo sao apresentados todos os materiais e metodos utilizados ao longo

deste trabalho. Inicialmente e apresentada uma breve definicao de Famılia Exponencial

na Secao 3.1 e em seguida dos modelos de regressao linear (Secao 3.2) e generalizado

(Secao 3.3). Posteriormente o modelo de regressao logıstica e descrito na Secao 3.4. Ao

propor um modelo, e desejado inferir sobre parametros desconhecidos e por isso e feita

uma revisao sobre estimacao classica e bayesiana na Subsecao 3.4.1. Na Secao 3.5 sao

descritos os algoritmos MCMC que sao utilizados para realizar a estimacao bayesiana de

parametros desconhecidos neste trabalho. A Secao 3.6 apresenta medidas de qualidade de

um ajuste. A Secao 3.7 apresenta testes de hipotese, tanto classicos quanto bayesianos,

que julgam a significancia dos parametros em modelos de regressao. A Secao 3.8 discute

os metodos de selecao de variaveis bayesianos, sendo eles: SSVS (Subsecao 3.8.1) e o Lasso

(Subsecao 3.8.2).

3.1 Famılia Exponencial

Dizemos que uma famılia de distribuicoes pertence a famılia exponencial se sua funcao

de densidade de probabilidade (ou funcao de probabilidade) pode ser expressa da seguinte

forma:

f(y|θ) = exp

k∑

j=1

aj(y)bj(θ)

s(y)t(θ) (3.1)

em que θ e um vetor de parametros, s(·) e t(·) sao funcoes reais nao-negativas conhecidas

e aj(·) e bj(·), j = 1, . . . , k, sao funcoes reais conhecidas.

A famılia exponencial inclui distribuicoes de extrema importancia como a Poisson

e a normal. Outra distribuicao muito utilizada que pertence a famılia exponencial e a

distribuicao binomial, que representa o numero de sucessos, y, emN ensaios independentes

3.2 Modelo de Regressao Linear 6

da distribuicao de Bernoulli com probabilidade de sucesso π, cuja funcao de probabilidade

de y e escrita da seguinte forma:

f(y|π) =

(N

y

)πy(1− π)N−y, y = 0, 1, . . . , N. (3.2)

Note que N − y e o numero de fracassos em N repeticoes. Considerando N conhecido

e π desconhecido, e possıvel organizar a expressao (3.2) na forma de famılia exponencial

dada pela equacao (3.1):

f(y|π) = exp

ln

(N

y

)+ yln(π) + (N − y)ln(1− π)

= exp y(ln(π)− ln(1− π))

(N

y

)exp Nln(1− π) (3.3)

e assim tem-se que s(y) =(Ny

), t(π) = exp Nln(1− π), a(y) = y e b(π) = ln(π) −

ln(1− π).

Maiores detalhes podem ser vistos em Casella e Berger (2002) [5] e em Migon et al

(2014) [6].

3.2 Modelo de Regressao Linear

Em diversas areas de conhecimento, modelos de regressao sao amplamente usados para

tentar explicar uma relacao entre duas ou mais variaveis. Em um modelo de regressao

linear tem-se a seguinte relacao

Yi = XTi β + ei, i = 1, . . . , n, (3.4)

em que Yi e variavel aleatoria chamada de variavel resposta ou dependente, XTi =

(xi1, . . . , xip) e um vetor contendo p covariaveis (tambem chamadas de variaveis

explicativas ou independentes ou preditoras), β = (β1, . . . , βp)T e um vetor contendo

os efeitos das covariaveis e ei representa um efeito aleatorio, i e o ındice da unidade

amostral e n e o tamanho da amostra.

Alem disso costuma-se supor que os efeitos aleatorios sao independentes e

normalmente distribuıdos com media zero e uma variancia constante σ2. Nesse caso, tem-

se que as variaveis respostas, condicionadas nas covariaveis e nos parametros θ = (β, σ2),

sao independentes e identicamente distribuıdas (iid) e tem-se a seguinte distribuicao

Yiiid∼ N(XT

i β, σ2), i = 1, . . . , n. (3.5)

3.3 Modelo Linear Generalizado 7

Em geral, modelos de regressao linear sao utilizados quando a variavel resposta e

contınua e possui uma associacao linear com cada covariavel.

Maiores detalhes podem ser vistos em Casella e Berger (2002) [5].

3.3 Modelo Linear Generalizado

Quando a variavel resposta nao e contınua, nao e apropriado o uso do modelo de

regressao linear. Por isso, Nelder e Wedderburn (1972) [7] generalizaram os modelos

de regressao linear simples propondo os modelos lineares generalizados (MLG) que sao

caracterizados por terem

1. uma variavel aleatoria dependente Yi, i = 1, . . . , n, com funcao de densidade

de probabilidade (ou funcao de probabilidade) f(y | θ) pertencendo a famılia

exponencial;

2. um conjunto de variaveis independentes XTi = (xi1, . . . , xip) e um preditor linear

ηi = XTi β, sendo β um vetor com p componentes;

3. uma funcao monotona e diferenciavel, g(·), chamada de funcao de ligacao, que

relaciona as variaveis dependentes com as independentes da seguinte forma

g(µi) = ηi = XTi β, (3.6)

sendo µi = E[Yi].

Os vetores θ e β podem ter valores conhecidos ou desconhecidos.

Um caso particular dos modelos lineares generalizados e o modelo de regressao linear,

apresentado na Secao 3.2, que pode ser obtido atraves da funcao de ligacao identidade,

ou seja, considerando que g(µi) = µi = XTi β.

3.4 Modelo de Regressao Logıstica

Em um modelo de regressao linear, definido na Secao 3.2, a variavel resposta

Yi geralmente e contınua. Suponha um modelo que tenha uma variavel dependente

3.4 Modelo de Regressao Logıstica 8

dicotomica, ou seja, que assume apenas dois valores. Sendo assim, a variavel resposta

tem o seguinte formato:

Yi =

1, com probabilidade πi,

0, com probabilidade 1− πi(3.7)

em que πi e uma probabilidade explicada pelas variaveis explicativas Xi. Logo, Yi ∼Bern(πi).

Caso um modelo de regressao linear seja ajustado, nesse caso, como a variavel resposta

assume apenas dois valores, o grafico de dispersao ficara com alguns pontos concentrados

em 1 e outros em 0 e esses pontos provavelmente terao uma alta dispersao da reta ajustada

atraves do metodo dos mınimos quadrados. Portanto, neste caso, faz-se necessario recorrer

aos modelos lineares generalizados.

O modelo de regressao logıstica e um caso particular dos MLG (descritos na Secao 3.3)

e e utilizado para variaveis com distribuicao Bernoulli conforme descritas pela Equacao

(3.7). Como Yi ∼ Bern(πi), entao tem-se que o valor esperado da variavel dicotomica e

µi = E[Yi] = πi. Recorrendo a funcao de ligacao logito tem-se a seguinte relacao

g(µi) = ln

(πi

1− πi

)= XT

i β = ηi. (3.8)

Note que a funcao logito e o logaritmo natural da razao de chances e que essa funcao

associa a cada probabilidade πi (que possui valores limitados no intervalo [0, 1]) um

valor real de forma que esses valores passem a pertencer a reta. A Figura 1 ilustra a

transformacao das probabilidade πi atraves da funcao de ligacao g(µi):

Figura 1: Aplicacao da funcao de ligacao logito em um vetor de probabilidades.


Aplicando a exponencial e isolando πi, na Equacao (3.8), tem-se que:

(3.9)

exp

ln

(πi

1− πi

)= exp

XT

i β

⇒ πi1− πi

= expXT

i β

⇒ πi =exp

XT

i β

1 + exp XTi β

=1

1 + exp −XTi β

Assim, o modelo de regressao logıstica pode ser definido como:

Yi =

1, com probabilidade

1

1 + exp −XTi β

,

0, com probabilidade 1− 1

1 + exp −XTi β

(3.10)

Para melhor compreensao deste modelo, suponha o seguinte exemplo:

Exemplo 3.4.1 Um banco de fomento deseja estimar a probabilidade, de uma empresa

que solicita credito, pagar este emprestimo. Com esta probabilidade calculada, a i-esima

empresa sera classificada como boa (Yi = 1) ou ma (Yi = 0) pagadora. Para tal calculo,

foi proposto o seguinte modelo:

πi = P (Yi = 1) =1

1 + exp −(2, 5− 6×X2 + 0, 5×X3)

em que:

• X2 - Variavel binaria que indica se a empresa tem restricoes no mercado (“nome

sujo”), assumindo 1 para sim e 0 para nao.

• X3 - Variavel quantitativa que indica o tempo, em anos, que a empresa tem no

mercado.

Usando o exemplo citado, uma empresa que possui restricoes e tem 3 anos de mercado

tera a seguinte probabilidade de pagar o emprestimo em dia:

P (Yi = 1) =1

1 + exp −(2, 5− 6× 1 + 0, 5× 3)=

1

1 + exp −(−2)= 0, 1192.

Entao esta empresa tera aproximadamente 12% de probabilidade de ser uma boa

pagadora. Geralmente na area de credito brasileira, para uma empresa ser classificada

como boa pagadora, essa probabilidade deve ser maior ou igual a 95%. Neste exemplo

fica claro que o cliente seria classificado como mau pagador.


Outro cenario seria a empresa nao ter “nome sujo” e ter 10 anos de mercado:

P (Yi = 1) =1

1 + exp −(2, 5− 6× 0 + 0, 5× 10)=

1

1 + exp −(7, 5)= 0, 9994.

Com esta situacao, em que ha aproximadamente 99% de chances do emprestimo ser

pago, a empresa sera classificada como boa pagadora.

Para mais esclarecimentos sobre o modelo de regressao logıstica apresentado, sugere-se

ver o material de Hosmer e Lemeshow (2000) [8] e de Dobson (2002) [9].

3.4.1 Estimacao dos Parametros

Nesta subsecao sao apresentadas duas formas de se estimar os parametros de um

modelo de regressao logıstica. A primeira forma e atraves da inferencia classica, em

que e utilizado o metodo da maxima verossimilhanca, e a segunda maneira e atraves

da inferencia bayesiana, em que neste estudo sao utilizados metodos de Monte Carlo via

Cadeias de Markov. Referente a estimacao bayesiana, esta subsecao e apenas introdutoria,

pois os metodos aqui utilizados sao apresentados de maneira mais profunda na Secao 3.5.

3.4.1.1 Estimacao Classica dos Parametros

Usualmente em regressao linear os estimadores para cada βj sao calculados atraves

do metodo dos mınimos quadrados, como mostra Neter et al (1996) [10]. Porem, ao

tentar estimar os parametros do modelo de regressao logıstica usando este mesmo metodo,

os coeficientes encontrados acabam nao tendo algumas propriedades desejaveis de um

estimador. Por exemplo, Hosmer e Lemeshow (2000) [8] citam que a soma das diferencas

dos valores observados e dos valores ajustados nem sempre sera zero ao se utilizar o

metodo dos mınimos quadrados.

Sendo assim, no modelo logıstico a estimacao classica usualmente e feita atraves do

metodo da maxima verossimilhanca (Neter et al (1996) [10]), em que e encontrada uma

combinacao de coeficientes que maximizam a funcao de verossimilhanca. No modelo

em questao, segundo a equacao (3.10), quando Yi = 1 a contribuicao para a funcao de

verossimilhanca sera πi e quando Yi = 0 a contribuicao para a funcao de verossimilhanca


sera o complementar da anterior, 1 − πi. Entao a funcao de verossimilhanca, assumindo

que as variaveis sao independentes, sera definida como:

`(β;y) =n∏

i=1

[πyii (1− πi)1−yi

], (3.11)

sendo y = (y1, . . . , yn) os valores amostrados da variavel resposta.

Aplicando a funcao logarıtmica, obtemos a funcao de log verossimilhanca da forma:

ln [`(β;y)] =n∑

i=1

[yiln(πi) + (1− yi)ln(1− πi)] . (3.12)

Desenvolvendo as contas tem-se o seguinte resultado:

ln [`(β;y)] =n∑

i=1

[yiln

(exp

XT

i β)− ln

(1 + exp

XT

i β)]

Para continuar o metodo, a equacao anterior deve ser derivada em relacao a cada

coeficiente e igualada a zero, resultando em um conjunto de equacoes nao lineares onde

pode-se recorrer a metodos iterativos que sao rapidamente resolvidos atraves de algum

software estatıstico.

3.4.1.2 Estimacao Bayesiana dos Parametros

A inferencia bayesiana tambem permite que parametros de um determinado modelo

possam ser estimados. Antes de apresentar a estimacao bayesiana, vale a pena reforcar

alguns conceitos, como os de distribuicao a priori e distribuicao a posteriori.

A distribuicao a priori e uma distribuicao que expressa a incerteza sobre o vetor

de parametros desconhecidos, que no caso da regressao logıstica e denotado por β,

representando o conhecimento previo que se tem sobre β antes de observar a amostra.

Ela deve sempre respeitar o espaco parametrico de β. Em casos de variaveis regressoras,

usualmente e atribuida a distribuicao normal como distribuicao a priori para os efeitos

das regressoras.

A distribuicao a posteriori incorpora tanto as informacoes a priori quanto as

informacoes fornecidas pelos dados atraves da funcao de verossimilhanca. Com auxılio do

Teorema de Bayes, a distribuicao a posteriori pode ser definida como:

p(β | y) =`(β;y)p(β)

p(y)(3.13)

3.5 Metodos de Monte Carlo via Cadeias de Markov aplicado a Inferencia Bayesiana 12

onde p(β) denota a distribuicao a priori de β, `(β;y) a funcao de verossimilhanca de β

e p(y) e a distribuicao marginal de y.

E comum em inferencia bayesiana o uso da proporcionalidade, definida pelo sımbolo

∝. Em uma distribuicao a posteriori p(β | y) os valores que nao dependem do parametro

desconhecido, neste caso β, sao tratados como constantes e podem ser retirados da

equacao, permanecendo apenas o nucleo da distribuicao. Note que p(y)−1 nao dependera

de β e desta forma a equacao anterior pode ser reescrita como:

p(β | y) ∝ `(β;y)p(β). (3.14)

Supondo entao que β tem distribuicao a priori normal com vetor de medias nulas e

uma matriz de covariancia Σ, tem-se que a distribuicao a posteriori de β e proporcional

a:

(3.15)p(β | y) ∝n∏

i=1

[(1

1 + exp −XTi β

)yi (1− 1

1 + exp −XTi β

)1−yi]

× exp

−1

2

(βTΣ−1β

).

Note que a distribuicao acima nao possui nucleo de alguma distribuicao conhecida.

Uma forma de estimar o parametro β usando essa distribuicao e recorrendo aos metodos

de Monte Carlo via Cadeias de Markov, que serao discutidos a seguir.

3.5 Metodos de Monte Carlo via Cadeias de Markov

aplicado a Inferencia Bayesiana

Suponha uma situacao em que ha uma distribuicao que nao possui forma analıtica

conhecida e que se deseja simular amostras desta distribuicao. Os metodos de MCMC

podem auxiliar nesta tarefa. Os metodos MCMC sao algoritmos de simulacao iterativas

em que a ideia e obter amostras de distribuicoes de interesse.

No contexto deste trabalho, as distribuicoes de interesse sao as distribuicoes a

posteriori dos parametros estudados. Assim, e obtida uma amostra da distribuicao a

posteriori baseada em cadeias de Markov, fazendo com que os valores gerados para compor

a amostra sejam independentes.


3.5.1 Cadeias de Markov

Uma cadeia de Markov de primeira ordem e uma sequencia de variaveis aleatorias

Z1, Z2, . . . em que para todo evento A, a distribuicao de Zt dados os valores anteriores

Z1, . . . , Zt−1 depende apenas do instante imediatamente anterior Zt−1. Matematicamente,

P (Zt ∈ A | Z1, . . . , Zt−1) = P (Zt ∈ A | Zt−1), ∀t.

Os metodos MCMC exigem que as cadeias de Markov tenham algumas caracterısticas:

devem ser homogeneas implicando nas probabilidades de transicao de um estado para o

outro nao mudarem ao longo das iteracoes; irredutıvel (sem estados isolados), isto e, todo

estado podera ser atingido a partir de qualquer outro em um numero finito de iteracoes; e

por ultimo, aperiodica, sem estados absorventes, ou seja, no momento em que o processo

entra em um determinado estado ele deve ser capaz de deixar tal estado.

Os metodos MCMC sao muito utilizados na estatıstica bayesiana para simular uma

amostra da distribuicao a posteriori, e apos um numero finito e suficientemente grande

de iteracoes a cadeia converge para a distribuicao de interesse. Discutiremos adiante dois

metodos de MCMC: o algoritmo de Metropolis-Hastings e o Amostrador de Gibbs.

3.5.2 Algoritmo de Metropolis-Hastings

O algoritmo de Metropolis-Hastings, proposto por Metropolis et al (1953) [11] e

Hastings (1970) [12], tem como proposta simular amostras de uma distribuicao em que

nao e possıvel obter sua forma fechada. O algoritmo tem a ideia similar aos metodos de

aceitacao e rejeicao, ou seja, e gerado um valor de uma distribuicao auxiliar q e aceita-se

esse valor com uma certa probabilidade que depende da distribuicao de interesse. Desta

forma, e garantida a convergencia da cadeia para a distribuicao de equilıbrio, neste caso,

a distribuicao a posteriori p(θ | y).

A distribuicao auxiliar q e chamada de distribuicao proposta e pode depender do

estado atual da cadeia (θt−1), e neste caso denotamos q(· | θt−1) . Desta forma, o

algoritmo pode ser especificado como:

1. Inicialize o contador de iteracoes t = 1 e especifique um valor inicial θ0;

2. gere um novo valor θp da distribuicao proposta q;


3. calcule a probabilidade de aceitacao

α(θt−1,θp) = min

1,

p(θp | y)q(θt−1 | θp)p(θt−1 | y)q(θp | θt−1)

e gere u ∼ U(0, 1);

4. se u < α, aceite θp fazendo θt=θp; caso contrario, rejeite e faca θt=θt−1;

5. incremente o contador de t para t+ 1 e volte ao passo 2 ate atingir a convergencia.

Os valores simulados para a cadeia apos a convergencia representarao uma amostra

da distribuicao de interesse.

3.5.3 Algoritmo Amostrador de Gibbs

Outro metodo para simular amostras de distribuicoes desconhecidas e o amostrador de

Gibbs, proposto por Geman e Geman (1990) [13] e introduzido a comunidade estatıstica

por Gelfand e Smith (1990) [14]. A ideia e que cada θj, tanto uni quanto multidimensional,

seja gerado da sua distribuicao condicional completa a posteriori, definida como

p(θj | θ−j,y), onde θ−j = (θ1,θ2, . . . ,θj−1,θj+1, . . . ,θJ).

Repare que neste metodo a distribuicao condicional completa devera ser conhecida,

pois e atraves dela que sera feita a transicao de um estado para o outro. Assim a

distribuicao condicional completa de cada θj dependera de todas as componentes de θ,

exceto o proprio θj. O algoritmo pode ser escrito como:

1. Inicialize o contador de iteracoes t = 1 e especifique um valor inicial

θ0 = (θ01, . . . ,θ0J);

2. gere um novo valor de θt a partir de θt−1 atraves da geracao sucessiva de valores:

θt1 ∼ p(θ1 | θt−12 ,θt−13 , . . . ,θt−1J ,y)

θt2 ∼ p(θ2 | θt1,θt−13 , . . . ,θt−1J ,y)

...

θtJ ∼ p(θJ | θt1,θt2, . . . ,θtJ−1,y)

3. incremente o contador de t para t+ 1 e volte ao passo 2 ate atingir a convergencia.

3.6 Medidas de Qualidade de Ajuste do Modelo 15

Apos a convergencia, os valores resultantes formam uma amostra da distribuicao

conjunta de θ, p(θ | y).

O algoritmo de Metropolis-Hastings pode ser utilizado em conjunto com amostrador

de Gibbs quando uma ou mais distribuicoes condicionais completas a posteriori forem

desconhecidas.

Maiores detalhes sobre os metodos de MCMC podem ser vistos em Gamerman e Lopes

(2006) [15].

3.6 Medidas de Qualidade de Ajuste do Modelo

Conforme Bozdangan (1987) [16], a escolha do modelo apropriado, ou seja, do

“melhor” modelo e extremamente importante na analise de dados. Depois que um

modelo e ajustado, e necessario avaliar a qualidade daquele ajuste. Em qualquer

modelagem e buscado o modelo mais parcimonioso, ou seja, aquele que melhor explique

o comportamento da variavel resposta e use menos parametros possıveis.

Existem diversos metodos de comparacao de modelos. A seguir sao apresentadas

algumas medidas bastante utilizadas.

O Criterio de Informacao de Akaike (AIC) proposto por Akaike (1987) [17] e o Criterio

de Informacao Bayesiano (BIC) proposto por Schwarz et al.(1978) [18], podem ser escritos,

respectivamente, como:

AIC = −2ln(`(θ;y)) + 2p (3.16)

BIC = −2ln(`(θ;y)) + pln(n) (3.17)

em que `(θ;y) e a funcao de verossimilhanca avaliada nos parametros estimados, p e o

numero de parametros e n o tamanho da amostra. Repare que tanto o AIC quanto o

BIC sao baseados na funcao de verossimilhanca. Outra medida conhecida e o Criterio de

Informacao Baseado no Desvio (DIC) proposto por Spiegelhalter et al (2002) [19]:

DIC = D(θ) + pD (3.18)

em que D(θ) e o desvio medio a posteriori definido como D(θ) = 21

G

G∑g=1

ln[`(θ;y)] −

ln[`(θ(g);y)], em que `(θ;y) e a funcao de verossimilhanca com os parametros estimados

e `(θ(g);y) a funcao de verossimilhanca com os parametros estimados em cada iteracao;

3.7 Testes de Hipoteses para os Coeficientes de Regressao 16

e pD o numero de parametros efetivos no modelo estimado definido como pD = D(θ) −2ln[`(θ;y)]. Assim, o DIC tambem pode ser definido como DIC = −2D(θ)−2ln[`(θ;y)].

O DIC e extremamente usado na selecao de modelos ajustados de forma bayesiana, cuja

distribuicao a posteriori dos modelos e alcancada atraves de metodos MCMC.

Para essas tres medidas apresentadas, os valores mais baixos indicam um melhor

ajuste.

Suponha que em determinado estudo ha apenas duas covariaveis em que se deseja

ajustar um modelo de regressao, assim, ha quatro ajustes possıveis (22). Desta forma

para avaliar qual ajuste e mais parcimonioso, estas medidas deveriam ser calculadas para

cada um dos quatro modelos. Nesta situacao, nao parece haver nenhum inconveniente.

Porem estas medidas nao se tornam praticas a partir do momento em que se tem um

numero maior de covariaveis, quanto maior a quantidade de colunas da matriz de valores

observadosX, mais modelos sao possıveis de serem ajustados. Desta forma sera trabalhoso

calcular estas medidas para cada um dos ajustes. Por exemplo, em um estudo que ha

15 covariaveis disponıveis, e possıvel ajustar 215 = 32.768 modelos, se tornando inviavel

calcular o AIC, BIC ou DIC para cada ajuste. Desta maneira, os metodos de selecao de

variaveis bayesianos, que serao vistos na Secao 3.7, sao uma saıda para este problema.

Estes metodos realizam um unico ajuste, e com o auxılio de variaveis indicadoras mostram

se o parametro βj e significativo ou nao no modelo e assim ressaltando a importancia da

variavel independente Xj associada aquele βj.

3.7 Testes de Hipoteses para os Coeficientes de

Regressao

Nesta secao sao apresentados alguns testes de hipoteses que julgam a significancia de

um determinado βj. Se βj = 0, entao a variavel correspondente aquele coeficiente nao

e significativa no modelo de regressao. Assim, alguns destes testes devem ser realizados

para cada um dos coeficientes.


3.7.1 Teste de Wald

O teste de Wald e um teste classico bem simples. Nele e verificado para cada

parametro a sua importancia no modelo de regressao, utilizando as seguintes hipoteses:H0 : βj = 0

H1 : βj 6= 0

Sua estatıstica de teste sob H0 verdadeiro e dada por Wj =βj

SE(βj)em que SE(βj)

e o erro padrao do estimador e βj e o proprio estimador em questao. A estatıstica Wj

segue, aproximadamente, uma distribuicao normal padrao.

Uma das formas de decidir a rejeicao da hipotese nula em testes de hipotese, e atraves

do p-valor. Segundo Greenland et al (2016) [20] o p-valor e a probabilidade de que a

estatıstica de teste teria sido pelo menos tao grande quanto seu valor observado se todas as

suposicoes estivessem corretas, incluindo a hipotese do teste. Por ser uma probabilidade,

o p-valor esta contido no intervalo [0,1]. Assim para tomar uma decisao em um teste de

hipotese e utilizado o p-valor. Se esta medida for menor que o nıvel de significancia do

teste (geralmente e utilizado 0, 05% de nıvel de significancia), e rejeitada a hipotese nula,

caso contrario nao e rejeitada a hipotese nula.

No teste de Wald, se a hipotese nula nao for rejeitada, significa que aquele parametro e

estatisticamente igual a zero e a covariavel associada a ele nao traz informacoes relevantes

para o modelo ajustado. No caso em que a hipotese nula nao e rejeitada, ha indıcios de

que a covariavel associada ao respectivo parametro e relevante no ajuste.

Hauck e Donner (1977) [21] registraram que o teste de Wald falha frequentemente

em rejeitar coeficientes que sao estatisticamente significativos, desta forma sugerem que

se teste novamente os coeficientes sinalizados como nao significativos atraves do teste da

razao de verossimilhanca.

3.7.2 Teste de Razao de Verossimilhanca

No caso de modelos de regressao logıstica, o teste da razao de verossimilhanca compara

a funcao de verossimilhanca baseada nos valores observados com os valores preditos do


modelo proposto com e sem um determinado conjunto de variaveis independentes. Assim

e possıvel verificar se determinada covariavel influencia no modelo. Suas hipoteses sao:H0 : β ∈ Ω0

H1 : β ∈ Ω1

Usualmente a hipotese nula, no caso de selecao de variaveis corresponde a testar se

o conjunto dos possıveis valores de β muda de Rp para Ru tornando u componentes de

β iguais a zero. Por exemplo, suponha um modelo com cinco parametros e que deseja-se

testar se β3 e estatisticamente igual a zero, assim tem-se βj ∈ R, j = 1, . . . , 5 com j 6= 3

e β3 = 0, sob H0.

Tal comparacao e feita com base no logaritmo da funcao de verossimilhanca:

D = −2ln`(β−j;y)

`(β;y)

em que `(β−j;y) e a funcao de verossimilhanca do vetor β sem a j-esima componente e

`(β;y) e a funcao de verossimilhanca com do vetor β com a j-esima componente.

A estatıstica de teste tem, aproximadamente, distribuicao qui-quadrado com µ graus

de liberdade, sendo µ o numero de parametros que esta sendo testado. Se o p-valor

correspondente a estatıstica de teste for menor que o nıvel de significancia proposto,

rejeita-se a hipotese nula assumindo que tal variavel e significativa no modelo.

3.7.3 Teste de Razao de Chances a Posteriori

O teste de razao de chances a posteriori e uma versao bayesiana do teste de razao de

verossimilhanca. Desta forma as hipoteses podem ser definidas como:H0 : β ∈ Ω0

H1 : β ∈ Ω1

As hipoteses sao testadas atraves da chances a posteriori, definida como:

p(H0 | y)

p(H1 | y)︸︷︷︸Chances a Posteriori

=p(y | H0)

p(y | H1)︸︷︷︸Fator de Bayes

× p(H0)

p(H1)︸︷︷︸Chances a Priori

3.8 Metodos de Selecao de Variaveis Bayesianos 19

Se a medida anterior for maior que 1, assume-se que H0 se ajustou melhor aos dados,

caso contrario, o melhor ajuste foi representado em H1.

3.8 Metodos de Selecao de Variaveis Bayesianos

Suponha um modelo com muitas covariaveis. Usualmente ajusta-se o modelo proposto

com todas as covariaveis disponıveis e depois elimina-se as covariaveis que nao sao

estatisticamente significativas. Porem, ao retirar um determinado conjunto de covariaveis,

nao ha garantias de que sera obtido o modelo mais parcimonioso. Pode-se entao ajustar

os dados com diferentes subconjuntos de covariaveis e calcular o AIC, BIC e DIC para

cada um dos ajustes feitos, mas essa forma acaba sendo muito custosa. Os metodos de

selecao de variaveis bayesianos sao uma otima saıda, pois sao mais praticos, nao sendo

necessario realizar todos os possıveis ajustes.

Na literatura ha diversos metodos bayesianos utilizados para ajustar modelos. Kuo

e Mallick (1998) [22] propuseram um metodo que possui uma variavel auxiliar γj que

identifica a presenca (γj = 1) ou a ausencia (γj = 0) de um determinado βj. Outro

metodo e o metodo de Selecao de variaveis de Gibbs, proposto por Carlin e Chibi (1995)

[23] e aperfeicoado por Dellaportas et al (2002) [24] em que e atribuıda uma mistura de

distribuicoes normais como distribuicao a priori de β.

O primeiro metodo apresentado, e o metodo de Selecao de Variaveis via Busca

Estocastica proposto por George e McCulloch (1993)[25], que possui propostas

semelhantes aos metodos propostos por Kuo e Mallick (1998) [22] e de Carlin e Chibi

(1995) [23]. Neste metodo e atribuıda uma mistura de distribuicoes normais a priori para

βj com a ajuda de uma variavel auxiliar γj, que indica de qual parte desta mistura de

distribuicoes βj sera estimado.

Na Subsecao 3.8.2 e apresentado um metodo de contracao conhecido como Lasso

Bayesiano. Inicialmente este metodo, proposto por Tibshirani (1996) [4], foi criado para

ser aplicado em modelos de regressao em que a variavel resposta tem distribuicao normal.

Este metodo penaliza o procedimento de estimacao por mınimos quadrados, e a variancia

de β, τ 2, tem distribuicao a priori exponencial com parametro λ, o que da uma outra

interpretacao da estimativa do Lasso.

Posteriormente e apresentado um aperfeicoamento deste metodo aplicado a regressao

logıstica, proposto por Huang et al.(2013) [26]. Este aperfeicoamento sugere um modelo


hierarquico em tres nıveis, em que e feita uma aproximacao de Laplace para a distribuicao

a posteriori de β.

Ambos os metodos apresentados propoem modelos hierarquicos em que sao utilizadas

distribuicoes a priori nao informativas para β. Sao utilizados metodos MCMC para

simular amostras das distribuicoes condicionais completas a posteriori e as estimativas

sao baseadas na media (a posteriori) destes valores.

3.8.1 Selecao de Variaveis via Busca Estocastica (SSVS)

Neste metodo, proposto por George e McCulloch (1993) [25], e buscada a selecao

de variaveis para modelos de regressao em que Y ∼ N(Xβ, σ2). A ideia do metodo e

atribuir uma mistura de distribuicoes normais a priori para cada βj com auxılio de uma

variavel γj que indica de qual parte desta mistura de distribuicoes cada βj sera estimado.

Se γj = 1 e assumido que a covariavel associada a este βj e relevante, e assim βj e gerado

de uma distribuicao normal centrada no zero com uma variancia grande que espalhe a

distribuicao e estime valores distantes do zero. Se γj = 0 e assumido que a covariavel

associada a este βj nao e relevante, e desta forma βj e gerado de uma distribuicao normal

com media zero e variancia bem pequena, para que os valores fiquem bem proximos de

zero.

George e McCulloch (1993) [25] propuseram este metodo para modelos de regressao

normais. Desta forma, a estrutura hierarquica a priori para os parametros pode ser

definida como:

Yi ∼ N(µi, σ2)

µi = β1Xi1 + β2Xi2 + . . .+ βpXip

βj | γj ∼ γjN(0, υ1) + (1− γj)N(0, υ0)

γj ∼ Bern(ρj)

σ2 ∼ IG(a, b)

em que i = 1, . . . , n, j = 1, . . . , p e υ1, υ0, ρj, a e b serao fixados.

Note que υ1 e υ0 sao responsaveis, respectivamente, por espalhar e comprimir a

distribuicao a priori de βj. A Figura 2 ilusta duas curvas de densidade normal: a linha

tracejada proveniente de uma distribuicao N(0; 0, 2) e a linha contınua de uma distribuicao

N(0; 2). Note que quanto maior o valor da variancia, mais espalhada e a distribuicao.


Figura 2: Curvas de densidade de distribuicao normal com medias zero e variancias 0,2 e

2.

Chipman et al.(2001) [1] abordaram algoritmos MCMC para selecao de variaveis em

modelos logısticos. Estes algoritmos aplicaram a abordagem do SSVS para selecionar

as variaveis e, alem disso, determinar a estrutura dos efeitos aleatorios na matriz de

covariancia e variancia.

Aqui β teve uma outra distribuicao a priori. Como uma forma de modificacao do

metodo para a regressao logıstica, foi proposto uma distribuicao multivariada a priori

para β | γ:

Yi ∼ Bern(πi)

πi =1

1 + exp −ηiηi = β1Xi1 + β2Xi2 + . . .+ βjXij

β | γ ∼ N(b, V ), V −1 = k

((1− γ)XTW

X

n+ γdiag

(XTW

X

n

))γj ∼ Bern(ρj)

em que ρj e a probabilidade de inclusao a priori para cada βj e γ a matriz diagonal

com estas probabilidades, X e a matriz com os valores observados em que cada coluna

representa uma covariavel, b e o vetor de medias da distribuicao a priori, XTWX e a

informacao total de Fisher (valor esperado com base nos dados) para o respectivo peso

W , n o numero de observacoes, k e o escalar com o peso dado a priori (Chipman

et al.(2001) [1] recomendam que seja 0,01), e W a matriz diagonal em que Wjj =

probabilidade de sucesso× (1− probabilidade de sucesso). Esta probabilidade de sucesso

nada mais e que a probabilidade de sucesso observada na variavel resposta.


Com isto, foi implementado um algoritmo MCMC com as respectivas distribuicoes a

priori. O software R [27] possui um pacote chamado BoomSpikeSlab que auxilia neste

metodo.

Para uma melhor compreensao, suponha que:

y =

0

0

0

0

1

1

1

1

1

1

10×1

, X =

1 1 2 3 5 9 1

1 4 2 4 2 2 3

1 2 2 3 2 3 1

1 2 2 5 1 9 3

1 5 5 3 5 5 1

1 3 2 1 9 1 1

1 5 3 1 2 3 4

1 4 2 2 3 1 2

1 5 1 4 9 3 2

1 4 3 2 5 1 5

10×7

, bT =

0

0

0

0

0

0

0

0

0

0

10×1

e k = 0, 01.

Note que a matriz X possui 7 colunas, assim serao estimados 7 coeficientes (sendo β1

o intercepto). Apos 100.000 iteracoes obtem-se a matriz V :

V =

0, 0024 0, 0042 0, 0029 0, 0034 0, 0052 0, 0036 0, 0028

0, 0042 0, 0338 0, 0107 0, 0113 0, 0190 0, 0098 0, 0097

0, 0029 0, 0107 0, 0163 0, 0077 0, 0119 0, 0077 0, 0067

0, 0034 0, 0113 0, 0077 0, 0226 0, 0134 0, 0108 0, 0071

0, 0052 0, 0190 0, 0119 0, 0134 0, 0622 0, 0132 0, 0113

0, 0036 0, 0098 0, 0077 0, 0108 0, 0132 0, 0403 0, 0086

0, 0028 0, 0097 0, 0067 0, 0071 0, 0113 0, 0086 0, 0166

7×7

A figura 3 mostra as curvas de densidade com base nos valores simulados ao longo

da cadeia. Veja que o algoritmo se comporta da mesma forma que o metodo proposto

originalmente por George e McCulloch (1993) [25], os valores simulados referentes a β2

e β6 estao bem concentrados no zero, indicando a insignificancia das covariaveis X2 e

X6; ja os valores para β1 e β4 formam uma curva de densidade achatada mostrando as

estimativas destes coeficientes estao longe do zero, e as covariaveis associadas a eles sao

importantes.


Figura 3: Curvas de densidade para cada valores simulados ao longo das cadeias para

cada βj utilizando o metodo proposto por Chipman et al.(2001) [1].

3.8.2 Operacao de Selecao e Contracao com Penalidade emValor Absoluto (Lasso)

Do ingles, Least Absolute Shrinkage and Selection Operator, o Lasso e um penalizador

do procedimento de mınimos quadrados, proposto por Tibshirani (1996) [4]. Esta tecnica

minimiza a soma dos quadrados dos resıduos com uma restricao nos coeficientes β a serem

estimados. Desta forma, a estimativa de β utilizando o metodo Lasso e:

minβ

= (y −Xβ)T (y −Xβ) + λ

p∑i=0

| βj | (3.19)

em que y = y − yIn, X =

X11 X12 . . . X1p

X21 X22 . . . X2p

......

. . ....

Xn1 Xn2 . . . Xnp

n×p

e β =

β1

β2...

βp

p×1

O parametro λ na equacao (3.19) e um parametro de sintonia fundamental para

a restricao a ser imposta. E o λ que vai indicar a regiao que os parametros a serem

estimados nao poderao estar. Originalmente o Lasso foi desenvolvido para uma aplicacao

classica, porem nesta subsecao sera apresentada sua forma bayesiana. Tibshirani (1996)

[4] ressalta que o Lasso pode ser interpretado como a moda a posteriori estimada quando

as componentes de β possuem distribuicao a priori Laplace independentes. A distribuicao

de Laplace pode ser expressa como uma mistura de distribuicoes normais cujas variancias

seguem distribuicoes exponenciais independentes.


Park e Casella (2008) [28] propuseram o amostrador de Gibbs para o metodo Lasso

Bayesiano em um modelo de regressao linear. Se tratando de regressao logıstica, Yi nao

seguira uma distribuicao normal, e sim uma distribuicao Bernoulli. Assim, neste trabalho,

o modelo hierarquico para o Lasso Bayesiano sera baseado no modelo proposto por Huang

et al.(2013) [26]:

Yi ∼ Bern(πi)

πi =1

1 + exp −ηiηi = β1Xi1 + β2Xi2 + . . .+ βjXij

βj | τ 2j ∼ N(0, τ 2j )

τ 2j | λ ∼ Exp(λ)

λ ∼ Gama(a, b)

em que i = 1, . . . , n e j = 1, . . . , p e a e b sao fixados.

Huang et al.(2013) [26] nomearam este modelo de regressao logıstica com normal-

exponencial-gama (NEG) como BLasso-NEG.

A distribuicao a priori de τ 2j pode ser encontrada fazendo:

p(τ 2j ) =

∞∫0

p(τ 2j | λ)p(λ)dλ =a

b

(τ 2jb

+ 1

)(a+1). (3.20)

Definindo τ 2 = [τ 21 , τ22 , . . . , τ

2p ]T e y = [y1, y2, . . . , yn]T , a distribuicao a posteriori de

(β, τ 2) e dada por:

p(β, τ 2 | y) ∝ p(y | β)p(β | τ 2)p(τ 2) (3.21)

em que p(y | β) =n∏

i=1

[(1

1 + exp −ηi

)yi (1− 1

1 + exp −ηi

)1−yi]

e p(β | τ 2) e uma

distribuicao normal com vetor de medias zero e matriz de covariancias τ 2I, sendo I a

matriz diagonal de ordem p.

Como a expressao em (3.21) e difıcil de ser integrada em β para se obter a distribuicao

a posteriori marginal de τ 2, nao sera facil estimar τ 2 diretamente maximizando sua

funcao de densidade de probabilidade a posteriori. Para contornar este problema, Huang

et al.(2013) [26] sugeriram empregar um sistema iterativo que se baseia na aproximacao

de Laplace para a distribuicao a posteriori de β.


Huang et al.(2013) [26] mostram todas as contas e cada passo do algoritmo criado que

sera utilizado neste trabalho. O pacote com este algoritmo e o EBglmnet e esta disponıvel

no software R [27].

26

4 Analise dos Resultados

Este Capıtulo apresenta a aplicacao dos materiais e metodos discutidos no Capıtulo 3.

Primeiramente esta aplicacao e feita em um conjunto de dados simulados, pois desta forma

sao conhecidos os verdadeiros valores dos parametros e quais covariaveis influenciam a

variavel resposta possibilitando avaliar o desempenho dos metodos aplicados. Em seguida,

e aplicado em um conjunto de dados reais que tambem foi utilizado por Huang et al.(2013)

[26].

4.1 Aplicacao em Dados Simulados

Li et al. (2010) [29] propuseram um interessante estudo simulado, em que foram

aplicadas algumas tecnicas de selecao de variaveis, incluindo o Lasso Bayesiano, para o

modelo de regressao quantılica. Foram feitas diversas simulacoes em que β era conhecido

e a partir de β e de uma matriz de covariaveis X foram geradas as variaveis respostas.

Entre essas simulacoes alguns valores de β eram nulos, e, desta forma, esperava-se que

as covariaveis associadas a estes valores nulos nao fossem significativas no ajuste. Neste

artigo foi mostrado que os metodos bayesianos superaram o metodo classico no quesito

de selecao de variaveis.

Neste trabalho foi feito um estudo semelhante ao de Li et al. (2010) [29], porem

aplicado a regressao logıstica juntamente com os metodos vistos no Capıtulo 3. Neste

estudo os verdadeiros valores de β sao conhecidos e alguns destes valores sao iguais a

zero, indicando a insignificancia das variaveis associadas a estes βj nulos. Desta forma

e possıvel analisar como cada metodo se comporta e sua eficiencia, pois os verdadeiros

valores dos parametros sao conhecidos. Para este estudo foi utilizado o software R [27].

Alem disso, foi fixada uma “semente” (2000), na simulacao de dados, caso o leitor deseje

reproduzir o estudo em questao.

Foram criadas 8 covariaveis, com 1.000 observacoes cada, e 8 coeficientes, sendo β1 o

intercepto.

4.1 Aplicacao em Dados Simulados 27

Por β1 ser o intercepto, X1 e definido como um vetor em que todas suas observacoes

sao iguais a um. As variaveis independentes X2, . . . , X8 foram criadas de maneira aleatoria

de uma distribuicao uniforme discreta:

• X2 ∼ U1, 2, 3, 4, 5

• X3 ∼ U6, 7, 8, 9, 10

• X4 ∼ U8, 9, 10, 11, 12

• X5 ∼ U15, 16, 17, 18, 19, 20

• X6 ∼ U1, 2, 3, 4, . . . , 10

• X7 ∼ U7, 8, 9

• X8 ∼ U11, 12, 13, 14

Os valores para β foram:

β = [β1 β2 β3 β4 β5 β6 β7 β8]T = [3 1, 5 − 0, 7 0 0 0 0 − 2]T .

Perceba que os coeficientes β4, β5, β6 e β7 sao iguais a zero, desta forma as covariaveis

associadas a estes coeficientes, ou seja, X4, X5, X6 e X7, nao deveriam ser relevantes ao

ajuste.

A Figura 5 exibe o histograma com os mil valores de probabilidades de sucesso geradas:

Figura 4: Histograma das Probabilidades dos Dados Simulados


As maiores concentracoes estao entre a classe de 0 a 0,1 e a de 0,9 a 1, e ainda

ha probabilidades espalhadas em menor quantidade nos outros intervalos. Com essas

probabilidades, foram geradas 1.000 amostras provenientes de uma distribuicao Bernoulli,

cada uma de tamanho 1.000. Desta forma cada metodo foi aplicado 1.000 vezes. Vale

ressaltar que para todos os metodos iterativos foi fixado o valor de 10.000 iteracoes e as

estimativas foram baseadas na media a posteriori dos valores simulados, retirada uma

amostra de aquecimento (burn-in) de tamanho 1.000.

O software R [27] possui um pacote disponıvel chamado MCMCpack que possui

uma funcao, MCMCLogit, que gera amostras de uma distribuicao a posteriori usando

um passeio aleatorio no algoritmo de Metropolis-Hastings, e estima, atraves dos valores

simulados, os coeficientes em um modelo de regressao logıstica. Nesta funcao tambem

e possıvel utilizar diferentes distribuicoes a priori para os coeficientes do modelo de

regressao logıstica. Neste metodo foram testadas tres distribuicoes a priori para o vetor

de coeficientes β: normal padrao, t-Student com 3 graus de liberdade e normal assimetrica

com o coeficiente de assimetria δ = 5. Com estas escolhas como distribuicoes a priori

para β, tem-se distribuicoes nao informativas. Desta forma as estimativas para β podem

assumir valores ao longo da reta. A figura 4.1 mostra as curvas de densidades destas tres

distribuicoes.

Figura 5: Distribuicoes a priori para β utilizadas nos algoritmos MCMC

Veja que as distribuicoes a priori estao distribuıdas ao longo da reta. Note que a

distribuicao normal assimetrica nao abrange os valores negativos da mesma forma que as

outras distribuicoes, porem espera-se que os algoritmos MCMC consigam se “esquecer”

de suas distribuicoes a priori.


Para a aplicacao do SSVS foi utilizada a funcao Logit.spike do pacote BoomSpikeSlab.

Para aplicacao desta funcao foram utilizados os valores padrao do pacote, pois de acordo

com Chipman et al (2001) [1] estes valores geralmente apresentam desempenhos melhores

e caracterizam uma distribuicao a priori nao informativa para β. Foi atribuida a priori

igual probabilidade para cada βj, ou seja, γ ∼ Bern (ρ = 0, 5) e para k foi atribuıdo vetor

de 0,01. Como dito antes, W e a matriz diagonal em que Wjj = probabilidade de sucesso∗(1 − probabilidade de sucesso) para cada um dos conjuntos simulados, desta forma para

cada conjunto simulado foi utilizado um W diferente com base na amostra observada.

Para b, que e o vetor de medias da distribuicao a priori de β, foi atribuıdo zero para

todas as coordenadas.

Nesta primeira parte do estudo foram testados tres metodos, o metodo classico da

maxima verossimilhanca, e os metodos bayesianos atraves da funcao MCMCLogit com

diferentes distribuicoes a priori, e o metodo do SSVS. O metodo do Lasso Bayesiano

sera visto mais a frente. A Tabela 1 mostra as estimativas para β baseada na primeira

replicacao para cada um dos metodos:

Tabela 1: Estimativa Maxima Verossimilhanca, via MCMC com diferentes distribuicoes

a priori e SSVS referente a primeira simulacao.

CoeficienteVerdadeiro

Valor

Maxima

Verossimilhanca

Normal

PadraoT-Student

Normal

AssimetricaSSVS

β1 3 3,0917 3,0890 3,1507 3,1870 3,1873

β2 1,5 1,2321 1,2512 1,2553 1,2518 1,2372

β3 -0,7 -0,5854 -0,5899 -0,5931 -0,5998 -0,5897

β4 0 -0,0423 -0,0398 -0,0387 -0,0477 0,0000

β5 0 0,0496 0,0533 0,0492 0,0539 -0,0001

β6 0 0,0171 0,0188 0,0162 0,0158 0,0000

β7 0 -0,0427 -0,0389 -0,0466 -0,0476 0,0000

β8 -2 -1,8224 -1,8491 -1,8604 -1,8552 -1,8413

As estimativas para a primeira replicacao em todos os metodos propostos na Tabela

1 ficaram bem proximas aos verdadeiros valores de β. Note que o metodo do SSVS

apresentou os valores mais proximos de zero para β4, β5, β6 e β7.

A Tabela 2 mostra a percentagem de vezes em que o verdadeiro valor dos parametros

estava contido nos percentis de 2, 5% e de 97, 5% estimados para o metodo da maxima

verossimilhanca, e a percentagem que estava contido nos intervalos de credibilidade de


maxima densidade a posteriori (do ingles Highest Posterior Density Interval (HPD)) de

95% nos metodos bayesianos:

Tabela 2: Percentagem de vezes que o verdadeiro valor do parametro esta contido no

intervalo estimado nos metodos de Maxima Verossimilhanca, via MCMC com diferentes

distribuicoes a priori e SSVS.

CoeficienteMaxima

Verossimilhanca

Normal

PadraoT-Student

Normal

AssimetricaSSVS

β1 94, 5% 93, 7% 93, 5% 93, 5% 95, 8%

β2 94, 4% 92, 7% 92, 4% 92, 1% 94, 3%

β3 94, 7% 93, 2% 92, 9% 92, 6% 94, 6%

β4 96, 5% 95, 0% 95, 3% 95, 1% 100, 0%

β5 95, 1% 92, 3% 92, 4% 92, 3% 100, 0%

β6 92, 9% 91, 7% 91, 9% 92, 7% 100, 0%

β7 94, 8% 93, 3% 92, 9% 92, 4% 100, 0%

β8 95, 4% 92, 9% 93, 1% 91, 9% 95, 8%

Os metodos aplicados tiveram comportamento bem semelhantes, porem o SSVS

apresentou um melhor desempenho novamente em relacao aos βj′s com valores nulos,

pois em todas as replicacoes os intervalos de credibilidade estimados continham o zero. A

Tabela 3 indica a frequencia dos intervalos que contem o valor zero:

Tabela 3: Percentagem de vezes que o valor zero esta contido no intervalo estimado nos

metodos de Estimativa Maxima Verossimilhanca, via MCMC com diferentes distribuicoes

a priori e SSVS.

CoeficienteMaxima

Verossimilhanca

Normal

PadraoT-Student

Normal

AssimetricaSSVS

β1 0, 0% 0, 0% 0, 0% 0, 0% 0, 001%∗

β2 0, 0% 0, 0% 0, 0% 0, 0% 0, 0%

β3 0, 0% 0, 0% 0, 0% 0, 0% 0, 0%

β4 96, 5% 95, 0% 95, 3% 95, 1% 100, 0%

β5 95, 1% 92, 3% 92, 4% 92, 3% 100, 0%

β6 92, 9% 91, 7% 91, 9% 92, 7% 100, 0%

β7 94, 8% 93, 3% 92, 9% 92, 4% 100, 0%

β8 0, 0% 0, 0% 0, 0% 0, 0% 0, 0%


Vale ressaltar que em * na Tabela 3 o limite inferior do intervalo de credibilidade

HPD para β1 em apenas uma unica replicacao era zero, desta forma foi contabilizado a

presenca do valor nulo neste intervalo.

Na Tabela 3 nota-se que os metodos aplicados nao indicam que as estimativas pontuais

diferentes de zero para β1, β2, β3 e β8 possam ser nulo, reforcando ainda mais a ideia de

que as covariaveis X2, X3 e X8 sao significativas nestes ajustes.

O teste de Wald apresentado na Secao 3.7.1 indica se o coeficiente βj, estimado

via maxima verossimilhanca, e significativo ou nao, ou seja, se aquele parametro e

estatisticamente igual a zero ou nao. A Tabela 4 mostra a nao rejeicao da hipotese nula

(βj = 0) do teste de Wald ao longo das replicacoes. Note que este teste nao acertou em

todas as repeticoes para os coeficientes que realmente possuem zero como verdadeiro valor,

apresentando alguns erros maiores que 5, 0% (que foi o nıvel de significancia utilizado),

porem o teste nao deixou de rejeitar esta hipotese nenhuma vez para os outros coeficientes

diferentes de zero. Sendo assim, o teste de Wald teve comportamento semelhante a

percentagem de vezes que o valor zero esteve contido no intervalo estimado nos metodos

de estimativa de maxima verossimilhanca, no ajuste bayesiano e no SSVS conforme pode

ser visto comparando as Tabelas 3 e 4.

Tabela 4: Proporcao de vezes em que a hipotese nula nao foi rejeitada no teste de Wald.

Coeficiente β1 β2 β3 β4 β5 β6 β7 β8

Verdadeiro valor 3 1,5 -0,7 0 0 0 0 -2

Teste de Wald 0% 0% 0% 96, 5% 95, 1% 93, 1% 94, 8% 0%

As Figuras 6 a 13 mostram os box-plots dos valores ajustados ao longo das replicacoes

para os metodos da maxima verossimilhanca e as estimativas calculadas atraves de

modelos bayesianos. Nos graficos foi tracada uma linha pontilhada preta para o verdadeiro

valor dos βj′s.


Figura 6: Box-Plot dos valores estimados para β1 dentre as replicacoes obtidas atraves

dos diferentes metodos.










Nos tres metodos aplicados as estimativas para todos os coeficientes ficaram bem

similares, alem disso, proximas aos verdadeiros valores. Para os βj′s = 0 as estimativas

tambem ficaram proximas de zero, porem o metodo do SSVS teve um destaque visto que

suas estimativas para os coeficientes nulos ficaram bem mais concentradas em torno de

zero.

O ultimo metodo aplicado e o Lasso Bayesiano discutido na Secao 3.8.2. Para isso foi

definido λ ∼ Gama(a = 0, 01; b = 0, 01), fazendo com que λ variancia grande( ab2

= 100)

,

caracterizando assim uma distribuicao a priori nao informativa. As estimativas para β

referente ao primeiro conjunto de dados estao na Tabela 5:


Tabela 5: Estimativa via Lasso Bayesiano referente a primeira simulacao.

Coeficiente β1 β2 β3 β4 β5 β6 β7 β8

Verdadeiro valor 3 1,5 -0,7 0 0 0 0 -2

Estimativa 3,0139 1,1840 -0,5466 - - - - -1,7673

O Lasso Bayesiano tambem apresentou estimativas bem proximas para a primeira

simulacao. Note que as estimativas para β4, β5, β6 e β7 foram consideradas nao

significativas e o pacote descartou estas estimativas. Dentre as 1.000 replicacoes deste

metodo, a funcao utilizada nao considerou as estimativas para β4, β5, β6 e β7, indicando

que as covariaveis X4, X5, X6 e X7 nao sao relevantes em nenhum dos ajustes. Com

isso, na aplicacao do Lasso Bayesiano, nao se torna relevante avaliar os intervalos de

credibilidade, visto que o metodo selecionou corretamente as covariaveis relevantes em

todas as simulacoes.

Para o metodo de maxima verossimilhanca e o da estimacao bayesiana usando

diferentes distribuicoes a priori, foram feitos tambem ajustes usando apenas as covariaveis

X1, X2, X3 e X8, que estao associadas aos βj 6= 0. Apos isto, foram calculados o AIC,

o BIC e o Teste de Razao de Verossimilhanca (TRV) para o metodo classico; o DIC e

o Teste de Razao de Chances a Posteriori (TRCP) para os metodos bayesianos. Estas

medidas foram calculadas para ambos ajustes, tanto o geral (com todas as covariaveis)

quanto o simples (apenas com X1, X2, X3, X8). Com isto, foi calculado qual o percentual

de vezes, dentre as 1.000 replicacoes, estas medidas selecionaram cada modelo (simples

ou geral). A Tabela 6 mostra os resultados:


Tabela 6: Medidas de Qualidade e Testes de Hipoteses para Estimativa de Maxima

Verossimilhanca e via MCMC com diferentes distribuicoes a priori.

CoeficienteMedida/

Teste

Modelo

Geral

Modelo

Simples

Estimativa Maxima Verossimilhanca AIC 10, 6% 89, 4%

Estimativa Maxima Verossimilhanca BIC 0% 100%

Estimativa Maxima Verossimilhanca TRV 5, 7% 94, 3%

Media a posteriori distribuicao Normal DIC 0% 100%

Media a posteriori distribuicao t-Student DIC 0% 100%

Media a posteriori distribuicao Normal Assimetrica DIC 0% 100%

Media a posteriori distribuicao Normal TRCP 1, 0% 99, 0%

Media a posteriori distribuicao t-Student TRCP 0, 5% 99, 5%

Media a posteriori distribuicao Normal Assimetrica TRCP 1, 3% 98, 7%

O AIC nao mostrou tanta eficiencia em escolher o modelo mais simples, pois errou

em 10, 6% das vezes. Porem o BIC e DIC se mostraram extremamente eficientes, pois em

nenhuma das 1.000 replicacoes selecionou o modelo geral.

Para o teste de Razao de Verossimilhanca, seu percentual de escolhas do modelo

geral, ou seja, o menos parcimonioso, e semelhante ao nıvel de significancia de 5, 0%, o

que era esperado. Apesar do teste de Razao de Chances a Posteriori nao possuir nıvel de

significancia, note que a percentagem de escolhas do modelo geral e bem menor do que

feita pelo teste de Razao de Verossimilhanca, indicando um melhor desempenho do teste

bayesiano em identificar o modelo mais parcimonioso.

Nas Figuras 14 a 17 estao os boxplots contento as estimativas para β no modelo

simples (somente com as covariaveis X1, X2, X3 e X8) dos metodos da maxima

verossimilhanca e via MCMC com diferentes distribuicoes a priori, juntamente com as

estimativas do Lasso Bayesiano, que apesar de ter sido feito com todas as covariaveis,

indicou as covariaveis X4, X5, X6 e X7 como irrelevantes e assim nao apresentou

estimativas para β4, β5, β6 e β7.

4.2 Aplicacao em Dados Reais 38



Todos os valores estao bem proximos do verdadeiro valor, representado pela linha

preta tracejada. A estimativa do Lasso Bayesiano ficou um pouco superior, porem vale

ressaltar que este ajuste foi feito com todas as covariaveis e se tratando de selecao de

variaveis este metodo teve exito.

4.2 Aplicacao em Dados Reais

A aplicacao em dados reais foi feita em um conjunto de dados de um banco alemao.

Este conjunto esta disponıvel no pacote Fahrmeir do software R. A base de dados possui

diversas informacoes dos clientes deste banco e com base nisso deseja-se modelar a

probabilidade de um cliente nao pagar um possıvel emprestimo. Esta base possui 1.000

observacoes, as variaveis disponıveis sao:

• Yi – Variavel resposta que indica se o cliente i e bom ou mau pagador.

• Risco da Conta – Indica se o cliente possui uma boa movimentacao (Bom func.),

ma movimentacao (Mau func.) ou nao utiliza a conta.

• Quant. parcelas – Duracao do emprestimo em meses, ou seja, quantidades de

parcelas a serem pagas.

• Hist. do cliente – Indica se o cliente possui um bom (Bom pagador) ou mau (Mau

pagador) historico de pagamento.

• Uso – Variavel que indica a finalidade do emprestimo, se e de uso profissional ou

privado.


• Valor – Valor do emprestimo.

• Sexo – Sexo do cliente (Feminino ou Masculino).

• Estado civil – Indica se o cliente vive sozinho ou nao.

Das 1.000 observacoes, 300 se tratam de maus clientes e 700 de bons clientes. Este

conjunto de dados tambem foi analisado por Tucher (2008) [30], porem ela acrescentou

variaveis fictıcias em seu estudo.

Foram feitos ajustes atraves dos metodos: da maxima verossimilhanca; estimacao

bayesiana usando diferentes distribuicoes a priori(normal padrao, t-Student com 3 graus

de liberdade e normal assimetrica com o coeficiente de assimetria δ = 5); com o SSVS; e

por ultimo, com o Lasso Bayesiano. Os hiperparametros utilizados no SSVS e no Lasso

Bayesiano foram os mesmos do estudo simulado. A Tabela 8 apresenta as estimativas

obtidas:

Tabela 7: Estimativas de Maxima Verossimilhanca, via MCMC com diferentes

distribuicoes a priori , SSVS e Lasso Bayesiano.

CoeficienteMaxima

Verossimilhanca

Normal

PadraoT-Student

Normal

AssimetricaSSVS

Lasso

Bayesiano

Intercepto -1,1780 -1,1750 -1,1750 -1,1830 -1,1921 -1,0909

Risco da conta

Bom func. -1,9520 -1,9770 -1,9560 -1,9860 -1,7026 -1,6379

Mau func. -0,6346 -0,6442 -0,6405 -0,6466 -0,0925 -

Quant. parcelas 0,0350 0,0350 0,0351 0,0353 0,0364 0,0345

Hist. do cliente

Mau pagador 0,9884 1,0200 0,9803 1,0110 0,8648 -

Uso

Profissional 0,4744 0,4699 0,4718 0,4850 0,0097 -

Valor 0,0000 0,0000 0,0000 0,0000 0,0000 -

Sexo

Masculino -0,2235 -0,2361 -0,2410 -0,2277 -0,0038 -

Estado civil

Vive sozinho 0,3854 0,3666 0,3733 0,3717 0,0394 -

Note que os quatro primeiros ajustes apresentaram estimativas bem proximas. O

SSVS apresentou diferencas nas variaveis que indicam o uso do emprestimo, o sexo e o


estado civil, estimando um coeficiente bem menor que os metodos anteriores, indicando

a possıvel irrelevancia destas covariaveis.

O metodo do Lasso selecionou ainda menos covariaveis, indicando que apenas duas,

sendo o bom funcionamento da conta e a duracao do emprestimo, sao relevantes para o

modelo. Na elaboracao do BLasso-NEG Huang et al.(2013) [26] atribuem uma distribuicao

a priori Gama(a, b) para λ e pelas propriedades da distribuicao Gama, a e b devem ser

maiores que zero. Porem mostram que utilizando uma distribuicao impropria para λ,

aplicando −1, 5 < α ≤ 0, a estimacao dos parametros apresentam melhores resultados.

Aplicando a = −0, 8 e b = 0, 1, obtem-se o seguinte resultado:

Tabela 8: Estimativas atraves do Lasso Bayesiano utilizando uma distribuicao a priori

impropria para λ

Lasso

Bayesiano

Intercepto -1,2801

Risco da conta

Bom func. -1,8648

Mau func. -0,5231

Quant. parcelas 0,0368

Hist. do cliente

Mau pagador 0,9086

Uso

Profissional 0,3804

Valor -

Sexo

Masculino -

Estado civil

Vive sozinho 0,4487

Assim foram estimados parametros mais distantes de zero, como foi o caso da variavel

historico do cliente, que tinha sido considerada irrelevante com os parametros anteriores.

A Tabela 9 apresenta o Teste de Wald para os parametros:


Tabela 9: Teste de Wald aplicado aos dados reais

CoeficienteMaxima

VerossimilhancaP-Valor

Intercepto -1,1780 0,0000

Fator de risco da conta

Bom funcionamento -1,9520 < 2e− 16

Mau funcionamento -0,6346 0,0003

Quant. parcelas (meses) 0,0350 0,0000

Historico do cliente

Mal pagador 0,9884 0,0000

Uso do emprestimo

Profissional 0,4744 0,0031

Valor do emprestimo 0,0000 0,3309

Sexo

Masculino -0,2235 0,3115

Estado civil

Vive sozinho 0,3854 0,0789

Usando o nıvel de significancia de 0, 05% o teste nao rejeitou a hipotese nula para o

valor do emprestimo, para o sexo e para o estado civil, indicando que essas covariaveis

sao estatisticamente insignificantes no ajuste. Note que os valores estimados para estes

parametros nem sempre foram proximos de zero. Estas mesmas variaveis ja tinham sido

excluıdas do ajuste feito atraves do Lasso e o SSVS estimou valores bem proximos de zero

para os parametros associados.

42

5 Conclusao

Este trabalho tinha por objetivo avaliar os diferentes metodos de selecao de variaveis

bayesianos aplicados ao modelo de regressao logıstica. Foram aplicados dois metodos:

Selecao de Variaveis via Busca Estocastica (SSVS) e Operacao de Selecao e Contracao

com Penalidade em Valor Absoluto (Lasso).

Os metodos de selecao de variaveis bayesianos sao uma otima saıda quando nos

deparamos com um numero grande de variaveis explicativas, pois sao mais praticos, nao

sendo necessario realizar todos os possıveis ajustes para decidir posteriormente qual o

mais parcimonioso.

No exercıcio de simulacao apresentado na Secao 4.1, pudemos perceber que as

estimativas encontradas atraves da maxima verossimilhanca e as estimativas encontradas

atraves dos modelos propostos para a regressao logıstica usando diferentes distribuicoes a

priori e modelos hierarquicos, sao bem proximas. O fato de utilizar diferentes distribuicoes

a priori para β mostra que a estimacao bayesiana nao foi sensıvel em relacao a escolha

destas distribuicoes.

Tanto o metodo da maxima verossimilhanca quanto o metodo bayesiano encontraram

estimativas bem proximas de zero para β4, β5, β6 e β7 o que era desejado, pois

seus valores reais eram zero para todos estes coeficientes. Porem o metodo SSVS

apresentou estimativas para estes βj′s bem mais concentradas em zero, e seus intervalos

de credibilidade para as 1.000 replicacoes reforcavam o fato das covariaveis X4, X5, X6

e X7 nao serem relevantes no ajuste. O metodo do Lasso Bayesiano tambem apresentou

vantagens, indicando que as covariaveis X4, X5, X6 e X7 tambem eram irrelevantes no

ajuste.

Em relacao ao metodo classico, o AIC indicou uma percentagem de erros mais alta

do que o BIC, que escolheu em todas as 1.000 replicacoes, o modelo simples. Em relacao

ao metodo bayesiano, o DIC teve desempenho identico ao BIC, escolhendo em todas as

1.000 replicacoes o modelo mais simples.

5 Conclusao 43

O teste de Razao de Chances a Posteriori se mostrou extremamente efetivo na escolha

do ajuste com as variaveis relevantes, diferente do teste de Razao de Verossimilhanca, que

em 5, 7% das 1.000 replicacoes escolheu o modelo geral.

A aplicacao em dados reais mostrou que o metodo do Lasso e do SSVS conseguiram

indicar a irrelevancia de determinadas covariaveis a partir das estimativas dos parametros.

Ja no metodo da maxima verossimilhanca foi necessario realizar o teste de Wald para

poder verificar a relevancia das variaveis estudadas.

44

Referencias

[1] CHIPMAN, H. A.; GEORGE, E.; MCCULLOCH, R. The practical implementation ofbayesian model selection. Model Selection IMS Lecture Notes -Monograph Series, v. 38,01 2001.

[2] SANTOS, A. M. dos et al. Usando redes neurais artificiais e regressao logıstica napredicao da hepatite a. Revista Brasileira de Epidemiologia, v. 8, n. 2, p. 117–126,2005.

[3] DAMIANI, A. P. et al. Curso-R:Regressao Logıstica em: A menor Deep Learningdo Mundo. 2018. Disponıvel em: <https://www.curso-r.com/blog/2017-07-29-segundo-menor-dl/>.

[4] TIBSHIRANI, R. Regression shrinkage and selection via the lasso. Journal of theRoyal Statistical Society (Series B), v. 58, p. 267–288, 1996.

[5] CASELLA, G.; BERGER, R. Statistical Inference. [S.l.]: Thomson Learning, 2002.(Duxbury advanced series in statistics and decision sciences).

[6] MIGON, H.; GAMERMAN, D.; LOUZADA, F. Statistical Inference: An IntegratedApproach, Second Edition. [S.l.]: Taylor & Francis, 2014. (Chapman & Hall/CRC Textsin Statistical Science).

[7] NELDER, J. A.; WEDDERBURN, R. W. M. Generalized linear models. Journal ofthe Royal Statistical Society. Series A (General), [Royal Statistical Society, Wiley],v. 135, n. 3, p. 370–384, 1972.

[8] HOSMER, D. W.; LEMESHOW, S. Applied logistic regression (Wiley Series inprobability and statistics). 2. ed. [S.l.]: Wiley-Interscience Publication, 2000.

[9] DOBSON, A. J. Book. An introduction to generalized linear models / Annette J.Dobson. 2nd ed.. ed. [S.l.]: Chapman & Hall/CRC Boca Raton, 2002.

[10] NETER, J. et al. Applied Linear Statistical Models. [S.l.]: Irwin, 1996.

[11] METROPOLIS, N. et al. Equation of state calculations by fast computing machines.Journal of Chemical Physics, v. 21, n. 6, p. 1087–1092, 1953.

[12] HASTINGS, W. K. Monte Carlo sampling methods using Markov chains and theirapplications. Biometrika, v. 57, p. 97–109, 1970.

[13] GEMAN, S.; GEMAN, D. Stochastic relaxation, Gibbs distribution and theBayesian restoration of images. IEEE Transactions on Pattern Analysis and MachineIntelligence, n. 6, p. 721–741, 1990.

Referencias 45

[14] GELFAND, A. E.; SMITH, A. F. M. Sampling-based approaches to calculatingmarginal densities. Journal of the American Statistical Association, v. 85, n. 410, p.398–409, 1990.

[15] GAMERMAN, D.; LOPES, H. Markov Chain Monte Carlo: Stochastic Simulationfor Bayesian Inference, Second Edition. [S.l.]: Taylor & Francis, 2006. (Chapman &Hall/CRC Texts in Statistical Science).

[16] BOZDOGAN, H. Model selection and akaike’s information criterion (aic): Thegeneral theory and its analytical extensions. Psychometrika, v. 52, n. 3, p. 345–370,1987.

[17] HIROTUGU, A. Factor analysis and aic. Psychometrika, v. 52, n. 3, p. 317–332,1987.

[18] SCHWARZ, G. et al. Estimating the dimension of a model. The annals of statistics,v. 6, n. 2, p. 461–464, 1978.

[19] SPIEGELHALTER, D. J. et al. Bayesian measures of model complexity and fit.Journal of the Royal Statistical Society: Series B (Statistical Methodology), WileyOnline Library, v. 64, n. 4, p. 583–639, 2002.

[20] GREENLAND, S. et al. Statistical tests, p values, confidence intervals, and power: aguide to misinterpretations. European Journal of Epidemiology, v. 31, n. 4, p. 337–350,Apr 2016.

[21] JR., W. W. H.; DONNER, A. Wald’s test as applied to hypotheses in logit analysis.Journal of the American Statistical Association, Taylor & Francis, v. 72, n. 360a, p.851–853, 1977.

[22] KUO, L.; MALLICK, B. Variable selection for regression models. Sankhya: TheIndian Journal of Statistics, Series B (1960-2002), Springer, v. 60, n. 1, p. 65–81,1998.

[23] CARLIN, B. P.; CHIB, S. Bayesian model choice via markov chain monte carlomethods. Journal of the Royal Statistical Society. Series B (Methodological), [RoyalStatistical Society, Wiley], v. 57, n. 3, p. 473–484, 1995.

[24] DELLAPORTAS, P.; FORSTER, J. J.; NTZOUFRAS, I. On bayesian model andvariable selection using mcmc. Statistics and Computing, v. 12, n. 1, p. 27–36, Jan2002.

[25] GEORGE, E. I.; MCCULLOCH, R. E. Variable selection via gibbs sampling. Journalof the American Statistical Association, Taylor & Francis, v. 88, n. 423, p. 881–889,1993.

[26] HUANG, A.; XU, S.; CAI, X. Empirical bayesian lasso-logistic regression for multiplebinary trait locus mapping. BMC Genetics, v. 14, n. 1, p. 5, Feb 2013.

[27] R Development Core Team. R: A Language and Environment for StatisticalComputing. Vienna, Austria, 2009. ISBN 3-900051-07-0. Disponıvel em:<http://www.R-project.org>.

Referencias 46

[28] PARK, T.; CASELLA, G. The Bayesian Lasso. Journal of the American StatisticalAssociation, v. 103, n. 482, p. 681–686, jun. 2008.

[29] LI, Q.; XI, R.; LIN, N. Bayesian regularized quantile regression. Bayesian Anal.,International Society for Bayesian Analysis, v. 5, n. 3, p. 533–556, 09 2010.

[30] TUCHLER, R. Bayesian variable selection for logistic models using auxiliary mixturesampling. Journal of Computational and Graphical Statistics, Taylor & Francis, v. 17,n. 1, p. 76–94, 2008.

[31] CELEUX, G. et al. Deviance information criteria for missing data models. BayesianAnal., International Society for Bayesian Analysis, v. 1, n. 4, p. 651–673, 12 2006.

[32] PAWITAN, Y. In All Likelihood: Statistical Modelling and Inference UsingLikelihood. [S.l.]: OUP Oxford, 2001. (Oxford science publications).

[33] TIBSHIRANI, R. et al. Sparsity and smoothness via the fused lasso. Journal of theRoyal Statistical Society Series B, p. 91–108, 2005.

[34] MEIER, L.; GEER, S. V. D.; BuHLMANN, P. The group lasso for logistic regression.Journal of the Royal Statistical Society: Series B (Statistical Methodology), v. 70, n. 1,p. 53–71.

[35] AGRESTI, A. Categorical data analysis. [S.l.]: Wiley, 1990. XV, 558 S. p. (A Wiley-Interscience publication).

[36] GEORGE, E. I.; MCCULLOCH, R. E. Approaches for bayesian variable selection.Statistica Sinica, p. 339–374, 1997.

Download - Sele˘c~ao de Vari aveis em Modelos de Regress~ao Log stica

Top Related