testes estatísticos e algoritmos sequenciais

Upload: tcasual

Post on 06-Jul-2018

223 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    1/23

    Uma estatística de teste para a comparaçãomodelo/submodelo

    A estatística de teste envolve a comparação das Somas deQuadrados Residuais do Modelo completo (daqui em diantereferenciado pelo índice C ) e do submodelo (referenciado pelo índiceS ), bem como dos respectivos graus de liberdade.Vamos admitir que o submodelo tem  k  preditores (k  + 1 parâmetros):

    F   =  (SQRE S −SQRE C )/(p −k )

    SQRE C /[n − (p +1)]  ∩   F p −k ,n −(p +1)  ,

    se fôr verdade H 0   :  β  j  = 0, para qualquer variável x  j  que não pertençaao submodelo.

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 147 / 182

    http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    2/23

    O teste a um submodelo (teste  F  parcial)

    Teste F  de comparação de um modelo com um seu submodelo

    Dado o Modelo de Regressão Linear Múltipla,Hipóteses:

    H 0   :   β  j  = 0 , ∀ j   /∈S     vs.   H 1   :   ∃ j   /∈S     tal que   β  j  = 0.

    Estatística do Teste:

    F   =  (SQRE S −SQRE C )/(p −k )

    SQRE C /[n −(p +1)]   ∩   F p −k ,n −(p +1), sob H 0.Nível de significância do teste:   γ 

    Região Crítica (Região de Rejeição): Unilateral direita

    Rejeitar H 0 se F calc  >  f γ [p −k  ,n −(p +1)]

    0 1 2 3 4

       0 .

       0

       0 .   1

       0 .   2

       0 .

       3

       0 .   4

       0 .   5

       0 .

       6

       0 .

       7

    x

       d   f   (  x ,

       4 ,

       1   6   )

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 148 / 182

    http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    3/23

    Expressão alternativa para a estatística do teste F parcialA estatística do teste F  de comparação de um modelo completo com

    p  preditores, e um seu submodelo com apenas k  preditores pode serescrita na forma alternativa:

    F   =  n − (p +1)

    p −k   ·

     R 2C −R 2S 

    1−R 2C 

    .

    As hipóteses do teste também se podem escrever como

    H 0 :  R 2C  =  R 

    2S    vs.   H 1 :  R 

    2C  >  R 

    2S   ,

    A hipótese H 0 indica que o grau de relacionamento linear entre  Y  e oconjunto dos preditores é idêntico no modelo e no submodelo. Casonão se rejeite H 0, é de preferir o submodelo, por ser maisparcimonioso. Caso se rejeite H 0, é de preferir o modelo completo,que se ajusta significativamente melhor.

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 149 / 182

    http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    4/23

    O teste a submodelos noA informação necessária para um teste F  parcial, comparando ummodelo de regressão linear múltipla e um seu submodelo, pode

    obter-se no , através da função  

      , com dois argumentos: osobjectos  

      produzidos ao ajustar o modelo completo e o submodelosob comparação.

    Nos exemplos dos lírios (acetatos 44 e 126), temos:

     

     

     

     

     

     

     

     

     

     

     

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 150 / 182

    http://-/?-http://-/?-http://-/?-http://-/?-http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    5/23

    Relação entre os testes-t  e o teste F  parcial

    No caso de o modelo e submodelo diferirem numa única variável, ouseja, caso o conjunto S   dos índices das variáveis no submodelo tenhap −1 índices, excluíndo apenas um índice  i  ∈ {1,...,p }, então o teste F parcial descrito nos acetatos anteriores é equivalente ao teste t descrito no acetato (128), com as hipóteses H 0   :  β i  = 0 vs.  H 1   :  β i  = 0.

    Não apenas as hipóteses dos dois testes são iguais, como aestatística do teste F  parcial é, nesse caso, o quadrado da estatísticado teste t  referido. Tem-se p −k  = 1, e como é sabido (ver osapontamentos da disciplina de Estatística dos primeiros ciclos do ISA),

    se uma variável aleatória T  tem distribuição t ν , então o seu quadrado,T 2 tem distribuição F 1,ν .

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 151 / 182

    http://-/?-http://-/?-http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    6/23

    Como escolher um submodelo?

    O teste F  parcial (teste aos modelos encaixados) permite-nos optarentre um modelo e um seu submodelo, que apenas use umsubconjunto de preditores. Por vezes, um submodelo pode sersugerido por:

    razões de índole teórica, sugerindo que determinadas variáveis

    preditoras não sejam, na realidade, importantes para influenciaros valores de Y .

    razões de índole prática, como a dificuldade, custo ou volume detrabalho associado à recolha de observações para determinadasvariáveis preditoras.

    Nestes casos, pode ser claro qual o(s) submodelo(s) que se desejatestar.

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 152 / 182

    http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    7/23

    Como escolher um submodelo? (cont.)Mas em muitas situações, não é claro qual o subconjunto de variáveispreditoras que se deseja considerar no submodelo. Pretende-se

    apenas ver se o modelo é simplificável, sem qualquer inclinação porqualquer dos submodelos possíveis. Nestes casos, a opção por umsubmodelo não é um problema fácil.

    Dadas p  variáveis preditoras, o número de subconjuntos, de qualquer

    cardinalidade, excepto 0 (conjunto vazio) e p  (o modelo completo) queé possível escolher é dado por 2p −2. A tabela seguinte indica onúmero desses subconjuntos para p  = 5,10,15,20.

    p    2p −2

    5 3010 1 02215 32 76620 1 048 574

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 153 / 182

    http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    8/23

    A necessidade de algoritmos de selecção desubmodelos

    Para valores de p  pequenos, é possível analisar todos os possíveissubconjuntos. Mas para p  médio ou grande, essa análise completa éinviável.

    Também não é legítimo olhar para o ajustamento do modelo completoe, com base nos testes  t  à significância de cada coeficiente β i , optarpela exclusão de várias variáveis preditoras em simultâneo: os testest  aos coeficientes β  são feitos partindo do princípio que todas as

    restantes variáveis pertencem ao modelo.

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 154 / 182

    http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    9/23

    Um exemploNos dados relativos ao Exercício 2 (RLM) das aulas práticas, a tabelaassociada à regressão da variável  Brix  sobre todas as restantes é:

     

     

     

     

     

     

     

    Mas não é legítimo concluir que Altura , Peso  e  pH  são dispensáveis.

     

     

     

     

     

     

     

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 155 / 182

    http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    10/23

    Algoritmos de pesquisa sequenciais

    A fim de procurar simplificar um modelo de regressão linear múltipla,sem precisar de analisar todo os possíveis submodelos, vamosconsiderar uma classe de algoritmos de pesquisa. Em particular,vamos considerar algoritmos em que, iterativamente se exclui ou inclui

    uma nova variável preditora, até alcançar uma condição de paragemconsiderada adequada. Veremos:

    O algoritmo de exclusão sequencial (backward elimination ).

    O algoritmo de inclusão sequencial (forward selection ).

    Algoritmos de exclusão/inclusão alternada (stepwise selection ).

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 156 / 182

    http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    11/23

    O algoritmo de exclusão sequencial

    O tradicional algoritmo de exclusão sequencial consiste em:1

    ajustar o modelo completo, com os p  preditores;2 verificar se existe alguma variável cujo coeficiente  β i  não difirasignificativamente de zero. Em caso negativo, passar ao pontoseguinte. Em caso afirmativo, qualquer dessas variáveis écandidata a sair do modelo.

    1

      se apenas existe uma candidata a sair, excluir essa variável;2   se existir mais do que uma variável candidata a sair, excluir avariável associada ao maior  p-value  (isto é, ao valor da estatística  t mais próxima de zero)

    Em qualquer caso, reajustar o modelo após a exclusão da

    variável e repetir este ponto3 Quando não existirem variáveis candidatas a sair, ou quando

    sobrar um único preditor, o algoritmo pára. Tem-se então omodelo final.

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 157 / 182

    http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    12/23

    Um exemplo – Exercício 2 (RLM)  

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    Pode ser aconselhável comparar o submodelo final com o modelo

    completo, através de um teste  F  parcial.J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 158 / 182

    http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    13/23

    O algoritmo de inclusão sequencial

    No algoritmo de inclusão sequencial (forward selection ) procede-se deforma essencialmente análoga, mas começando por um modelo comum único preditor e, sequencialmente, acrescentando uma variável emcada passo do algoritmo, até se alcançar uma condição de paragem.Este algoritmo é computacionalmente mais exigente, uma vez que, emcada passo, será necessário ajustar tantos submodelos quantas as

    variáveis que ainda não foram incluídas no submodelo.O submodelo inicial é uma regressão linear simples, da variávelresposta sobre o preditor para o qual o modelo se ajusta melhor, istoé, a regressão linear simples com o valor mais elevado de coeficiente

    de determinação R 2

    (logo, com a estatística  F  mais significativa). Épossível identificar esse submodelo inicial a partir da matriz decorrelações das p +1 variáveis (resposta e preditores), escolhendo avariável preditora cuja correlação com  Y  é, em módulo, mais elevada.

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 159 / 182

    http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    14/23

    O algoritmo de inclusão sequencial (cont.)1 ajustar o modelo de regressão linear simples, com a variável

    preditora mais fortemente correlacionada com  Y ;

    2 ajustar os submodelos constituídos pela(s) variável(is)preditora(s) já incorporadas, e mais um preditor de entre os queainda não foram incluídos no submodelo;

    3 verificar se nalgum dos submodelos assim criados, a variável cujainclusão se ensaiou tem coeficiente β i  que difira

    significativamente de zero. Em caso negativo, passar ao pontoseguinte. Em caso afirmativo, qualquer dessas variáveis écandidata a entrar no modelo.

    1   se apenas existe uma candidata a entrar, incluir essa variável;2   se existir mais do que uma variável candidata a entrar, incluir a

    variável associada ao menor p-value  (isto é, ao valor da estatísticat  mais longe de zero)

    Reajustar o modelo com a nova variável e repetir este ponto.4 Quando não existirem variáveis candidatas a entrar, o algoritmo

    pára. Tem-se então o modelo final.

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 160 / 182

    http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    15/23

    Um exemplo de inclusão sequencial

    Novamente para o Exercício 2 da Regressão Linear Múltipla:

     

     

     

     

     

     

     

     

    O submodelo inicial é a regressão linear entre  Brix  e Acucar .O passo seguinte consiste em ajustar quatro modelos com 2 variáveis

    preditoras: (i) Acucar  e Diametro ; (ii) Acucar  e Altura ; (iii) Acucar  ePeso ; (iv) Acucar  e pH . Para cada modelo, haverá que ver asignificância (p-value ) associada à variável que acompanha Acucar .

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 161 / 182

    E l d i l i l ( )

    http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    16/23

    Exemplo de inclusão sequencial (cont.)

    As linhas relevantes nas tabelas dos 4 novos modelos são:

     

     

     

     

     

     

     

     

     

    Como nenhuma das novas variáveis é candidata a entrar, o algoritmotermina, produzindo o modelo final de  Brix  sobre Acucar .

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 162 / 182

    Ai d l

    http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    17/23

    Ainda o exemplo

    O exemplo anterior ilustra um facto importante: cada algoritmo podeproduzir submodelos diferentes. E a natureza sequencial dasexclusões/inclusões pode levar a que uma variável importante sejaexcluída (ou incluída) logo de início, mesmo que mais tarde se viessea revelar muito (pouco) útil.

    O terceiro tipo de algoritmo procura responder a estes perigos,alternando passos de um e outro tipo (exclusão/inclusão).

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 163 / 182

    O l it d l ã /i l ã lt d

    http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    18/23

    Os algoritmos de exclusão/inclusão alternadas

    É necessário definir uma direcção de marcha (exclusão ou inclusão).Caso se opte por uma direcção de exclusão,

    inicia-se o procedimento com o modelo completo, e dá-se um parde passos no sentido da exclusão.

    Em seguida ensaia-se a inclusão de cada uma das variáveisentretanto excluídas, para ver se se justifica recuperar alguma

    variável que tivesse sido excluída em passos anteriores.tenha ou não havido inclusão de uma variável no passo anterior,procede-se a um novo passo de tipo exclusão, que será seguidode nova tentativa de inclusão.

    O algoritmo termina quando não há nem variáveis candidatas asair, nem variáveis candidatas a entrar.

    No caso de uma direcção de marcha de inclusão, inverte-se oprocedimento.

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 164 / 182

    Al it i i b AIC

    http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    19/23

    Algoritmos sequenciais com base no AIC

    O programa disponibiliza funções para automatizar pesquisas

    sequenciais de submodelos, semelhantes aos que aqui foramenunciados, mas em que o critério de inclusão ou exclusão de umavariável em cada passo se baseia no Critério de Informação de Akaike(AIC). O AIC é uma medida geral da qualidade de ajustamento demodelos. No contexto de uma Regressão Linear Múltipla, baseada emk  variáveis preditoras, pode definir-se como

    AIC   =   n · log

    SQRE k n 

    +2(k  +1) .

    Um modelo para a variável resposta Y  é considerado melhor queoutro se tiver um AIC mais baixo (o que favorece modelos com  SQRE menor, mas também com menos parâmetros).

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 165 / 182

    Algoritmos seq enciais com base no AIC (cont )

    http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    20/23

    Algoritmos sequenciais com base no AIC (cont.)

    Nos modelos de exclusão e/ou inclusão sequencial, cada passo podeser efectuado com base no critério AIC. Assim, por exemplo, umalgoritmo de exclusão sequencial pode consistir em

    ajustar o modelo completo e calcular o respectivo AIC.

    ajustar cada modelo com menos uma variável e calcular o

    respectivo AIC.Se nenhum dos AICs obtidos excluindo uma variável fôr inferiorao AIC do modelo anterior, o algoritmo termina sendo o modeloanterior o modelo final. Caso alguma das exclusões reduza o

    AIC, efectua-se a exclusão que maior redução no AIC provoca eregressa-se ao ponto anterior.

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 166 / 182

    Algoritmos sequenciais com base no AIC (cont )

    http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    21/23

    Algoritmos sequenciais com base no AIC (cont.)

    Em cada passo de exclusão, o submodelo com menor AIC será

    aquele que tiver excluído a variável cujo teste a β i  dá menorsignificância (maior p-value ), ou seja, aquele que provocar menoraumento no SQRE .Assim, o procedimento de exclusão sequencial baseado nos testes t ou no AIC coincidem na ordem das variáveis a excluir, podendo diferirapenas no critério de paragem.

    Em geral, as diferenças entre os dois critérios envolvem aconsideração de submodelos com número diferente de variáveis,

    como por exemplo, quando se admitem quer exclusões, querinclusões, de variáveis, ou quando se pondera se ficar com o modeloactual é preferível a efectuar uma exclusão (ou inclusão).

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 167 / 182

    http://-/?-http://-/?-

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    22/23

    Uma palavra final sobre algoritmos de pesquisa

  • 8/17/2019 Testes estatísticos e algoritmos sequenciais

    23/23

    Uma palavra final sobre algoritmos de pesquisa

    Nenhum destes algoritmos de pesquisa sequencial garante aidentificação do “melhor submodelo”. Apenas identificam, de formaque não é computacionalmente muito pesada, submodelos que sepresume serem “bons”.

    Devem ser usados com bom senso e cruzados com outrasconsiderações (como por exemplo, o custo ou dificuldade de obtençãode cada variável, ou o papel que a teoria relativa ao problema emquestão reserva a cada preditor).

    J. Cadima/P. Silva (DM/ISA)   Matemática e Estatística   2008-09 169 / 182

    http://-/?-http://-/?-