engenharia de processos e sistemasnuno/eps/conteudos/aula15/eps_rlm.pdfpressuposto para fazer...
TRANSCRIPT
![Page 1: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/1.jpg)
Marco Reis:2014 ©
Modelação matemática de base estatística/empírica:
Construção de modelos empíricos usando
metodologias de regressão linear
I
Engenharia de Processos e Sistemas
![Page 2: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/2.jpg)
Construção de modelos empíricos
usando metodologias de regressão
linear
![Page 3: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/3.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
3
Objectivos:
• Identificar a componente estrutural/determinística e aleatória/estocástica do
modelo de RL;
• Compreender o que é um modelo de RL e o seu âmbito de aplicação;
• Perceber como se estimam os parâmetros de um modelo de RL e saber quais os
pressupostos subjacentes ao modelo estimado;
• Interpretar os IC para os coeficientes do modelo (parte estrutural);
• Interpretar os IC para a resposta média e de previsão;
• Saber como validar um modelo de RL;
• Compreender a origem do problema da colinearidade e como o diagnosticar;
• Saber os passos a seguir na construção de uma modelo de RL
• Distinguir os vários métodos de selecção de variáveis
![Page 4: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/4.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
4
Metodologias de Modelação
Processo Genérico
Variáveis
associadas ao
que entra no
processo (x’s)
Variáveis
associadas ao
que sai do
processo (y’s)
Variáveis ligadas a
parâmetros do processo (x’s)
Objectivo: construir um modelo que relacione as variáveis de entrada (x’s) com as de saída (y’s).
X’s “Inputs” Predictores Regressores Variáveis de entrada Variáveis independentes
Y’s “Outputs” Respostas
Variáveis de saída Variáveis dependentes
![Page 5: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/5.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
5
Metodologias de Modelação
LC
TC
F0, T0, CA0
F, T, CA
Fcj, Tcj,0
Fcj, Tcj
LC
TC
F0, T0, CA0
F, T, CA
Fcj, Tcj,0
Fcj, Tcj
0
dVF F
dt
/
0 0 0
E RTAA A A
dVCF C FC k e C V
dt
/
0 0 0 ( )E RT
A cj
p p
dVT H UAF T FT k e C V T T
dt C C
,0
,
( ) ( )cj cj
cj cj cj cj
j p cj
dV T UAF T T T T
dt C
2set c setF F K V V
, 1cj cj set c setF F K T T
X
Y
x
E(Y|x)
X
Y
x
E(Y|x)
Modelos baseados em primeiros princípios → Estrutura completamente definida
“Knowledge intensive” “Data intensive”
Modelos empíricos → Algumas restrições quanto à estrutura do modelo
Modelos baseados em dados
→ muito poucas hipóteses são colocadas
quanto à estrutura do modelo
![Page 6: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/6.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
6
“The curse of dimensionality”
1D: Com N pontos, consegue-se a seguinte taxa de
amostragem, numa linha de comprimento L:
1 2 3 … … N
0 L
NTA
L
![Page 7: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/7.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
7
“The curse of dimensionality”
2D: Com N pontos, consegue-se a seguinte taxa de
amostragem, num quadrado de lado L:
2
NTA
L
Para garantir igual cobertura, ter-se-ia
de usar N2 pontos
![Page 8: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/8.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
8
“The curse of dimensionality”
3D: Com N pontos, consegue-se a seguinte taxa de
amostragem, num cubo de lado L:
3
NTA
L
Para garantir igual cobertura, ter-se-ia
de usar N3 pontos
![Page 9: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/9.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
9
“The curse of dimensionality”
m-D: Com N pontos, consegue-se a seguinte taxa de
amostragem, num hipercubo de lado L:
m
NTA
L
Para garantir igual cobertura, ter-se-ia de usar
Nm pontos
![Page 10: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/10.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
10
Metodologias de Modelação
Utilidade dos modelos:
Previsão de valores futuros de uma variável de
saída;
Medição do efeito associado a mudanças
processuais;
Controlo e/ou monitorização do processo;
Optimização do processo;
…
![Page 11: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/11.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
11
Regressão (Previsão):
As saídas do modelo são variáveis quantitativas;
Classificação:
As saídas do modelo são variáveis qualitativas
(classes ou categorias)
Qualidade do produto (Mau, Intermédio, Bom);
Reconhecimento de caracteres (padrões);
…
Regressão (Previsão) vs Classificação
![Page 12: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/12.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
12
Observ. X1 X2 X3 X4
1 0,165 0,11 0,075 0,053
2 0,178 0,14 0,105 0,077
3 0,102 0,089 0,068 0,048
4 0,191 0,107 0,06 0,046
5 0,239 0,146 0,094 0,067
6 0,178 0,115 0,078 0,056
7 0,193 0,089 0,041 0,03
8 0,164 0,113 0,078 0,056
9 0,129 0,098 0,074 0,057
10 0,193 0,134 0,093 0,066
11 0,154 0,071 0,03 0,016
12 0,065 0,053 0,036 0,025
13 0,144 0,078 0,043 0,028
14 0,138 0,118 0,093 0,063
15 0,219 0,145 0,101 0,07
Observ. Y
1 0,456
2 0,456
3 0,152
4 0,76
5 0,76
6 0,608
7 0,76
8 0,456
9 0,304
10 0,608
11 0,608
12 0,152
13 0,608
14 0,304
15 0,76
Regressão (Previsão) Treino do modelo vs Teste do modelo
Modelo
(β0, β1,…, βm,σ2) X Y
Observ. X1 X2 X3 X4
16 0,146 0,17 0,134 0,103
17 0,128 0,144 0,125 0,101
18 0,107 0,105 0,102 0,081
19 0,146 0,174 0,136 0,099
20 0,105 0,126 0,094 0,068
21 0,152 0,205 0,128 0,081
23 0,139 0,207 0,109 0,057
24 0,108 0,162 0,082 0,04
25 0,12 0,187 0,083 0,038
^ ^ ^ ^ I. Treino/Estimação
Xnew
Modelo
(β0, β1,…, βm,σ2) ?
^ ^ ^ ^ II. Teste/Previsão
![Page 13: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/13.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
13
Observ. C
1 A
2 A
3 B
4 A
5 B
6 B
7 A
8 A
9 B
10 B
11 B
12 A
13 B
14 A
15 A
Observ. X1 X2 X3 X4
1 0,165 0,11 0,075 0,053
2 0,178 0,14 0,105 0,077
3 0,102 0,089 0,068 0,048
4 0,191 0,107 0,06 0,046
5 0,239 0,146 0,094 0,067
6 0,178 0,115 0,078 0,056
7 0,193 0,089 0,041 0,03
8 0,164 0,113 0,078 0,056
9 0,129 0,098 0,074 0,057
10 0,193 0,134 0,093 0,066
11 0,154 0,071 0,03 0,016
12 0,065 0,053 0,036 0,025
13 0,144 0,078 0,043 0,028
14 0,138 0,118 0,093 0,063
15 0,219 0,145 0,101 0,07
Modelo X C
Observ. X1 X2 X3 X4
16 0,146 0,17 0,134 0,103
17 0,128 0,144 0,125 0,101
18 0,107 0,105 0,102 0,081
19 0,146 0,174 0,136 0,099
20 0,105 0,126 0,094 0,068
21 0,152 0,205 0,128 0,081
23 0,139 0,207 0,109 0,057
24 0,108 0,162 0,082 0,04
25 0,12 0,187 0,083 0,038
I. Treino/Estimação
Xnew
Modelo
?
II. Teste/Previsão
Classificação Treino do modelo vs Teste do modelo
![Page 14: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/14.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
14
Regressão Linear Múltipla
O modelo de regressão linear múltipla
Propriedades do termo εi (pressupostos):
variância dos resíduos é constante;
todos os resíduos são independentes;
seguem uma lei normal com média nula. Pressuposto para fazer inferência estatística sobre o modelo
(IC, TH ao modelo ou seus parâmetros).
0 1 1 2 2i i i m im iY x x x
Componente estrutural Componente estocástica
![Page 15: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/15.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
15
Regressão Linear Múltipla
β0 - Intercepção na origem (“intercept”,
“constant”);
βi – Coeficientes de regressão parciais (“partial
regression coefficients”).
0 1 1 2 2i i i m im iY x x x
![Page 16: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/16.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
16
Regressão Linear Múltipla
Pode ser usado para descrever relações não-
lineares, e.g:
Assume que os X’s
estão isentos
de qualquer erro.
2 2
0 1 1 2 2 11 1 22 2 12 1 2y x x x x x x
![Page 17: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/17.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
17
Regressão Linear Múltipla
Notação matricial
1 11 1 0 1
1
1
1
m
n n nm m n
Y x x
Y x x
Y XB E
![Page 18: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/18.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
18
Regressão Linear Múltipla
Estimação do modelo de regressão linear
múltipla:
Mínimos quadrados
2
0 1 1 2 2
1
ˆ
ˆ. .,
n
i i i m miB
i
T
B
B Min Y x x x
i e B Min Y XB Y XB
![Page 19: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/19.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
19
Regressão Linear Múltipla
Estimação de parâmetros em RLM
Minimizar a soma dos desvios quadráticos (verticais …)
3D Surface Plot
Y=105,1527+0,2131*X1+0,4855*X2
195
190
185
180
175
170
165
160
155
![Page 20: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/20.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
20
Regressão Linear Múltipla
Métodos dos mínimos quadrados:
Solução: CN de optimalidade
Equações normais
do método dos
mínimos quadrados
![Page 21: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/21.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
21
Regressão Linear Múltipla
Solução (notação matricial):
1
ˆ T T
B X X X Y
![Page 22: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/22.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
22
Regressão Linear Múltipla
Estimativa da variância do termo estocástico do
modelo de regressão linear múltipla:
N – número de observações
m – número de variáveis
2
2 1
ˆ
ˆ1 1
N
i
i SSr
N m N m
![Page 23: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/23.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
23
Inferência em Regressão Linear
Múltipla
•Montegomery, D.C.; Peck, E.A. & Vining, G.G. (2006). Introduction to Linear Regression
Analysis. Wiley. 4th ed.
•Montgomery, D.C.; G.C. Runger, 1999, Applied Statistics and Probability for Engineers,
2nd ed., Wiley, NY
•Draper, N.R.; H. Smith, 1998, Applied Regression Analysis, 3rd ed., Wiley, NY
![Page 24: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/24.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
24
Regressão Linear Múltipla Inferência
Propriedades das estimativas dos parâmetros
Seguem uma distribuição normal multivariada:
12ˆ ~ , TB N B X X
![Page 25: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/25.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão
Linear Múltipla
MSR 2009-
2012 ©
Regressão Linear Múltipla Inferência
ANOVA
Teste à significância do modelo de regressão
linear múltipla:
H0: β1 = β2 = … βm = 0
H1: βj ≠ 0 para pelo menos um j
![Page 26: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/26.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão
Linear Múltipla
MSR 2009-
2012 ©
2 2
11
2
1
ˆˆn
i
ii
n
i i
i
n
iy yy y yy
Variação Total
SSt
Variação devida à Regressão
SSreg Variação Residual
SSr
Variabilidade observada
Variabilidade explicada pelo modelo (parte estrutural do modelo de regressão)
Variabilidade não explicada pelo modelo
(parte estocástica do modelo de regressão)
= +
Regressão Linear Múltipla Inferência
Decomposição ANOVA da variabilidade (soma dos quadrados)
total (SSt), em termos da componente explicada pelo modelo de
regressão (SSreg) e da componente residual (SSr):
![Page 27: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/27.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão
Linear Múltipla
MSR 2009-
2012 ©
Regressão Linear Múltipla Inferência
Tabela ANOVA em regressão linear múltipla:
p = # variáveis de entrada ou regressores
= # parâmetros – 1 0
1
SSreg pF
SSr N p
Fontes de Variação
(1)
Variações (Somas de
quadrados) (2)
Graus de Liberdade
(3)
Médias das Somas dos
Quadrados (4)
Estatística de Teste (F)
(5)
Regressão SSreg p MSreg MSreg / s2
Residual SSr n–p–1 s2
Total SSt N–1
![Page 28: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/28.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
28
Regressão Linear Múltipla
Métricas de Qualidade do Modelo
Coeficiente de determinação (R2) Uma medida da qualidade do modelo (0≤ R2≤1)
Definição geral (modelos univariados/multivariados)
(Fracção da variabilidade total que é explicada pelo modelo)
2 1SSreg SSr
RSSt SSt
![Page 29: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/29.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
29
O coeficiente R2 permite aferir sobre a qualidade do ajuste, aumentando sempre que se adiciona mais uma variável
Mesmo que uma variável não esteja relacionada com a resposta, há sempre uma pequena parte da sua variabilidade que aquela ajuda a explicar, por alinhamentos aleatórios com Y.
Estas variáveis não trazem nada de novo para o modelo em termos de previsões futuras, tendo pelo contrário uma acção prejudicial e destabilizadora.
Para aferir sobre a qualidade do modelo é pois importante penalizar a métrica de qualidade com o número de variáveis utilizado.
Regressão Linear Múltipla
Métricas de Qualidade do Modelo
![Page 30: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/30.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
30
Regressão Linear Múltipla
Métricas de Qualidade do Modelo
R2 ajustado (R2adj)
Penaliza a introdução de termos adicionais no modelo
Previne “overfitting” e a utilização de regressores com pouco potencial explicativo da variabilidade da resposta
2 2
1 11 1 1
1 1adj
SSr N p NR R
SSt N N p
![Page 31: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/31.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
31
Regressão Linear Múltipla Inferência
TH aos coeficientes individuais
Para analisar a significância de alguns parâmetros
em particular.
Nas condições do modelo de regressão ser válido:
Os parâmetros seguem distribuições normais;
A sua média é centrada nos valores exactos e a sua
variância é dada pelos elementos diagonais da matriz de
variâncias-covariâncias.
![Page 32: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/32.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
Valor de prova
(p-value)
Probabilidade de obter um desvio maior
ou igual ao verificado, se H0 for válida!
![Page 33: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/33.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
0 ˆi
f x
1ˆi
Amostra 1
2ˆi
Amostra 2
3ˆi
Amostra 3
0 : 0
1: 0
i
i
H
H
Teste bilateral: Pr(|ET|>ET0 |H0 verdadeira)
![Page 34: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/34.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
0 ˆi
f x
1ˆi
Amostra 1
2ˆi
Amostra 2
3ˆi
Amostra 3
0 : 0
1: 0
i
i
H
H
Teste Unilateral à direita: Pr(ET>ET0 |H0 verdadeira); Teste Unilateral à esquerda: Pr(ET<ET0 |H0 verdadeira);
![Page 35: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/35.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
35
Regressão Linear Múltipla Inferência
TH (parâmetros individuais):
Rejeitar H0 se |t0| > t/2,n-p-1.
Estatística de teste
Elemento jj da matriz de
variâncias-covarâncias
Alternativamente, usar abordagem baseada em IC …
![Page 36: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/36.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
36
Regressão Linear Múltipla Inferência
IC para os parâmetros do modelo de
regressão múltipla
IC(βj ,(1-α)x100%):
2 2
2, 1 2, 1ˆ ˆˆ ˆ
j N p jj j j N p jjt C t C
Elemento jj da matriz de
variâncias-covarâncias
![Page 37: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/37.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
37
Regressão Linear Univariada
Inferência em regressão linear
IC para a média e intervalo de previsão
Intervalo de previsão
Intervalo de confiança para a média
![Page 38: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/38.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
38
Regressão Linear Múltipla Inferência
IC para a resposta média
Intervalo de previsão
0 0 0
1 12 2
| 2, 1 0 0 | | 2, 1 0 0ˆ ˆ ˆ ˆT T T T
Y x N p Y x Y x N pt x X X x t x X X x
1 1
2 2
0 2, 1 0 0 0 0 2, 1 0 0ˆ ˆ ˆ ˆ1 1T T T T
N p N py t x X X x y y t x X X x
00 0 |ˆˆ ˆ
Y xy x
![Page 39: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/39.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2009-2012
©
Regressão Linear Univariada
39
Regressão Linear Univariada
Inferência em regressão linear
Exemplo 1 Pretende-se determinar a influência de três parâmetros
processuais (X1, X2 e X3) numa variável de qualidade do produto (Y).
Para tal, recolheram-se dados do processo durante períodos de laboração normal, com os quais se construiu uma base de dados.
Utilize esta base de dados para estimar um modelo empírico para o processo em causa, e determine quais o(s) parâmetro(s) que mais influenciam a variável de qualidade.
![Page 40: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/40.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão
Linear Múltipla
40
MSR 2009-
2012 ©
Y-Answer Time (Average) (secs)
120110100 765
50
30
10120
110
100
X1-Number of personnel
X2-Calls per hour (average)
1380
1320
1260
503010
7
6
5
138013201260
X3-Time per call (average mins)
Matrix Plot of Y-Answer Tim; X1-Number of; X2-Calls per; X3-Time per
Regressão Linear Múltipla
Gráficos
Y vs X1
Y vs X3 X1 vs X3
![Page 41: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/41.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão
Linear Múltipla
41
MSR 2009-
2012 ©
Regressão Linear Múltipla
MINITAB: Stat > Regression > Regression …
Não é significativamente ≠ 0!
R-Sq subiu, mas R-Sq(adj) desceu.
O modelo é significante: pelo menos um coeficiente de uma variável é diferente de zero.
![Page 42: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/42.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
![Page 43: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/43.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
43
O Problema da Colinearidade
![Page 44: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/44.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
44
Regressão Linear Múltipla Colinearidade
Exemplo
Construir um modelo para Y vs X1,X2
Source: Sokal and Rohlf, Biometry, 3ed., Freeman: NY (1995).
Y X1 X2
-5 -4 3
-7 -2 3
-1 -2 1
-3 0 1
3 0 -1
1 2 -1
7 2 -3
5 4 -3
![Page 45: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/45.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
45
Regressão Linear Múltipla Colinearidade
5
0
-5
20-2
50-5
5
0
-5
50-5
2
0
-2
Y
X1
X2
Matrix Plot of Y; X1; X2
![Page 46: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/46.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
46
Regressão Linear Múltipla Colinearidade
![Page 47: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/47.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
47
43210-1-2-3-4-5
8
6
4
2
0
-2
-4
-6
-8
X1
Y
Scatterplot of Y vs X1
43210-1-2-3-4-5
8
6
4
2
0
-2
-4
-6
-8
X1
Y
-3
-1
1
3
X2
Scatterplot of Y vs X1
Regressão Linear Múltipla Colinearidade
![Page 48: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/48.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
48
Regressão Linear Múltipla Colinearidade
Nota:
Os coeficientes de regressão parciais
representam a contribuição de um predictor na
variável de saída, quando os outros se mantêm
constantes;
A magnitude e sinal dos coeficientes de
regressão parciais, depende dos predictores
incorporados no modelo (sempre que estes
apresentam correlação entre si).
![Page 49: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/49.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
49
Regressão Linear Múltipla Colinearidade
Por outro lado,…
Analisando a variância das estimativas
Simulação: Gerar aleatoriamente amostras com 10
observações
Dois níveis de correlação entre X1 e X2
Resultados para 1000 simulações
1 2-10
-5
0
5
10
15
20High correlation ( =0.95)
Estim
ate
s
Variable
1 2-10
-5
0
5
10
15
20Low correlation ( =0)
Estim
ate
s
Variable
Valores exactos dos parâmetros
![Page 50: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/50.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
50
Regressão Linear Múltipla Colinearidade
Ou seja:
Quando a correlação entre X1 e X2 é de 0.95
a variância na estimativa dos coeficientes
que afectam as variáveis X1 e X2 é cerca de
10 vezes superior àquela obtida quando não
há correlação entre X1 e X2.
1
2ˆ( ) TVar B X X
![Page 51: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/51.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
51
Regressão Linear Múltipla Colinearidade
Efeitos da colinearidade na estimação de parâmetros
Estimated planes for an High collinearity data set (a) and a Low collinearity data set (b), in the initial situation (I) and when an additional data point was added (II), marked with a circle in the 3D scatter plots. The projection of the observations and contours in the Y=0 plane are also presented.
a) b)
![Page 52: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/52.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
52
Regressão Linear Múltipla Colinearidade
Conclusões:
Quando há colinearidade nos regressores:
É difícil interpretar o modelo (face aos gráficos
disponíveis)
As estimativas dos parâmetros são mais instáveis
(maior variância)
![Page 53: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/53.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
53
Regressão Linear Múltipla Colinearidade
Nota:
A correlação entre variáveis é muito comum em
aplicações industriais:
Restrições processuais (balanços mássicos e de
energia);
Anéis de controlo, metodologias e protocolos de
actuação;
Instrumentação (instrumentação redundante,
espectrofotómetros, etc.).
![Page 54: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/54.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
54
Regressão Linear Múltipla Colinearidade
Como detectar a presença de colinearidade?
Como lidar com a sua presença?
![Page 55: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/55.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
55
Correlations (AS.vs.Bendtsen)
Marked correlations are signif icant at p < ,05000
N=36 (Casew ise deletion of missing data)
Variable Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD
Ra_CD
Rz_CD
Rq_CD
Rp_CD
Rt_CD
R Sm_CD
R S_CD
R Sk_CD
R Ku_CD
Rv_CD
Rdq_CD
Ra_MD
Rz_MD
Rq_MD
Rp_MD
Rt_MD
R Sm_MD
R S_MD
R Sk_MD
R Ku_MD
Rv_MD
Rdq_MD
1,00 0,99 1,00 0,94 0,96 0,89 0,89 0,46 -0,62 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,84 0,85 0,30 -0,63 0,89 0,68
0,99 1,00 0,99 0,95 0,98 0,86 0,88 0,46 -0,51 0,96 0,84 0,97 0,97 0,97 0,93 0,94 0,79 0,83 0,31 -0,53 0,90 0,73
1,00 0,99 1,00 0,94 0,97 0,89 0,89 0,46 -0,60 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,83 0,85 0,30 -0,61 0,89 0,68
0,94 0,95 0,94 1,00 0,94 0,83 0,84 0,71 -0,54 0,81 0,77 0,89 0,91 0,89 0,97 0,89 0,70 0,74 0,57 -0,51 0,75 0,69
0,96 0,98 0,97 0,94 1,00 0,88 0,91 0,48 -0,43 0,93 0,79 0,93 0,93 0,93 0,90 0,90 0,76 0,79 0,35 -0,51 0,85 0,68
0,89 0,86 0,89 0,83 0,88 1,00 0,95 0,45 -0,57 0,80 0,49 0,83 0,78 0,82 0,75 0,73 0,86 0,80 0,29 -0,61 0,71 0,36
0,89 0,88 0,89 0,84 0,91 0,95 1,00 0,38 -0,40 0,84 0,51 0,84 0,80 0,83 0,77 0,75 0,87 0,83 0,28 -0,52 0,73 0,37
0,46 0,46 0,46 0,71 0,48 0,45 0,38 1,00 -0,45 0,19 0,34 0,36 0,42 0,36 0,67 0,41 0,22 0,22 0,89 -0,31 0,13 0,37
-0,62 -0,51 -0,60 -0,54 -0,43 -0,57 -0,40 -0,45 1,00 -0,44 -0,47 -0,60 -0,54 -0,59 -0,52 -0,52 -0,58 -0,54 -0,28 0,74 -0,48 -0,35
0,94 0,96 0,94 0,81 0,93 0,80 0,84 0,19 -0,44 1,00 0,83 0,96 0,94 0,96 0,80 0,91 0,79 0,84 0,06 -0,50 0,95 0,69
0,81 0,84 0,81 0,77 0,79 0,49 0,51 0,34 -0,47 0,83 1,00 0,84 0,88 0,84 0,79 0,87 0,47 0,58 0,18 -0,40 0,85 0,93
0,98 0,97 0,98 0,89 0,93 0,83 0,84 0,36 -0,60 0,96 0,84 1,00 0,98 1,00 0,89 0,95 0,84 0,88 0,22 -0,60 0,94 0,71
0,96 0,97 0,96 0,91 0,93 0,78 0,80 0,42 -0,54 0,94 0,88 0,98 1,00 0,98 0,93 0,99 0,75 0,84 0,28 -0,49 0,94 0,79
0,98 0,97 0,98 0,89 0,93 0,82 0,83 0,36 -0,59 0,96 0,84 1,00 0,98 1,00 0,90 0,96 0,83 0,87 0,22 -0,58 0,95 0,72
0,91 0,93 0,91 0,97 0,90 0,75 0,77 0,67 -0,52 0,80 0,79 0,89 0,93 0,90 1,00 0,92 0,67 0,75 0,59 -0,48 0,76 0,73
0,92 0,94 0,92 0,89 0,90 0,73 0,75 0,41 -0,52 0,91 0,87 0,95 0,99 0,96 0,92 1,00 0,70 0,84 0,30 -0,43 0,93 0,80
0,84 0,79 0,83 0,70 0,76 0,86 0,87 0,22 -0,58 0,79 0,47 0,84 0,75 0,83 0,67 0,70 1,00 0,90 0,12 -0,63 0,73 0,24
0,85 0,83 0,85 0,74 0,79 0,80 0,83 0,22 -0,54 0,84 0,58 0,88 0,84 0,87 0,75 0,84 0,90 1,00 0,17 -0,50 0,83 0,37
0,30 0,31 0,30 0,57 0,35 0,29 0,28 0,89 -0,28 0,06 0,18 0,22 0,28 0,22 0,59 0,30 0,12 0,17 1,00 -0,29 -0,03 0,21
-0,63 -0,53 -0,61 -0,51 -0,51 -0,61 -0,52 -0,31 0,74 -0,50 -0,40 -0,60 -0,49 -0,58 -0,48 -0,43 -0,63 -0,50 -0,29 1,00 -0,44 -0,27
0,89 0,90 0,89 0,75 0,85 0,71 0,73 0,13 -0,48 0,95 0,85 0,94 0,94 0,95 0,76 0,93 0,73 0,83 -0,03 -0,44 1,00 0,75
0,68 0,73 0,68 0,69 0,68 0,36 0,37 0,37 -0,35 0,69 0,93 0,71 0,79 0,72 0,73 0,80 0,24 0,37 0,21 -0,27 0,75 1,00
Regressão Linear Múltipla Colinearidade
Detecção da presença de colinearidade
Matrizes de correlação e de gráficos de dispersão Matrix of scatter plots
Ra_CD
Rz_CD
Rq_CD
Rp_CD
Rt_CD
R Sm_CD
R S_CD
![Page 56: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/56.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
56
Regressão Linear Múltipla Colinearidade
Detecção da presença de colinearidade Conhecimento sobre o processo:
Verificar se alguns coeficientes têm sinal contrário ao esperado;
Verificar se variáveis que se esperavam importantes, não têm uma magnitude correspondente;
Verificar se a eliminação de uma linha ou coluna, produz alterações muito significativas;
O teste F baseado em ANOVA é significante, mas os coeficientes individuais não o são.
![Page 57: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/57.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
57
Regressão Linear Múltipla Colinearidade
Detecção da presença de colinearidade
Estatísticas de colinearidade:
onde Rj2 é o R2 para a regressão de Xj contra todos
os outros p – 1 regressores.
“Variance Inflation Factor” (VIF)
1
2ˆ( ) TVar B X X
2
1
1jj
j
CR
Elemento j da diagonal de (XTX)-1
2
1ˆ1
j
j
VIFR
![Page 58: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/58.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
58
Regressão Linear Múltipla Colinearidade
Análise do VIF:
Valores de referência:
VIF>10 → colinearidade é um problema;
VIF<5 → colinearidade não é um problema;
5<VIF<10 → “zona cinzenta” (colinearidade
pode ser um problema).
![Page 59: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/59.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
59
Regressão Linear Múltipla Colinearidade
Como lidar com a sua presença?
Métodos de selecção de variáveis
Métodos de projecção (selecção de dimensões)
Métodos de encolhimento
![Page 60: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/60.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
60
Regressão Linear Múltipla Colinearidade
Selecção de variáveis
Princípio:
Se há redundância entre os X’s, seleccionar aqueles
que mais explicam a variabilidade apresentada pela
resposta (Y), e retirar todas aquelas variáveis que não
acrescentem capacidade explicativa.
![Page 61: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/61.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
61
Regressão Linear Múltipla Colinearidade
Metodologias mais comuns de selecção de
variáveis:
Forward addition
Backward elimination
Forward stepwise selection
“Best subset” regression
![Page 62: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/62.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
62
Regressão Linear Múltipla Inferência
Nos métodos de selecção de variáveis analisa-se a significância estatística associada à introdução de grupos de variáveis adicionais:
“Partial F-test” (ou “Extra Sum of Squares method”)
Até agora só a analisámos a situação estática.
Temos um conjunto de variáveis de entrada com as quais queremos construir um modelo para explicar a resposta.
E se quisermos incluir mais variáveis? – Situação dinâmica!
Pretendemos agora saber se, introduzindo um conjunto extra de variáveis (# X’s ≥ 1), a capacidade de explicação da variabilidade de Y melhora significativamente.
![Page 63: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/63.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
63
Regressão Linear Múltipla Inferência
“Partial F-test”
Vamos considerar que dispomos um modelo com p variáveis e pretendemos saber se um subconjunto destas variáveis (r) contribui, como um todo, significativamente para o modelo.
Ou seja, se particionarmos todos os coeficientes do modelo num conjunto com r variáveis (β1 ) e noutro com as restantes (β2), pretendemos testar as hipóteses:
H0: β1 = 0
H1: β1 ≠ 0
![Page 64: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/64.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
66
Regressão Linear Múltipla Selecção de Variáveis
Forward addition
Select the predictor having the highest correlation with y
Is variable significant?
Are other predictors
available?
No prediction
possible with MLR Validate model
No
Yes
Yes
Select additional
predictor
No
Examine final
model
Is selected predictor
significant? Yes
(Enter variable)
No
(Fail to enter)
j inf f j inf f
![Page 65: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/65.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
67
Regressão Linear Múltipla Selecção de Variáveis
NOTA: As variáveis são testadas sequencialmente, de
acordo com a magnitude da estatística do teste F-parcial (partial F-test);
Se esta estatística for superior a “F to enter” (fin), a variável passa a integrar o modelo;
Caso contrário, o processo pára.
Variáveis seleccionadas não podem ser depois removidas.
Não explora o efeito que a adição de uma variável pode ter naquelas já adicionadas.
![Page 66: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/66.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
68
Regressão Linear Múltipla Selecção de Variáveis
Backward
elimination
Select all variables and include them in the model
Is its contribution
significant ?
Validate model
No (Remove variable)
Nota: Variáveis eliminadas, não podem voltar a integrar o modelo numa fase posterior.
Select the variable that contributes the
least to explaining the Y variability
(when all others are in the model)
Yes (Do not remove variable )
j outf fj outf f
![Page 67: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/67.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
69
Regressão Linear Múltipla Selecção de Variáveis
Forward stepwise selection
j inf f
Select the predictor having the highest correlation with y
Is variable significant?
Are other predictors
available?
No prediction
possible with MLR
Is variance explained
by each variable in the
model significant?
Validate model
No
Yes
Yes
Yes
Select additional
predictor
No
Examine final
model
No (Remove variables)
Is selected predictor
significant?
(Enter variable) Yes No (Fail to enter)
Nota: Variáveis selecionadas podem vir a ser removidas posteriormente, caso se tornem redundantes quando outras forem adicionadas.
normalmente in out in outf f f f
j inf f
j outf f
![Page 68: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/68.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
70
Regressão Linear Múltipla Selecção de Variáveis
“Best subset” regression:
Para cada combinação distinta de k variáveis (k=kmin : kmax):
Estimar o correspondente modelo MLR;
Calcular o valor do critério de “qualidade de ajuste”
seleccionado;
Ordenar as combinações de variáveis de acordo com o valor
do critério a que elas conduziram;
Guardar os resultados para as melhores N combinações;
Apresentar os resultados para as melhores N combinações
obtidas em cada subconjunto de dimensão k considerado
(k=kmin : kmax).
![Page 69: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/69.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
71
Regressão Linear Múltipla Selecção de Variáveis
Critérios de qualidade de ajuste:
R2
R2adj
Mallows-Cp
Uma medida do erro quadrático total do modelo de regressão
Se o modelo postulado for correcto, Cp dever ser próximo de k+1
(número de parâmetros)
Logo, escolher modelo para o qual o Cp é baixo e próximo de k+1.
2
2 1ˆ
p
SSr kC n k
Estimado com o modelo completo.
Estimado com o modelo em estudo (k variáveis).
Gráfico Cp vs p
Também penaliza a adição de variáveis sem poder explicativo
![Page 70: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/70.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
72
Regressão Linear Múltipla Selecção de Variáveis
Critérios de qualidade de ajuste (cont.):
Mallows-Cp
É conveniente traçar um gráfico Cp vs. (k+1):
procurar qual o modelo com Cp mais baixo que está mais
próximo da recta Cp=k+1.
PRESS
“Leverage” da observação i
![Page 71: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/71.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
73
Regressão Linear Múltipla Selecção de Variáveis
Statistica
![Page 72: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/72.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
74
Metodologia Geral de RLM
![Page 73: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/73.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
75
Regressão Linear Múltipla
Passo 1 Estudar estatísticas
e gráficos
Passo 2 Formular o modelo
Passo 3 Estimar o modelo
Passo
4 Validar
o
modelo
Passo 5 Apresentar resultados.
Usar modelo.
Bom ajuste
OK!
Ajuste não satisfatório
Metodologia em RL
![Page 74: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/74.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
76
Regressão Linear Múltipla
1. Familiarização com os dados Fazer uso extensivo de todas as ferramentas de estatística
descritiva que nos ajudem a familiarizar com os dados do nosso problema, por exemplo:
Examinar médias, desvios padrão, alguns percentis, mínimos,
máximos, para todas as variáveis de entrada e de saída;
Examinar a matriz de correlação (existe colinearidade entre os x’s? qual/quais os x’s mais correlacionados linearmente com o y?);
Construir gráficos de dispersão para todas as combinações de x’s e entre cada x e o y;
Se os dados foram recolhidos ao longo do tempo, analisar, individualmente, o gráfico temporal para cada variável;
Detectar e examinar outliers.
![Page 75: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/75.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
77
Regressão Linear Múltipla
2. Formulação do modelo
Com base no conhecimento existente a priori e/ou com base nos
gráficos construídos em 1 para as relações entre y e os vários x’s,
propor um modelo de regressão que relacione as variáveis de entrada
com a variável de saída;
![Page 76: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/76.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
78
Regressão Linear Múltipla
3. Estimar os parâmetros do modelo Proceder ao ajuste do modelo aos dados recolhidos. Como
resultado, obtém-se as estimativas para os parâmetros do modelo definido em 2., bem como outras grandezas relacionadas (por exemplo, parâmetros de qualidade, valores de prova para diversos testes estatísticos). Deve-se então:
Analisar os resultados em busca de variáveis eventualmente mais
importantes na explicação da variabilidade de y;
Avaliar a qualidade do ajuste;
Verificar se existe colinearidade entre as variáveis (calcular VIF para cada variável existente no modelo), e se esta pode constituir um problema.
![Page 77: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/77.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
79
Regressão Linear Múltipla
4. Validação do modelo estimado
Construir os seguintes gráficos envolvendo os resíduos, para
verificar se algum/ns dos pressupostos subjacentes aos modelos
de regressão linear está/ão a ser violado/s:
Resíduos vs. valores previstos (para verificar, por exemplo, se a
variância dos resíduos não depende do nível de y);
Resíduos vs. cada uma das variáveis de entrada (verificar que
não existe estrutura por explicar devido, por exemplo, a não
considerar termos não-lineares envolvendo as variáveis de
entrada);
Resíduos vs. tempo, ou sequência de observações (verificar a
independência dos resíduos ao longo das observações);
Gráficos de probabilidade normal para resíduos (verificar o
pressuposto de normalidade dos resíduos).
(Padrões não aleatórios são indicativo de um modelo não
adequado)
![Page 78: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/78.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2010 ©
Engenharia de Processos e Sistemas
80
Regressão Linear Múltipla
5. Apresentar os resultados e usar o modelo
Nesta fase sintetizam-se os resultados para o modelo
desenvolvido (desde que este seja satisfatório). Os dados
utilizados e pressupostos subjacentes devem ser também
indicados. Usar então o modelo e criar uma metodologia que
permita averiguar a sua validade ao longo do tempo, se o seu
uso não se restringir à situação presente.
![Page 79: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/79.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão
Linear Múltipla
81
Regressão Linear Múltipla Selecção de Variáveis
Exemplo 2
A rugosidade do papel é normalmente inferida indirectamente por um aparelho denominado “Bendtsen”.
Este mede a quantidade de ar que passa entre um anel rígido e a superfície do papel durante um determinado intervalo de tempo, a qual está relacionada de alguma forma com a rugosidade do papel.
Pretende-se estudar quais os factores fundamentais ao nível da rugosidade do papel, que influenciam estas medições.
Para tal, recolheram-se perfis rigorosos da superfície do papel usando técnicas de perfilometria, em duas direcções (MD e CD), a partir dos quais foram calculados vários parâmetros geométricos com significados bem precisos.
Que parâmetros fundamentais mais influenciam/explicam os resultados produzidos pelo Bendtsen?
![Page 80: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/80.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão
Linear Múltipla
82
Parâmetros dos perfis (X’s)
Ra Arithmetical mean deviation of profile
Rz Maximum height of profile
Rq RMS deviation of profile
Rp Maximum profile peak height
Rt Total height of profile
R Sm Mean width of profile elements
R Sk Skewness of profile
R Ku Kurtosis of profile
Rv Maximum profile valley depth
Rdq RMS slope of profile
Regressão Linear Múltipla Selecção de Variáveis
![Page 81: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/81.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão
Linear Múltipla
83
Regressão Linear Múltipla Selecção de Variáveis
CD
MD
Bendtsen
Perfilómetro
X’s – média dos parâmetros calculados para 3 perfis na direcção MD, CD (11+11=22) Y – média de 6 medições com o Bendtsen, nas mesmas posições
![Page 82: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/82.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão
Linear Múltipla
84
Regressão Linear Múltipla Selecção de Variáveis
Detecção de colinearidade
Correlations (AS.vs.Bendtsen)
Marked correlations are signif icant at p < ,05000
N=36 (Casew ise deletion of missing data)
Variable Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD
Ra_CD
Rz_CD
Rq_CD
Rp_CD
Rt_CD
R Sm_CD
R S_CD
R Sk_CD
R Ku_CD
Rv_CD
Rdq_CD
Ra_MD
Rz_MD
Rq_MD
Rp_MD
Rt_MD
R Sm_MD
R S_MD
R Sk_MD
R Ku_MD
Rv_MD
Rdq_MD
1,00 0,99 1,00 0,94 0,96 0,89 0,89 0,46 -0,62 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,84 0,85 0,30 -0,63 0,89 0,68
0,99 1,00 0,99 0,95 0,98 0,86 0,88 0,46 -0,51 0,96 0,84 0,97 0,97 0,97 0,93 0,94 0,79 0,83 0,31 -0,53 0,90 0,73
1,00 0,99 1,00 0,94 0,97 0,89 0,89 0,46 -0,60 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,83 0,85 0,30 -0,61 0,89 0,68
0,94 0,95 0,94 1,00 0,94 0,83 0,84 0,71 -0,54 0,81 0,77 0,89 0,91 0,89 0,97 0,89 0,70 0,74 0,57 -0,51 0,75 0,69
0,96 0,98 0,97 0,94 1,00 0,88 0,91 0,48 -0,43 0,93 0,79 0,93 0,93 0,93 0,90 0,90 0,76 0,79 0,35 -0,51 0,85 0,68
0,89 0,86 0,89 0,83 0,88 1,00 0,95 0,45 -0,57 0,80 0,49 0,83 0,78 0,82 0,75 0,73 0,86 0,80 0,29 -0,61 0,71 0,36
0,89 0,88 0,89 0,84 0,91 0,95 1,00 0,38 -0,40 0,84 0,51 0,84 0,80 0,83 0,77 0,75 0,87 0,83 0,28 -0,52 0,73 0,37
0,46 0,46 0,46 0,71 0,48 0,45 0,38 1,00 -0,45 0,19 0,34 0,36 0,42 0,36 0,67 0,41 0,22 0,22 0,89 -0,31 0,13 0,37
-0,62 -0,51 -0,60 -0,54 -0,43 -0,57 -0,40 -0,45 1,00 -0,44 -0,47 -0,60 -0,54 -0,59 -0,52 -0,52 -0,58 -0,54 -0,28 0,74 -0,48 -0,35
0,94 0,96 0,94 0,81 0,93 0,80 0,84 0,19 -0,44 1,00 0,83 0,96 0,94 0,96 0,80 0,91 0,79 0,84 0,06 -0,50 0,95 0,69
0,81 0,84 0,81 0,77 0,79 0,49 0,51 0,34 -0,47 0,83 1,00 0,84 0,88 0,84 0,79 0,87 0,47 0,58 0,18 -0,40 0,85 0,93
0,98 0,97 0,98 0,89 0,93 0,83 0,84 0,36 -0,60 0,96 0,84 1,00 0,98 1,00 0,89 0,95 0,84 0,88 0,22 -0,60 0,94 0,71
0,96 0,97 0,96 0,91 0,93 0,78 0,80 0,42 -0,54 0,94 0,88 0,98 1,00 0,98 0,93 0,99 0,75 0,84 0,28 -0,49 0,94 0,79
0,98 0,97 0,98 0,89 0,93 0,82 0,83 0,36 -0,59 0,96 0,84 1,00 0,98 1,00 0,90 0,96 0,83 0,87 0,22 -0,58 0,95 0,72
0,91 0,93 0,91 0,97 0,90 0,75 0,77 0,67 -0,52 0,80 0,79 0,89 0,93 0,90 1,00 0,92 0,67 0,75 0,59 -0,48 0,76 0,73
0,92 0,94 0,92 0,89 0,90 0,73 0,75 0,41 -0,52 0,91 0,87 0,95 0,99 0,96 0,92 1,00 0,70 0,84 0,30 -0,43 0,93 0,80
0,84 0,79 0,83 0,70 0,76 0,86 0,87 0,22 -0,58 0,79 0,47 0,84 0,75 0,83 0,67 0,70 1,00 0,90 0,12 -0,63 0,73 0,24
0,85 0,83 0,85 0,74 0,79 0,80 0,83 0,22 -0,54 0,84 0,58 0,88 0,84 0,87 0,75 0,84 0,90 1,00 0,17 -0,50 0,83 0,37
0,30 0,31 0,30 0,57 0,35 0,29 0,28 0,89 -0,28 0,06 0,18 0,22 0,28 0,22 0,59 0,30 0,12 0,17 1,00 -0,29 -0,03 0,21
-0,63 -0,53 -0,61 -0,51 -0,51 -0,61 -0,52 -0,31 0,74 -0,50 -0,40 -0,60 -0,49 -0,58 -0,48 -0,43 -0,63 -0,50 -0,29 1,00 -0,44 -0,27
0,89 0,90 0,89 0,75 0,85 0,71 0,73 0,13 -0,48 0,95 0,85 0,94 0,94 0,95 0,76 0,93 0,73 0,83 -0,03 -0,44 1,00 0,75
0,68 0,73 0,68 0,69 0,68 0,36 0,37 0,37 -0,35 0,69 0,93 0,71 0,79 0,72 0,73 0,80 0,24 0,37 0,21 -0,27 0,75 1,00
Ra_CD
Rz_CD
Rq_CD
Rp_CD
Rt_CD
R Sm_CD
R S_CD
R Sk_CD
R Ku_CD
Rv_CD
Rdq_CD
Variable VIF
Ra_CD 13,01
Rz_CD 10,98
Rq_CD 12,89
Rp_CD 18,42
Rt_CD 7,07
R Sm_CD 4,74
R S_CD 5,54
R Sk_CD 2,21
R Ku_CD 1,59
Rv_CD 4,26
Rdq_CD 2,74
Ra_MD 10,47
Rz_MD 9,55
Rq_MD 10,14
Rt_MD 7,33
R S_MD 6,98
R Sk_MD 1,92
R Ku_MD 1,68
Rv_MD 3,01
Rdq_MD 2,82
![Page 83: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/83.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão
Linear Múltipla
85
Regressão Linear Múltipla Selecção de Variáveis
Resultados: Stepwise Regression MINITAB: Stat > Regression > Stepwise …
Step 1 Step 2
Resultados Finais
![Page 84: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/84.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão
Linear Múltipla
86
Regressão Linear Múltipla Selecção de Variáveis
Sumário dos resultados Forward Stepwise Backward Stepwise Forward addition Backward removal
Intercept -361,65 549,03 -361,65 549,03
Ra_CD 210,51 210,51
Rz_CD
Rq_CD
Rp_CD 41,22 41,22
Rt_CD
R Sm_CD -1,41 -1,41
R S_CD -4,19 -4,19
R Sk_CD -380,47 -380,47
R Ku_CD
Rv_CD
Rdq_CD -4752,87 -4752,87
Ra_MD
Rz_MD
Rq_MD
Rp_MD 37,86 37,86
Rt_MD
R Sm_MD 0,45 0,45
R S_MD
R Sk_MD 355,50 355,50
R Ku_MD
Rv_MD 18,06 18,06
Rdq_MD
R2 0,94 0,98 0,94 0,98
R2
adj 0,94 0,97 0,94 0,97
Step 1
Step 2
![Page 85: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/85.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão
Linear Múltipla
87
Regressão Linear Múltipla Selecção de Variáveis
Ra Arithmetical mean deviation of profile
Rz Maximum height of profile
Rq RMS deviation of profile
Rp Maximum profile peak height
Rt Total height of profile
R Sm Mean width of profile elements
R Sk Skewness of profile
R Ku Kurtosis of profile
Rv Maximum profile valley depth
Rdq RMS slope of profile
Highest peak (in sampling length)
Average “wavelength” of irregularities
Results: interpretation
![Page 86: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/86.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão
Linear Múltipla
88
Regressão Linear Múltipla Selecção de Variáveis
Resultados: “Best Subset” Regression MINITAB: Stat > Regression > Best Subsets …
Statistica
Adjusted R square and standardized regression coefficients for each submodel
Stepwise
Para estudar modelos com # max. 10 variáveis, seria necessário estimar 4 194 302 modelos …
![Page 87: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/87.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão
Linear Múltipla
89
Regressão Linear Múltipla Selecção de Variáveis
Resultados: “Best Subset” Regression
Matlab
1 2 3 40.84
0.86
0.88
0.9
0.92
0.94
0.96
Subsets
R2 adj
Best subset regression
Quantas variáveis usar no modelo?
![Page 88: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/88.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão
Linear Múltipla
90
Regressão Linear Múltipla Selecção de Variáveis
Notas: A ordem de entrada de variáveis não reflecte necessariamente a sua
importância relativa;
(Forward) stepwise é um método eficiente de selecção de variáveis, recomendando-se o seu uso. Os resultados obtidos devem ser comparados com aqueles provenientes da aplicação de outros métodos (e.g. best subset, backward stepwise) para ganhar uma maior familiaridade com as características dos dados em estudo;
(Backward) stepwise é um método útil, em particular quando se pretende assegurar que nada de importante é perdido durante a selecção de variáveis, mas o facto de começar com todas as variáveis pode conduzir a problemas de cálculo e a estimativas não muito boas, se existir colinearidade nos regressores;
Procedimentos “Stepwise” são em geral preferíveis relativamente àqueles que não permitem a entrada e remoção de regressores.
“Best subset” tende a fornecer modelos com muitas variáveis e é computacionalmente mais exigente. Deve-se escolher adequadamente a gama de variáveis a explorar, caso contrário pode-se não encontrar o melhor modelo. Deve-se também tentar vários critérios de qualidade, em particular R2
adj e Mallows Cp .
![Page 89: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/89.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2009-2012
©
Regressão Linear Univariada
91
Diagnóstico de “Outliers” e
Observações Influentes
![Page 90: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/90.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2009-2012
©
Regressão Linear Univariada
92
Regressão Linear
Para além de validar o modelo é importante
também diagnosticar e analisar:
“Outliers”
Observações (demasiado) influentes
![Page 91: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/91.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2009-2012
©
Regressão Linear Univariada
93
Regressão Linear
“Outliers” Observações que fogem aos padrões normais da dispersão de:
Valores X’s
Previsões
E.g. (previsão): resíduo com um valor absoluto bastante
superior aos demais ( >3-4 desvios padrões do seu valor
absoluto médio);
Só devem ser rejeitados quando forem conhecidas as suas
causas, e se existirem boas razões para o fazer;
Caso contrário a decisão de rejeição dever ser bem pensada.
![Page 92: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/92.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2009-2012
©
Regressão Linear Univariada
94
Regressão Linear
Observações influentes
Observações com muito peso na estimativa do
modelo, i.e. que exercem uma influência anormal
no seu ajuste aos dados.
![Page 93: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/93.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2009-2012
©
Regressão Linear Univariada
95
Regressão Linear
Observation Order
Re
sid
ua
l
80757065605550454035302520151051
5,0
2,5
0,0
-2,5
-5,0
-7,5
Residuals Versus the Order of the Data(response is Y-Answer Time (Average) (secs))
Resíduos normalizados = Resíduo / SE(Resíduos)
(>2 → Considerado elevado)
“Outliers”: Previsões
![Page 94: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/94.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2009-2012
©
Regressão Linear Univariada
96
Regressão Linear
Tipos de resíduos Resíduos
Resíduos normalizados Permite detectar facilmente resíduos elevados
Definição: Resíduo / SE(resíduos)
Subestimam a magnitude dos resíduos
“Internally Studentized residuals”
“Externally / Deleted studentized residuals” Definição: semelhante ao anterior, mas com ri e σ2 estimados
sem a observação i: σ2 (i). Desta forma, evita-se que a observação em causa possa interferir
negativamente no modelo, caso seja desviante e/ou influente.
“Outliers”: Previsões
2
1
ˆ 1
- Elemento i da diagonal de
( )
("Hat" matrix)
del ii
ii
ii
T T
rr
h
h
X X X X
H
H
Var(ri)
![Page 95: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/95.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2009-2012
©
Regressão Linear Univariada
97
Regressão Linear
“Leverages” (hii – “hat value”) Permitem detectar observações cujos valores de X se
afastem do “normal”.
Medida da distância entre cada valor de x e a média de todos os valores de x: Observações afastadas da média de X: “High Leverage Points”
Estes resíduos possuem menor variância, pois têm uma maior influência na estimativa da recta de regressão (ver Var(ri))
Observações próximas da média de X: “Low Leverage Points”
Observações muito afastadas podem exercer uma grande influência na estimativa do modelo regressão;
0<L≤1: L é considerado elevado se > 2-3 x (p+1)/n, onde p é um número de regressores (X’s) e n o número de observações.
“Outliers”: Valores de X
![Page 96: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x](https://reader033.vdocuments.mx/reader033/viewer/2022052306/5c63351709d3f281208c1c14/html5/thumbnails/96.jpg)
GEPSI/CIEPQPF
DEQ-FCTUC
MSR 2009-2012
©
Regressão Linear Univariada
98
Regressão Linear Distância de “Cook” (Di)
Medida combinada do impacto (influência) de uma observação nas estimativas do modelo.
Congrega informação sobre “leverages” e resíduos normalizados → i.e., combina:
Valores anormais nos X’s
Valores anormais em Y
Corresponde a uma medida da distância entre os valores ajustados integrando a observação em causa e deixando-a de lado.
Di apresenta valores elevados quando: Resíduo elevado e “leverage” moderada
Resíduo moderado e “leverage” elevada
Resíduo e “leverage” elevados
Comparar e verificar se existem Di’s muito elevados.
Analisar com maior detalhe: Belsey: Di >2 (p+1)/n (p = # variáveis = # parâmetros -1)
Fox: Di>4/(n-p)
Observações influentes