přednáška 11
DESCRIPTION
Přednáška 11. Úvod do regresní analýzy. Typy závislosti náhodných veličin. Funkční závislost Y na X – Y=f(X) Statistická (stochastická) závislost – systematický pohyb jedné veličiny při růstu či poklesu druhé veličiny (studujeme prostřednictvím korelační a regresní analýzy). - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/1.jpg)
Přednáška 11
Úvod do regresní analýzy
![Page 2: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/2.jpg)
Typy závislosti náhodných veličin
Funkční závislost Y na X – Y=f(X)
Statistická (stochastická) závislost – systematický pohyb jedné veličiny při růstu či poklesu druhé veličiny (studujeme prostřednictvím korelační a regresní analýzy)
![Page 3: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/3.jpg)
K čemu slouží korelační a regresní analýza?
Vyhodnocení vztahu spojitých veličin.
Nekauzalní vztahy vyhodnocujeme pouze na základě korelační analýzy.
Kauzální vztahy (je zřejmá příčinná souvislost mezi veličinami) vyhodnocujeme pomocí korelace i pomocí regrese.
![Page 4: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/4.jpg)
Francis Galton(1822-1911)
• položil základy regresní analýzy (vztah mezi výškou syna a výškou otce)• zázračné dítě, (bratranec Charlese Darwina)• zakladatel eugeniky (nauky o zlepšování genetického základu)
![Page 5: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/5.jpg)
Základní pojmy
![Page 6: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/6.jpg)
Typy regrese
Lineární regrese – pro popis závislosti veličin využívá funkce lineární v parametrech (např. ), resp. funkce, které lze na lineární v parametrech převést pomocí vhodné transformace (např. ).
Nelineární regrese - pro popis závislosti veličin využívá funkce nelineární v parametrech (tyto funkce nelze na lineární v parametrech převést pomocí žádné transformace – např.: ).
![Page 7: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/7.jpg)
Typy regrese
Jednoduchá regrese – studuje kauzální závislost dvou veličin (velikost syna na velikosti otce)
Vícenásobná regrese – studuje kauzální závislost jedné veličiny na alespoň dvou dalších veličinách (velikost syna na velikosti otce a matky)
![Page 8: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/8.jpg)
Jednoduchá lineární regrese
![Page 9: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/9.jpg)
160 165 170 175 180 185 190 195
160
170
180
190
Výška otce
Výš
ka s
yna
Vysvětlující (nezávisle) proměnná
Vysv
ětlo
vaná
(z
ávis
le)
prom
ěnná
Regresní model(vyrovnávací křivka)
Korelační pole
Naměřená hodnota yi
Vyrovnaná hodnota iy Reziduum ei
iii yye ˆ
xi
![Page 10: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/10.jpg)
Jednoduchý lineární regresní model
iii eXY 10
Parametry modelu ReziduumNáhodná složka
![Page 11: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/11.jpg)
Předpoklady jednoduchého lineárního reg. modelu
• LRM je lineární v parametrech.
• Parametry modelu βi mohou nabývat libovolných hodnot.
• Normalita náhodné složky (reziduí).
• Nulová střední hodnota náhodné složky (reziduí) – E(ei).
• Homoskedasticita náhodné složky (reziduí).
• Nulová kovariance náhodné složky - Cov (ei,ej) = 0 pro každé i ≠ j, kde i, j =1,2,…,n.
![Page 12: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/12.jpg)
Otázky v lineární regresi
•Lze najít zvolený lineární regresní model?
Pokud ano, pak:•Jak najít zvolený lineárně regresní model?•Je tento model důvěryhodný? (Byly splněny předpoklady modelu?)•Lze tento model zjednodušit ? (Lze některé koeficienty modelu považovat za nulové?)•Jak dobře tento model vystihuje sledovanou závislost?•Jak přesně lze pro danou hodnotu nezávisle veličiny odhadnout hodnotu veličiny závisle?
![Page 13: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/13.jpg)
Postup při regresní analýze
• Exploratorní analýza korelačního pole (případný odhad typu regresní funkce, identifikace vlivných bodů, detekce multikolinearity)
• Odhad koeficientů regresní funkce (aplikace vyrovnávacího kritéria)
• Verifikace modelu– Celkový F-test– Dílčí t-testy– Index determinace– Testy reziduí
•Predikce (pás spolehlivosti, pás predikce)
![Page 14: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/14.jpg)
Exploratorní analýza korelačního pole
• Odhad typu regresní funkce (pokud není znám)• Identifikace vlivných bodů (pozor na body signalizující
chybějící část populace ve výběru)
Úkol:V appletu Regrese (java) sledujte vliv pozice vlivných bodů na pozici vyrovnávací přímky.Pokuste se v následujícím appletu o odhad lineární regresní funkce při daném korelačním poli.
![Page 15: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/15.jpg)
Odhad koeficientů regresní funkce
• Vyrovnávací kritéria - kritéria pomocí nichž volíme nejvhodnější způsob odhadu parametrů regresní funkce.
• Cílem je minimalizace reziduí.
![Page 16: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/16.jpg)
Vyrovnávací kritéria
X
Y
Rezi
dua
0
Mohlo by dojít k tomu, že součet reziduí je nulový, přestože jednotlivá rezidua jsou „velká“.
Proč nestačí minimalizovat součet reziduí?
![Page 17: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/17.jpg)
Vyrovnávací kritériaMetoda nejmenších čtverců
• Nejpoužívanější vyrovnávací kritérium pro lineární regresní modely.
• Minimalizuje součet čtverců reziduí.
![Page 18: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/18.jpg)
Metoda nejmenších čtverců pro přímku
Regresní přímka:
Odhad regresní přímky:
Součet čtverců reziduí:
Minimalizace :
ii XY 10
ii XbbY 10ˆ
n
iii
n
iii XbbYYY
1
210
1
2ˆ
10 ,bb
02 100
i
ii XbbYdb
d
02 101
i
iii XXbbYdb
d
![Page 19: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/19.jpg)
Metoda nejmenších čtverců pro přímku
02 100
i
ii XbbYdb
d
02 101
i
iii XXbbYdb
d
i i
ii XbnbY 010
i t
ii
iii XbXbYx 0210
XbYn
X
bn
Y
b ii
ii
110
2
2
1
i iii
i i iiiii
XXn
YXYXn
b
![Page 20: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/20.jpg)
Multikolinearita
• Multikolinearita – lineární závislost vysvětlujících proměnnýchPříčiny multikolinearity• přeurčený regresní model, • nevhodný plán experimentu, • fyzikální omezení v modelu nebo v datechDůsledky multikolinearity• Snížení přesnosti odhadů individuálních hodnot, tj. rozšíření predikčních
intervalů – viz dále,• některé (někdy dokonce všechny) regresní koeficienty se jeví statisticky
nevýznamné i v případě jinak velmi kvalitního modelu. (možný paradox - významný F-test, nevýznamné všechny dílčí t-testy),
• nestabilita odhadů regresních koeficientů, které jsou velmi citlivé i na malé změny v datech a vykazují obvykle vysokou variabilitu, …
![Page 21: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/21.jpg)
Detekce multikolinearity
• Při silné vzájemné lineární závislosti vysvětlujících proměnných se determinant jejich korelační matice málo liší od nuly.
• Nízká hodnota nejmenšího charakteristického čísla korelační matice indikuje silnou korelaci vysvětlujících proměnných.
• Index podmíněnosti korelační matice (tj. odmocnina poměru největšího a nejmenšího charakteristického čísla větší než 30 ukazuje na existenci multikolinearity.
• Hodnoty jednoduchých korelačních koeficientů dvojic vysvětlujících proměnných blízké 1 (v praxi větší než 0,8) naznačují multikolinearitu.
![Page 22: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/22.jpg)
Jak odstranit multikolinearitu?
• V případě přeurčeného regresního modelu se snažíme identifikovat a vypustit nadbytečné vysvětlující proměnné,
• je-li příčinou multikolinearity nevhodný plán experimentu, je možné nedostatky napravit a pořídit kvalitnější data,
• použití nelineárního regresního modelu.
![Page 23: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/23.jpg)
Verifikace modelu
• Ověření kvality modelu převážně na základě testování reziduí.
![Page 24: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/24.jpg)
Verifikace modeluCelkový F-test
Testujeme, zda vysvětlovaná proměnná je lineární kombinací vybraných funkcí vysvětlující proměnné.Nulová a alternativní hypotéza:H0:
HA:
Testová statistika:
Výpočet p-value:
0H
1;
1
ˆ
ˆ
1
2
2
ˆ
knkF
kn
YY
k
YY
knSSk
SS
F
iii
ii
R
Y
)(1 OBSxFhodnotap
01 k
![Page 25: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/25.jpg)
Verifikace modeluCelkový F-test
Výstup testu - tabulka ANOVA:
Zdroj rozptýlenosti
Součet čtvercůStupně volnosti
(DF)
Průměrný čtverec
Testová stat. F
P-value
Modelk
Náhodná složka
(Rezidua)
n-k-1
Celkovýn-1
i
iYYYSS
2
ˆˆ
i
iiR YYSS2ˆ
i
iY YYSS2
k
SSMS Y
Y
ˆˆ
1
kn
SSMS R
RR
Y
MS
MSF ˆ )(1 OBSxF
![Page 26: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/26.jpg)
Verifikace modeluDílčí t-testy
Postupně testujeme pro i=0, …, k, zda nelze z modelu vypustit jednotlivé parametry (včetně absolutního členu).Nulová a alternativní hypotéza:H0:
HA:
Testová statistika:
0i
2
nb
ii ts
b
i
0i
![Page 27: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/27.jpg)
Verifikace modeluIndex determinace R2
•Udává kvalitu regresního modelu, tj. jaká část rozptylu vysvětlované proměnné je vysvětlena modelem.
•Nízká hodnota R2, nemusí ještě znamenat nízký stupeň závislosti mezi proměnnými, ale může to signalizovat chybnou volbu typu regresní funkce.
n
ii
n
ii
Y
Y
YY
YY
SS
SSR
1
2
1
2
ˆ2
)(
)ˆ(
![Page 28: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/28.jpg)
Verifikace modeluAutokorelace reziduí
Na základě předpokladu lin. reg. modelu, že kovariance reziduí je nulová, je zřejmé, že rovněž autokorelace reziduí musí být nulová. Lze tedy předpokládat, že na grafu reziduí nesmí být patrná žádná funkční závislost.
Rezi
dua
0Re
zidu
a0
Funkční závislost reziduí
![Page 29: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/29.jpg)
Verifikace modeluTesty reziduí
Test normality reziduí(např.: Shapirův-Wilkův test)
Test nulové střední hodnoty reziduí(jednovýběrový t-test)
Test autokorelace reziduí(Durbinův-Watsonův test,
Test homoskedasticity reziduí(velmi obtížný, není součásti většiny statistického software)
![Page 30: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/30.jpg)
Typ modelu, rovnice vyrovnávací funkce
Závisle a nezávisle proměnná
Bodové odhady koeficientů regresní přímky
Bodové odhady směrodatných odchylek koeficientů regresní přímky
Výsledky dílčích t-testů
Součty čtverců pro model, reziduální a celkový
Reziduální výběrový rozptyl
Výsledek F-testu pro regresiKorelační koeficient
Index determinace
Test autokorelace
Výběrová reziduální směrodatná odchylka
Rovnice vyrovnávací přímky
Textový výstup procedury „Simple regression“ (Statgraphics)
![Page 31: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/31.jpg)
Rozšíření modelu - Predikce
Odhad regresní funkce umožňuje bodový odhad očekávané střední hodnoty, popř. bodový odhad vysvětlované proměnné pro individuální pozorování.
Interval spolehlivosti – intervalový odhad očekávané střední hodnoty
Interval predikce – intervalový odhad vysvětlované proměnné pro individuální pozorování
![Page 32: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/32.jpg)
Pás predikce
Pás spolehlivosti
Odhad regresní funkce
Závislost spotřeby na výkonu automobilu
![Page 33: Přednáška 11](https://reader035.vdocuments.mx/reader035/viewer/2022081511/5681576c550346895dc50fd1/html5/thumbnails/33.jpg)
Rozšíření modelu – PredikceTypy predikce
Interpolace – proces predikce pro (x0 leží v intervalu napozorovaných hodnot xi)
Extrapolace - proces predikce pro (x0 leží mimo interval napozorovaných hodnot
xi)
POZOR! Extrapolaci lze důvěřovat pouze tehdy, nemáme-li pochybnosti o platnosti modelu. (Predikce výnosů obilí pro určité množství použitého hnojiva.)
nxxx ;10
nxxx ;10