regresja liniowa oraz regresja wielokrotna w zastosowaniu...
Embed Size (px)
TRANSCRIPT
Regresja liniowa oraz regresja wielokrotna w zastosowaniu zadania
predykcji danych.
Agnieszka Nowak Brzeziska
Wykad III-VI
Analiza regresji
Analiza regresji jest bardzo popularn i chtnie stosowan technik statystyczn pozwalajc opisywa zwizki zachodzce pomidzy zmiennymi wejciowymi (objaniajcymi) a wyjciowymi (objanianymi). Innymi sowy dokonujemy estymacji jednych danych korzystajc z innych. Istnieje wiele rnych technik regresji.
Linia regresji zapisana w postaci:
nazywana jest rwnaniem regresji lub oszacowanym rwnaniem regresji, gdzie:
Szacowana warto zmiennej objanianej
Punkt przecicia linii regresji z osi y
Nachylenie linii regresji
Wspczynniki regresji
xbby 10
y
0b
1b
10 ,bb
Regresja liniowa Metoda zakada, e pomidzy zmiennymi objaniajcymi i objanianymi istnieje mniej lub bardziej wyrazista zaleno liniowa. Majc zatem zbir danych do analizy, informacje opisujce te dane moemy podzieli na objaniane i objaniajce. Wtedy te wartoci tych pierwszych bdziemy mogli zgadywa znajc wartoci tych drugich. Oczywicie tak si dzieje tylko w sytuacji, gdy faktycznie midzy tymi zmiennymi istnieje zaleno liniowa. Przewidywanie wartoci zmiennych objanianych (y) na podstawie wartoci zmiennych objaniajcych (x) jest moliwe dziki znalezieniu tzw. modelu regresji. W praktyce polega to na podaniu rwnania prostej, zwanej prost regresji o postaci:
y = b0 + b1 x gdzie: y - jest zmienn objanian, za x - objaniajc. W rwnaniu tym bardzo istotn rol odgrywaj wspczynniki b0 i b1, gdzie b1 jest nachyleniem linii regresji, za b0 punktem przecicia linii regresji z osi x (wyrazem wolnym) a wic przewidywan wartoci zmiennej objanianej gdy zmienna objaniajca jest rwna 0.
http://zsi.tech.us.edu.pl/~nowak/smad/platki.txt
http://zsi.tech.us.edu.pl/~nowak/smad/platki.txt
http://zsi.tech.us.edu.pl/~nowak/smad/platki.txt
http://zsi.tech.us.edu.pl/~nowak/smad/platki.txt
Cereals.data Name nazwa patkw
Manuf wytwrca patkw
Type typ patkw ( na ciepo (hot), na zimno (cold))
Calories kalorie w porcji
Protein 0 biako (w gramach)
Fat tuszcz (w gramach)
Sodium sd
Fiber bonnik
Carbo wglowodany
Sugars cukry
Potass potas ( w miligramach)
Vitamins procent zalecanego dziennego spoycia witamin (0%, 25 %, 100%)
Shelf pooenie pki (1=dolna, 2=rodkowa, 3 = grna)
Weight waga porcji
Cups liczba yek na porcj
Rating warto odywcza, obliczona przez Customer Reports
Warto odywcza
Kalorie Biako tuszcz Sd Bonnik Wglowodany Cukry Potas
Kalorie -0.689
Biako 0.471 0.019
Tuszcz -0.409 0.499 0.208
Sd -0.401 0.301 -0.055 -0.005
Bonnik 0.577 -0.291 0.506 0.026
Wglowodany 0.050 0.255 -0.125 -0.315 0.357 -0.357
Cukry -0.762 0.564 -0.324 0.257 0.096 -0.137 -0.351
Potas 0.380 -0.067 0.549 0.193 -0.033 0.905 -0.354 0.22
Witaminy -0.241 0.265 0.007 -0.031 0.361 -0.036 0.257 0.122 0.021
Szukamy zmiennej o najwikszej korelacji ze zmienn warto
odywcza patkw.
Najwiksz korelacj znajdujemy dla zmiennej cukry
Warto odywcza
Kalorie Biako tuszcz Sd Bonnik Wglowodany Cukry Potas
Kalorie -0.689
Biako 0.471 0.019
Tuszcz -0.409 0.499 0.208
Sd -0.401 0.301 -0.055 -0.005
Bonnik 0.577 -0.291 0.506 0.026
Wglowodany 0.050 0.255 -0.125 -0.315 0.357 -0.357
Cukry -0.762 0.564 -0.324 0.257 0.096 -0.137 -0.351
Potas 0.380 -0.067 0.549 0.193 -0.033 0.905 -0.354 0.22
Witaminy -0.241 0.265 0.007 -0.031 0.361 -0.036 0.257 0.122 0.021
Szukamy zmiennej o najwikszej korelacji ze zmienn warto odywcza patkw. Najwiksz korelacj znajdujemy dla zmiennej cukry Jest to korelacja ujemna, wynosi -0.762. Oznacza, e w miar wzrostu wartoci cukrw w patkach, warto odywcza takich patkw maleje.
A wic najpierw zajmiemy si zalenociami midzy dwiema zmiennymi: objanian (warto odywcza patkw, rating) oraz objaniajc (cukry, sugars).
Analiza regresji pozwoli nam oszacowa wartoci odywcze (rating) rnych typw patkw niadaniowych, majc dane zawartoci cukrw (sugars).
0
10
20
30
40
50
60
70
80
90
100
-2 0 2 4 6 8 10 12 14 16
rati
ng
sugars
sugars
0
10
20
30
40
50
60
70
80
90
100
-2 0 2 4 6 8 10 12 14 16
rati
ng
sugars
sugars
Liniowy (sugars)
To wykres rozrzutu wartoci odywczych wzgldem zawartoci cukrw dla 77 rodzajw patkw niadaniowych, razem z lini regresji najmniejszych kwadratw. Jest to linia regresji otrzymana za pomoc metody najmniejszych kwadratw. Linia regresji jest zapisana w postaci rwnania , ktre nazywa si rwnaniem regresji lub oszacowanym rwnaniem regresji, przy czym:
xbby 10
Szacowana warto zmiennej objanianej Punkt przecicia linii regresji z osi y Nachylenie linii regresji Wspczynniki regresji
y
0b
1b
10 ,bb
Regresja liniowa w Rattle dla Ra
Regresja liniowa w rodowisku R
W rodowisku R procedura znajdowania rwnania regresji dla podanego zbioru danych moliwa jest dziki wykorzystaniu funkcji lm. Komenda R postaci lm(y ~ x) mwi, e chcemy znale model regresji liniowej dla zmiennej y w zalenoci od zmiennej x.
Wariant z 1 zmienn objaniajc
rating = -2.4 * sugars+ 59.3
wic
Estymowane rwnanie regresji moe by interpretowane jako oszacowana warto patkw jest rwna 59,4 2,42 * masa cukru w gramach
Linia regresji i (oszacowane rwnanie regresji) s uywane jako liniowe przyblienie relacji pomidzy zmiennymi x (wartoci objaniajc) a y (objanian), tj. midzy zawartoci cukru a wartoci odywcz.
sugarsrating *42.24.59
4.590 b42.21 b
y
xbby 10
Jak to czyta ?
sugarsrating *42.24.59
A wic: 4.590 b 42.21 b
Oszacowana warto odywcza patkw (rating) jest rwna 59.4 i 2.42 razy
waga cukrw (sugars) w gramach
Czyli linia regresji jest liniowym przyblieniem relacji midzy zmiennymi x (objaniajcymi, niezalenymi) a y (objanian, zalen) w tym przypadku midzy zawartoci cukrw a wartoci odywcz. Moemy zatem dziki regresji: SZACOWA, PRZEWIDYWA
Gdy np. chcemy oszacowa wartoci odywcze nowego rodzaju patkw (nieuwzgldnionych dotd w tej prbie 77 rnym badanych patkw niadaniowych), ktre zawieraj x=1 gram cukrw.
Wwczas za pomoc oszacowanego rwnania regresji moemy wyestymowa warto odywcz patkw niadaniowych zawierajcym 1 gram cukrw:
Po co przewidywa ?
98.561*42.24.59
y
Gdy np. chcemy oszacowa wartoci odywcze nowego rodzaju patkw (nieuwzgldnionych dotd w tej prbie 77 rnym badanych patkw niadaniowych), ktre zawieraj x=5 gram cukrw.
Wwczas za pomoc oszacowanego rwnania regresji moemy wyestymowa warto odywcz patkw niadaniowych zawierajcym 5 gram cukrw:
Po co przewidywa ?
3.475*42.24.59
y
Jak wida, niestety oszacowanie zgodne z rwnaniem regresji jest nie do koca zgodne z rzeczywist wartoci odywcz patkw.
Wyraz wolny b0 jest miejscem na osi y gdzie linia regresji przecina t o, czyli jest to przewidywana warto zmiennej objanianej, gdy zmienna objaniajca jest rwna 0. W wielu przypadkach zerowa warto nie ma tu sensu. Przypumy np. e chcielibymy przewidzie wag ucznia szkoy podstawowej (y) na podstawie jego wzrostu (x). Warto zerowa wzrostu jest niejasna, a wicej interpretacji znaczenia wyrazu wolnego nie ma sensu w tym przypadku.
Jednak dla naszego zbioru danych zerowa warto cukrw w patkach jak najbardziej ma sens, poniewa istniej patki niezawierajce cukrw. Zatem w naszym zbiorze danych wyraz wolny b0=59.4 reprezentuje przewidywan warto odywcz patkw z zerow zawartoci cukrw.
Ale w naszym zbiorze nie mamy patkw o zerowej zawartoci cukru ktre maj oszacowan warto odywcz rwn dokadnie 59.4. Waciwe wartoci odywcze razem z bdami oszacowania przedstawiono poniej.
Wszystkie przewidywane wartoci s takie same. Bo wszystkie wymienione patki maj identyczn warto zmiennej objaniajcej (x=0).
Wspczynnik kierunkowy prostej regresji oznacza oszacowan zmian wartoci y dla jednostkowego wzrostu x.
Warto b1 = 2.42 interpretujemy jako: Jeeli zawarto cukrw wzronie o 1 gram, to warto odywcza zmniejszy si o 2.42 punktu.
Patki o zerowej wartoci SUGARS Prosz sprawdzi ile z tych patkw ktre faktycznie miay 0
warto cukrw (sugars) miay warto odywcz (rating) rwn 59.4?
Odp: adne
Co sugeruje, e nasz model regresji nie do koca dobrze przewiduje w tym przypadku warto odywcz patkw.
Zamy np. e jestemy zainteresowani szacowaniem wartoci odywczych nowych patkw (nie zawartych w pocztkowych danych), ktre zawieraj x=1 gram cukru.
Za pomoc oszacowanego rwnania regresji moemy znale oszacowan warto patkw zawierajcych 1 gram cukru jako 59.4 2.42 * 1 = 56.98
Zauwamy, e ta oszacowana warto dla wartoci odywczej ley bezporednio na linii regresji, w punkcie (x=1, y = 56.98). W rzeczywistoci dla kadej danej wartoci x (sugars) oszacowana warto y (rating) bdzie znajdowa si dokadnie na linii regresji.
W naszych zbiorze s patki Cheerios, w ktrych zawarto cukru jest rwna 1 gram. Jednak ich warto odywcza to 50.765 a nie 56.98 jak oszacowalimy powyej dla nowych patkw zawierajcych 1 gram cukru.
Na wykresie rozrzutu punkt patkw Cheerios jest umiejscowiony w (x=1, y = 50.765) wewntrz owalu. Grna strzaka wskazuje na pooenie na linii regresji dokadnie powyej punktu dla patkw Cheerios. Jest to punkt ktry przewidziaa linia regresji dla wartoci odywczych, jeeli zawarto cukru wynosi 1 gram.
Warto szacowana bya zbyt dua o 56.98 50.765 = 6.215 co jest odlegoci w pionie punktu reprezentujcego patki Cheerios od linii regresji. Ta pionowa odlego rwna 6.215 w oglnoci jest nazywana np. bdem predykcji, bdem szacowania lub reszt.
)( yy
Czyli kade patki majce 1 gram cukru powinny mie warto odywcz rwn 56,98 ale jak wida tak nie jest. Patki Cheerios maj warto odywcz rwn 50,765. Czyli nastpio PRZESACOWANIE wartoci odywczej patkw o 6,215. Graficznie t odlego widzimy jako odlego punktu reprezentujcego te patki od jego rzutu pionowego na lini regresji.
Co wwczas ?
Odlego t mierzon jako:
Nazywa bdziemy bdem predykcji (bdem oszacowania, wartoci resztow, rezyduum). Oczywicie powinno si dy do minimalizacji bdu oszacowania. Suy do tego metoda zwana metod najmniejszych kwadratw. Metoda polega na tym, e wybieramy lini regresji ktra bdzie minimalizowa sum kwadratw reszt dla wszystkich punktw danych.
)( yy
Ktre residua (suma kwadratw) s najmniejsza?
Proste sumowanie: I -5+2+3=0; II -1+2-1=0; III -2+2+0
MNK: I 25+4+9=38; II: 1+4+1=6; III 4+4=8
Metoda MNK
Metoda MNK pozwala nam jednoznacznie wybra lini regresji, ktra minimalizuje sum kwadratw reszt dla wszystkich punktw danych.
Jeli mamy n obserwacji z modelu danego rwnaniem powyej, wwczas
Linia NK jest lini, ktra minimalizuje sum kwadratw bdw dla populacji ()
xy 10
iii xy 10ni ,...,2,1
n
i
ii
n
i
ip xySSE1
2
10
1
)(
Odpowied: pewnie NIE.
Prawdziw liniow zaleno midzy wartoci odywcz a zawartoci cukrw dla WSZYSTKICH rodzajw patkw reprezentuje rwnanie:
Czy to rwnanie bdzie spenione dla innych patkw ni te z badanego zbioru ?
xy 10- Losowy bd
Linia najmniejszych kwadratw minimalizuje sum kwadratw bdw SSE (population sum of squared errors):
Dla n obserwacji
iii xy 10 i=1,,n
n
i
n
i
iiiR
p xySSE1 1
2
10 )(
1. Rniczkujemy to rwnanie by oszacowa
Co dalej ?
10 i
)(*2 1010
i
n
i
i
pxy
SSE
)(*2 1011
i
n
i
ii
pxyx
SSE
2. Przyrwnujemy wynik do zera:
0)( 101
i
n
i
i xbby
0)( 101
i
n
i
ii xbbyx
3. Rozbijamy sum:
Co dalej ?
4. Powstaje
01
10
1
n
i
i
n
i
i xbbny
01
2
1
1
0
1
n
i
i
n
i
i
n
i
ii xbxbyx
n
i
i
n
i
i yxbnb11
10
n
i
ii
n
i
i
n
i
i yxxbxb11
2
1
1
0
5. Rozwizujc te rwnania otrzymujemy:
Co dalej ?
nxx
nyxyxb
ii
iiii
/)(
/))((221
xbyb 10
x
n liczba obserwacji
- rednia warto zmiennej objaniajcej
y - rednia warto zmiennej objanianej
A sumy s od i=1 do n.
0b 1bi -estymatory najmniejszych kwadratw dla Czyli wartoci ktre minimalizuj sum kwadratw bdw.
10 i
1. Obliczamy wartoci xi,yi,xiyi,xi2
Jak znale w Excelu wartoci b0=59.4 i b1=-2.42 z tych rwna?
xi=534 yi=3285.26 xiyi=19186.76 xi
2=5190
1. Obliczamy wartoci:
2. Podstawiamy do wzorw:
42.267.1486
79.3596
77/5345190
77/26.3285*53476.1918621
b
4.59935.6*42.26657.4210 xbyb
Wnioski
Wyraz wolny b0 jest miejscem na osi y gdzie linia regresji przecina t o czyli jest
to przewidywana warto zmiennej objanianej gdy objaniajca rwna si zeru.
Wspczynnik kierunkowy prostej regresji oznacza szacowan zmian warto y
dla jednostkowego wzrostu x warto b1=-2.42 mwi, e jeli zawarto cukrw
wzronie o 1 gram to warto odywcza patkw zmniejszy si o 2.42 punktu.
Czyli patki A ktrych zawarto cukrw jest o 5 wiksza ni w patkach B powinny
mie oszacowan warto odywcz o 5 razy 2.42 = 12.1 punktw mniejsz ni
patki typu B.
Interpretacja
Wida z nich, e midzy zmienn objaniajc sugars a zmienn objanian rating istnieje pewna zaleno (w miar wzrostu wartoci sugars spada warto rating). Z kolei analizujc rozrzut obserwacji ze wzgldu na wartoci zmiennej objaniajcej fiber oraz objanianej rating ju tak silnej zalenoci nie dostrzegamy.
Sprawdmy jak bdzie si zachowywa rozrzut wartoci zmiennych objanianych w oparciu o te dwie zmienne objaniajce razem.
Regresja wielokrotna Omawiajc regresj liniow (prost) rozpatrywalimy dotd jedynie takie przypadki zalenoci midzy zmiennymi objaniajcymi a objanianymi gdzie zmienna objaniana bya zalena tylko od jednej konkretnej zmiennej objaniajcej. Jednak w praktyce niezwykle czsto zmienna objaniana zalena jest nie od jednej ale od kilku (wielu) zmiennych objaniajcych. Bdziemy zatem rozwaa oglne rwnanie regresji postaci:
mmxbxbxbby
...22110gdzie m oznacza liczb (najczciej kilku) zmiennych objaniajcych.
Wykres rozrzutu dla zmiennej sugars
Wykres rozrzutu dla zmiennej fiber
Wariant z 2 zmiennymi objaniajcymi
rating = -2.18 * sugars+ 2.86 * fiber + 51.6
Uoglniajc bdziemy mwi, e dla m zmiennych objaniajcych zachodzi regua, zgodnie z ktr: oszacowana zmiana wartoci zmiennej odpowiedzi to bi, jeli warto zmiennej xi ronie o
jednostk i zakadajc, e wszystkie pozostae wartoci zmiennych s
stae.
Rating = - 2.18 * sugars+ 2.86 * fiber+ 51.6
Aby zinterpretowa wspczynnik nachylenia prostej regresji:
b1 = -2.18 warto odywcza maleje o 2.18 punktu, jeli zawarto cukru ronie o jedn jednostk. Zakadamy przy tym, e
zawarto bonnika (fiber) jest staa.
b2 = 2.86 warto odywcza ronie o 2.86 punktu, jeli zawarto
bonnika ronie o jedn jednostk a zawarto cukru (sugars) jest staa.
Teraz moemy przewidywa, e gdy poziom cukrw wynosi np 1 to warto odywcza patkw bdzie wynosi 56.9 za gdy poziom cukrw bdzie wynosi 10 wwczas warto odywcza zmaleje do wartoci 35.3 (patrz poniej).
> predict(model,data.frame(sugars=10), level = 0.9, interval = "confidence")
fit lwr upr
1 35.27617 33.14878 37.40356
> predict(model,data.frame(sugars=1), level = 0.9, interval = "confidence")
fit lwr upr
1 56.88355 53.96394 59.80316
Bdy predykcji s mierzone przy uyciu reszt Uwaga: w prostej regresji liniowej reszty reprezentuj odlego (mierzon wzdu osi pionowej) pomidzy waciwym punktem danych a lini regresji, za w regresji wielokrotnej, reszta jest reprezentowana jako odlego midzy waciwym punktem danych a paszczyzn lub hiperpaszczyzn regresji. Przykadowo patki Spoon Size Shredded Wheat zawieraj x1=0 gramw cukru i x2 = 3 gramy bonnika, a ich warto odywcza jest rwna 72.80 podczas gdy warto oszacowana, podana za pomoc rwnania regresji:
Zatem dla tych konkretnych patkw reszta jest rwna 60.21 - 72.80 = 12.59.
> predict(model, data.frame(sugars=0,fiber=3),level=0.95,
interval="confidence")
fit lwr upr
1 60.21342 57.5805 62.84635
Zwrmy uwag na to, e wyniki, ktre tutaj zwraca funkcja R: predict s bardzo istotne. Mianowicie, oprcz podanej (oszacowanej, przewidywanej) wartoci zmiennej objaniajcej, otrzymujemy rwnie przedzia ufnoci na zadanym poziomie ufnoci rwnym 0.95, ktry to przedzia mieci si midzy wartoci 57.5805 (lwr) a 62.84635 (upr).
yy
Wariant z wieloma zmiennymi objaniajcymi
Rating = - 0.22*calories
+2.9*protein+1.03*carbo-
0.84*sugars-2.00*fat-
0.05*vitamins+2.54*fiber-
0.05*sodium+ 56.19
Zamy np., e jest dostpny nowy rodzaj patkw niadaniowych, ktrych porcja ma 80 kalorii, 2 gramy biaka, nie ma tuszczu i sodu, ma 3 gramy bonnika, 16 gramw wglowodanw, nie ma cukrw i pokrywa 0% dziennego zapotrzebowania na witaminy (podobnie jak Shredded Wheat).
Wtedy przewidywana wartoci odywcza to 56.19 0.22 * 80 +2.9 *2 -2.00 *0-0.05*0+2.54*3 +1.03*16-0.84*0-0.05*0 = 68.49
Rating = - 0.22*calories +2.9*protein+1.03*carbo-0.84*sugars-
2.00*fat-0.05*vitamins+2.54*fiber-0.05*sodium+ 56.19
To przewidywanie jest niezwykle bliskie waciwej wartoci odywczej patkw Shredded Wheat rwnej 68.2358. zatem bd szacowania = 68.2359-68.49 = -0.2541
Oczywicie szacowanie punktu ma wady analogiczne do tych w przypadku prostej regresji liniowej, zatem rwnie moemy znale przedziay ufnoci dla redniej wartoci odywczej wszystkich takich patkw (o waciwociach podobnych do Shredded Wheat: 80 kalorii, 2 gramy biaka) na poziomie ufnoci 95 % to (66.475,70.764). Jak poprzednio, przedzia ufnoci dla losowo wybranego rodzaju patkw jest wikszy ni dla redniej wartoci.
Nastpnie omwimy dalsze wyniki regresji wielokrotnej. Warto R2 rwna 99.5 % jest niezwykle dua, prawie rwna maksymalnej wartoci rwnej 100%. To pokazuje, e nasz model regresji wielokrotnej przedstawia prawie ca zmienno wartoci odywczej. Bd standardowy szacowania s jest rwno okoo 1, co oznacza, ze typowy bd przewidywania wynosi okoo jednego punktu w skali wartoci odywczej, a blisko 95% (na podstawie rozkadu normalnego bdw) przewidywa bdzie w obrbie dwch punktw od aktualnej wartoci. Porwnajmy to z wartoci s rwn okoo 9 dla modelu prostej regresji liniowej.
Uycie wikszej liczby atrybutw w naszym modelu regresji pozwolio nam na zredukowanie bdu przewidywania o czynnik rwny 9.
Czy wybrana metoda regresji jest przydatna ?
Mona znale tak lini regresji MNK, ktra modeluje zaleno pomidzy dwoma dowolnymi cigymi zmiennymi. Jednak nie ma nigdy gwarancji, e taka regresja bdzie przydatna.
W jaki sposb mona stwierdzi, czy oszacowane rwnanie regresji jest przydatne do przewidywania?
Jedn z miar jest wspczynnik determinacji R2, bdcy miar dopasowania regresji. Okrela on stopie, w jakim linia regresji NK wyjania zmienno obserwowanych danych.
SSE Nr Czas, x Odlego, y Oszacowana
wielko y
Bd oszacowania
(Bd oszacowania)2
1 2 10 10 0 0
2 2 11 10 1 1
3 3 12 12 0 0
4 4 13 14 -1 1
5 4 14 14 0 0
6 5 15 16 -1 1
7 6 20 18 2 4
8 7 18 20 -2 4
9 8 22 22 0 0
10 9 25 24 1 1
12
xy 26
yy 2)(
yy
Pokazano odlego przebyt przez 10 zawodnikw biegu na orientacj oraz czas trwania biegu kadego zawodnika. Pierwszy zawodnik przeby 10 km w 2 godziny.
Na podstawie danych z tej tabeli oszacowane rwnanie regresji przyjmuje posta: .A wic estymowana odlego jest rwna 6 km plus 2 razy liczba godzin.
Oszacowane rwnanie regresji moe by uyte do przewidywania przebytej odlegoci przez zawodnika, o ile znamy czas trwania biegu tego zawodnika.
Estymowane wartoci y znajduj si w kolumnie 3 tabeli mona zatem obliczy bd oszacowania oraz jego kwadrat. Suma kwadratw bdu oszacowania lub suma kwadratw bdw reprezentuje cakowit warto bdu oszacowania w przypadku uycia rwnania regresji.
Tutaj mamy warto SSE = 12. Nie jestemy jeszcze teraz w stanie stwierdzi czy to warto dua, bo w tym miejscu nie mamy adnej innej miary.
xy 26
Jeli teraz chcemy oszacowa przebyt odlego bez znajomoci liczby godzin, a nie mamy dostpu do informacji o wartoci zmiennej x, ktr moglibymy wykorzysta do oszacowania wartoci zmiennej y, nasze oszacowania przebytej odlegoci bd oczywicie mao wartociowe, gdy mniejsza ilo dostpnym informacji zwykle skutkuje mniejsz dokadnoci szacowa.
Skoro nie mamy dostpu do informacji o zmiennych objaniajcych, to najlepszym oszacowaniem dla y bdzie po prostu rednia przebyta odlego. W takim przypadku, oszacowaniem przebytej odlegoci dla kadego zawodnika, niezalenie od jego czasu, byaby warto rednia = 16. Szacowania przebytej odlegoci, gdy ignorowana jest informacja o czasie, pokazuje pozioma linia redniej = 16.
Rysunek, strona 43.
Przewidywana przebyta odlego rednia y = 16, niezalenie od tego czy wdrowali tylko 2 czy 3 godziny, czy te nie byo ich cay dzie. Czyli nie uwzgldniajc czasu. Jest to rzecz jasna rozwizanie nieoptymalne.
Punkty danych na rysunku jak widzimy skupiaj si wok oszacowanej linii regresji, a nie wok tej linii y=16.To sugeruje, e bdy przewidywania s mniejsze, kiedy uwzgldniamy informacj o zmiennej x, anieli wtedy, gdy tej informacji nie wykorzystujemy.
Wemy przykad zawodnika nr 10. Przeby odlego y=25 km w cigu x=9 godzin. Jeeli zignorowalibymy informacj o wartoci zmiennej objaniajcej x, bd szacowania byby rwny = 25 16 = 9 km. Ten bd przewidywania jest reprezentowany przez pionow lini pomidzy punktem danych dla tego zawodnika, a poziom lini, co oznacza odlego pomidzy obserwowan wartoci y i jej rzutem pionowych na prost o rwnaniu na redni y = 16, ktra przecie okrela warto estymowan.
Chcemy teraz znale dla kadego rekordu w zbiorze danych, a nastpnie sum kwadratw tych miar, tak jak zrobilimy to dla ,kiedy obliczalimy sum kwadratw bdw.
Otrzymujemy w ten sposb cakowit sum kwadratw SST.
yy
yy
yy
Pozwala stwierdzi czy oszacowane rwnanie regresji jest przydatne do przewidywania.
Okrela stopie w jakim linia regresji najmniejszych kwadratw wyjania zmienno obserwowanych danych.
Wspczynnik determinacji r2
y yy 2)( yy x y
Na ile dobra jest regresja?
Wspczynnik determinacji jest opisow
miar siy liniowego zwizku
midzy zmiennymi, czyli miar
dopasowania linii regresji do danych
wspczynnik determinacji ---przyjmuje
wartoci z przedziau [0,1] i wskazuje jaka
cz zmiennoci zmiennej y jest
wyjaniana przez znaleziony model.
Na przykad dla R2=0.619 znaleziony
model wyjania okoo 62% zmiennoci y.
Wspczynnik determinacji
Oczywicie zawsze mona znale tak lini regresji metod najmniejszych kwadratw, ktra modeluje zaleno pomidzy dwoma dowolnymi cigymi zmiennymi. Jednak nie ma gwarancji, e taka regresja bdzie przydatna. Zatem powstaje pytanie, w jaki sposb moemy stwierdzi, czy oszacowane rwnanie regresji jest przydatne do przewidywania. Jedn z miar dopasowania regresji jest wspczynnik determinacji R2.
Okrela on stopie, w jakim linia regresji najmniejszych kwadratw wyjania zmienno obserwowanych danych. Przypomnijmy, e oznacza estymowan warto zmiennej objanianej, a jest bdem oszacowania lub reszt.
yy
y
Suma kwadratw bdu oszacowania lub suma kwadratw bdw reprezentuje cakowit warto bdu oszacowania w przypadku uycia rwnania regresji.
Jeli nie znamy wartoci zmiennej objaniajcej do oszacowania wartoci zmiennej objanianej- nasze oszacowania bd oczywicie mao wartociowe.
Lepszym oszacowaniem dla y bdzie po prostu rednia(y). To zazwyczaj prezentuje pozioma linia na wykresie. Punkty danych jednak koncentruj si bardziej wok oszacowanej linii regresji a nie wok tej linii poziomej, co sugeruje, e bdy przewidywania s mniejsze, kiedy uwzgldniamy informacj o zmiennej x, anieli wtedy, gdy tej informacji nie wykorzystujemy.
Jeli liczymy rnice x rednia(x) dla kadego rekordu, a nastpnie sum kwadratw tych miar, tak jak przy oszacowanej wartoci y ( ), kiedy obliczalimy sum kwadratw bdw otrzymujemy cakowit sum kwadratw SST (sum of squares total):
Stanowi ona miar cakowitej zmiennoci wartoci samej zmiennej objanianej bez odniesienia do zmiennej objaniajcej. Zauwamy, e SST jest funkcj wariancji zmiennej y, gdzie wariancja jest kwadratem odchylenia standardowego .
2
1
2 )1()()1()( y
n
i
i nyVarnyySST
n
i
i yySST1
2)(
yy
Wszystkie trzy miary: SST, wariancja oraz odchylenie standardowe s jednowymiarowymi miarami zmiennoci tylko dla y. Czy powinnimy oczekiwa, e SST jest wiksze czy te mniejsze od SSE ?
Wykorzystujc obliczenia mamy SST duo wiksze ni SSE. Mamy wic teraz z czym porwna SSE. Warto SSE jest duo mniejsza od SST, co wskazuje, e uwzgldnienie informacji ze zmiennej objaniajcej w regresji skutkuje duo dokadniejsz estymacj ni gdybymy zignorowali t informacj. Sumy kwadratw s bdami przewidywa, zatem im ich warto jest mniejsza tym lepiej. Innymi sowy, zastosowanie regresji poprawia nasze szacowania zmiennej objanianej.
Jeli chcemy okreli, jak bardzo oszacowane rwnanie regresji poprawia estymacj, obliczymy teraz sum kwadratw Otrzymamy w ten sposb regresyjn sum kwadratw (SSR, sum of squares regression) miar cakowitej poprawy dokadnoci przewidywa w przypadku stosowania regresji w porwnaniu do przypadku, gdy informacja zmiennej objaniajcej jest ignorowana:
n
i
yySSR1
2)(
yy
Odlego dzielimy na dwie czci:
yy
yy
yy
)()( yyyyyy
222 )()()( yyyyyy
SSESSRSST
SST mierzy cakowit zmienno zmiennej objanianej, zatem o SSR moemy myle jak o czci zmiennoci zmiennej objaniajcej, ktra jest wyjaniona przez regresj (SSR).
Innymi sowy, SSR mierzy t cz zmiennoci zmiennej objaniajcej, ktra jest wyjaniana przez liniow zaleno midzy zmienn objaniajc a objanian.
Poniewa nie wszystkie punkty danych le dokadnie na linii regresji, wic pozostaje jeszcze pewna cz zmiennoci zmiennej y, ktra nie zostaa wyjaniona przez regresj (tej czci odpowiada warto SSE).
Moemy tu SSE traktowa jako miar caej zmiennoci y ze wszystkich rde, cznie z bdem, po wyjanieniu liniowej zalenoci midzy x a y za pomoc regresji. Tutaj SSE jest nazywane zmiennoci niewyjanion.
Poniewa wspczynnik determinacji przyjmuje posta ilorazu SSR i SST moemy go interpretowa jako t cz zmiennoci zmiennej y, ktra zostaa wyjaniona przez regresj, czyli przez liniowy zwizek pomidzy zmienn celu a zmienn objaniajc.
Jaka jest maksymalna warto R2 ?
Maksymalna warto moe by osignita wtedy, gdy regresja idealnie pasuje do danych, co ma miejsce wwczas, gdy kady z punktw danych ley dokadnie na oszacowanej linii regresji.
W tej optymalnej sytuacji nie ma bdw oszacowania podczas stosowania regresji, a zatem kada warto resztowa jest rwna 0, co z kolei oznacza, e SSE jest =0.
Jeeli SSE = 0 to SST = SSR zatem wspczynnik R2 jest rwny SSR/SST = 1. Taka sytuacja ma miejsce gdy regresja idealnie modeluje dostpne dane.
Jaka jest minimalna warto R2 ?
Jeli regresja nie wykazaa adnej poprawy, czyli nie wyjania adnej czci zmiennoci zmiennej y.
Wwczas warto SSR jest rwna zero, a wic rwnie warto R2 = 0. Zatem warto wspczynnika R2 jest z zakresu od 0 do 1.
Im wysza warto R2, tym lepsze dopasowanie regresji do danych. Wartoci R2 bliskie 1 oznaczaj niezwykle dobre dopasowanie regresji do danych, wartoci bliskie 0, oznaczaj bardzo sabe dopasowanie.
SST
SSRr 2Wspczynnik determinacji r2:
Wspczynnik determinacji r2
Mierzy stopie dopasowania regresji jako przyblienia liniowej zalenoci pomidzy zmienn celu a zmienn objaniajc.
Jaka jest warto maksymalna wspczynnika determinacji r2 ?
Jest ona osigana wtedy, gdy regresja idealnie pasuje do danych, co ma miejsce wtedy gdy kady z punktw danych ley dokadnie na oszacowanej linii regresji. Wwczas nie ma bdw oszacowania, a wic wartoci resztowe (rezydua) wynosz 0, a wic SSE=0 a wtedy SST = SSR a r2=1.
Jaka jest warto minimalna wspczynnika determinacji r2 ?
Jest ona osigana wtedy, gdy regresja nie wyjania zmiennoci, wtedy SSR = 0, a wic r2=0.
Im wiksza warto r2 tym lepsze dopasowanie regresji do zbioru
danych.
y yy 2)( yy x y
n
i
yySST1
2)(Cakowita suma kwadratw
n
i
yySSR1
2)(Regresyjna suma kwadratw
n
i
yySSE1
2)(Suma kwadratw bdw oszacowania:
SST
SSRr 2Wwczas wspczynnik determinacji r2:
Przykad analizy wspczynnika R2 dla wielu zmiennych objaniajcych
Jak ju wspomnielimy na pocztku, czsto w wiecie rzeczywistym mamy do czynienia z zalenociami zmiennej objanianej nie od jednej ale raczej od wielu zmiennych objaniajcych. Wykonanie tego typu analiz w pakiecie R nie jest rzecz trudn. Wrcz przeciwnie. Nim przeprowadzimy analiz zalenoci zmiennej rating od wielu zmiennych objaniajcych np. sugars oraz fiber przyjrzyjmy si wykresom rozrzutu dla tych zmiennych osobno. Wykres rozrzutu bowiem doskonale odzwierciedla zalenoci midzy pojedynczymi zmiennymi.
Wspczynnik determinacji
gdzie SSR to regresyjna suma kwadratw za SST to cakowita suma kwadratw Bdziemy go interpretowa jako cz zmiennoci zmiennej objanianej, ktra jest wyjaniana przez liniow zaleno ze zbiorem zmiennych objaniajcych. Im wiksza bdzie liczba zmiennych objaniajcych tym nie mniejsza bdzie warto
wspczynnika determinacji R2.
Moemy wnioskowa, e gdy dodajemy now zmienn objaniajc do modelu, warto R2 bdzie nie mniejsza ni przy modelu o mniejszej liczbie zmiennych. Oczywicie skala (wielko) tej rnicy jest bardzo istotna w zalenoci od tego czy dodamy t zmienn do modelu czy te nie. Jeli wzrost jest duy to uznamy t zmienn za znaczc (przydatn).
Niezwykle istotna jest miara nazwana ju wczeniej wspczynnikiem determinacji R2 okrelana za pomoc wzoru:
SST
SSRR 2 2
^
1
)( yySSTn
i
2^
1
)( yySSRn
i
Jeli takie reszty obliczymy dla kadej obserwacji to moliwe bdzie wyznaczenie wartoci wspczynnika determinacji R2. W naszym przypadku jest on rwny 0.8092 czyli 80.92 %. Oznacza to w naszej analizie, e 80.92 % zmiennoci wartoci odywczej jest wyjaniane przez liniow zaleno pomidzy zmienn warto odywcza a zbiorem zmiennych objaniajcych - zawartoci cukrw i zawartoci bonnika. Jeli popatrzymy jaka bya warto tego wspczynnika, gdy badalimy na pocztku zaleno zmiennej objanianej tylko od jednej zmiennej objaniajcej (cukry) to warto ta wynosia R2 = 57.71% . Dla dwch zmiennych objaniajcych ta wartoci wyniosa 80.92 %. Czyli powiemy, e dodajc now zmienn objaniajc (w tym przypadku bonnik) moemy wyjani dodatkowe 80.92 - 57.71 = 22.19% zmiennoci wartoci odywczej (rating) patkw. Typowy bd oszacowania jest tu obliczany jako standardowy bd oszacowania s i wynosi 6.22 punktu. Oznacza to, e estymacja wartoci odywczej patkw na podstawie zawartoci cukrw i bonnika zwykle rni si od waciwej wartoci o 6.22 punktu. Jeli nowa zmienna jest przydatna, to bd ten powinien si zmniejsza po dodaniu nowej zmiennej.
Ile zmiennych objaniajcych w modelu regresji ?
gdzie p oznacza liczb parametrw modelu (i jest to zazwyczaj liczba zmiennych objaniajcych + 1) za n oznacza wielko prby. Zwykle warto R2adj bdzie po prostu nieco mniejsza ni warto R2. W rodowisku R wspczynnik determinacji R2 wyznaczymy stosujc bezporednio komend: summary(model.liniowy)\$r.square
Z kolei wspczynnik determinacji ale ten tzw. skorygowany (ang. Adjusted) za pomoc komendy: summary(model.liniowy)\$adj.r.squared
Najprostszym sposobem na wybr optymalnej liczby zmiennych objaniajcych jest wspczynnik R2adj zwany skorygowanym. Wiedzc, e R
2 = 1 SSE/SST warto R2adj obliczymy jako:
1
12
n
SST
pn
SSE
R adj
> dane model summary(model)$r.square
[1] 0.8091568
> summary(model)$adj.r.squared
[1] 0.8039988
Chcc wyznaczy wartoci tych wspczynnikw dla naszego testowego modelu z dwiema zmiennymi objaniajcymi sugars oraz fiber w rodowisku R uyjemy odpowiednich komend, jak to pokazuje poniszy kod R wraz z wynikami:
Jak widzimy wspczynnik R2 wynosi 0.809 za R2adj odpowiednio 0.804.
Funkcja r.square
Funkcja r.square.adjusted
Funkcja coeff
Przykad analizy wspczynnika R2 dla jednej zmiennej objaniajcej
Procedura analizy wspczynnika determinacji R2 dla jednej zmiennej objaniajcej moe wyglda nastpujco. Jeli zaoymy, e zmienn objanian ma by warto odywcza patkw (rating) za zmienn objaniajc poziom cukrw (sugars) to komenda R wywoujc badanie zalenoci midzy tymi zmiennymi bdzie nastepujca:
lm(rating~sugars, data=dane)
Wwczas peny zapis okna dialogu z R-em bdzie nastpujcy:
> dane model summary(model)
Call:
lm(formula = rating ~ sugars, data = dane)
Residuals:
Min 1Q Median 3Q Max
-17.853 -5.677 -1.439 5.160 34.421
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 59.2844 1.9485 30.43 < 2e-16 ***
sugars -2.4008 0.2373 -10.12 1.15e-15 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 9.196 on 75 degrees of freedom
Multiple R-squared: 0.5771, Adjusted R-squared: 0.5715
F-statistic: 102.3 on 1 and 75 DF, p-value: 1.153e-15
>
Widzimy zatem, e rwnanie regresji, gdy zmienn objanian bdzie zmienna rating (warto odywcza patkw) za objaniajc sugars (poziom cukrw), bdzie nastpujcej postaci: rating = -2.4 * sugars+ 59.3
Teraz moemy przewidywa, e gdy poziom cukrw wynosi np. 1 to warto odywcza patkw bdzie wynosi 56.9 za gdy poziom cukrw bdzie wynosi np. 10 wwczas warto odywcza zmaleje do wartoci 35.3 (patrz poniej).
> predict(model,data.frame(sugars=10), level = 0.9, interval
= "confidence")
fit lwr upr
1 35.27617 33.14878 37.40356
> predict(model,data.frame(sugars=1), level = 0.9, interval =
"confidence")
fit lwr upr
1 56.88355 53.96394 59.80316
Przykad analizy wspczynnika R2 dla wielu zmiennych objaniajcych
Czsto w wiecie rzeczywistym mamy do czynienia z zalenociami zmiennej objaniajc nie od jednej zmiennej objanianej ale raczej od wielu zmiennych objaniajcych.
Wykonanie tego typu analiz w pakiecie R nie jest rzecz trudn. Wrcz przeciwnie.
Nim przeprowadzimy analiz zalenoci zmiennej rating od wielu zmiennych objaniajcych np. sugars oraz fiber przyjrzyjmy si wykresom rozrzutu dla tych zmiennych osobno. Wykres rozrzutu bowiem doskonale odzwierciedla zalenoci midzy pojedynczymi zmiennymi.
> model summary(model)
Call:
lm(formula = rating ~ sugars + fiber, data = dane)
Residuals:
Min 1Q Median 3Q Max
-12.133 -4.247 -1.031 2.620 16.398
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 51.6097 1.5463 33.376 < 2e-16 ***
sugars -2.1837 0.1621 -13.470 < 2e-16 ***
fiber 2.8679 0.3023 9.486 2.02e-14 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 6.219 on 74 degrees of freedom
Multiple R-squared: 0.8092, Adjusted R-squared: 0.804
F-statistic: 156.9 on 2 and 74 DF, p-value: < 2.2e-16
Przykad analizy zmiennej objanianej (a wic wartoci odywczej patkw ze zbioru Cereals od kilku zmiennych, np. sugars oraz fiber (a wic odpowiednio: poziom cukrw oraz bonnik) przedstawiamy poniej.
wtedy powiemy, e rwnanie regresji bdzie wyglda nastpujco:
rating = - 2.1837 * sugars+2.8679 * fiber+ 51.6097
Czyli, aby zinterpretowa wspczynnik nachylenia prostej regresji b1 = -2.1837 powiemy, e warto odywcza maleje o 2.1837 punktu, jeli zawarto cukru ronie o jedn jednostk. Zakadamy przy tym, e zawarto bonnika (fiber) jest staa.
Z kolei interpretacja wspczynnika b2 = 2.8679 jest taka, e warto odywcza ronie o 2.8679 punktu, jeli zawarto bonnika ronie o jedn jednostk a zawarto cukru (sugars) jest staa.
Uoglniajc bdziemy mwi, e dla m zmiennych objaniajcych zachodzi regua, zgodnie z ktr oszacowana zmiana wartoci zmiennej odpowiedzi to bi, jeli warto zmiennej xi ronie o jednostk i zakadajc, e wszystkie pozostae wartoci zmiennych s stae.
Bdy predykcji s mierzone przy uyciu reszt Co wane: w prostej regresji liniowej reszty reprezentuj odlego (mierzon wzdu osi pionowej) pomidzy
waciwym punktem danych a lini regresji. Za w regresji wielokrotnej, reszta jest reprezentowana jako odlego midzy waciwym punktem danych a paszczyzn lub hiperpaszczyzn regresji.
Przykadowo patki Spoon Size Shredded Wheat zawieraj x1=0 gramw cukru i x2 = 3 gramy bonnika, a ich warto odywcza jest rwna 72.80
podczas gdy warto oszacowana, podana za pomoc rwnania regresji:
> predict(model, data.frame(sugars=0,fiber=3),level=0.95, interval="confidence")
fit lwr upr
1 60.21342 57.5805 62.84635
>
yy
Zatem dla tych konkretnych patkw reszta jest rwna 60.21 - 72.80 = 12.59 Zwrmy uwag na to, e wyniki ktre tutaj zwraca funkcja R: predict s bardzo
istotne. Mianowicie, oprcz podanej (oszacowanej, przewidywanej) wartoci zmiennej objaniajcej, otrzymujemy rwnie przedzia ufnoci na zadanym poziomie ufnoci rwnym 0.95, ktry to przedzia mieci si midzy wartoci 57.5805 (lwr) a 62.84635 (upr).
Pamitamy, e z pojciem regresji wie si pojcie wspczynnika determinacji:
gdzie SSR to regresyjna suma kwadratw:
za SST to cakowita suma kwadratw:
Bdziemy R2 interpretowa jako cz zmiennoci zmiennej objanianej, ktra jest wyjaniana przez liniow zaleno ze zbiorem zmiennych objaniajcych.
SST
SSRR 2
n
i
yySSR1
2)(
n
i
yySST1
2)(
Co wane: Im wiksza bdzie liczba zmiennych objaniajcych tym nie mniejsza bdzie warto wspczynnika
determinacji R2 Moemy wnioskowa, e gdy dodajemy now zmienn objaniajc do modelu, warto R2 bdzie
nie mniejsza ni przy modelu o mniejszej liczbie zmiennych. Oczywicie skala (wielko) tej rnicy jest bardzo istotna w zalenoci od tego czy dodamy t zmienn do modelu czy te nie. Jeli wzrost jest duy to uznamy t zmienn za znaczc (przydatn).
Jeli takie reszty obliczymy dla kadej obserwacji to moliwe bdzie wyznaczenie wartoci wspczynnika determinacji R2. W naszym przypadku jest on rwny 0.8092 czyli 80.92%. Oznacza to w naszej analizie, e 80.92% zmiennoci wartoci odywczej jest wyjaniana przez liniow zaleno (paszczyzn) pomidzy zmienn warto odywcza a zbiorem zmiennych objaniajcych - zawartoci cukrw i zawartoci bonnika.
Jeli popatrzymy jaka bya warto tego wspczynnika, gdy badalimy na pocztku zaleno zmiennej objanianej tylko od jednej zmiennej objaniajcej (cukry) to warto ta wynosia R2 = 57.71%. Dla dwch zmiennych objaniajcych ta wartoci wyniosa 80.92 %. Czyli powiemy, e dodajc now zmienn objaniajc (w tym przypadku bonnik) moemy wyjani dodatkowe 80.92 - 57.71 = 22.19% zmiennoci wartoci odywczej (rating) patkw.
Typowy bd oszacowania jest tu obliczany jako standardowy bd oszacowania s i wynosi 6.22 punktu. Oznacza to, e estymacja wartoci odywczej patkw na podstawie zawartoci cukrw i bonnika zwykle rni si od waciwej wartoci o 6.22 punktu. Jeli nowa zmienna jest przydatna, to bd ten powinien si zmniejsza po dodaniu nowej zmiennej.
Najprostszym sposobem na wybr optymalnej liczby zmiennych objaniajcych jest wspczynnik R2adj zwany skorygowanym (ang. adjusted).
Wiedzc, e warto R2adj obliczymy jako i zwykle ta warto bdzie po prostu nieco mniejsza ni warto R2 . W rodowisku R wspczynnik determinacji R2 wyznaczymy stosujc bezporednio
komend: summary(model.liniowy)$r.square Z kolei wspczynnik determinacji ale ten tzw. skorygowany (ang. adjusted) za pomoc
komendy: summary(model.liniowy)$adj.r.squared. Chcc wyznaczy wartoci tych wspczynnikw dla naszego testowego modelu w
dwiema zmiennymi objaniajcymi sugars oraz fiber w rodowisku R uyjemy odpowiednich komend, jak to pokazuje poniszy kod R wraz z wynikami:
> dane model summary(model)$r.square
[1] 0.8091568
> summary(model)$adj.r.squared
[1] 0.8039988
Jak widzimy wspczynnik R2 wynosi 0.809 za R2adj odpowiednio 0.804.
)1(
)(12
nSST
pnSSERadj
SST
SSER 12
Uyjemy rwnania regresji aby oszacowa warto odywcz Chocolade Frosted Sugar Bombs:
y = 59.4 2.42 * sugars = 59.4 2.42 * 30 = -3.2
Innymi sowy, ulubione patki mog mie tak duo cukru, e warto odywcza jest liczb ujemn, w przeciwiestwie do innych patkw w zbiorze danych (minimalna warto odywcza = 18) i analogicznie do ujemnej oceny studenta z egzaminu.
Co tu si dzieje ?
Ujemna przewidywana warto odywcza dla tych patkw jest przykadem nieuzasadnionej ekstrapolacji.
Po dzisiejszym wykadzie powiniene zna odpowied na nastpujce pytania:
Jak posta przyjmuje rwnanie regresji liniowej?
Jak z rwnania regresji dokonywa predykcji?
Co to znaczy, e regresja jest wielokrotna ?
Czym jest wspczynnik determinacji ? Jak si go mierzy ?
Jaka jest jego max i min warto ?
Jak sprawdzi czy regresja jest przydatna ?
Do czego suy metoda MNK ?
Na nastpnym wykadzie poznasz odpowied na nastpujce pytania:
Jak graficznie sprawdza zaoenia regresji liniowej ?
Co to jest wykres kwantylowy ?
Co to jest wykres studentyzowanych i standaryzowanych reszt ?
Jak znale w modelu obserwacje wpywowe, obserwacje odstjce czy
obserwacje wysokiej dwigni ?
Jak weryfikowa poprawno modelu regresji ?
Jak wybra lepszy model regresji ?
Jak bada regresj nieliniow ?