regresja liniowa oraz regresja wielokrotna w zastosowaniu...

of 101 /101
Regresja liniowa oraz regresja wielokrotna w zastosowaniu zadania predykcji danych. Agnieszka Nowak Brzezińska Wykład III -VI

Author: doandan

Post on 28-Feb-2019

218 views

Category:

Documents


0 download

Embed Size (px)

TRANSCRIPT

Regresja liniowa oraz regresja wielokrotna w zastosowaniu zadania

predykcji danych.

Agnieszka Nowak Brzeziska

Wykad III-VI

Analiza regresji

Analiza regresji jest bardzo popularn i chtnie stosowan technik statystyczn pozwalajc opisywa zwizki zachodzce pomidzy zmiennymi wejciowymi (objaniajcymi) a wyjciowymi (objanianymi). Innymi sowy dokonujemy estymacji jednych danych korzystajc z innych. Istnieje wiele rnych technik regresji.

Linia regresji zapisana w postaci:

nazywana jest rwnaniem regresji lub oszacowanym rwnaniem regresji, gdzie:

Szacowana warto zmiennej objanianej

Punkt przecicia linii regresji z osi y

Nachylenie linii regresji

Wspczynniki regresji

xbby 10

y

0b

1b

10 ,bb

Regresja liniowa Metoda zakada, e pomidzy zmiennymi objaniajcymi i objanianymi istnieje mniej lub bardziej wyrazista zaleno liniowa. Majc zatem zbir danych do analizy, informacje opisujce te dane moemy podzieli na objaniane i objaniajce. Wtedy te wartoci tych pierwszych bdziemy mogli zgadywa znajc wartoci tych drugich. Oczywicie tak si dzieje tylko w sytuacji, gdy faktycznie midzy tymi zmiennymi istnieje zaleno liniowa. Przewidywanie wartoci zmiennych objanianych (y) na podstawie wartoci zmiennych objaniajcych (x) jest moliwe dziki znalezieniu tzw. modelu regresji. W praktyce polega to na podaniu rwnania prostej, zwanej prost regresji o postaci:

y = b0 + b1 x gdzie: y - jest zmienn objanian, za x - objaniajc. W rwnaniu tym bardzo istotn rol odgrywaj wspczynniki b0 i b1, gdzie b1 jest nachyleniem linii regresji, za b0 punktem przecicia linii regresji z osi x (wyrazem wolnym) a wic przewidywan wartoci zmiennej objanianej gdy zmienna objaniajca jest rwna 0.

http://zsi.tech.us.edu.pl/~nowak/smad/platki.txt

http://zsi.tech.us.edu.pl/~nowak/smad/platki.txt

http://zsi.tech.us.edu.pl/~nowak/smad/platki.txt

http://zsi.tech.us.edu.pl/~nowak/smad/platki.txt

Cereals.data Name nazwa patkw

Manuf wytwrca patkw

Type typ patkw ( na ciepo (hot), na zimno (cold))

Calories kalorie w porcji

Protein 0 biako (w gramach)

Fat tuszcz (w gramach)

Sodium sd

Fiber bonnik

Carbo wglowodany

Sugars cukry

Potass potas ( w miligramach)

Vitamins procent zalecanego dziennego spoycia witamin (0%, 25 %, 100%)

Shelf pooenie pki (1=dolna, 2=rodkowa, 3 = grna)

Weight waga porcji

Cups liczba yek na porcj

Rating warto odywcza, obliczona przez Customer Reports

Warto odywcza

Kalorie Biako tuszcz Sd Bonnik Wglowodany Cukry Potas

Kalorie -0.689

Biako 0.471 0.019

Tuszcz -0.409 0.499 0.208

Sd -0.401 0.301 -0.055 -0.005

Bonnik 0.577 -0.291 0.506 0.026

Wglowodany 0.050 0.255 -0.125 -0.315 0.357 -0.357

Cukry -0.762 0.564 -0.324 0.257 0.096 -0.137 -0.351

Potas 0.380 -0.067 0.549 0.193 -0.033 0.905 -0.354 0.22

Witaminy -0.241 0.265 0.007 -0.031 0.361 -0.036 0.257 0.122 0.021

Szukamy zmiennej o najwikszej korelacji ze zmienn warto

odywcza patkw.

Najwiksz korelacj znajdujemy dla zmiennej cukry

Warto odywcza

Kalorie Biako tuszcz Sd Bonnik Wglowodany Cukry Potas

Kalorie -0.689

Biako 0.471 0.019

Tuszcz -0.409 0.499 0.208

Sd -0.401 0.301 -0.055 -0.005

Bonnik 0.577 -0.291 0.506 0.026

Wglowodany 0.050 0.255 -0.125 -0.315 0.357 -0.357

Cukry -0.762 0.564 -0.324 0.257 0.096 -0.137 -0.351

Potas 0.380 -0.067 0.549 0.193 -0.033 0.905 -0.354 0.22

Witaminy -0.241 0.265 0.007 -0.031 0.361 -0.036 0.257 0.122 0.021

Szukamy zmiennej o najwikszej korelacji ze zmienn warto odywcza patkw. Najwiksz korelacj znajdujemy dla zmiennej cukry Jest to korelacja ujemna, wynosi -0.762. Oznacza, e w miar wzrostu wartoci cukrw w patkach, warto odywcza takich patkw maleje.

A wic najpierw zajmiemy si zalenociami midzy dwiema zmiennymi: objanian (warto odywcza patkw, rating) oraz objaniajc (cukry, sugars).

Analiza regresji pozwoli nam oszacowa wartoci odywcze (rating) rnych typw patkw niadaniowych, majc dane zawartoci cukrw (sugars).

0

10

20

30

40

50

60

70

80

90

100

-2 0 2 4 6 8 10 12 14 16

rati

ng

sugars

sugars

0

10

20

30

40

50

60

70

80

90

100

-2 0 2 4 6 8 10 12 14 16

rati

ng

sugars

sugars

Liniowy (sugars)

To wykres rozrzutu wartoci odywczych wzgldem zawartoci cukrw dla 77 rodzajw patkw niadaniowych, razem z lini regresji najmniejszych kwadratw. Jest to linia regresji otrzymana za pomoc metody najmniejszych kwadratw. Linia regresji jest zapisana w postaci rwnania , ktre nazywa si rwnaniem regresji lub oszacowanym rwnaniem regresji, przy czym:

xbby 10

Szacowana warto zmiennej objanianej Punkt przecicia linii regresji z osi y Nachylenie linii regresji Wspczynniki regresji

y

0b

1b

10 ,bb

Regresja liniowa w Rattle dla Ra

Regresja liniowa w rodowisku R

W rodowisku R procedura znajdowania rwnania regresji dla podanego zbioru danych moliwa jest dziki wykorzystaniu funkcji lm. Komenda R postaci lm(y ~ x) mwi, e chcemy znale model regresji liniowej dla zmiennej y w zalenoci od zmiennej x.

Wariant z 1 zmienn objaniajc

rating = -2.4 * sugars+ 59.3

wic

Estymowane rwnanie regresji moe by interpretowane jako oszacowana warto patkw jest rwna 59,4 2,42 * masa cukru w gramach

Linia regresji i (oszacowane rwnanie regresji) s uywane jako liniowe przyblienie relacji pomidzy zmiennymi x (wartoci objaniajc) a y (objanian), tj. midzy zawartoci cukru a wartoci odywcz.

sugarsrating *42.24.59

4.590 b42.21 b

y

xbby 10

Jak to czyta ?

sugarsrating *42.24.59

A wic: 4.590 b 42.21 b

Oszacowana warto odywcza patkw (rating) jest rwna 59.4 i 2.42 razy

waga cukrw (sugars) w gramach

Czyli linia regresji jest liniowym przyblieniem relacji midzy zmiennymi x (objaniajcymi, niezalenymi) a y (objanian, zalen) w tym przypadku midzy zawartoci cukrw a wartoci odywcz. Moemy zatem dziki regresji: SZACOWA, PRZEWIDYWA

Gdy np. chcemy oszacowa wartoci odywcze nowego rodzaju patkw (nieuwzgldnionych dotd w tej prbie 77 rnym badanych patkw niadaniowych), ktre zawieraj x=1 gram cukrw.

Wwczas za pomoc oszacowanego rwnania regresji moemy wyestymowa warto odywcz patkw niadaniowych zawierajcym 1 gram cukrw:

Po co przewidywa ?

98.561*42.24.59

y

Gdy np. chcemy oszacowa wartoci odywcze nowego rodzaju patkw (nieuwzgldnionych dotd w tej prbie 77 rnym badanych patkw niadaniowych), ktre zawieraj x=5 gram cukrw.

Wwczas za pomoc oszacowanego rwnania regresji moemy wyestymowa warto odywcz patkw niadaniowych zawierajcym 5 gram cukrw:

Po co przewidywa ?

3.475*42.24.59

y

Jak wida, niestety oszacowanie zgodne z rwnaniem regresji jest nie do koca zgodne z rzeczywist wartoci odywcz patkw.

Wyraz wolny b0 jest miejscem na osi y gdzie linia regresji przecina t o, czyli jest to przewidywana warto zmiennej objanianej, gdy zmienna objaniajca jest rwna 0. W wielu przypadkach zerowa warto nie ma tu sensu. Przypumy np. e chcielibymy przewidzie wag ucznia szkoy podstawowej (y) na podstawie jego wzrostu (x). Warto zerowa wzrostu jest niejasna, a wicej interpretacji znaczenia wyrazu wolnego nie ma sensu w tym przypadku.

Jednak dla naszego zbioru danych zerowa warto cukrw w patkach jak najbardziej ma sens, poniewa istniej patki niezawierajce cukrw. Zatem w naszym zbiorze danych wyraz wolny b0=59.4 reprezentuje przewidywan warto odywcz patkw z zerow zawartoci cukrw.

Ale w naszym zbiorze nie mamy patkw o zerowej zawartoci cukru ktre maj oszacowan warto odywcz rwn dokadnie 59.4. Waciwe wartoci odywcze razem z bdami oszacowania przedstawiono poniej.

Wszystkie przewidywane wartoci s takie same. Bo wszystkie wymienione patki maj identyczn warto zmiennej objaniajcej (x=0).

Wspczynnik kierunkowy prostej regresji oznacza oszacowan zmian wartoci y dla jednostkowego wzrostu x.

Warto b1 = 2.42 interpretujemy jako: Jeeli zawarto cukrw wzronie o 1 gram, to warto odywcza zmniejszy si o 2.42 punktu.

Patki o zerowej wartoci SUGARS Prosz sprawdzi ile z tych patkw ktre faktycznie miay 0

warto cukrw (sugars) miay warto odywcz (rating) rwn 59.4?

Odp: adne

Co sugeruje, e nasz model regresji nie do koca dobrze przewiduje w tym przypadku warto odywcz patkw.

Zamy np. e jestemy zainteresowani szacowaniem wartoci odywczych nowych patkw (nie zawartych w pocztkowych danych), ktre zawieraj x=1 gram cukru.

Za pomoc oszacowanego rwnania regresji moemy znale oszacowan warto patkw zawierajcych 1 gram cukru jako 59.4 2.42 * 1 = 56.98

Zauwamy, e ta oszacowana warto dla wartoci odywczej ley bezporednio na linii regresji, w punkcie (x=1, y = 56.98). W rzeczywistoci dla kadej danej wartoci x (sugars) oszacowana warto y (rating) bdzie znajdowa si dokadnie na linii regresji.

W naszych zbiorze s patki Cheerios, w ktrych zawarto cukru jest rwna 1 gram. Jednak ich warto odywcza to 50.765 a nie 56.98 jak oszacowalimy powyej dla nowych patkw zawierajcych 1 gram cukru.

Na wykresie rozrzutu punkt patkw Cheerios jest umiejscowiony w (x=1, y = 50.765) wewntrz owalu. Grna strzaka wskazuje na pooenie na linii regresji dokadnie powyej punktu dla patkw Cheerios. Jest to punkt ktry przewidziaa linia regresji dla wartoci odywczych, jeeli zawarto cukru wynosi 1 gram.

Warto szacowana bya zbyt dua o 56.98 50.765 = 6.215 co jest odlegoci w pionie punktu reprezentujcego patki Cheerios od linii regresji. Ta pionowa odlego rwna 6.215 w oglnoci jest nazywana np. bdem predykcji, bdem szacowania lub reszt.

)( yy

Czyli kade patki majce 1 gram cukru powinny mie warto odywcz rwn 56,98 ale jak wida tak nie jest. Patki Cheerios maj warto odywcz rwn 50,765. Czyli nastpio PRZESACOWANIE wartoci odywczej patkw o 6,215. Graficznie t odlego widzimy jako odlego punktu reprezentujcego te patki od jego rzutu pionowego na lini regresji.

Co wwczas ?

Odlego t mierzon jako:

Nazywa bdziemy bdem predykcji (bdem oszacowania, wartoci resztow, rezyduum). Oczywicie powinno si dy do minimalizacji bdu oszacowania. Suy do tego metoda zwana metod najmniejszych kwadratw. Metoda polega na tym, e wybieramy lini regresji ktra bdzie minimalizowa sum kwadratw reszt dla wszystkich punktw danych.

)( yy

Ktre residua (suma kwadratw) s najmniejsza?

Proste sumowanie: I -5+2+3=0; II -1+2-1=0; III -2+2+0

MNK: I 25+4+9=38; II: 1+4+1=6; III 4+4=8

Metoda MNK

Metoda MNK pozwala nam jednoznacznie wybra lini regresji, ktra minimalizuje sum kwadratw reszt dla wszystkich punktw danych.

Jeli mamy n obserwacji z modelu danego rwnaniem powyej, wwczas

Linia NK jest lini, ktra minimalizuje sum kwadratw bdw dla populacji ()

xy 10

iii xy 10ni ,...,2,1

n

i

ii

n

i

ip xySSE1

2

10

1

)(

Odpowied: pewnie NIE.

Prawdziw liniow zaleno midzy wartoci odywcz a zawartoci cukrw dla WSZYSTKICH rodzajw patkw reprezentuje rwnanie:

Czy to rwnanie bdzie spenione dla innych patkw ni te z badanego zbioru ?

xy 10- Losowy bd

Linia najmniejszych kwadratw minimalizuje sum kwadratw bdw SSE (population sum of squared errors):

Dla n obserwacji

iii xy 10 i=1,,n

n

i

n

i

iiiR

p xySSE1 1

2

10 )(

1. Rniczkujemy to rwnanie by oszacowa

Co dalej ?

10 i

)(*2 1010

i

n

i

i

pxy

SSE

)(*2 1011

i

n

i

ii

pxyx

SSE

2. Przyrwnujemy wynik do zera:

0)( 101

i

n

i

i xbby

0)( 101

i

n

i

ii xbbyx

3. Rozbijamy sum:

Co dalej ?

4. Powstaje

01

10

1

n

i

i

n

i

i xbbny

01

2

1

1

0

1

n

i

i

n

i

i

n

i

ii xbxbyx

n

i

i

n

i

i yxbnb11

10

n

i

ii

n

i

i

n

i

i yxxbxb11

2

1

1

0

5. Rozwizujc te rwnania otrzymujemy:

Co dalej ?

nxx

nyxyxb

ii

iiii

/)(

/))((221

xbyb 10

x

n liczba obserwacji

- rednia warto zmiennej objaniajcej

y - rednia warto zmiennej objanianej

A sumy s od i=1 do n.

0b 1bi -estymatory najmniejszych kwadratw dla Czyli wartoci ktre minimalizuj sum kwadratw bdw.

10 i

1. Obliczamy wartoci xi,yi,xiyi,xi2

Jak znale w Excelu wartoci b0=59.4 i b1=-2.42 z tych rwna?

xi=534 yi=3285.26 xiyi=19186.76 xi

2=5190

1. Obliczamy wartoci:

2. Podstawiamy do wzorw:

42.267.1486

79.3596

77/5345190

77/26.3285*53476.1918621

b

4.59935.6*42.26657.4210 xbyb

Wnioski

Wyraz wolny b0 jest miejscem na osi y gdzie linia regresji przecina t o czyli jest

to przewidywana warto zmiennej objanianej gdy objaniajca rwna si zeru.

Wspczynnik kierunkowy prostej regresji oznacza szacowan zmian warto y

dla jednostkowego wzrostu x warto b1=-2.42 mwi, e jeli zawarto cukrw

wzronie o 1 gram to warto odywcza patkw zmniejszy si o 2.42 punktu.

Czyli patki A ktrych zawarto cukrw jest o 5 wiksza ni w patkach B powinny

mie oszacowan warto odywcz o 5 razy 2.42 = 12.1 punktw mniejsz ni

patki typu B.

Interpretacja

Wida z nich, e midzy zmienn objaniajc sugars a zmienn objanian rating istnieje pewna zaleno (w miar wzrostu wartoci sugars spada warto rating). Z kolei analizujc rozrzut obserwacji ze wzgldu na wartoci zmiennej objaniajcej fiber oraz objanianej rating ju tak silnej zalenoci nie dostrzegamy.

Sprawdmy jak bdzie si zachowywa rozrzut wartoci zmiennych objanianych w oparciu o te dwie zmienne objaniajce razem.

Regresja wielokrotna Omawiajc regresj liniow (prost) rozpatrywalimy dotd jedynie takie przypadki zalenoci midzy zmiennymi objaniajcymi a objanianymi gdzie zmienna objaniana bya zalena tylko od jednej konkretnej zmiennej objaniajcej. Jednak w praktyce niezwykle czsto zmienna objaniana zalena jest nie od jednej ale od kilku (wielu) zmiennych objaniajcych. Bdziemy zatem rozwaa oglne rwnanie regresji postaci:

mmxbxbxbby

...22110gdzie m oznacza liczb (najczciej kilku) zmiennych objaniajcych.

Wykres rozrzutu dla zmiennej sugars

Wykres rozrzutu dla zmiennej fiber

Wariant z 2 zmiennymi objaniajcymi

rating = -2.18 * sugars+ 2.86 * fiber + 51.6

Uoglniajc bdziemy mwi, e dla m zmiennych objaniajcych zachodzi regua, zgodnie z ktr: oszacowana zmiana wartoci zmiennej odpowiedzi to bi, jeli warto zmiennej xi ronie o

jednostk i zakadajc, e wszystkie pozostae wartoci zmiennych s

stae.

Rating = - 2.18 * sugars+ 2.86 * fiber+ 51.6

Aby zinterpretowa wspczynnik nachylenia prostej regresji:

b1 = -2.18 warto odywcza maleje o 2.18 punktu, jeli zawarto cukru ronie o jedn jednostk. Zakadamy przy tym, e

zawarto bonnika (fiber) jest staa.

b2 = 2.86 warto odywcza ronie o 2.86 punktu, jeli zawarto

bonnika ronie o jedn jednostk a zawarto cukru (sugars) jest staa.

Teraz moemy przewidywa, e gdy poziom cukrw wynosi np 1 to warto odywcza patkw bdzie wynosi 56.9 za gdy poziom cukrw bdzie wynosi 10 wwczas warto odywcza zmaleje do wartoci 35.3 (patrz poniej).

> predict(model,data.frame(sugars=10), level = 0.9, interval = "confidence")

fit lwr upr

1 35.27617 33.14878 37.40356

> predict(model,data.frame(sugars=1), level = 0.9, interval = "confidence")

fit lwr upr

1 56.88355 53.96394 59.80316

Bdy predykcji s mierzone przy uyciu reszt Uwaga: w prostej regresji liniowej reszty reprezentuj odlego (mierzon wzdu osi pionowej) pomidzy waciwym punktem danych a lini regresji, za w regresji wielokrotnej, reszta jest reprezentowana jako odlego midzy waciwym punktem danych a paszczyzn lub hiperpaszczyzn regresji. Przykadowo patki Spoon Size Shredded Wheat zawieraj x1=0 gramw cukru i x2 = 3 gramy bonnika, a ich warto odywcza jest rwna 72.80 podczas gdy warto oszacowana, podana za pomoc rwnania regresji:

Zatem dla tych konkretnych patkw reszta jest rwna 60.21 - 72.80 = 12.59.

> predict(model, data.frame(sugars=0,fiber=3),level=0.95,

interval="confidence")

fit lwr upr

1 60.21342 57.5805 62.84635

Zwrmy uwag na to, e wyniki, ktre tutaj zwraca funkcja R: predict s bardzo istotne. Mianowicie, oprcz podanej (oszacowanej, przewidywanej) wartoci zmiennej objaniajcej, otrzymujemy rwnie przedzia ufnoci na zadanym poziomie ufnoci rwnym 0.95, ktry to przedzia mieci si midzy wartoci 57.5805 (lwr) a 62.84635 (upr).

yy

Wariant z wieloma zmiennymi objaniajcymi

Rating = - 0.22*calories

+2.9*protein+1.03*carbo-

0.84*sugars-2.00*fat-

0.05*vitamins+2.54*fiber-

0.05*sodium+ 56.19

Zamy np., e jest dostpny nowy rodzaj patkw niadaniowych, ktrych porcja ma 80 kalorii, 2 gramy biaka, nie ma tuszczu i sodu, ma 3 gramy bonnika, 16 gramw wglowodanw, nie ma cukrw i pokrywa 0% dziennego zapotrzebowania na witaminy (podobnie jak Shredded Wheat).

Wtedy przewidywana wartoci odywcza to 56.19 0.22 * 80 +2.9 *2 -2.00 *0-0.05*0+2.54*3 +1.03*16-0.84*0-0.05*0 = 68.49

Rating = - 0.22*calories +2.9*protein+1.03*carbo-0.84*sugars-

2.00*fat-0.05*vitamins+2.54*fiber-0.05*sodium+ 56.19

To przewidywanie jest niezwykle bliskie waciwej wartoci odywczej patkw Shredded Wheat rwnej 68.2358. zatem bd szacowania = 68.2359-68.49 = -0.2541

Oczywicie szacowanie punktu ma wady analogiczne do tych w przypadku prostej regresji liniowej, zatem rwnie moemy znale przedziay ufnoci dla redniej wartoci odywczej wszystkich takich patkw (o waciwociach podobnych do Shredded Wheat: 80 kalorii, 2 gramy biaka) na poziomie ufnoci 95 % to (66.475,70.764). Jak poprzednio, przedzia ufnoci dla losowo wybranego rodzaju patkw jest wikszy ni dla redniej wartoci.

Nastpnie omwimy dalsze wyniki regresji wielokrotnej. Warto R2 rwna 99.5 % jest niezwykle dua, prawie rwna maksymalnej wartoci rwnej 100%. To pokazuje, e nasz model regresji wielokrotnej przedstawia prawie ca zmienno wartoci odywczej. Bd standardowy szacowania s jest rwno okoo 1, co oznacza, ze typowy bd przewidywania wynosi okoo jednego punktu w skali wartoci odywczej, a blisko 95% (na podstawie rozkadu normalnego bdw) przewidywa bdzie w obrbie dwch punktw od aktualnej wartoci. Porwnajmy to z wartoci s rwn okoo 9 dla modelu prostej regresji liniowej.

Uycie wikszej liczby atrybutw w naszym modelu regresji pozwolio nam na zredukowanie bdu przewidywania o czynnik rwny 9.

Czy wybrana metoda regresji jest przydatna ?

Mona znale tak lini regresji MNK, ktra modeluje zaleno pomidzy dwoma dowolnymi cigymi zmiennymi. Jednak nie ma nigdy gwarancji, e taka regresja bdzie przydatna.

W jaki sposb mona stwierdzi, czy oszacowane rwnanie regresji jest przydatne do przewidywania?

Jedn z miar jest wspczynnik determinacji R2, bdcy miar dopasowania regresji. Okrela on stopie, w jakim linia regresji NK wyjania zmienno obserwowanych danych.

SSE Nr Czas, x Odlego, y Oszacowana

wielko y

Bd oszacowania

(Bd oszacowania)2

1 2 10 10 0 0

2 2 11 10 1 1

3 3 12 12 0 0

4 4 13 14 -1 1

5 4 14 14 0 0

6 5 15 16 -1 1

7 6 20 18 2 4

8 7 18 20 -2 4

9 8 22 22 0 0

10 9 25 24 1 1

12

xy 26

yy 2)(

yy

Pokazano odlego przebyt przez 10 zawodnikw biegu na orientacj oraz czas trwania biegu kadego zawodnika. Pierwszy zawodnik przeby 10 km w 2 godziny.

Na podstawie danych z tej tabeli oszacowane rwnanie regresji przyjmuje posta: .A wic estymowana odlego jest rwna 6 km plus 2 razy liczba godzin.

Oszacowane rwnanie regresji moe by uyte do przewidywania przebytej odlegoci przez zawodnika, o ile znamy czas trwania biegu tego zawodnika.

Estymowane wartoci y znajduj si w kolumnie 3 tabeli mona zatem obliczy bd oszacowania oraz jego kwadrat. Suma kwadratw bdu oszacowania lub suma kwadratw bdw reprezentuje cakowit warto bdu oszacowania w przypadku uycia rwnania regresji.

Tutaj mamy warto SSE = 12. Nie jestemy jeszcze teraz w stanie stwierdzi czy to warto dua, bo w tym miejscu nie mamy adnej innej miary.

xy 26

Jeli teraz chcemy oszacowa przebyt odlego bez znajomoci liczby godzin, a nie mamy dostpu do informacji o wartoci zmiennej x, ktr moglibymy wykorzysta do oszacowania wartoci zmiennej y, nasze oszacowania przebytej odlegoci bd oczywicie mao wartociowe, gdy mniejsza ilo dostpnym informacji zwykle skutkuje mniejsz dokadnoci szacowa.

Skoro nie mamy dostpu do informacji o zmiennych objaniajcych, to najlepszym oszacowaniem dla y bdzie po prostu rednia przebyta odlego. W takim przypadku, oszacowaniem przebytej odlegoci dla kadego zawodnika, niezalenie od jego czasu, byaby warto rednia = 16. Szacowania przebytej odlegoci, gdy ignorowana jest informacja o czasie, pokazuje pozioma linia redniej = 16.

Rysunek, strona 43.

Przewidywana przebyta odlego rednia y = 16, niezalenie od tego czy wdrowali tylko 2 czy 3 godziny, czy te nie byo ich cay dzie. Czyli nie uwzgldniajc czasu. Jest to rzecz jasna rozwizanie nieoptymalne.

Punkty danych na rysunku jak widzimy skupiaj si wok oszacowanej linii regresji, a nie wok tej linii y=16.To sugeruje, e bdy przewidywania s mniejsze, kiedy uwzgldniamy informacj o zmiennej x, anieli wtedy, gdy tej informacji nie wykorzystujemy.

Wemy przykad zawodnika nr 10. Przeby odlego y=25 km w cigu x=9 godzin. Jeeli zignorowalibymy informacj o wartoci zmiennej objaniajcej x, bd szacowania byby rwny = 25 16 = 9 km. Ten bd przewidywania jest reprezentowany przez pionow lini pomidzy punktem danych dla tego zawodnika, a poziom lini, co oznacza odlego pomidzy obserwowan wartoci y i jej rzutem pionowych na prost o rwnaniu na redni y = 16, ktra przecie okrela warto estymowan.

Chcemy teraz znale dla kadego rekordu w zbiorze danych, a nastpnie sum kwadratw tych miar, tak jak zrobilimy to dla ,kiedy obliczalimy sum kwadratw bdw.

Otrzymujemy w ten sposb cakowit sum kwadratw SST.

yy

yy

yy

Pozwala stwierdzi czy oszacowane rwnanie regresji jest przydatne do przewidywania.

Okrela stopie w jakim linia regresji najmniejszych kwadratw wyjania zmienno obserwowanych danych.

Wspczynnik determinacji r2

y yy 2)( yy x y

Na ile dobra jest regresja?

Wspczynnik determinacji jest opisow

miar siy liniowego zwizku

midzy zmiennymi, czyli miar

dopasowania linii regresji do danych

wspczynnik determinacji ---przyjmuje

wartoci z przedziau [0,1] i wskazuje jaka

cz zmiennoci zmiennej y jest

wyjaniana przez znaleziony model.

Na przykad dla R2=0.619 znaleziony

model wyjania okoo 62% zmiennoci y.

Wspczynnik determinacji

Oczywicie zawsze mona znale tak lini regresji metod najmniejszych kwadratw, ktra modeluje zaleno pomidzy dwoma dowolnymi cigymi zmiennymi. Jednak nie ma gwarancji, e taka regresja bdzie przydatna. Zatem powstaje pytanie, w jaki sposb moemy stwierdzi, czy oszacowane rwnanie regresji jest przydatne do przewidywania. Jedn z miar dopasowania regresji jest wspczynnik determinacji R2.

Okrela on stopie, w jakim linia regresji najmniejszych kwadratw wyjania zmienno obserwowanych danych. Przypomnijmy, e oznacza estymowan warto zmiennej objanianej, a jest bdem oszacowania lub reszt.

yy

y

Suma kwadratw bdu oszacowania lub suma kwadratw bdw reprezentuje cakowit warto bdu oszacowania w przypadku uycia rwnania regresji.

Jeli nie znamy wartoci zmiennej objaniajcej do oszacowania wartoci zmiennej objanianej- nasze oszacowania bd oczywicie mao wartociowe.

Lepszym oszacowaniem dla y bdzie po prostu rednia(y). To zazwyczaj prezentuje pozioma linia na wykresie. Punkty danych jednak koncentruj si bardziej wok oszacowanej linii regresji a nie wok tej linii poziomej, co sugeruje, e bdy przewidywania s mniejsze, kiedy uwzgldniamy informacj o zmiennej x, anieli wtedy, gdy tej informacji nie wykorzystujemy.

Jeli liczymy rnice x rednia(x) dla kadego rekordu, a nastpnie sum kwadratw tych miar, tak jak przy oszacowanej wartoci y ( ), kiedy obliczalimy sum kwadratw bdw otrzymujemy cakowit sum kwadratw SST (sum of squares total):

Stanowi ona miar cakowitej zmiennoci wartoci samej zmiennej objanianej bez odniesienia do zmiennej objaniajcej. Zauwamy, e SST jest funkcj wariancji zmiennej y, gdzie wariancja jest kwadratem odchylenia standardowego .

2

1

2 )1()()1()( y

n

i

i nyVarnyySST

n

i

i yySST1

2)(

yy

Wszystkie trzy miary: SST, wariancja oraz odchylenie standardowe s jednowymiarowymi miarami zmiennoci tylko dla y. Czy powinnimy oczekiwa, e SST jest wiksze czy te mniejsze od SSE ?

Wykorzystujc obliczenia mamy SST duo wiksze ni SSE. Mamy wic teraz z czym porwna SSE. Warto SSE jest duo mniejsza od SST, co wskazuje, e uwzgldnienie informacji ze zmiennej objaniajcej w regresji skutkuje duo dokadniejsz estymacj ni gdybymy zignorowali t informacj. Sumy kwadratw s bdami przewidywa, zatem im ich warto jest mniejsza tym lepiej. Innymi sowy, zastosowanie regresji poprawia nasze szacowania zmiennej objanianej.

Jeli chcemy okreli, jak bardzo oszacowane rwnanie regresji poprawia estymacj, obliczymy teraz sum kwadratw Otrzymamy w ten sposb regresyjn sum kwadratw (SSR, sum of squares regression) miar cakowitej poprawy dokadnoci przewidywa w przypadku stosowania regresji w porwnaniu do przypadku, gdy informacja zmiennej objaniajcej jest ignorowana:

n

i

yySSR1

2)(

yy

Odlego dzielimy na dwie czci:

yy

yy

yy

)()( yyyyyy

222 )()()( yyyyyy

SSESSRSST

SST mierzy cakowit zmienno zmiennej objanianej, zatem o SSR moemy myle jak o czci zmiennoci zmiennej objaniajcej, ktra jest wyjaniona przez regresj (SSR).

Innymi sowy, SSR mierzy t cz zmiennoci zmiennej objaniajcej, ktra jest wyjaniana przez liniow zaleno midzy zmienn objaniajc a objanian.

Poniewa nie wszystkie punkty danych le dokadnie na linii regresji, wic pozostaje jeszcze pewna cz zmiennoci zmiennej y, ktra nie zostaa wyjaniona przez regresj (tej czci odpowiada warto SSE).

Moemy tu SSE traktowa jako miar caej zmiennoci y ze wszystkich rde, cznie z bdem, po wyjanieniu liniowej zalenoci midzy x a y za pomoc regresji. Tutaj SSE jest nazywane zmiennoci niewyjanion.

Poniewa wspczynnik determinacji przyjmuje posta ilorazu SSR i SST moemy go interpretowa jako t cz zmiennoci zmiennej y, ktra zostaa wyjaniona przez regresj, czyli przez liniowy zwizek pomidzy zmienn celu a zmienn objaniajc.

Jaka jest maksymalna warto R2 ?

Maksymalna warto moe by osignita wtedy, gdy regresja idealnie pasuje do danych, co ma miejsce wwczas, gdy kady z punktw danych ley dokadnie na oszacowanej linii regresji.

W tej optymalnej sytuacji nie ma bdw oszacowania podczas stosowania regresji, a zatem kada warto resztowa jest rwna 0, co z kolei oznacza, e SSE jest =0.

Jeeli SSE = 0 to SST = SSR zatem wspczynnik R2 jest rwny SSR/SST = 1. Taka sytuacja ma miejsce gdy regresja idealnie modeluje dostpne dane.

Jaka jest minimalna warto R2 ?

Jeli regresja nie wykazaa adnej poprawy, czyli nie wyjania adnej czci zmiennoci zmiennej y.

Wwczas warto SSR jest rwna zero, a wic rwnie warto R2 = 0. Zatem warto wspczynnika R2 jest z zakresu od 0 do 1.

Im wysza warto R2, tym lepsze dopasowanie regresji do danych. Wartoci R2 bliskie 1 oznaczaj niezwykle dobre dopasowanie regresji do danych, wartoci bliskie 0, oznaczaj bardzo sabe dopasowanie.

SST

SSRr 2Wspczynnik determinacji r2:

Wspczynnik determinacji r2

Mierzy stopie dopasowania regresji jako przyblienia liniowej zalenoci pomidzy zmienn celu a zmienn objaniajc.

Jaka jest warto maksymalna wspczynnika determinacji r2 ?

Jest ona osigana wtedy, gdy regresja idealnie pasuje do danych, co ma miejsce wtedy gdy kady z punktw danych ley dokadnie na oszacowanej linii regresji. Wwczas nie ma bdw oszacowania, a wic wartoci resztowe (rezydua) wynosz 0, a wic SSE=0 a wtedy SST = SSR a r2=1.

Jaka jest warto minimalna wspczynnika determinacji r2 ?

Jest ona osigana wtedy, gdy regresja nie wyjania zmiennoci, wtedy SSR = 0, a wic r2=0.

Im wiksza warto r2 tym lepsze dopasowanie regresji do zbioru

danych.

y yy 2)( yy x y

n

i

yySST1

2)(Cakowita suma kwadratw

n

i

yySSR1

2)(Regresyjna suma kwadratw

n

i

yySSE1

2)(Suma kwadratw bdw oszacowania:

SST

SSRr 2Wwczas wspczynnik determinacji r2:

Przykad analizy wspczynnika R2 dla wielu zmiennych objaniajcych

Jak ju wspomnielimy na pocztku, czsto w wiecie rzeczywistym mamy do czynienia z zalenociami zmiennej objanianej nie od jednej ale raczej od wielu zmiennych objaniajcych. Wykonanie tego typu analiz w pakiecie R nie jest rzecz trudn. Wrcz przeciwnie. Nim przeprowadzimy analiz zalenoci zmiennej rating od wielu zmiennych objaniajcych np. sugars oraz fiber przyjrzyjmy si wykresom rozrzutu dla tych zmiennych osobno. Wykres rozrzutu bowiem doskonale odzwierciedla zalenoci midzy pojedynczymi zmiennymi.

Wspczynnik determinacji

gdzie SSR to regresyjna suma kwadratw za SST to cakowita suma kwadratw Bdziemy go interpretowa jako cz zmiennoci zmiennej objanianej, ktra jest wyjaniana przez liniow zaleno ze zbiorem zmiennych objaniajcych. Im wiksza bdzie liczba zmiennych objaniajcych tym nie mniejsza bdzie warto

wspczynnika determinacji R2.

Moemy wnioskowa, e gdy dodajemy now zmienn objaniajc do modelu, warto R2 bdzie nie mniejsza ni przy modelu o mniejszej liczbie zmiennych. Oczywicie skala (wielko) tej rnicy jest bardzo istotna w zalenoci od tego czy dodamy t zmienn do modelu czy te nie. Jeli wzrost jest duy to uznamy t zmienn za znaczc (przydatn).

Niezwykle istotna jest miara nazwana ju wczeniej wspczynnikiem determinacji R2 okrelana za pomoc wzoru:

SST

SSRR 2 2

^

1

)( yySSTn

i

2^

1

)( yySSRn

i

Jeli takie reszty obliczymy dla kadej obserwacji to moliwe bdzie wyznaczenie wartoci wspczynnika determinacji R2. W naszym przypadku jest on rwny 0.8092 czyli 80.92 %. Oznacza to w naszej analizie, e 80.92 % zmiennoci wartoci odywczej jest wyjaniane przez liniow zaleno pomidzy zmienn warto odywcza a zbiorem zmiennych objaniajcych - zawartoci cukrw i zawartoci bonnika. Jeli popatrzymy jaka bya warto tego wspczynnika, gdy badalimy na pocztku zaleno zmiennej objanianej tylko od jednej zmiennej objaniajcej (cukry) to warto ta wynosia R2 = 57.71% . Dla dwch zmiennych objaniajcych ta wartoci wyniosa 80.92 %. Czyli powiemy, e dodajc now zmienn objaniajc (w tym przypadku bonnik) moemy wyjani dodatkowe 80.92 - 57.71 = 22.19% zmiennoci wartoci odywczej (rating) patkw. Typowy bd oszacowania jest tu obliczany jako standardowy bd oszacowania s i wynosi 6.22 punktu. Oznacza to, e estymacja wartoci odywczej patkw na podstawie zawartoci cukrw i bonnika zwykle rni si od waciwej wartoci o 6.22 punktu. Jeli nowa zmienna jest przydatna, to bd ten powinien si zmniejsza po dodaniu nowej zmiennej.

Ile zmiennych objaniajcych w modelu regresji ?

gdzie p oznacza liczb parametrw modelu (i jest to zazwyczaj liczba zmiennych objaniajcych + 1) za n oznacza wielko prby. Zwykle warto R2adj bdzie po prostu nieco mniejsza ni warto R2. W rodowisku R wspczynnik determinacji R2 wyznaczymy stosujc bezporednio komend: summary(model.liniowy)\$r.square

Z kolei wspczynnik determinacji ale ten tzw. skorygowany (ang. Adjusted) za pomoc komendy: summary(model.liniowy)\$adj.r.squared

Najprostszym sposobem na wybr optymalnej liczby zmiennych objaniajcych jest wspczynnik R2adj zwany skorygowanym. Wiedzc, e R

2 = 1 SSE/SST warto R2adj obliczymy jako:

1

12

n

SST

pn

SSE

R adj

> dane model summary(model)$r.square

[1] 0.8091568

> summary(model)$adj.r.squared

[1] 0.8039988

Chcc wyznaczy wartoci tych wspczynnikw dla naszego testowego modelu z dwiema zmiennymi objaniajcymi sugars oraz fiber w rodowisku R uyjemy odpowiednich komend, jak to pokazuje poniszy kod R wraz z wynikami:

Jak widzimy wspczynnik R2 wynosi 0.809 za R2adj odpowiednio 0.804.

Funkcja r.square

Funkcja r.square.adjusted

Funkcja coeff

Przykad analizy wspczynnika R2 dla jednej zmiennej objaniajcej

Procedura analizy wspczynnika determinacji R2 dla jednej zmiennej objaniajcej moe wyglda nastpujco. Jeli zaoymy, e zmienn objanian ma by warto odywcza patkw (rating) za zmienn objaniajc poziom cukrw (sugars) to komenda R wywoujc badanie zalenoci midzy tymi zmiennymi bdzie nastepujca:

lm(rating~sugars, data=dane)

Wwczas peny zapis okna dialogu z R-em bdzie nastpujcy:

> dane model summary(model)

Call:

lm(formula = rating ~ sugars, data = dane)

Residuals:

Min 1Q Median 3Q Max

-17.853 -5.677 -1.439 5.160 34.421

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 59.2844 1.9485 30.43 < 2e-16 ***

sugars -2.4008 0.2373 -10.12 1.15e-15 ***

---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 9.196 on 75 degrees of freedom

Multiple R-squared: 0.5771, Adjusted R-squared: 0.5715

F-statistic: 102.3 on 1 and 75 DF, p-value: 1.153e-15

>

Widzimy zatem, e rwnanie regresji, gdy zmienn objanian bdzie zmienna rating (warto odywcza patkw) za objaniajc sugars (poziom cukrw), bdzie nastpujcej postaci: rating = -2.4 * sugars+ 59.3

Teraz moemy przewidywa, e gdy poziom cukrw wynosi np. 1 to warto odywcza patkw bdzie wynosi 56.9 za gdy poziom cukrw bdzie wynosi np. 10 wwczas warto odywcza zmaleje do wartoci 35.3 (patrz poniej).

> predict(model,data.frame(sugars=10), level = 0.9, interval

= "confidence")

fit lwr upr

1 35.27617 33.14878 37.40356

> predict(model,data.frame(sugars=1), level = 0.9, interval =

"confidence")

fit lwr upr

1 56.88355 53.96394 59.80316

Przykad analizy wspczynnika R2 dla wielu zmiennych objaniajcych

Czsto w wiecie rzeczywistym mamy do czynienia z zalenociami zmiennej objaniajc nie od jednej zmiennej objanianej ale raczej od wielu zmiennych objaniajcych.

Wykonanie tego typu analiz w pakiecie R nie jest rzecz trudn. Wrcz przeciwnie.

Nim przeprowadzimy analiz zalenoci zmiennej rating od wielu zmiennych objaniajcych np. sugars oraz fiber przyjrzyjmy si wykresom rozrzutu dla tych zmiennych osobno. Wykres rozrzutu bowiem doskonale odzwierciedla zalenoci midzy pojedynczymi zmiennymi.

> model summary(model)

Call:

lm(formula = rating ~ sugars + fiber, data = dane)

Residuals:

Min 1Q Median 3Q Max

-12.133 -4.247 -1.031 2.620 16.398

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 51.6097 1.5463 33.376 < 2e-16 ***

sugars -2.1837 0.1621 -13.470 < 2e-16 ***

fiber 2.8679 0.3023 9.486 2.02e-14 ***

---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 6.219 on 74 degrees of freedom

Multiple R-squared: 0.8092, Adjusted R-squared: 0.804

F-statistic: 156.9 on 2 and 74 DF, p-value: < 2.2e-16

Przykad analizy zmiennej objanianej (a wic wartoci odywczej patkw ze zbioru Cereals od kilku zmiennych, np. sugars oraz fiber (a wic odpowiednio: poziom cukrw oraz bonnik) przedstawiamy poniej.

wtedy powiemy, e rwnanie regresji bdzie wyglda nastpujco:

rating = - 2.1837 * sugars+2.8679 * fiber+ 51.6097

Czyli, aby zinterpretowa wspczynnik nachylenia prostej regresji b1 = -2.1837 powiemy, e warto odywcza maleje o 2.1837 punktu, jeli zawarto cukru ronie o jedn jednostk. Zakadamy przy tym, e zawarto bonnika (fiber) jest staa.

Z kolei interpretacja wspczynnika b2 = 2.8679 jest taka, e warto odywcza ronie o 2.8679 punktu, jeli zawarto bonnika ronie o jedn jednostk a zawarto cukru (sugars) jest staa.

Uoglniajc bdziemy mwi, e dla m zmiennych objaniajcych zachodzi regua, zgodnie z ktr oszacowana zmiana wartoci zmiennej odpowiedzi to bi, jeli warto zmiennej xi ronie o jednostk i zakadajc, e wszystkie pozostae wartoci zmiennych s stae.

Bdy predykcji s mierzone przy uyciu reszt Co wane: w prostej regresji liniowej reszty reprezentuj odlego (mierzon wzdu osi pionowej) pomidzy

waciwym punktem danych a lini regresji. Za w regresji wielokrotnej, reszta jest reprezentowana jako odlego midzy waciwym punktem danych a paszczyzn lub hiperpaszczyzn regresji.

Przykadowo patki Spoon Size Shredded Wheat zawieraj x1=0 gramw cukru i x2 = 3 gramy bonnika, a ich warto odywcza jest rwna 72.80

podczas gdy warto oszacowana, podana za pomoc rwnania regresji:

> predict(model, data.frame(sugars=0,fiber=3),level=0.95, interval="confidence")

fit lwr upr

1 60.21342 57.5805 62.84635

>

yy

Zatem dla tych konkretnych patkw reszta jest rwna 60.21 - 72.80 = 12.59 Zwrmy uwag na to, e wyniki ktre tutaj zwraca funkcja R: predict s bardzo

istotne. Mianowicie, oprcz podanej (oszacowanej, przewidywanej) wartoci zmiennej objaniajcej, otrzymujemy rwnie przedzia ufnoci na zadanym poziomie ufnoci rwnym 0.95, ktry to przedzia mieci si midzy wartoci 57.5805 (lwr) a 62.84635 (upr).

Pamitamy, e z pojciem regresji wie si pojcie wspczynnika determinacji:

gdzie SSR to regresyjna suma kwadratw:

za SST to cakowita suma kwadratw:

Bdziemy R2 interpretowa jako cz zmiennoci zmiennej objanianej, ktra jest wyjaniana przez liniow zaleno ze zbiorem zmiennych objaniajcych.

SST

SSRR 2

n

i

yySSR1

2)(

n

i

yySST1

2)(

Co wane: Im wiksza bdzie liczba zmiennych objaniajcych tym nie mniejsza bdzie warto wspczynnika

determinacji R2 Moemy wnioskowa, e gdy dodajemy now zmienn objaniajc do modelu, warto R2 bdzie

nie mniejsza ni przy modelu o mniejszej liczbie zmiennych. Oczywicie skala (wielko) tej rnicy jest bardzo istotna w zalenoci od tego czy dodamy t zmienn do modelu czy te nie. Jeli wzrost jest duy to uznamy t zmienn za znaczc (przydatn).

Jeli takie reszty obliczymy dla kadej obserwacji to moliwe bdzie wyznaczenie wartoci wspczynnika determinacji R2. W naszym przypadku jest on rwny 0.8092 czyli 80.92%. Oznacza to w naszej analizie, e 80.92% zmiennoci wartoci odywczej jest wyjaniana przez liniow zaleno (paszczyzn) pomidzy zmienn warto odywcza a zbiorem zmiennych objaniajcych - zawartoci cukrw i zawartoci bonnika.

Jeli popatrzymy jaka bya warto tego wspczynnika, gdy badalimy na pocztku zaleno zmiennej objanianej tylko od jednej zmiennej objaniajcej (cukry) to warto ta wynosia R2 = 57.71%. Dla dwch zmiennych objaniajcych ta wartoci wyniosa 80.92 %. Czyli powiemy, e dodajc now zmienn objaniajc (w tym przypadku bonnik) moemy wyjani dodatkowe 80.92 - 57.71 = 22.19% zmiennoci wartoci odywczej (rating) patkw.

Typowy bd oszacowania jest tu obliczany jako standardowy bd oszacowania s i wynosi 6.22 punktu. Oznacza to, e estymacja wartoci odywczej patkw na podstawie zawartoci cukrw i bonnika zwykle rni si od waciwej wartoci o 6.22 punktu. Jeli nowa zmienna jest przydatna, to bd ten powinien si zmniejsza po dodaniu nowej zmiennej.

Najprostszym sposobem na wybr optymalnej liczby zmiennych objaniajcych jest wspczynnik R2adj zwany skorygowanym (ang. adjusted).

Wiedzc, e warto R2adj obliczymy jako i zwykle ta warto bdzie po prostu nieco mniejsza ni warto R2 . W rodowisku R wspczynnik determinacji R2 wyznaczymy stosujc bezporednio

komend: summary(model.liniowy)$r.square Z kolei wspczynnik determinacji ale ten tzw. skorygowany (ang. adjusted) za pomoc

komendy: summary(model.liniowy)$adj.r.squared. Chcc wyznaczy wartoci tych wspczynnikw dla naszego testowego modelu w

dwiema zmiennymi objaniajcymi sugars oraz fiber w rodowisku R uyjemy odpowiednich komend, jak to pokazuje poniszy kod R wraz z wynikami:

> dane model summary(model)$r.square

[1] 0.8091568

> summary(model)$adj.r.squared

[1] 0.8039988

Jak widzimy wspczynnik R2 wynosi 0.809 za R2adj odpowiednio 0.804.

)1(

)(12

nSST

pnSSERadj

SST

SSER 12

Uyjemy rwnania regresji aby oszacowa warto odywcz Chocolade Frosted Sugar Bombs:

y = 59.4 2.42 * sugars = 59.4 2.42 * 30 = -3.2

Innymi sowy, ulubione patki mog mie tak duo cukru, e warto odywcza jest liczb ujemn, w przeciwiestwie do innych patkw w zbiorze danych (minimalna warto odywcza = 18) i analogicznie do ujemnej oceny studenta z egzaminu.

Co tu si dzieje ?

Ujemna przewidywana warto odywcza dla tych patkw jest przykadem nieuzasadnionej ekstrapolacji.

Po dzisiejszym wykadzie powiniene zna odpowied na nastpujce pytania:

Jak posta przyjmuje rwnanie regresji liniowej?

Jak z rwnania regresji dokonywa predykcji?

Co to znaczy, e regresja jest wielokrotna ?

Czym jest wspczynnik determinacji ? Jak si go mierzy ?

Jaka jest jego max i min warto ?

Jak sprawdzi czy regresja jest przydatna ?

Do czego suy metoda MNK ?

Na nastpnym wykadzie poznasz odpowied na nastpujce pytania:

Jak graficznie sprawdza zaoenia regresji liniowej ?

Co to jest wykres kwantylowy ?

Co to jest wykres studentyzowanych i standaryzowanych reszt ?

Jak znale w modelu obserwacje wpywowe, obserwacje odstjce czy

obserwacje wysokiej dwigni ?

Jak weryfikowa poprawno modelu regresji ?

Jak wybra lepszy model regresji ?

Jak bada regresj nieliniow ?