statistika

87
STATISTI KA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: [email protected] WWW: http://most. ujep.cz / ~ popelka

Upload: alden-pennington

Post on 30-Dec-2015

28 views

Category:

Documents


5 download

DESCRIPTION

Statistika. Ing. Jan Popelka, Ph.D . odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: jan.popelka @ ujep.cz WWW: http://most. ujep.cz / ~ popelka. Korelační a Regresní analýza. Korelační a Regresní analýza. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Statistika

STATISTIKAIng. Jan Popelka, Ph.D.odborný asistentKatedra informatiky a geoinformatikyUniverzita Jana Evangelisty Purkyně v Ústí nad Labememail: [email protected]: http://most.ujep.cz/~popelka

Page 2: Statistika

KORELAČNÍ A REGRESNÍ ANALÝZA

0 1

20 1 i

i i

i i i

b n b x y

b x b x x y

Page 3: Statistika

3

KORELAČNÍ A REGRESNÍ ANALÝZA

Závislost dvou číselných proměnných. Korelační analýza - korelační koeficient a

Spearmanův korelační koeficient pořadí Základní princip regresní analýzy Odhady regresních koeficientů Alternativní modely Volba vhodného modelu Diagnostická kontrola modelu

Page 4: Statistika

4

ZÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCH

Grafická analýza závislosti dvou číselných proměnných.

Proměnné vyneseme do bodového grafu, každou proměnnou na jednu osu.

Graf napomáhá odhalení závislosti i naznačuje sílu závislosti!

Je však třeba mít určitou zkušenost při posuzování výsledků, protože závěry mohou být dosti subjektivní.

Jedná se o velmi užitečný a přitom jednoduchý nástroj. Každá složitější analýza závislosti dvou číselných proměnných by měla začínat grafickou analýzou!

Nevýhodou je, že ji nelze použít, pokud je posuzován vliv více proměnných (graf lze vytvořit maximálně trojrozměrný).

Page 5: Statistika

5

ZÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCHPevná (funkční) závislost. Může jít o závislost lineární, kdy všechny

hodnoty leží na přímce.

Pevná (funkční) závislost

-40

-20

0

20

40

60

-30 -20 -10 0 10 20 30

proměnná x

pro

měn

y

Page 6: Statistika

6

ZÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCHPevná (funkční) závislost. Může jít o závislost nelineární, kdy

všechny hodnoty leží na křivce jiné než přímka (parabola).

Pevná (funkční) závislost

0

200

400

600

800

1000

1200

1400

-30 -20 -10 0 10 20 30

proměnná x

pro

nn

á y

Page 7: Statistika

7

ZÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCH

Volná (stochastická) závislost. Hodnoty neleží přímo na přímce, ale je patrný jejich průběh kolem pomyslné přímky.

Čím blíže jsou body pomyslné přímce, tím je závislost těsnější.

Volná (stochastická) závislost

-30

-20

-10

0

10

20

30

40

-30 -20 -10 0 10 20 30

proměnná x

pro

měn

y

Page 8: Statistika

8

ZÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCH

Volná (stochastická) závislost. Hodnoty neleží na přímce, ale je patrný jejich průběh kolem pomyslné přímky.

V porovnání s předchozím grafem jde o slabší závislost, hodnoty jsou více rozptýlené

Volná (stochastická) závislost

-20

-10

0

10

20

30

40

50

60

-30 -20 -10 0 10 20 30

proměnná x

pro

měn

y

Page 9: Statistika

9

ZÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCHVolná (stochastická) závislost. Hodnoty se pohybují v okolí pomyslné

paraboly.

Volná (stochastická) závislost

0

100

200

300

400

500

600

-30 -20 -10 0 10 20 30

proměnná x

pro

měn

y

Page 10: Statistika

10

ZÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCH

Nezávislost. Pomyslná křivka je rovnoběžná s osou x nebo vůbec nelze nalézt pomyslnou křivku procházející množinou bodů.

Nezávislost se projevuje také hodnotami v kulovém mračnu.

Nezávislost

0

0,2

0,4

0,6

0,8

1

1,2

-30 -20 -10 0 10 20 30

proměnná x

pro

měn

y

Page 11: Statistika

11

KORELAČNÍ ANALÝZA

Korelační koeficienty

Stejně jako u analýzy závislosti dvou slovních nebo jedné slovní a jedné číselné proměnné, lze také zde použít určité koeficienty pro výpočet síly závislosti.

Page 12: Statistika

12

KORELAČNÍ ANALÝZA

Korelační koeficient – nabývá hodnoty <-1;1>

Čím blíže je hodnotě +1, tím je závislost silnější, obě hodnoty společně rostou.

Čím blíže je hodnotě -1, tím je závislost silnější, rostou-li hodnoty jedné proměnné, hodnoty druhé proměnné klesají.

Je-li hodnota blízká nule, nejsou proměnné závislé.

MS Excel: = CORREL (první soubor dat;druhý soubor dat)

Nástroje – Analýza – Analýza dat – Korelace

yxx y

xy x yr

s s

Page 13: Statistika

13

KORELAČNÍ ANALÝZA

Korelační koeficient

Měří vzájemnou závislost dvou proměnných. Nerozlišuje tedy mezi příčinnou a důsledkem. Jde o ukazatel oboustranné závislosti: ryx = rxy .

Page 14: Statistika

14

KORELAČNÍ ANALÝZA

Test lineární závislosti dvou číselných proměnných

H0: mezi proměnnými není lineární závislost

HA: mezi proměnnými je lineární závislost

Testovací statistika:

Kritický obor: W={t: |t| > t1-α/2(n-2)}.

Online kalkulátor: http://vassarstats.net/rsig.html

2

2

1

xy

xy

r nt

r

Page 15: Statistika

15

KORELAČNÍ ANALÝZA

Korelační koeficient

Pevná (funkční) závislost

-40

-20

0

20

40

60

-30 -20 -10 0 10 20 30

proměnná x

pro

měn

y

Volná (stochastická) závislost

-30

-20

-10

0

10

20

30

40

-30 -20 -10 0 10 20 30

proměnná x

pro

měn

y

Volná (stochastická) závislost

-20

-10

0

10

20

30

40

50

60

-30 -20 -10 0 10 20 30

proměnná x

pro

měn

y

ryx = +1

ryx = +0,85

ryx = -0,62

Page 16: Statistika

16

KORELAČNÍ ANALÝZA

Spearmanův korelační koeficient pořadí

Je obdobou korelačního koeficientu (nabývá hodnot -1 ≤ rs ≤ +1).

Počítá se z pořadí jednotlivých měření obou proměnných, takže: Nepopisuje jen lineární závislost, ale jakékoliv monotónní vztahy

(obecný růst nebo obecný pokles), je odolný vůči vlivu odlehlých hodnot.

Page 17: Statistika

17

KORELAČNÍ ANALÝZA

Spearmanův korelační koeficient pořadí

Každé hodnotě se přiřadí pořadí Rx a Ry vzhledem k ostatním hodnotám. Pokud jsou hodnoty ve sloupci stejné, vypočet se pořadí jako průměr. Di je pak rozdíl pořadí pro každou dvojici hodnot Di = Rx - Ry.

Online kalkulátory: http://www.vassarstats.net/corr_rank.html (včetně testu závislosti) http://www.maccery.com/maths/

2

2

61

( 1)i

s

Dr

n n

Page 18: Statistika

18

KORELAČNÍ ANALÝZA

Test závislosti dvou číselných proměnných pomocí Spearmanova korelačního koeficientu pořadí

H0: mezi proměnnými není monotónní závislost

HA: mezi proměnnými je monotónní závislost

Testovací statistika: samotný koeficient rs

Kritický obor: W={rs; rs > r(n;α)}

rs statistika nemá standardní rozdělení, proto je nutno hledat v tabulce (http://most.ujep.cz/~popelka/tabulky.xls)

Online kalkulátor: http://www.vassarstats.net/corr_rank.html

Page 19: Statistika

19

KORELAČNÍ ANALÝZA

Příklad: Byly sledovány hmotnost a IQ dětí, výsledky jsou v tabulce. Je možné, že by tyto dva číselné ukazatele byly závislé?

hmotnost (kg) 25 31 34 38 42 55

IQ 105 115 115 116 125 128

!

Page 20: Statistika

20

KORELAČNÍ ANALÝZA

Příklad: Byly sledovány hmotnost a IQ dětí ...

Bodový graf a hodnota korelačního koeficientu ryx = 0,9346

Analýza ukázala, že se jedná o velmi silnou závislost!!!

S rostoucí hmotností roste IQ.

!

Page 21: Statistika

21

KORELAČNÍ ANALÝZA

Příklad: Byla sledována hmotnost a IQ dětí ...

Tvrzení je samozřejmě nesmyslné!!

Jedná se o tzv. zdánlivou korelaci. Existuje totiž další proměnná (věk dítěte), se kterou jsou obě proměnné vysoce korelovány.

Korelace mezi hmotností a IQ je způsobena vlivem věku.

S rostoucím věkem roste jak hmotnost, tak i IQ. Nelze ale tvrdit, že s rostoucí hmotností roste IQ nebo obráceně.

hmotnost (kg) 25 31 34 38 42 55

IQ 105 115 115 116 125 128

věk (roky) 8 10 11 13 13 14

!

Page 22: Statistika

22

KORELAČNÍ ANALÝZA

Příklad: Byla sledována hmotnost a IQ dětí ...

Korelační matice – vyjadřuje korelaci všech dvojic proměnných.

Hmotnost a věk jsou silně kladně korelovány 0,909.

IQ a věk jsou silně kladně korelovány 0,905.

MS Excel: Data – Analýza – Analýza dat – Korelace

  hmotnost IQ věk

hmotnost 1

IQ 0,934683 1

věk 0,909683 0,90569 1

!

Page 23: Statistika

23

KORELAČNÍ ANALÝZA

Příklad: Český hydrometeorologický ústav v Praze měřil na stanicích s různou nadmořskou výškou průměrnou roční teplotu půdy. Údaje jsou uvedeny v následující tabulce.Existuje mezi oběma proměnnými nějaká závislost?

Nadmořská výška (m n. m.) 158 183 203 225 235 272 400 455 595

Průměrná teplota půdy (0C) 10,4 10,5 9,3 9,2 9,9 8,7 8 8,3 8,1

!

Page 24: Statistika

24

KORELAČNÍ ANALÝZA

Příklad: Český hydrometeorologický ústav v Praze měřil ...

Elementární metody popisu závislosti:

korelační koeficient ryx = -0,835

Vzhledem k malému počtu hodnot provedu test lineární závislosti.

H0: mezi proměnnými není lineární závislost

HA: mezi proměnnými je lineární závislost

P-hodnota vypočtená online kalkulátorem (http://vassarstats.net/rsig.html): p-hodnota = 0,0025.

Zamítáme Ho. Platí Ha mezi proměnnými je lineární závislost.

!

Page 25: Statistika

25

KORELAČNÍ ANALÝZA

Příklad: Český hydrometeorologický ústav v Praze měřil ...

Elementární metody popisu závislosti:

Spearmanův korelační koeficient pořadí rs = -0,8833

Ze všech výše uvedených nástrojů vyplývá závěr:

Jedná se o silnou závislost, ne však deterministickou (kromě výšky působí na teplotu i jiné faktory).

S rostoucí výškou průměrná teplota půdy klesá.

!

Page 26: Statistika

26

KORELAČNÍ ANALÝZA

Příklad: Český hydrometeorologický ústav v Praze měřil ...

Elementární metody popisu závislosti:

bodový graf

!

Page 27: Statistika

27

REGRESNÍ ANALÝZA

Co je to regresní analýza?

Souhrn statistických metod a postupů a slouží k detailnímu pochopení závislosti mezi dvěma nebo více

číselnými proměnnými, slouží k odhadu hodnot vysvětlované proměnné pro známé

hodnoty vysvětlující proměnné.

Aplikace regresní analýzy: analýza závislosti dvou číselných proměnných, analýza závislosti více číselných proměnných, analýza vývoje ukazatele v čase (závislost ukazatele na

proměnné čas).

Page 28: Statistika

28

REGRESNÍ ANALÝZA

Jednoduchá regresní analýza

Popisuje závislost dvou číselných proměnných z nichž jedna je nezávislá (vysvětlující proměnná) a jedna je závislá (vysvětlovaná proměnná).

Příklad: závislost koncentrace ozónu na intenzitě slunečního záření.

Příklad: závislost koncentrace prachových částic v ovzduší na atmosférickém tlaku.

Příklad: závislost výšky sněhové pokrývky na nadmořské výšce.

Page 29: Statistika

29

REGRESNÍ ANALÝZA

Vícenásobná regresní analýza

Popisuje závislost více číselných proměnných z nichž více je nezávislých (vysvětlující proměnné) a jen jedna je závislá (vysvětlovaná proměnná).

Příklad: závislost koncentrace ozónu na intenzitě slunečního záření, délce slunečního záření, intenzitě automobilové dopravy, tlaku.

Příklad: závislost koncentrace prachových částic v ovzduší na atmosférickém tlaku, teplotě, vlhkosti, rychlosti větru.

Příklad: závislost výšky sněhové pokrývky na nadmořské výšce, délce slunečního záření, typu vegetace, sklonu svahu, směru svahu.

Page 30: Statistika

30

Regresní model

Zjednodušené zobrazení reality.

Závislost popisuje pomocí rovnice (v grafu křivka).

y = η + ε

Např. pomocí přímky: y = β0 + β1x + ε(lineární závislost)

Deterministická složka Náhodná složka(popisuje vliv vysvětlující (všechny ostatní, proměnné) nepopsané vlivy)

REGRESNÍ ANALÝZA

Page 31: Statistika

31

REGRESNÍ ANALÝZA

Deterministická složka η Popisuje závislost mezi hlavními (pozorovanými) proměnnými. Je vyjádřena konkrétní matematickou funkcí (přímka, hyperbola, parabola atd.)

Náhodná složka ε Popisuje závislost vysvětlované proměnná na neznámých nebo nepozorovaných proměnných a popisuje i vliv náhody.Vyjadřuje se pravděpodobnostní funkcí (normální rozdělení).

Page 32: Statistika

32

REGRESNÍ ANALÝZA

Která regresní přímka je vlastně správná?

Pokud jsou pouze dva body, je to jejich spojnice. To ovšem není úloha pro statistiku.

Page 33: Statistika

33

REGRESNÍ ANALÝZA

Která regresní přímka je vlastně správná?Pokud je více bodů, je to již problém.

Spojuje přímka krajní body?

Spojuje přímka jiné dva body?

Page 34: Statistika

34

REGRESNÍ ANALÝZA

Která regresní přímka je vlastně správná?Pokud je více bodů, je to již problém.

Spojuje přímka jiné dva body?

Prochází přímka mezi body?

Page 35: Statistika

35

REGRESNÍ ANALÝZAPříklad: Český hydrometeorologický ústav v Praze měřil ...

Pokud body proložíme přímkou, hovoříme o tzv. regresní přímce.

Pokud by všechny body ležely na přímce, šlo by o model pouze s deterministickou složkou η.Body však leží i mimo – v modelu je deterministická složka η i náhodná složka ε.

!

Page 36: Statistika

36

REGRESNÍ ANALÝZAPříklad: Český hydrometeorologický ústav v Praze měřil ...

Která regresní přímka je ta správná??Lze vložit přímku jen tak od oka (zelená).

Lze protnout krajní body (červená).

Lze použít nástroje regresní analýzy a nalézt přímku, která prochází nejblíže všem bodům (černá).

!

Page 37: Statistika

37

REGRESNÍ ANALÝZAPříklad: Český hydrometeorologický ústav v Praze měřil ...

Přímka procházející nejblíže všem bodům je vždy jen jedna! K jejímu nalezení slouží metoda nejmenších čtverců (MNČ).

Vybere ze všech možných přímek takovou, pro kterou je součet druhých mocnin (čtverců) odchylek bodů od přímky (ei

2) minimální.

e3

e1e2

e4

e5

e6 e7e8

e9

!

Page 38: Statistika

38

REGRESNÍ ANALÝZAPříklad: Český hydrometeorologický ústav v Praze měřil ...

Přímka označená jako 1 je blíže k bodům, součet čtverců odchylek je menší než u přímky označené jako 2. Přímka 1 je vhodnější.

přímka 2

přímka 1

!

Page 39: Statistika

39

REGRESNÍ ANALÝZA

Metoda nejmenších čtverců

Nástroj k určení bodových odhadů koeficientů výběrové regresní přímky: ŷ = b0 + b1x

Výběrová je proto, že je založena pouze na výběrových datech. Koeficienty b0 , b1 jsou výběrové (empirické) regresní koeficienty.

Oproti tomu regresní přímka: η = β0 + β1x ,je založena na datech základního souboru (ta většinou nejsou k dispozici), proto je tento model konstruován na základě odhadu.

Page 40: Statistika

40

REGRESNÍ ANALÝZA

Metoda nejmenších čtverců

Je založena na řešení soustavy normálních rovnic (pro regresní přímku s neznámými b0 a b1):

jejichž řešením je:

0 1

20 1 i

i i

i i i

b n b x y

b x b x x y

0 12 22 2,i i i i i i i i i

i i i i

y x x y x n x y y xb b

n x x n x x

Page 41: Statistika

41

REGRESNÍ ANALÝZAPříklad: Český hydrometeorologický ústav v Praze měřil ...Pomocí metody nejmenších čtverců byla odhadnuta regresní přímka ve tvaru ŷ = 10,795 – 0,00541 · x , nebo také:průměrná teplota půdy = 10,795 - 0,00541·nadmořská výška.

Pozn. V grafu z MS Excel je rovnice zapsána jako výstup volby „Přidat spojnici trendu“ – typ: Lineární.

!

Page 42: Statistika

42

REGRESNÍ ANALÝZA

Příklad: Český hydrometeorologický ústav v Praze měřil ...

Pomocí metody nejmenších čtverců byla odhadnuta regresní přímka ve tvaru ŷ = 10,795 – 0,00541 · x.

Koeficient b0 = 10,795 je průsečík přímky s osou Y.

V nadmořské výšce 0 metrů n.m. by podle modelu byla průměrná teplota půdy 10,795 0C.

!

Page 43: Statistika

43

REGRESNÍ ANALÝZA

Příklad: Český hydrometeorologický ústav v Praze měřil ...

Pomocí metody nejmenších čtverců byla odhadnuta regresní přímka ve tvaru ŷ = 10,795 – 0,00541 · x. Koeficient

b1 = 0,00541 je směrnicí přímky a udává její sklon. Je záporný - přímka klesá.

S každým dalším metrem nadmořské výšky klesá průměrná teplota půdy v průměru o 0,005410C.

!

Page 44: Statistika

44

REGRESNÍ ANALÝZA

Příklad: Český hydrometeorologický ústav v Praze měřil ...

MS Excel: Data – Analýza – Analýza Dat – Regrese

Do políčka „Vstupní oblast Y“ zadáváme

závislou proměnnou.

Data byla vložena včetně popisků

proto zaškrtneme „Popisky“.

Do políčka „Vstupní oblast X“ zadáváme

nezávislou proměnnou.

!

Page 45: Statistika

45

REGRESNÍ ANALÝZA

Příklad: Český hydrometeorologický ústav v Praze měřil ...

MS EXCEL:

Data – Analýza – Analýza Dat – Regrese

Regresní přímka ve tvaru: ŷ = 10,795 – 0,00541 · x.

  KoeficientyChyba stř. hodnoty t stat Hodnota P

Dolní 95% Horní 95%

Hranice 10,79504 0,446866 24,15722 5,3E-08 9,738368 11,85171

Nadm. výška -0,00541 0,00134 -4,03872 0,004941 -0,00858 -0,00224

!

Page 46: Statistika

46

REGRESNÍ ANALÝZA

Pro různý počet pozorování se mohou odhadnuté regresní koeficienty b0 a b1 lišit.

Vedle bodových odhadů regresních koeficientů lze provádět i jejich intervalové odhady.

V praxi mají význam především oboustranné intervaly spolehlivosti:

bi - t1-α/2(n-p) · s(bi) < βi < bi + t1-α/2(n-p) · s(bi) ,

bi … bodový odhad regresního koeficientu,

t1-α/2(n-p) … je kvantil Studentova t rozdělení,

p … je počet koeficientů modelu,

s(bi) … je směrodatná chyba odhadu koeficientu bi.

Page 47: Statistika

47

REGRESNÍ ANALÝZA

Příklad: Český hydrometeorologický ústav v Praze měřil ...

95% interval spolehlivosti pro koeficient b0.

bi - t1-α/2(n-p) · s(bi) < βi < bi + t1-α/2(n-p) · s(bi)

  KoeficientyChyba stř. hodnoty t stat Hodnota P Dolní 95% Horní 95%

Hranice 10,79504 0,446866 24,15722 5,3E-08 9,738368 11,85171

Nadm. výška -0,00541 0,00134 -4,03872 0,004941 -0,00858 -0,00224

Interval spolehlivosti lze počítat ručně podle vzorce, nebo jej přímo přečíst z výstupu počítače.

!

Page 48: Statistika

48

REGRESNÍ ANALÝZA

Příklad: Český hydrometeorologický ústav v Praze měřil ...

95% interval spolehlivosti pro oba koeficienty.

  KoeficientyChyba stř. hodnoty t stat Hodnota P Dolní 95% Horní 95%

Hranice 10,79504 0,446866 24,15722 5,3E-08 9,738368 11,85171

Nadm. výška -0,00541 0,00134 -4,03872 0,004941 -0,00858 -0,00224

V nadmořské výšce 0 metrů n.m. má s pravděpodobností 95 % průměrná teplota půdy hodnotu v rozmezí 9,74 0C až 11,85 0C.

S každým dalším metrem nadmořské výšky klesá s pravděpodobností 95 % průměrná teplota půdy o hodnotu v rozmezí od 0,00858 0C do 0,00224 0C.

!

Page 49: Statistika

49

REGRESNÍ ANALÝZAALTERNATIVNÍ MODELY

Vedle regresní přímky existuje i řada dalších funkcí, jejichž koeficienty lze pomocí metody nejmenších čtverců odhadnout, Nejznámější jsou:

parabola, hyperbola, logaritmická funkce, polynom.

Page 50: Statistika

50

REGRESNÍ ANALÝZAALTERNATIVNÍ MODELY

Regresní parabola η = β0 + β1x + β2x2

Funkční závislost

Stochastická závislost

Page 51: Statistika

51

REGRESNÍ ANALÝZAALTERNATIVNÍ MODELY

Regresní hyperbola η = β0 + β1 (1/x)

Funkční závislost

Stochastická závislost

Page 52: Statistika

52

REGRESNÍ ANALÝZAALTERNATIVNÍ MODELY

Logaritmická funkce η = β0 + β1·ln(x)

Funkční závislost

Stochastická závislost

Page 53: Statistika

53

REGRESNÍ ANALÝZAALTERNATIVNÍ MODELY

Exponenciální funkce

η = β0 eβ1x

Funkční závislost

Stochastická závislost

Page 54: Statistika

54

REGRESNÍ ANALÝZAALTERNATIVNÍ MODELY

Polynom stupně n

η = β0 + β1x + β2x2+ +β3x3 ++ ... + βnxn

Pozn.: Na obrázku je polynom pátého stupně.

Funkční závislost

Stochastická závislost

Page 55: Statistika

55

REGRESNÍ ANALÝZAVOLBA VHODNÉHO MODELU

Při volbě nejlepšího modelu lze použít dva postupy:

1. Apriorní volba – model je zvolen na základě praktické nebo teoretické znalosti typu závislosti.

2. Empirická volba – nejvhodnější model se volí posouzením bodového grafu nebo pomocí nástrojů regresní analýzy.Pokud není počet pozorování příliš velký, nemusí tento postup vést k nalezení vhodné funkce pro popis závislosti v základním souboru a popisuje pouze závislost v souboru výběrovém.

Page 56: Statistika

56

REGRESNÍ ANALÝZAVOLBA VHODNÉHO MODELU

Příklad: Český hydrometeorologický ústav v Praze měřil ...

Empirická volba Volba na základě grafu nemusí být vždy jednoznačná a je subjektivní.

Jde o přímku (černá) nebo logaritmickou funkci (oranžová)nebo snad hyperbolu (červená)?

Page 57: Statistika

57

REGRESNÍ ANALÝZAVOLBA VHODNÉHO MODELU

Empirická volba

Statistický software včetně MS Excel nabízí tzv.

determinační index I2

(anglicky se značí R2).

Vystihuje, jak těsně datové body přiléhají ke křivce.

Nabývá hodnot <0; 1>. Čím více se blíží jedné, tím těsněji datové body ke křivce přiléhají. Navíc určuje, jaké procento změn vysvětlované proměnné je vysvětleno odhadnutým modelem.

Čím vyšší je jeho hodnota, tím je model vhodnější.

Page 58: Statistika

58

Regresní statistika

Násobné R 0,83649

Hodnota spolehlivosti R 0,699716

Nastavená hodnota spolehlivosti R 0,656818

Chyba stř. hodnoty 0,560452

Pozorování 9

REGRESNÍ ANALÝZAVOLBA VHODNÉHO MODELUPříklad: Český hydrometeorologický ústav v Praze měřil ...

MS EXCEL: Data – Analýza – Analýza Dat – Regrese

Hodnota determinačního indexu I2 je 0,699716.69,97 % změn průměrné teploty půdy je vysvětleno změnami nadmořské výšky.Zbylých 30,03 % je způsobeno jinými vlivy (les x louka, orientace svahu atd.).

!

Page 59: Statistika

59

REGRESNÍ ANALÝZAVOLBA VHODNÉHO MODELUPříklad: Český hydrometeorologický ústav v Praze měřil ...

Porovnání alternativních modelů pomocí determinačního indexu I2.

V porovnání s ostatními modely je regresní přímka nejméně vhodná. Nejlepší se jeví hyperbola. Pomocí hyperboly je vysvětleno 85 % změn průměrné teploty půdy prostřednictvím změn nadmořské výšky.

Model I2

Hyperbola 85,39%

Logaritmický 80,01%

Přímka 69,97%

!

Page 60: Statistika

60

REGRESNÍ ANALÝZAVOLBA VHODNÉHO MODELU

Empirická volba

Při srovnávání modelů s nestejným počtem koeficientů (např. zahrnutí polynomů) je nutno používat

upravený determinační index I2upr.

(anglicky se značí R2adj).

Penalizuje složitější modely s více koeficienty, což samotný I2 nedokáže.

Nabývá hodnot <0; 1>. Čím více se blíží jedné, tím těsněji datové body ke křivce přiléhají.

Čím vyšší je jeho hodnota, tím je model vhodnější.

Page 61: Statistika

61

REGRESNÍ ANALÝZAVOLBA VHODNÉHO MODELU

Empirická volba - upravený determinační index I2upr.

Vztah mezi determinačním indexem I2 a upraveným det. indexem I2upr.

I2upr. = I2 - (1 - I2)∙(p - 1)/(n - p - 2)

n je počet pozorování a p je počet parametrů regresního modelu.

Page 62: Statistika

62

Regresní statistika

Násobné R 0,83649

Hodnota spolehlivosti R 0,699716

Nastavená hodnota spolehlivosti R 0,656818

Chyba stř. hodnoty 0,560452

Pozorování 9

REGRESNÍ ANALÝZAVOLBA VHODNÉHO MODELUPříklad: Český hydrometeorologický ústav v Praze měřil ...

MS EXCEL: Data – Analýza – Analýza Dat – Regrese

Hodnota upraveného determinačního indexu I2upr. je 0,656818.

Jeho hodnota bývá nižší než hodnota I2.

!

Page 63: Statistika

63

REGRESNÍ ANALÝZAVOLBA VHODNÉHO MODELUPříklad: Český hydrometeorologický ústav v Praze měřil ...

Porovnání alternativních modelů pomocí upraveného determinačního indexu I2

upr. .

V porovnání s ostatními modely je regresní přímka nejméně vhodná. Nejlepší se jeví hyperbola.

Model I2upr.

Hyperbola 83,30%

Parabola (3 koeficienty) 81,55%

Logaritmická fce. 77,15%

Přímka 65,68%

!

Page 64: Statistika

64

REGRESNÍ ANALÝZAVOLBA VHODNÉHO MODELU

Příklad: Český hydrometeorologický ústav v Praze měřil ...

Odhad koeficientů hyperboly v MS EXCEL: Data – Analýza – Analýza Dat – Regrese

Pozn.: v programu sleduje se závislost teploty na proměnné 1/nadm. výška

Regresní hyperbola má tvar ŷ = 6,931 + 564,21/x.Interpretace odhadnutých koeficientů již není tak jednoduchá jako v případě regresní přímky.

  KoeficientyChyba stř. hodnoty t stat Hodnota P

Dolní 95% Horní 95%

Hranice 6,931651693 0,37130046 18,668578 3,141E-07 6,053665 7,8096377

1/nadm. výška 564,2132944 88,2086726 6,3963471 0,0003685 355,6329 772,79366

!

Page 65: Statistika

65

REGRESNÍ ANALÝZAVOLBA VHODNÉHO MODELU

Princip jednoduchosti

Protože zvolený model je zjednodušením reality, je vhodné volit model co nejjednodušší.

Pokud není významný rozdíl mezi determinačními indexy I2 resp. upravenými determinačními indexy I2

upr. jednotlivých modelů (± 2%), je vhodné zvolit model jednodušší (menší počet koeficientů, méně složitý matematický zápis funkce).

y = b0 + b1x +b2x2 + b3x3 vs. Y = b0 + b1x

I2upr.= 87,52% vs. I2

upr.= 85,65%

Page 66: Statistika

66

REGRESNÍ ANALÝZAVOLBA VHODNÉHO MODELU

Volba na základě znalosti studované problematiky Některé modely mají svá omezení, která způsobí, že danou závislost nepopíší správně.

Příklad: Český hydrometeorologický ústav v Praze ...

Hyperbola nikdy nedosáhne záporných hodnot, takže nikdy nemůže vyjít průměrná teplota půdy pod 0 0C, podobně to platí pro logaritmickou funkci (záporných hodnot dosáhne až pro hodnoty na 20 000 m n.m.). Z tohoto pohledu jsou obě funkce nevhodné.

Parabola dosáhne minima a pak začne opět stoupat, ve vysokých nadmořských výškách by průměrná teplota půdy paradoxně rostla. Také parabola je nevhodná.

Přímku tedy nadále budeme uvažovat jako nejhodnější model.

!

Page 67: Statistika

67

REGRESNÍ ANALÝZAVOLBA VHODNÉHO MODELU

Nikdy nezapomínejte na bodový graf!! Ve všech čtyřech zobrazených případech metoda nejmenších čtverců shodně odhadne regresní přímkuve tvaru ŷ = 3 + 0,5x s determinačním indexem I2 = 0,667.

Page 68: Statistika

68

REGRESNÍ ANALÝZAVOLBA VHODNÉHO MODELU

Volba modelu na základě testuTest pro zjištění, zda je složitější model (více koeficientů) vhodnější

než jednodušší

H0: složitější model nepřináší zlepšení

HA: složitější model přináší zlepšení

Testovací statistika:

H0 zamítáme, pokud platí: F > F1- (p2 - p1; n - p2).SR(1) je reziduální součet čtverců jednoduššího modelu, SR(2)reziduální součet čtverců složitějšího modelu, n je počet

pozorování, p1 počet koeficientů jednoduššího modelu a p2 početkoeficientů složitějšího modelu.

2 1

2

(1) (2)

(2)

R R

R

S S

p pF

S

n p

Page 69: Statistika

69

REGRESNÍ ANALÝZAVOLBA VHODNÉHO MODELU

Příklad: Český hydrometeorologický ústav v Praze měřil ...Porovnáme dva modely: přímku a polynom 4. stupně pomocí testu.!

Page 70: Statistika

70

REGRESNÍ ANALÝZAVOLBA VHODNÉHO MODELU

Příklad: Český hydrometeorologický ústav v Praze měřil ...Porovnáme dva modely: přímku a polynom 4. stupně pomocí testu.

H0: složitější model nepřináší zlepšení

HA: složitější model přináší zlepšení

SR(1) = 2,199 (přímka)

SR(2) = 0,840 (pol.)

p1 = 2

p2 = 4

ANOVA - Přímka

  Rozdíl SS MS F Významnost F

Regrese 1 5,123473 5,12347 16,3112 0,004941

Rezidua 7 2,198748 0,31410

Celkem 8 7,322222      

ANOVA – Polynom 4. stupně

  Rozdíl SS MS F Významnost F

Regrese 4 6,482473 1,62061 7,71953 0,0364412

Rezidua 4 0,83975 0,20993

Celkem 8 7,322222      

!

Page 71: Statistika

71

REGRESNÍ ANALÝZAVOLBA VHODNÉHO MODELU

Příklad: Český hydrometeorologický ústav v Praze měřil ...Testovací statistika:

H0 zamítáme, pokud platí: F > F1- (p2 - p1; n - p2),

kde F0,95(3;4) = 6,591.

Protože testovací statistika nepadne do kritického oboru: F < 6,591,

nezamítáme Ho, složitější model nepřináší zlepšení.

2 1

2

(1) (2) 2,199 0,8405 2 2,157

(2) 0,8409 5

R R

R

S S

p pF

S

n p

!

Page 72: Statistika

72

REGRESNÍ ANALÝZADIAGNOSTICKÁ KONTROLA MODELU

Diagnostika modelu

Nástroj sloužící k odvození obecného regresního modelu (model popisující závislost zkoumaných ukazatelů) z empirického regresního modelu (model popisující závislost vybraných hodnot zkoumaných ukazatelů).

Je třeba zjistit, zda lze obecný model skutečně pro daná data vytvořit a jaké jsou jeho regresní koeficienty.

K tomu slouží dva testy:

1. F-test o regresním modelu- zabývá se statistickou významností celého modelu, tedy vytvořitelností obecného regresního modelu.

2. t-testy o regresních koeficientech - zabývají se se statistickou významností jednotlivých regresních koeficientů, tedy jejich hodnotou v obecném regresním modelu.

Page 73: Statistika

73

REGRESNÍ ANALÝZADIAGNOSTICKÁ KONTROLA MODELUF-test o regresním modeluH0: zvolený model není statisticky významný, obecný model nelze vytvořit

matematicky: β0 = c; β1 = 0HA: zvolený model je statisticky významný, obecný model lze vytvořit

matematicky : β0 = c; β1 ≠ 0

Testovací statistika:

ST je teoretická suma čtverců,SR je reziduální suma čtverců.

Kritický obor: W = {F; F1-α(p-1;n-p}

/( 1)

/( )T

R

S pF

S n p

Page 74: Statistika

74

REGRESNÍ ANALÝZADIAGNOSTICKÁ KONTROLA MODELU

Příklad: Český hydrometeorologický ústav v Praze měřil ...

F-test o regresním modelu v MS EXCEL: Nástroje – Analýza Dat – Regrese

Test vyhodnotíme pomocí p-hodnoty.P-hodnota = 0,004941 < α = 0,05, takže model je statisticky významný a lze jej pro daná data použít.

ANOVA - Přímka

  Rozdíl SS MS F Významnost F

Regrese 1 5,12347361 5,12347 16,3112 0,004941

Rezidua 7 2,19874860 0,31410

Celkem 8 7,32222222      

!

Page 75: Statistika

75

REGRESNÍ ANALÝZADIAGNOSTICKÁ KONTROLA MODELUF-test o regresním modelu

Pro model s více koeficienty mají hypotézy tvar:

H0: zvolený model není statisticky významný, obecný model nelze vytvořitmatematicky: β0 = c; β1 = 0; β2 = 0; … ; βn = 0

HA: zvolený model je statisticky významný, obecný model lze vytvořit matematicky: β0 = c; alespoň jeden z koeficientů se nule nerovná

Příklad: Regresní parabola η = β0 + β1x + β2x2

H0: β0 = c; β1 = 0; β2 = 0

HA: β0 = c; alespoň jeden z koeficientů se nule nerovná

!

Page 76: Statistika

76

REGRESNÍ ANALÝZADIAGNOSTICKÁ KONTROLA MODELU

T-testy o regresních koeficientech se provádějí pro každý koeficient zvlášť.

H0: koeficient není statisticky významný, v obecném modelu se rovná nula; βi = 0

HA: koeficient je statisticky významný, v obecném modelu se nerovná 0; βi ≠ 0

Testovací statistika:

bi je bodový odhad koeficientu,

s(bi) je směrodatná chyba odhadu regresního koeficientu.

Kritický obor: W = {|t|; t1-α/2(n-p)}

( )i

i

bts b

Page 77: Statistika

77

REGRESNÍ ANALÝZADIAGNOSTICKÁ KONTROLA MODELUPříklad: Český hydrometeorologický ústav v Praze měřil ...t-test o regresním koeficientu β0 v MS EXCEL: Nástroje – Analýza Dat

– Regrese

H0: β0 = 0 vs. HA: β0 ≠ 0

  KoeficientyChyba stř. hodnoty t stat Hodnota P

Dolní 95% Horní 95%

Hranice 10,79504 0,446866 24,15722 5,3E-08 9,738368 11,85171

Nadm. výška -0,00541 0,00134 -4,03872 0,004941 -0,00858 -0,00224

P-hodnota = 0,000000053 < α = 0,05, takže koeficient β0 je statisticky významný. V obecném modelu bude zapsán hodnotou bodového odhadu 10,79504.

!

Page 78: Statistika

78

REGRESNÍ ANALÝZADIAGNOSTICKÁ KONTROLA MODELUPříklad: Český hydrometeorologický ústav v Praze měřil ...t-test o regresním koeficientu β1 v MS EXCEL: Nástroje – Analýza Dat

– Regrese

H0: β1 = 0 vs. HA: β1 ≠ 0

  KoeficientyChyba stř. hodnoty t stat Hodnota P

Dolní 95% Horní 95%

Hranice 10,79504 0,446866 24,15722 5,3E-08 9,738368 11,85171

Nadm. výška -0,00541 0,00134 -4,03872 0,004941 -0,00858 -0,00224

P-hodnota = 0,004941 < α = 0,05, takže i koeficient β1 je statisticky významný. V obecném modelu bude zapsán hodnotou bodového odhadu -0,00541.

!

Page 79: Statistika

79

REGRESNÍ ANALÝZADIAGNOSTICKÁ KONTROLA MODELUPříklad: Český hydrometeorologický ústav v Praze měřil ...t-testy o regresních koeficientech β0 a β1 v MS EXCEL: Nástroje –

Analýza Dat – Regrese

  KoeficientyChyba stř. hodnoty t stat Hodnota P Dolní 95% Horní 95%

Hranice 10,79504 0,446866 24,15722 5,3E-08 9,73836 11,85171

Nadm. výška -0,00541 0,00134 -4,03872 0,004941 -0,00858 -0,00224

Vyhodnocení statistické významnosti koeficientů je možné i podle intervalů spolehlivosti. Padne-li do odpovídajícího intervalu 0, pak je koeficient statisticky nevýznamný.

Oba koeficienty jsou statisticky významné, protože ani v jenom z 95 % intervalů spolehlivosti se 0 nenachází.

!

Page 80: Statistika

80

REGRESNÍ ANALÝZADIAGNOSTICKÁ KONTROLA MODELUPříklad: Český hydrometeorologický ústav v Praze měřil ...

Diagnostickou kontrolou modelu bylo zjištěno, že obecný regresní model lze odvodit (F-test o regresním modelu).Diagnostickou kontrolou modelu bylo zjištěno, že regresní koeficienty jsou významné, a tedy je do regresního modelu zapíšeme jejich bodovými odhady (t-testy o regresních koeficientech).

Obecný model má konečný tvar:η = 10,795 – 0,00541 neboliprůměrná teplota půdy = 10,795 - 0,00541·nadmořská výška.

Pozn. Pokud v t-testu o regresním koeficientu platí Ho, pak se do obecného modelu zapíše hodnota koeficientu 0!

!

Page 81: Statistika

81

REGRESNÍ ANALÝZADIAGNOSTICKÁ KONTROLA MODELUt-testy je nutno provést pro všechny regresní koeficienty.

V mnoha případech vychází koeficient β0 statisticky nevýznamný (β0 = 0).

U regresní přímky je to logické!

Příklad: Sleduji–li závislost počtu vypitých piv na váze pijáka, tak je jasné, že piják s hmotností 0 kg vypije 0 piv.

Příklad: Sleduji-li závislost počtu dětí ve školkách na počtu školek ve městě, tak je jasné, že město, které nemá ani jednu školku, nebude mít žádné dítě ve vlastní školce.

V takovém případě lze zlepšit odhad modelu nastavením nulového koeficientu β0: Nástroje – Analýza – Analýza Dat – Regrese zaškrtnout políčko „konstanta je nula“).

!!

Page 82: Statistika

82

REGRESNÍ ANALÝZADIAGNOSTICKÁ KONTROLA MODELU

t-testy je nutno provést pro všechny regresní koeficienty.

Pokud vyjde u regresní přímky koeficient β1 statisticky nevýznamný znamená to, že proměnné nejsou závislé. V takovém případě vyjde i v F-testu, že model není významný.

Jinými slovy: je-li β1 = 0, pak má regresní přímka nulovou směrnici a závislá proměnná y nabývá stále stejnéhodnoty bez ohledu na hodnotu nezávislé proměnné x.

Page 83: Statistika

83

REGRESNÍ ANALÝZADIAGNOSTICKÁ KONTROLA MODELU

Příklad: Český hydrometeorologický ústav v Praze měřil ...Odhad koeficientů polynomu 4. stupně (ŷ = b0 + b1x + b2x2 +b3x3 + b4x4)

Hodnota determinačního indexu I2 roste s počtem koeficientů, proto je nutné modely s více koeficienty (zde jich je 5) porovnávat pomocí upraveného determinačního indexu I2

upr. = 0,7706.

Regresní statistika

Násobné R 0,940911754

Hodnota spolehlivosti R 0,885314929

Nastavená hodnota spolehlivosti R 0,770629859

Chyba stř. hodnoty 0,458189255

Pozorování 9

Model I2upr.

Hyperbola 83,30%

Parabola 81,55%

Logaritm. fce. 77,15%

Polynom 4. st. 77,06%

Přímka 65,68%

!

Page 84: Statistika

84

REGRESNÍ ANALÝZADIAGNOSTICKÁ KONTROLA MODELU

Příklad: Český hydrometeorologický ústav v Praze měřil ...Odhad koeficientů polynomu 4. stupně

Obecně je velmi nevhodné používat polynomy vyšších stupňů. Dobře popisují pouze výběrová data.

!

Page 85: Statistika

85

REGRESNÍ ANALÝZADIAGNOSTICKÁ KONTROLA MODELU

Příklad: Český hydrometeorologický ústav v Praze měřil …Odhad koeficientů polynomu 4. stupně: t-testy

H0: zvolený model není statisticky významný (β0 = c; β1 = 0; β2 = 0; β3 = 0; β4 = 0)

HA: zvolený model je statisticky významný (β0 = c; alespoň jeden z koeficientů se nule nerovná)

P-hodnota = 0,03644 < α = 0,05, takže model je statisticky významný a lze jej pro daná data použít.

ANOVA – Polynom 4. stupně

  Rozdíl SS MS F Významnost F

Regrese 4 6,482473 1,620618 7,719531 0,0364412

Rezidua 4 0,83975 0,209937

Celkem 8 7,322222      

!

Page 86: Statistika

86

REGRESNÍ ANALÝZADIAGNOSTICKÁ KONTROLA MODELU

Příklad: Český hydrometeorologický ústav v Praze měřil ...

Odhad koeficientů polynomu 4. stupně: t-testy

Na hladině významnosti α = 0,05 jsou dle t-testu všechny koeficienty β0, β1, β2, β3, β4 statisticky nevýznamné.

Regresní rovnice by měla tvar ŷ = 0 + 0x + 0x2 + 0x3 + 0x4, tedy ŷ = 0 . Tento jev často nastává u polynomů vyšších stupňů. Doporučením je snížení stupně polynomu (redukce koeficientů).

  KoeficientyChyba stř. hodnoty t stat Hodnota P

Hranice 7,604427913 13,1428372 0,5785986 0,5938759

nad 0,06634885 0,17915618 0,3703408 0,7299051

nad^2 -0,00044506 0,00085759 -0,5189696 0,6311722

nad^3 9,95695E-07 1,6971E-06 0,5867033 0,5889174

nad^4 -7,2728E-10 1,176E-09 -0,618352 0,5698146

!

Page 87: Statistika

87

Lineární závislost Korelační koeficient a Spearmanův korelační koeficient

pořadí Empirický a obecný regresní model Deterministická složka Náhodná složka Regresní koeficienty Metoda nejmenších čtverců Determinační index a upravený det. index Princip jednoduchosti Diagnostická kontrola modelu

KORELAČNÍ A REGRESNÍ ANALÝZADŮLEŽITÉ POJMY – 8. PŘEDNÁŠKA