statystyka matematyczna -...

47
1. Wykład wstępny 2. Teoria prawdopodobieństwa i elementy kombinatoryki 3. Zmienne losowe 4. Populacje i próby danych 5. Testowanie hipotez i estymacja parametrów 6. Test t 7. Test 2 8. Test F 9. Testy nieparametryczne 10. Podsumowanie dotychczasowego materiału, wspólna analiza przykładów, dyskusja 11. Korelacja 12. Regresja liniowa i nieliniowa 13. Określenie jakości dopasowania równania regresji liniowej i nieliniowej 14. Analiza wariancji 15. Podsumowanie dotychczasowego materiału, wspólna analiza przykładów, dyskusja STATYSTYKA MATEMATYCZNA

Upload: ngocong

Post on 27-Feb-2019

217 views

Category:

Documents


0 download

TRANSCRIPT

1. Wykład wstępny

2. Teoria prawdopodobieństwa i elementy kombinatoryki

3. Zmienne losowe

4. Populacje i próby danych

5. Testowanie hipotez i estymacja parametrów

6. Test t

7. Test 2

8. Test F

9. Testy nieparametryczne

10. Podsumowanie dotychczasowego materiału, wspólna analiza przykładów, dyskusja

11.Korelacja

12. Regresja liniowa i nieliniowa

13. Określenie jakości dopasowania równania regresji liniowej i nieliniowej

14. Analiza wariancji

15. Podsumowanie dotychczasowego materiału, wspólna analiza przykładów, dyskusja

STATYSTYKA MATEMATYCZNA

WSTĘP

Regresja liniowa

1. Równanie regresji liniowej

2. Estymacja współczynników prostej regresji

3. Przykłady równań regresji

Regresja nieliniowa

4. Dane pochodzące z rozkładu dwumianowego

5. Transformacje danych dwumianowych

6. Równanie regresji logistycznej

Copyright ©2010, Joanna Szyda

REGRESJA LINIOWA

RÓWNANIE REGRESJI

PRÓBA DANYCH

MASA

CIAŁA

ZAW.

TŁUSZCZU

89 28

88 27

66 24

59 23

93 29

73 25

82 29

77 25

100 30

67 23

Copyright ©2015, Joanna Szyda

1. Regresja liniowa = wyznaczenie

prostej, która pozwala na predykcję

wartości zmiennej Y na podstawie

znajomości zmiennej X

2. Zmienna niezależna (X)

• Dokładnie znane wartości /

wartości eksperymentalne

3. Zmienna zależna (Y)

• Zakładamy błąd pomiarowy

Copyright ©2010, Joanna Szyda

22

23

24

25

26

27

28

29

30

50 60 70 80 90 100

masa ciała

za

w.

tłu

szc

zu

RÓWNANIE REGRESJI

Copyright ©2010, Joanna Szyda

22

23

24

25

26

27

28

29

30

50 60 70 80 90 100

masa ciała

za

w.

tłu

szc

zu

22

23

24

25

26

27

28

29

30

50 60 70 80 90 100

masa ciała

za

w.

tłu

szc

zu

gradient

błąd

wyraz wolny

RÓWNANIE REGRESJI

RÓWNANIE REGRESJI

22

23

24

25

26

27

28

29

30

50 60 70 80 90 100

masa ciała

za

w.

tłu

szc

zu

wyraz wolny

Copyright ©2014, Joanna Szyda

xi-xi-1

yi-yi-1

Copyright ©2010, Joanna Szyda

22

23

24

25

26

27

28

29

30

50 60 70 80 90 100

masa ciała

za

w.

tłu

szc

zu

RÓWNANIE REGRESJI

22

23

24

25

26

27

28

29

30

50 60 70 80 90 100

masa ciała

za

w.

tłu

szc

zu

Wartość zaobserwowana (y)

Wartość przewidziana (ŷ)

Copyright ©2010, Joanna Szyda

METODA NAJMNIEJSZYCH KWADRATÓW

JAK WYZNACZYĆ PARAMETRY RÓWNANIA REGRESJI ?

xy 10

TAK ABY ODLEGŁOŚCI OBSERWACJI OD PROSTEJ BYŁY

JAK NAJMNIEJSZE - metoda najmniejszych kwadratów

22

23

24

25

26

27

28

29

30

50 60 70 80 90 100

masa ciała

za

w.

tłu

szc

zu

Copyright ©2010, Joanna Szyda

METODA NAJMNIEJSZYCH KWADRATÓW

22

23

24

25

26

27

28

29

30

50 60 70 80 90 100

masa ciała

za

w.

tłu

szc

zu

( )2 → minimum

Copyright ©2010, Joanna Szyda

METODA NAJMNIEJSZYCH KWADRATÓW

Carl Friedrich Gauss

Copyright ©2010, Joanna Szyda

METODA NAJMNIEJSZYCH KWADRATÓW

minˆ1

2

10

1

2

N

i

ii

N

i

ii xyyy

00

1

1

2

10

0

1

2

10

N

i

ii

N

i

ii xy

i

xy

02021

10

1

10

N

i

iii

N

i

ii xyxixy

Copyright ©2010, Joanna Szyda

METODA NAJMNIEJSZYCH KWADRATÓW

xy 10

N

i

i

N

i

ii

xx

yyxx

1

2

1

xy 1

Copyright ©2010, Joanna Szyda

WAŻONA METODA NAJMNIEJSZYCH KWADRATÓW

xy 10

JAK WYZNACZYĆ PARAMETRY RÓWNANIA REGRESJI

JEŻELI y MIERZONE SĄ ZE ZRÓŻNICOWANĄ

DOKŁADNOŚCIĄ

?

WAŻENIE OBSERWACJI

Copyright ©2010, Joanna Szyda

WAŻONA METODA NAJMNIEJSZYCH KWADRATÓW

N

i

ii

N

i

iii

xxw

yyxxw

1

2

1

xy 1

WAŻENIE OBSERWACJI

xy 10

00

1

1

2

10

0

1

2

10

N

i

iii

N

i

iii xyw

i

xyw

Copyright ©2010, Joanna Szyda

PRZYKŁADY RÓWNAŃ REGRESJI

WIELOMIANY

xy 10

wielomian

1go stopnia

wielomian

2go stopnia

wielomian

3go stopnia

2

210 xxy 3

3

2

210 xxxy

22

23

24

25

26

27

28

29

30

50 60 70 80 90 100

zaw

. tł

uszczu

masa ciała

22

23

24

25

26

27

28

29

30

50 60 70 80 90 100

zaw

. tł

uszczu

masa ciała

22

23

24

25

26

27

28

29

30

50 60 70 80 90 100

zaw

. tł

uszczu

masa ciała

Copyright ©2010, Joanna Szyda

PRZYKŁADY RÓWNAŃ REGRESJI

REGRESJA LOGARYTMICZNA

xy ln10

22

23

24

25

26

27

28

29

30

50 55 60 65 70 75 80 85 90 95 100

zaw

. tł

uszczu

masa ciała

Copyright ©2011 Joanna Szyda

PRZYKŁADY RÓWNAŃ REGRESJI

REGRESJA WIELOKROTNA

MASA

CIAŁA WZROST

ZAW.

TŁUSZCZU

89 154 28

88 176 27

66 166 24

59 189 23

93 199 29

73 160 25

82 178 29

77 158 25

100 173 30

67 169 23

wzwzztztmc xxy 0

0

20

40

60

80

100

120

140

160

180

200

154176166 189 199 160 178 158173

169

REGRESJA NIELINIOWA

Copyright ©2010, Joanna Szyda

DANE

PRÓBA DANYCH 1.

nacisk ilość

całkow.

ilość

uszkod.

2500 50 10

2700 70 17

...

4300 65 51

1. Badanie wytrzymałości złącz w samolotach

2. Zastosowano różne siły nacisku

Copyright ©2012 Joanna Szyda

DANE

PRÓBA DANYCH 1.

0.0

0.2

0.4

0.6

0.8

1.0

2500 2700 2900 3100 3300 3500 3700 3900 4100 4300

pra

wd

op

od

ob

ień

stw

o u

szko

dzen

ia

siła nacisku

Copyright ©2010, Joanna Szyda

DANE

PRÓBA DANYCH 2. chore zdrowe

gr. badawcza 21 2

gr. kontrolna 19 13

1. Grupa badawcza - pomieszczenie wypełniane dymem

papierosowym co godz. przez 12 godz. dziennie

2. Grupa kontrolna - identyczne pomieszczenie bez dymu

3. Sekcja osobników po 1 roku badań - nowotwór płuc

Copyright ©2010, Joanna Szyda

DANE

PRÓBA DANYCH 2.

1. Dane nie pochodzą z rozkładu normalnego

2. Dane pochodzą z rozkładu dwumianowego

3. Y { chory, zdrowy }

4. Prawdopodobieństwo zachorowania

choroba

[y]

grupa

[x]

1 0=b.

1 0

0 0

... ...

1 1=k.

1 1

0 1

Copyright ©2012, Joanna Szyda

TRANSFORMACJA DANYCH

prawdopodobieństwo 0 1

funkcja

prawdopodobieństwa - +

transformacja

Copyright ©2010, Joanna Szyda

TRANSFORMACJA DANYCH

1. Transformacja logistyczna

- 2.50

- 2.00

- 1.50

- 1.00

- 0.50

0.00

0.50

1.00

1.50

2.00

2.50

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

tran

sfo

rmacja

prawdopodobieństwo (p)

p

pp

1lnlogit

p→0 logit(p)→-

p→1 logit(p)→+

p=0.5 logit(p)=0

Copyright ©2012, Joanna Szyda

TRANSFORMACJA DANYCH

1. Transformacja logistyczna

prawdopodobieństwo logit(prawdopodobieństwa)

0.0001 ?

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

0.50

0.55

0.60

0.65

0.70

0.75

0.80

0.85

0.90

0.95

0.9999

Copyright ©2010, Joanna Szyda

TRANSFORMACJA DANYCH

1. Transformacja logistyczna

p

pp

1lnlogit

zależność nieliniowa

zależność liniowa

- 2.50

- 2.00

- 1.50

- 1.00

- 0.50

0.00

0.50

1.00

1.50

2.00

2.50

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

tran

sfo

rmacja

prawdopodobieństwo (p)

Copyright ©2010, Joanna Szyda

TRANSFORMACJA DANYCH

2. Transformacja probit

pp 1probit

- 3.0

- 2.5

- 2.0

- 1.5

- 1.0

- 0.5

0.0

0.5

1.0

1.5

2.0

2.5

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

tran

sfo

rmacja

prawdopodobieństwo

probit

logit

Copyright ©2010, Joanna Szyda

TRANSFORMACJA DANYCH

3. Transformacja log-log

pp 1loglogloglog

- 3.00

- 2.50

- 2.00

- 1.50

- 1.00

- 0.50

0.00

0.50

1.00

1.50

2.00

2.50

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

tran

sfo

rmacja

prawdopodobieństwo

log-log logit

Copyright ©2010, Joanna Szyda

1. Transformacja logit - najczęściej stosowana

2. Transformacja probit - podobna do logit ale

trudniejsza do obliczenia

3. Transformacja log-log - stosowana jeżeli

modelowanie danych wymaga niesymetryczności

względem p=0.5

TRANSFORMACJA DANYCH

Copyright ©2012, Joanna Szyda

RÓWNANIE REGRESJI LOGISTYCZNEJ

xy 10 xp

p10

1log

x

p

p10

1lnplogit

Copyright ©2010, Joanna Szyda

ESTYMACJA PARAMETRÓW

Iteracyjna metoda ważonych najmniejszych kwadratów:

Fisher's method of scoring

jj

i

j

N

i

i

j

N

i

jj

ii

j

jj

iii

i

i

ppnw

xxw

yyxxw

1

1

2

11

Copyright ©2014 Joanna Szyda

RÓWNANIE REGRESJI LOGISTYCZNEJ

e podstawa logarytmu naturalnego ≈ 2.718

Copyright ©2014, Joanna Szyda

TRANSFORMACJA DANYCH

Transformacja logistyczna

X beta0 prawdopodobieństwo

-3.0000 ?

-2.00 beta1

-1.00 ?

0.00

1.20

2.40

Copyright ©2014 Joanna Szyda

RÓWNANIE REGRESJI LOGISTYCZNEJ

e podstawa logarytmu naturalnego ≈ 2.718

Copyright ©2014, Joanna Szyda

TRANSFORMACJA DANYCH

Transformacja logistyczna

logit(prawdopodobieństwa) prawdopodobieństwo

-9.2102

-2.94

-2.20

-1.73

-1.39

-1.10

-0.85

-0.62

-0.41

-0.20

0.00

0.20

0.41

0.62

0.85

1.08

1.39

1.73

2.20

2.94

9.2102

Copyright ©2012 Joanna Szyda

PRZYKŁAD

PRÓBA DANYCH 1.

- 1.5

- 1.0

- 0.5

0.0

0.5

1.0

1.5

2500 2700 2900 3100 3300 3500 3700 3900 4100 4300

log

it (

p)

nacisk

1. Równanie regresji

xp

p001548.0340.5

1lnplogit

Copyright ©2012, Joanna Szyda

PRÓBA DANYCH 1.

0.0

0.2

0.4

0.6

0.8

1.0

2500 2700 2900 3100 3300 3500 3700 3900 4100 4300

p

nacisk

2. Np. prawdopodobieństwo uszkodzenia dla nacisku 5000:

917.05000001548.0340.5exp1

5000001548.0340.5exp

p

1. Prawdopodobieństwo uszkodzenia wzrasta wraz z naciskiem

PRZYKŁAD

xp

p001548.0340.5

1lnplogit

Copyright ©2010, Joanna Szyda

PRÓBA DANYCH 2.

1. Równanie regresji

choroba

[y]

grupa

[x]

1 0=b.

1 0

0 0

... ...

1 1=k.

1 1

0 1

xp

p972.1351.2

1lnplogit

3. Prawdopodobieństwo zachorowania w

grupie badawczej:

913.00972.1351.2exp1

0972.1351.2exp

bp

2. Prawdopodobieństwo zachorowania jest

mniejsze w g. kontrolnej

4. Prawdopodobieństwo zachorowania w

grupie kontrolnej:

594.01972.1351.2exp1

1972.1351.2exp

kp

PRZYKŁAD

PRZYKŁADY

Copyright ©2010, Joanna Szyda

INTERPRETACJA WYNIKÓW RÓWNAŃ REGRESJI

Copyright ©2010, Joanna Szyda

INTERPRETACJA RÓWNAŃ REGRESJI

temp21.036.8interval

1. Wraz ze wzrostem temperatury czas pomiędzy odgłosami

skraca się

2. Wzrost temperatury o 1°C powoduje skrócenie odstępu o

0.21 s.

3. W temperaturze 10°C osobniki wydają dogłosy średnio co

6.26 s. : 26.61021.036.8interval

Copyright ©2010, Joanna Szyda

INTERPRETACJA RÓWNAŃ REGRESJI

Copyright ©2010, Joanna Szyda

INTERPRETACJA RÓWNAŃ REGRESJI

1. Model:

2. Partnerzy, którzy w 2003 r. mieli średnio 40 lat oraz, u

których mąż jest starszy o 15 mają średnio 2.42 dzieci:

3. Partnerzy, którzy w 2003 r. mieli średnio 25 lat oraz, u

których mąż jest starszy o 4 mają średnio 2.66 dzieci:

2r_w002.0r_w03.0wiek01.082.2n_dzieci

42.215002.01503.04001.082.2n_dzieci 2

66.24002.0403.02501.082.2n_dzieci 2

Copyright ©2010, Joanna Szyda

PRZYKŁAD

Copyright ©2011 Joanna Szyda

REGRESJA

LINIOWA

xy 10 ( )2 → minimum

22

24

26

28

30

50 70 90

za

w. …

masa ciała

Copyright ©2011 Joanna Szyda

REGRESJA

NIELINIOWA

0 1

- +

xp

p10

1logplogit