wykład 14 diagnostyka

56
Wykład 14 Diagnostyka • Diagnostyka – ocena prawidłowości założeń • Środki zaradcze – odpowiednie dostosowanie metod analizy

Upload: lance

Post on 06-Jan-2016

46 views

Category:

Documents


0 download

DESCRIPTION

Wykład 14 Diagnostyka. Diagnostyka – ocena prawidłowości założeń Środki zaradcze – odpowiednie dostosowanie metod analizy. Ocena danych. Zanim opiszemy związek między zmienną odpowiedzi (Y) a zmienną wyjaśniającą (X) powinniśmy przyjrzeć się rozkładowi tych zmiennych - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Wykład 14  Diagnostyka

Wykład 14 Diagnostyka

• Diagnostyka – ocena prawidłowości założeń

• Środki zaradcze – odpowiednie dostosowanie metod analizy

Page 2: Wykład 14  Diagnostyka

Ocena danych

• Zanim opiszemy związek między zmienną odpowiedzi (Y) a zmienną wyjaśniającą (X) powinniśmy przyjrzeć się rozkładowi tych zmiennych

• Zawsze powinniśmy ocenić rozrzut X• Jeżeli Y zależy od X to rozkład brzegowy

Y nie dostarcza nam dużo informacji

Page 3: Wykład 14  Diagnostyka

Diagnostyka dla zmiennej X

• Przyglądamy się rozkładowi X– Czy jest skośny ?– Czy są obserwacje odstające ?

• Czy wartości X zależą od czasu (kolejności w jakiej dane były zbierane)?

Page 4: Wykład 14  Diagnostyka

data a1;infile ‘h:/STAT512/ch01ta01.txt'; input lotsize workhrs; seq=_n_;proc print data=a1; run;

Page 5: Wykład 14  Diagnostyka

Obs lotsize workhrs seq

1 80 399 1 2 30 121 2 3 50 221 3 4 90 376 4 5 70 361 5

Page 6: Wykład 14  Diagnostyka

proc univariate data=a1 plot; var lotsize workhours; run;

Page 7: Wykład 14  Diagnostyka

Variable: lotsize N 25Mean 70Std Deviation 28.7228132Skewness -0.1032081Uncorrected SS 142300Coeff Variation 41.0325903

Page 8: Wykład 14  Diagnostyka

Variable: lotsize

Sum Weights 25Sum Observations 1750Variance 825Kurtosis -1.0794107Corrected SS 19800Std Error Mean 5.74456265

Page 9: Wykład 14  Diagnostyka

Basic Statistical Measures

LocationMean 70.00000Median 70.00000Mode 90.00000

Page 10: Wykład 14  Diagnostyka

Basic Statistical Measures

VariabilityStd Deviation 28.72281Variance 825.00000Range 100.00000Interquartile Range 40.00000

Page 11: Wykład 14  Diagnostyka

Extreme Observations

----Lowest---- ----Highest---Value Obs Value Obs

20 14 100 9 30 21 100 16 30 17 110 15 30 2 110 20 40 23 120 7

Page 12: Wykład 14  Diagnostyka

Stem Leaf # Boxplot 12 0 1 | 11 00 2 | 10 00 2 | 9 0000 4 +-----+ 8 000 3 | | 7 000 3 *--+--* 6 0 1 | | 5 000 3 +-----+ 4 00 2 | 3 000 3 | 2 0 1 | ----+----+----+----+ Multiply Stem.Leaf by 10**+1

Page 13: Wykład 14  Diagnostyka

symbol1 v=circle i=sm70;proc gplot data=a1; plot lotsize*seq; run;

Page 14: Wykład 14  Diagnostyka
Page 15: Wykład 14  Diagnostyka

Rozkład normalny

• Nasz model nie zakłada, że X lub Y pochodzą z jednorodnych populacji o rozkładach normalnych (zakładamy jedynie normalność zakłóceń losowych).

• Czasem jednak X lub Y mają w przybliżeniu rozkłady normalne i warto to wiedzieć

Page 16: Wykład 14  Diagnostyka

Wykres kwantylowy (q-q plot)

• Znormi = -1((i-.375)/(n+.25)), i=1 to n• Przybliżenie wartości oczekiwanej i-tej

statystyki porządkowej w próbie pochodzącej ze standardowego rozkładu normalnego

• Rysujemy wykres X(i) vs Znormi

Page 17: Wykład 14  Diagnostyka

Wykres kwantylowy (2)

• Zmienną X standaryzujemy zgodnie ze wzorem z = (X - μ)/σ

• Więc, X = μ + σ z

• Jeżeli dane mają w przybliżeniu rozkład normalny to punkty na wykresie kwantylowym układają się wokół prostej, o nachyleniu bliskim σ i punkcie przecięcia z osią Y bliskim μ.

Page 18: Wykład 14  Diagnostyka

proc univariate data=a1 plot; var lotsize workhrs;qqplot lotsize workhrs ; run;

Page 19: Wykład 14  Diagnostyka
Page 20: Wykład 14  Diagnostyka

Diagnostyka dla reszt

• Model: Yi = β0 + β1Xi + ξi

• Wartości przewidywane: Ŷi = b0 + b1Xi

• Reszty: ei = Yi – Ŷi

• ei powinno być bliskie ξi

• Model zakłada, że ξi są iid N(0, σ2)

Page 21: Wykład 14  Diagnostyka

WYKRES

Wykres

Wykres

Wykres

Wykres

Page 22: Wykład 14  Diagnostyka

Pytania na które szukamy odpowiedzi

• Czy zależność jest liniowa ?• Czy wariancja Y zależy od X?• Czy są obserwacje odstające ?• Czy reszty zależą od kolejności w zbiorze

danych (_n_)• Czy zakłócenia mają rozkład normalny ?• Czy zakłócenia są niezależne ?

Page 23: Wykład 14  Diagnostyka

Czy zależność jest liniowa ?

• Rysujemy Y vs X

• Rysujemy e vs X

• Wykres e vs X podkreśla odstępstwa od liniowości

Page 24: Wykład 14  Diagnostyka

Data a100; do x=1 to 30; y=x*x-10*x+30+25*normal(0); output; end;run;

Page 25: Wykład 14  Diagnostyka

proc reg data=a100; model y=x; output out=a2 r=resid;run;

Page 26: Wykład 14  Diagnostyka

Sum of MeanSource DF Squares Square

Model 1 1032098 1032098Error 28 169048 6037C Tot 29 1201145

F Value Pr > F170.95 <.0001

Page 27: Wykład 14  Diagnostyka

symbol1 v=circle i=rl;proc gplot data=a2; plot y*x; run;

symbol1 v=circle i=sm60;proc gplot data=a2; plot y*x;proc gplot data=a2; plot resid*x/vref=0;run;

Page 28: Wykład 14  Diagnostyka
Page 29: Wykład 14  Diagnostyka
Page 30: Wykład 14  Diagnostyka
Page 31: Wykład 14  Diagnostyka

Czy wariancja zależy od X?

• Rysujemy Y vs X

• Rysujemy e vs X

• Wykres e vs X podkreśla odstępstwa od założenia o równej wariancji

Page 32: Wykład 14  Diagnostyka

Data a100a; do x=1 to 100; y=100*x+30+10*x*normal(0); output; end;run;

Page 33: Wykład 14  Diagnostyka

proc reg data=a100a; model y=x; output out=a2 r=resid;run;

Page 34: Wykład 14  Diagnostyka

symbol1 v=circle i=sm60;proc gplot data=a2; plot y*x;

proc gplot data=a2; plot resid*x vref=0;run;

Page 35: Wykład 14  Diagnostyka
Page 36: Wykład 14  Diagnostyka
Page 37: Wykład 14  Diagnostyka

Czy zakłócenia pochodzą z rozkładu normalnego ?

• Naprawdę chodzi nam o to aby sprawdzić czy rozkład reszt na tyle różni się od normalnego, że przedziały ufności i testy istotności tracą swoje własności.

• Oceniamy rozkład reszt za pomocą wykresu kwantylowego

Page 38: Wykład 14  Diagnostyka

data a1; infile ‘../data/ch01ta01.dat'; input lotsize workhrs;proc reg data=a1; model workhrs=lotsize; output out=a2 r=resid; proc univariate data=a2 plot normal; var resid; histogram resid/ normal kernel (color=green); qqplot resid; run;

Page 39: Wykład 14  Diagnostyka

-180 -140 -100 -60 -20 20 60 100 140 180

0

5

10

15

20

25

30

35

Percent

Residual

Page 40: Wykład 14  Diagnostyka
Page 41: Wykład 14  Diagnostyka

Zależność błędów

• Zwykle odstępstwa od tego założenia można zaobserwować rysując reszty w funkcji czasu

• Mogą pojawić się trendy lub zakłócenia okresowe

Page 42: Wykład 14  Diagnostyka

Czy są obserwacje odstające ?

• Wykres Y vs X

• Wykres e vs X

• Wykres e vs X powinien ułatwić identyfikację obserwacji odstającej

Page 43: Wykład 14  Diagnostyka

Data a100b1; do x=1 to 100 by 5; y=30+50*x+200*normal(0); output; end; x=50; y=30+50*50 +10000; d='out'; output;run;

Page 44: Wykład 14  Diagnostyka

proc reg data=a100b1; model y=x; where d ne 'out';run;proc reg data=a100b1; model y=x; output out=a2 r=resid;run;

Page 45: Wykład 14  Diagnostyka

Par StVar Est Error t Pr>|t|

Int -2.54 95.29x 50.51 1.68 29.91 <.0001

Int 432.20 979.57 x 51.37 17.45 2.94 .0083

Page 46: Wykład 14  Diagnostyka

Root MSE 217.77514Root MSE 2250.22683

Page 47: Wykład 14  Diagnostyka

symbol1 v=circle i=rl;proc gplot data=a2; plot y*x;proc gplot data=a2; plot resid*x/ vref=0;run;

Page 48: Wykład 14  Diagnostyka
Page 49: Wykład 14  Diagnostyka
Page 50: Wykład 14  Diagnostyka

Różne rodzaje obserwacji odstających

• Obserwacja odstająca w poprzednim przykładzie wpłynęła na estymator punktu przecięcia z osią Y

• Ale nie na estymator nachylenia• Zwiększyła estymator odchylenia

standardowego• W kolejnym przykładzie zademonstrujemy

jak obserwacja odstająca może wpływać na estymator nachylenia

Page 51: Wykład 14  Diagnostyka

Data a100c1; do x=1 to 100 by 5; y=30+50*x+200*normal(0); output; end; x=100; y=30+50*100 -10000; d='out'; output;run;

Page 52: Wykład 14  Diagnostyka

proc reg data=a100c1; model y=x; where d ne 'out';run;proc reg data=a100c1; model y=x; output out=a2 r=resid;run;

Page 53: Wykład 14  Diagnostyka

Par StVar Est Err t Pr>|t|Int 73.2 93.6 x 49.8 1.6 30.02 <.0001

Int 903.9 899.3x 24.1 15.1 1.59 0.1285

Page 54: Wykład 14  Diagnostyka

symbol1 v=circle i=rl;proc gplot data=a2; plot y*x;proc gplot data=a2; plot resid*x/ vref=0;run;

Page 55: Wykład 14  Diagnostyka
Page 56: Wykład 14  Diagnostyka