hotellingova t2 statistika - naslovnica | pmf · 1 uvod 1.1 linearni model vi se varijabli linearni...

17
Hotellingova T 2 statistika Mia Frani´ c 6. srpnja 2016. 1

Upload: others

Post on 05-Sep-2019

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Hotellingova T2 statistika - Naslovnica | PMF · 1 Uvod 1.1 Linearni model vi se varijabli Linearni model vi se varijabli je linearni model koji ima vi se varijabli odziva. Ozna cavamo

Hotellingova T 2 statistika

Mia Franic

6. srpnja 2016.

1

Page 2: Hotellingova T2 statistika - Naslovnica | PMF · 1 Uvod 1.1 Linearni model vi se varijabli Linearni model vi se varijabli je linearni model koji ima vi se varijabli odziva. Ozna cavamo

Sadrzaj

1 Uvod 31.1 Linearni model vise varijabli . . . . . . . . . . . . . . . . . . . . . 31.2 Hotellingova statistika . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Hotellingov T 2 test za dva normalna uzorka 72.1 Distribucija od Spool . . . . . . . . . . . . . . . . . . . . . . . . . 72.2 Distribucija od T 2 statistike . . . . . . . . . . . . . . . . . . . . . 82.3 Omjer vjerodostojnosti . . . . . . . . . . . . . . . . . . . . . . . . 10

3 Primjer 133.1 Normalnost podataka . . . . . . . . . . . . . . . . . . . . . . . . 13

3.1.1 Normalost podataka skupine Thyroxin . . . . . . . . . . . 133.1.2 Normalost podataka skupine Thiouracil . . . . . . . . . . 153.1.3 Normalost podataka skupine Control . . . . . . . . . . . . 16

3.2 Provedba testa omjera vjerodostojnosti . . . . . . . . . . . . . . 17

2

Page 3: Hotellingova T2 statistika - Naslovnica | PMF · 1 Uvod 1.1 Linearni model vi se varijabli Linearni model vi se varijabli je linearni model koji ima vi se varijabli odziva. Ozna cavamo

1 Uvod

1.1 Linearni model vise varijabli

Linearni model vise varijabli je linearni model koji ima vise varijabli odziva.Oznacavamo ih sa Y1, Y2, . . . Yq. Sa Y > = (Y1, . . . , Yq) oznacimo q-dimenzionalnivektor odziva.

Neka je sada Y1·, Y2·, . . . Yn· slucanjni uzorak duljine n za vektor odziva Y ,pri cemu je Y >i· = (Y1·, Y2·, . . . Yn·) i -to opazanje od Y.Slucajni uzorak za j -tu komponentu od Y mozemo opisati na slijedeci nacin:

Y·j =

Y1j

Y2j

...Ynj

Te vektore mozemo zapisati matricno:

Y =

Y11 Y12 Y13 . . . Y1q

Y21 Y22 Y23 . . . Y2q

Y31 Y32 Y33 . . . Y3q

......

.... . .

...

Yn1 Yn2 Yn3 . . . Ynq

1. opazanje od Y

2. opazanje od Y

n-to opazanje od Y

slucajanuzorak za1.kompo-nentu

slucajanuzorak zaq-tu kompo-nentu

Zatim oznacimo vektop p varijabli poicaja sa x> = (x1, . . . , xp). Slicno jedana i matrica dizajna.

X =

x11 x12 x13 . . . x1p

x21 x22 x23 . . . x2p

x31 x32 x33 . . . x3p

......

.... . .

...xn1 xn2 xn3 . . . xnp

Sada linearni model vise varijabli zapisujemo ovako

Y > = x>B + ε> (1)

3

Page 4: Hotellingova T2 statistika - Naslovnica | PMF · 1 Uvod 1.1 Linearni model vi se varijabli Linearni model vi se varijabli je linearni model koji ima vi se varijabli odziva. Ozna cavamo

1.2 Hotellingova statistika

Pretpostavimo da je Y1·, Y2·, . . . Yn· slucajni uzorak iz modela Nq(µµµ,Σ), Σ > 0.Model za taj uzorak danje sa

Y = 1nµµµ+ E (2)

Za neki zadani µµµ0 zelimo testirati

H0 : µµµ = µµµ0

H1 : µµµ 6= µµµ0

Da bismo to testirali treba nam test koji je analogan Studentovom T testuu jednodimenzionalnom slucaju.Moze se pkazati da su procjenitelji maksimalnevjrodostojnosti modela jednaki

µµµ> = Y>

Σ =n− 1

n

n∑i=1

(Yi· − Y)(Yi· − Y)>

Definicija 1.1. Neka su Xi ∼ Nq(µµµi,Σ), i = 1, . . . , n nezavisni normalnislucajni vektori sa istom kovarijacijskom matricom. Kazemo da slucajna ma-trica reda q

W =

q∑i=1

XiX>i

ima Wishartovu distribuciju sa n stupnjeva slobode,kovarijacijskom matricomΣ i matricom parametara necentralnosti

Q =1

2Σ−1

n∑i=1

µµµiµµµ>i

Pisemo W ∼ wd(n,Σ, Q). Ako je Q ≡ 0, onda kazemo da je distribucija cen-tralna i pisemo W ∼ wd(n,Σ, Q).

Hipotezna statistika je

P = (HY−XB0)>(HY−XB0)

= n(Y−µµµ0)(Y−µµµ0)> ∼ wq(1,Σ)

dok je pogreskovna

G = nΣ = (n− 1)S ∼ wq(n− 1,Σ)

4

Page 5: Hotellingova T2 statistika - Naslovnica | PMF · 1 Uvod 1.1 Linearni model vi se varijabli Linearni model vi se varijabli je linearni model koji ima vi se varijabli odziva. Ozna cavamo

Definicija 1.2. Hotellingovu statistiku definiramo na sljedeci nacin:

T 2 = (n− 1)tr(PG−1) = n(Y−µµµ0)(Y−µµµ0)>

Lema. (Tehnicka lema) Za A ∈Mp,q i B ∈Mq,p slijedi

det(Ip +AB) = det(Ip +BA).

Teorem 1.3. Omjer vjerodostojnosti za testiranje hipoteza

H0 : µµµ = µµµ0

H1 : µµµ 6= µµµ0

dan je sa

λ =

(1 +

1

n− 1T 2

)−n2

.

Dokaz.

λ = det(In +G−1P )n2

= det

(In +

1

n− 1S−1n(Y−µµµ0)(Y−µµµ0)>

)−n2

= tehnicka lema

= det

(1 +

n

n− 1(Y−µµµ0)>S−1(Y−µµµ0)

)−n2

=

(1 +

1

n− 1T 2

)−n2

QED

Definicija 1.4. Slucajna varijabla ima necentralnu F-distribuciju sa paromstupnjeva slobode (m,n) i parametrom necentralnosti δ ako postoje nezavisneslucajne varijable X ∼ χ2(m, δ), Y ∼ χ2(n) takve da

Z =D X/m

Y/n

Pisemo Z ∼ F (m,n; δ).

Propozicija 1.5. Ako su Z ∼ Nd(δδδ, I), W ∼ wd(m),m ≥ d, nezavisne, tada je

m− d+ 1

dZ>W−1Z ∼ F (d,m− d+ 1;

1

2| δδδ |2). (3)

Propozicija 1.6. Za n ≥ q + 1 imamo

n− qq· 1

n− 1T 2 ∼ F (q, n− q; 1

2| δδδ |2)

uz δδδ =√nΣ−

12 (µµµ−µµµ0).

5

Page 6: Hotellingova T2 statistika - Naslovnica | PMF · 1 Uvod 1.1 Linearni model vi se varijabli Linearni model vi se varijabli je linearni model koji ima vi se varijabli odziva. Ozna cavamo

Korolar 1.7. Uz iste pretpostavke na model (2), (1−α)·%100 pouzdano podrucjeza vektor parametara µµµ je slucajni elipsoid

n(Y−µµµ0)>S−1(Y−µµµ0) ≤ (n− 1)q

n− qfα(q, n− q),

gdje je fα(q, n− q) (1− α)-kvantil centralne F-distribucije, F (q, n− q).

Dokaz. Dokaz slijedi direktno iz propozicije 1.6 uz µµµ0 = µµµ. QED

6

Page 7: Hotellingova T2 statistika - Naslovnica | PMF · 1 Uvod 1.1 Linearni model vi se varijabli Linearni model vi se varijabli je linearni model koji ima vi se varijabli odziva. Ozna cavamo

2 Hotellingov T 2 test za dva normalna uzorka

Neka su x1, x2, . . . , xn nezavisni jednakodistribuirani slucajni vektori td. xi ∼Np (µµµ, Σ) , ∀i ∈ {1, . . . , n}, te neka su y1, y2, . . . , ym nezavisni jednakodis-tribuirani slucajni vektori td. yi ∼ Np (τττ , Σ) , ∀i ∈ {1, . . . ,m}, takve dax1, x2, . . . , xn i y1, y2, . . . , ym cine dva nezavisna uzorka. Pretpostavljamo da jeΣ > 0.

Definiramo uzoracke varijance uzoraka:

Sx =1

n− 1

n∑i=1

(xi − x)(xi − x)>

Sy =1

m− 1

m∑i=1

(yi − y)(yi − y)>

te

Spool =1

n+m− 2[(n− 1)Sx + (m− 1)Sy]

2.1 Distribucija od Spool

Odredimo prvo distribuciju od Spool:Iz prethodnog razmatranja u poglavlju 1.2 znamo da je pogreskovna statis-

tika jednaka Gx = (n − 1)Sx te da je Wishartove distribucije, tj. (n − 1)Sx ∼wp(n−1,Σ). Isto tako vrijediGy = (m−1)Sy ∼ wp(m−1,Σ). Definicija Wishar-tove distribucije povlaci da postoje nezavisni slucajni vektori X1, . . . , Xn−1 ∼Np (0, Σ) i Y1, . . . , Ym−1 ∼ Np (0, Σ) tako da vrijedi

(n− 1)Sx =

n−1∑i=1

XiX>i

(m− 1)Sy =

m−1∑i=1

YiY>i

Definiramo Zi := Xi za i = 1 . . . , n− 1 i Zn−1+i := Yi za i = 1 . . . ,m− 1.Sada imamo m + n − 2 nezavisnih jednako distribuiranih slucajnih vektora izNp (0, Σ) za koje vrijedi:

(n− 1)Sx + (m− 1)Sy =

n+m−2∑i=1

ZiZ>i

pa iz definicije Wishartove distribucije slijedi

(n− 1)Sx + (m− 1)Sy ∼ wp(n+m− 2,Σ)

⇒ (n+m− 2)Spool ∼ wp(n+m− 2,Σ)

7

Page 8: Hotellingova T2 statistika - Naslovnica | PMF · 1 Uvod 1.1 Linearni model vi se varijabli Linearni model vi se varijabli je linearni model koji ima vi se varijabli odziva. Ozna cavamo

2.2 Distribucija od T 2 statistike

Odredimo dristibuciju od T 2 koju koristimo za testiranje hipoteze

H0 : µ = τ

H1 : µ 6= τ.

Sa x i y oznacimo matricni zapis uzoraka. T 2 definiramo na sljedeci nacin

T 2 =

(1

n+

1

m

)−1

(x− y)>S−1pool (x− y)

⇒ 1

m+ n− 2T 2 =

(1

n+

1

m

)−1

(x− y)>

((m+ n− 2)Spool)−1 (x− y)

Zapisemo modele:

x = 1nµµµ> + Ex ∼ Nnp (0, Σ⊗ In) (4)

y = 1n τττ> + Ey ∼ Nmp (0, Σ⊗ Im) (5)

U prethodnim razmatranjima smo pokazali da ukoliko je model dan sa Y =XB+E, da je tada µ>MLE = (X>X)−1X>Y. Dakle, µµµ> = (1>n 1n)−11>nx = x>

i analogno se pokaze da je τττ> = y.

(4) ⇒ 1

n1>nx = µµµ> +

1

n1>nEx ⇒ x = µµµ> +

1

n1>nEx

(5) ⇒ 1

m1>ny = τττ> +

1

m1>nEy ⇒ y = τττ> +

1

m1>nEy

Oznacimo sa εx = 1n1>nEx i εy = 1

m1>nEy , pa je

εx ∼ Np(0,1

nΣ) εy ∼ Np(0,

1

mΣ)

Kako je x = µµµ+ εx te y = τττ + εy

⇒ 1

n+m− 2T 2 =

(1

n+

1

m

)−1

(µµµ+ εx − τττ − εy)>

((m+ n− 2)Spool)−1 (µµµ+ εx − τττ − εy)

⇒ 1

n+m− 2T 2 =

(1

n+

1

m

)−1

(µµµ+ εx − τττ − εy)>

Σ−12 Σ

12 ((m+ n− 2)Spool)

−1

Σ12 Σ−

12 (µµµ+ εx − τττ − εy)

8

Page 9: Hotellingova T2 statistika - Naslovnica | PMF · 1 Uvod 1.1 Linearni model vi se varijabli Linearni model vi se varijabli je linearni model koji ima vi se varijabli odziva. Ozna cavamo

Primijetimo, εx i −εy nezavisne, a pretpostavka zadatka nam daje jos Σ > 0,pa slijedi

εx − εy ∼ Np(0,(

1

n+

1

m

)Σ)

.Sa predavanja znamo da vrijedi: A > 0 i X ∼ Np(µ,Σ)⇒ AX ∼ Np(Aµ,AΣA>),pa to mozemo primijeniti i na ovaj slucaj.

⇒ 1√1n + 1

m

(µµµ− τττ + εx − εy) ∼ Np

1√1n + 1

m

(µµµ− τττ),Σ

Definiramo

Z := Σ−12

1√1n + 1

m

(µµµ− τττ + εx − εy) (6)

pa je

Z ∼ Np

Σ−12

1√1n + 1

m

(µµµ− τττ), Ip

Zatim definiramo

W := (n+m− 2)Σ−12SpoolΣ

− 12 (7)

te nas zanima njena distribucija. Znamo da je da je (n+m−2)Spool Wishartovedistribucije, pa postoji m + n − 2 nezavisnih jednako distribuiranih slucajnihvektora iz Np (0, Σ) za koje vrijedi:

(n+m− 2)Spool =∑n+m−2i=1 XiX

>i .

W = (n+m− 2)Σ−12SpoolΣ

− 12

= Σ−12

(n+m−2∑i=1

XiX>i

)Σ−

12

=

n+m−2∑i=1

(Σ−12Xi)(Σ

− 12Xi)

>

Kako su Xi ∼ Np (0, Σ) vrijedi Σ−12Xi ∼ Np (0, Ip), pa je

W ∼ wp(n+m− 2).

Primijetimo da sa Z i W definiranim kao u (6) i (7) mozemo pisati

1

n+m− 2T 2 = Z>W−1Z

9

Page 10: Hotellingova T2 statistika - Naslovnica | PMF · 1 Uvod 1.1 Linearni model vi se varijabli Linearni model vi se varijabli je linearni model koji ima vi se varijabli odziva. Ozna cavamo

te ako jos definiramo

δδδ := Σ−12

1√1n + 1

m

(µµµ− τττ)

mozemo iskoristiti propoziciju 1.5. Sada slijedi

n+m− p− 1

pZ>W−1Z ∼ F (p, n+m− p− 1;

1

2| δδδ |2)

⇒ n+m− p− 1

p

1

n+m− 2T 2 ∼ F (p, n+m− p− 1;

1

2| δδδ |2)

2.3 Omjer vjerodostojnosti

Neka su X1, X2, . . . , Xn nezavisni jednakodistribuirani slucajni vektori td Xi ∼Np (µµµ, Σ) ,Σ > 0. Trazimo test omjera vjerodostojnosti za testiranje hipoteze:

H0 : θ ∈ Θ0

H1 : θ /∈ Θ0

⇔H0 : µµµ = τττ

H1 : µµµ 6= τττ

gdje je

Θ = Θ0 ∪Θ1 = {(µ0, µ1,Σ) : µ0, µ1 ∈Mp,1,Σ ∈Mn,Σ > 0}Θ0 = {(µ0, µ0,Σ) : µ0 ∈Mp,1,Σ ∈Mn,Σ > 0}Θ1 = Θc

0

Definicija 2.1. Omjer vjerodostojnosti definiramo sa

Λ =maxθ∈Θ0

L(θ)

maxθ∈Θ

L(θ)

pri cemu je L(θ) funkcija vjerodostojnosti.

Zatim, sa X oznacimo matricni zapis uzorka, pa je funkcija distribucije odX jednaka

f(X) = (2π)−np

2 det(Σ)−n2 exp

{−1

2

n∑i=1

(Xi − µ)>Σ−1(Xi − µ)

}

⇒ L(µ,Σ) = (2π)−np

2 det(Σ)−n2 exp

{−1

2tr(GΣ−1)(−n

2)(X − µ)>Σ−1(X − µ)

}pri cemu je G = (n− 1)S. Takoder znamo da je µMLE = X iΣMLE = n−1

n S = 1nG.

⇒ L(µ, Σ) = (2π)−np

2 det(Σ)−n2 e−np

2

⇒ l(µ, Σ) = −np2

log(2π)− n

2log det(Σ)− np

2

10

Page 11: Hotellingova T2 statistika - Naslovnica | PMF · 1 Uvod 1.1 Linearni model vi se varijabli Linearni model vi se varijabli je linearni model koji ima vi se varijabli odziva. Ozna cavamo

Primijenimo sada gornje razmatranje na uzorke sa pocetka zadatka,tj. nax1, x2, . . . , xn i y1, y2, . . . , ym. Uzorci su nezavisni pa je:

L(θ) =L(µ0, µ1,Σ) = (2π)−(n+m)p

2 det(Σ)−n+m

2 ·

· e− 12 tr(GxΣ−1)tr(GyΣ−1)(−n

2 )(x−µ0)>Σ−1(x−µ0)(−m2 )(y−µ1)>Σ−1(y−µ1)

⇒ l(µ0, µ1,Σ) = log(2π)−(n+m)p

2 − n+m

2log det(Σ)− 1

2tr((Gx −Gy)Σ−1)−

− n

2(x− µ0)>Σ−1(x− µ0)− m

2(y − µ1)>Σ−1(y − µ1)

Maksimizramo funkciju l(µ0, µ1,Σ). Ekvivalentan problem je minimizacijafunkcije

g(µ0, µ1,Σ) = (n+m) log det(Σ) + tr((Gx −Gy)Σ−1)+

+ (x− µ0)>Σ−1(x− µ0) +m(y − µ1)>Σ−1(y − µ1)

A g je minimalna za µ0 = x , µ1 = y i Σ = 1n+m (Gx +Gy)

⇒ L(µ0, µ1, Σ) = (2π)(n+m)p

2 det(Σ)−n+m

2 e−(n+m)p

2

Uzmimo sada θ ∈ Θ0, tj. pretpostavljamo nultu hipotezu. Analogno slijedi

L(θ) = L(µ0, µ0,Σ) = (2π)−(n+m)p

2 det(Σ)−n+m

2 ·

· e− 12 tr(GxΣ−1)tr(GyΣ−1)(−n

2 )(x−µ0)>Σ−1(x−µ0)(−m2 )(y−µ0)>Σ−1(y−µ0)

⇒ l(µ0, µ0,Σ) = log(2π)−(n+m)p

2 − n+m

2log det(Σ)− 1

2tr((Gx −Gy)Σ−1)−

− n

2(x− µ0)>Σ−1(x− µ0)− m

2(y − µ0)>Σ−1(y − µ0)

Ponovo maksimiziramo l(µ0, µ0,Σ). Maksimum se postize za

µ0 =nx+my

n+m

Σ0 =1

n+m(Gx +Gy + (

1

n+

1

m)−1(x− y)(x− y)>)

⇒ L(µ0, µ1, Σ0) = (2π)(n+m)p

2 det(Σ0)−n+m

2 e−(n+m)p

2

11

Page 12: Hotellingova T2 statistika - Naslovnica | PMF · 1 Uvod 1.1 Linearni model vi se varijabli Linearni model vi se varijabli je linearni model koji ima vi se varijabli odziva. Ozna cavamo

Pa je

Λ =L(µ0, µ0,Σ)

L(µ0, µ1, Σ0)

=(detΣ0)−

n+m2

(detΣ)−n+m

2

=

(1

n+m (Gx +Gy + ( 1n + 1

m )−1(x− y)(x− y)>)1

n+m (Gx +Gy)

)−n+m2

= [Tehnicka lema]

= det(I + (1

n+

1

m)−1(x− y)>(Gx −Gy)−1(x− y)−

m+n2

= det(I + (1

n+

1

m)−1(x− y)>((n+m− 2)Spool)

−1(x− y)−m+n

2

⇒ Λ = (1 +1

n+m− 2T 2)−

m+n2

Peta jednakost slijedi iz tehnicke leme za A = (Gx − Gy)−1(x − y) i B =( 1n + 1

m )−1(x− y)>.

Izracunajmo p-vrijednost testa omjera vjerodostojnosti. Ona je definiranana sljedeci nacin

pv = P(Λ ≤ c)

Zatim primijetimo da je omjer vjerodostojnosti strogo monotona funkcija od

T 2. Definiramo strogo padajucu funkcijuf(t) = (1 + 1n+m−2 t)

−m+n2 . Ocito je

Λ = f(T 2).

⇒ pv = P(Λ ≤ c) = P(f(T 2) ≤ c) = 1−P(T 2 ≤ f−1(c))

⇒ pv = 1−P(n+m− p− 1

p(n+m− 2)T 2 ≤ n+m− p− 1

p(n+m− 2)f−1(c))

Pod pretpostavkom H0 hipozete tj.

n+m− p− 1

p

1

n+m− 2T 2 ∼ F (p, n+m− p− 1)

za dobivanje p-vrijednosti sada je dovoljno izracunati gornju vjerojatnost.

12

Page 13: Hotellingova T2 statistika - Naslovnica | PMF · 1 Uvod 1.1 Linearni model vi se varijabli Linearni model vi se varijabli je linearni model koji ima vi se varijabli odziva. Ozna cavamo

3 Primjer

Dani su podaci o tezinama triju grupa stakora. Prvoj grupi je stavljen Thyroxinu vodu, drugoj Thiouracil, a treca grupa je bila kontrolna grupa. Tezine sumjerene tjedno tokom 5 tjedana i izrazene su u gramima. Ispitajte jednakostocekivanja izmedu danih skupina.

ThyroxinTime0 Time1 Time2 Time3 Time4

59 85 121 156 19154 71 90 110 13856 75 108 151 18959 85 116 148 17757 72 97 120 14452 73 97 116 14052 70 105 138 171

ThiouracilTime0 Time1 Time2 Time3 Time4

61 86 109 120 12959 80 101 111 12253 79 100 106 13359 88 100 111 12251 75 101 123 14051 75 92 100 11956 78 95 103 10858 69 93 114 13846 61 78 90 10753 72 89 104 122

ControlTime0 Time1 Time2 Time3 Time4

57 86 114 139 17260 93 123 146 17752 77 111 144 18549 67 100 129 16456 81 104 121 15146 70 102 131 15351 71 94 110 14163 91 112 130 15449 67 90 112 14057 82 110 139 169

3.1 Normalnost podataka

Kako bi smo ispitali jednakost ocekivanja izmedu svake dvije skupine stakora,moramo koristiti omjer vjerodostojnost koji smo izveli u prethodnom poglavlju,a prvi korak do provodenja tog testa je ispitivanje da li podaci dolaze iz normalnedistribucije.

3.1.1 Normalost podataka skupine Thyroxin

Jedan od dobrih indikatora normalnosti podataka je normalni vjerojatnosni graf.Na slici su dani normalni vjerojatnosni grafovi za podatke iz skupine Thyroxin.

13

Page 14: Hotellingova T2 statistika - Naslovnica | PMF · 1 Uvod 1.1 Linearni model vi se varijabli Linearni model vi se varijabli je linearni model koji ima vi se varijabli odziva. Ozna cavamo

Nolmalne vjerojastnosne grafove smo nacrtali u programskom jeziku R ko-risteci naredbe qqnorm(x) i qqline(y). Primjer koda za skupinu stakora kojimasu davali Thyroxin u pocetnom mjerenju (Time0):

> qqnorm( t ( Thyroxin [ 1 ] ) , main = ”Time 0” , sub=”Thyroxin” ,xlab=’ ’ , y lab=’ ’ )> qq l i n e ( t ( Thyroxin [ 1 ] ) , c o l=’ blue ’ )

Zatim provodimo testove normalnosti. Koristimo Kolmogorov-Smirnovljev teShapiro Wilkinsov test normalnosti. Ukoliko dobimo da je p-vrijednost manjeod 10 % odbaciti cemo hipotezu o normalnosti ocekivanja. Dati cemo primjersamo sa Time 0.

import numpy

import scipy.stats as stats

x=numpy.loadtxt(’Thy.txt’,delimiter=’,’)

m=stats.kstest(x[0],’norm’)

n=stats.shapiro(x[:,0])

Kolmogoro-Smirnovljev test nam je dao p − vrijednost = 0.0, dok smoShapiro Wilkinsovim testom dobili da je p − vrijednost = 0.264237910509.S obzirom da imamo malo podataka, K-S test nije najsretniji izbor, pa cemodaljne odluke donositi na temelju Shapiro Wilkinsovog testa. Prokomentirajmoprvo graficki test. Podaci se lijepo grupiraju oko pravca uz manja odstupanjana rubovima, pa naslucijemo da podaci dolaze iz normalne distribucije, a tonam dodatno potvrduje i p-vrijednost dobivena S-W testom koja je veca od0.1, pa ne odbacujemo nultu hipotezu o normalnosti podataka. Slicno dobimoi za ostale ”Timove”, jedinu razliku nam cini Time1 gdje smo dobili da je

14

Page 15: Hotellingova T2 statistika - Naslovnica | PMF · 1 Uvod 1.1 Linearni model vi se varijabli Linearni model vi se varijabli je linearni model koji ima vi se varijabli odziva. Ozna cavamo

p − vrijednost = 0.0318178460002, pa cemo u ovom slucaju odbaciti nultuhipotezu o normalnosti podataka.

3.1.2 Normalost podataka skupine Thiouracil

Normalne vjerojatnosne grafove smo dobili koristenjem naredbi qqnorm(x) iqqline(y) u R-u.

import numpy

import scipy.stats as stats

x2=numpy.loadtxt(’Thi.txt’,delimiter=’,’)

n2=stats.shapiro(x[:,0])

Jednako kao i kod testiranja normalnosti kod skupine Thyroxin i ovdjeprovodimo Shapiro Wilkinsov test. Za Time 0 dobivamo p − vrijednost =0.264237910509. Slicno dobivamo i za ostala vremena, pa u svim slucajevimane odbacujemo hipotezu o onormalnosti podataka.

15

Page 16: Hotellingova T2 statistika - Naslovnica | PMF · 1 Uvod 1.1 Linearni model vi se varijabli Linearni model vi se varijabli je linearni model koji ima vi se varijabli odziva. Ozna cavamo

3.1.3 Normalost podataka skupine Control

Ponovo provodenem Shapiro-Wilkinsovog test, te grafickim ispitivanjem nor-malnosti podataka, ne odbacujemo nultu hipotezu o normalnosti podataka.

16

Page 17: Hotellingova T2 statistika - Naslovnica | PMF · 1 Uvod 1.1 Linearni model vi se varijabli Linearni model vi se varijabli je linearni model koji ima vi se varijabli odziva. Ozna cavamo

3.2 Provedba testa omjera vjerodostojnosti

Sada kada smo provjerili da podaci vise-manje 1 dolaze iz normalne distribu-cije, mozemo provesti test omjera vjerodostojnosti. Prvo usporedimo skupineControl i Thiouracil.(Kod je raden u programskom jeziku R).

> ##omjer v j e r o d o s t o j n o s t i> # m=10, n=10, p=5> #in i c i j a l i z i r amo uzoracke kov . matr ice> S1<−c ( rep (0 , 25 ) )> S x<−matrix (S1 , nrow=5, nco l=5)> S y<−matrix (S1 , nrow=5, nco l=5)>> t h i mean<−c (mean( t ( Th iou rac i l [ 1 ] ) ) ,

mean( t ( Th iou rac i l [ 2 ] ) ) , mean( t ( Th iou rac i l [ 3 ] ) ) ,mean( t ( Th iou rac i l [ 4 ] ) ) , mean( t ( Th iou rac i l [ 4 ] ) ) )

> c mean<−c (mean( t ( Control [ 1 ] ) ) , mean( t ( Control [ 2 ] ) ) ,mean( t ( Control [ 3 ] ) ) , mean( t ( Control [ 4 ] ) ) ,mean( t ( Control [ 5 ] ) ) )

> f o r ( i in 1 : 10 )+ S x <− S x + ( t ( Th iou rac i l [ i , ] )− t h i mean)%∗%

t ( t ( Th iou rac i l [ i , ] )− t h i mean)> S x<− S x/9> f o r ( i in 1 : 10 )+ S y <−S y + ( t ( Control [ i , ] )− c mean)

%∗% t ( t ( Control [ i , ] )− c mean)> S y <− S y/9> S pool <− 1/(10+10−2)∗ ((10−1)∗S x+(10−1)∗S y )> T2 <− (2 /10)ˆ(−1)∗ t ( t h i mean−c mean)%∗%

so l v e (S pool ) %∗%( th i mean−c mean)> lambda <− (1+(1/(10+10−2))∗T2)ˆ(−20/ 2)> lambda

[ , 1 ][ 1 , ] 1 .723096 e−06> ## f ˆ(−1)=( lambdaˆ(−2/m+n)−1)(n+m−2)> t e s tna s t a t <− (10+10−5−1)/((10+10−2)∗ 5) ∗

( lambdaˆ(−2/20)−1)∗(10+10−2)> pv <− 1− pf ( t e s tna stat , 5 , 1 4 )> pv

[ , 1 ][ 1 , ] 0 .001107058

Dakle, dobili smo da je p-vrijednost jako mala, tocnije jednaka je 0.001107058 paodbacujemo H0 hipotezu u korst H1 na svim razumnim razinama znacajnosti, tj.ocekivana tezina stakora u grupi tretiranoj Thiouracilom i kontorlnoj grupi nijeista. Analogno se pokaze da ocekivane tezine stakora izmedu grupa Thiouracili Thyroxin, te izmedu grupa Thyroxin i Control nisu jednake.

1u ovom primjeru radimo sa malim brojem podataka. Kada bi imali veci broj mozda bi sei pokazalo da su svi podaci normalno distribuirani

17