multivarijatna statistika - finalna skripta

91
Multivarijatna statistika Ak.god. 2013./2014.

Upload: 5estela

Post on 11-Jul-2016

259 views

Category:

Documents


27 download

DESCRIPTION

literatura o statistici

TRANSCRIPT

Page 1: Multivarijatna Statistika - Finalna Skripta

Multivarijatna statistika Ak.god. 2013./2014.

Page 2: Multivarijatna Statistika - Finalna Skripta

Tradicionalan pristup poučavanju statistike

1. Univarijatna statistika: karakteristike distribucije rezultata, mjere centralne tendencije, raspršenja ili

varijabiliteta…

2. Bivarijatna statistika: odabir testa ovisi o karakteristikama varijabli (V) u analizi koje često označavamo

kao zavisne varijable (ZV) ili nezavisne varijable (NZV). Npr:

- Kontinuirana V i kontinuirana V-> Pearson ili bivarijatna regresija

- Dihotomna NZV i kontinuirana ZV -> point-biserijalna, t-test

- Dihotomna V i dihotomna V –> “fi”

- Politomna NZV i kontinuirana ZV – ANOVA

- Više kontinuiranih ili dihotomnih NZV i kontinuirana ZV -> Multipla regresija

3. Multivarijatna statistika

- Politomna NZV i više kontinuiranih ZV -> MANOVA

- Više kontinuiranih V i više kontinuiranih V -> Kanonička korelacija (CC)…

Page 3: Multivarijatna Statistika - Finalna Skripta

Istraživačka pitanja i njima povezane statističke metode

Ako nas zanima...

1. Stupanj povezanosti među varijablama, onda koristimo...

a) Bivarijatni r – procjena stupnja povezanosti između dvije kontinuirane varijable

- mjeri povezanost između dvije varijable bez da pravi razliku između nezavisne i zavisne varijable,

dok bivarijatna regresija predicira rezultat u jednoj varijabli (ZV) na temelju rezultata druge

varijable (NV)

b) Multipli R – procjena stupnja u kojem je jedna kontinuirana varijabla (ZV) povezana sa setom drugih

(najčešće kontinuiranih) varijabli (NV), koje zajedno čine novu, kompozitnu varijablu

- prema tome, multipla korelacija je bivarijatna korelacije između originalne ZV i kompozitne varijable

koju čini set NV

- multipla regresija predicira rezultat u ZV na temelju rezultata u više NV

c) Hijerarhijski R

- u hijerarhijskoj regresijskoj analizi, nekim NV je dana prednost nad drugima , tj. u analizi, efekti onih

NV koje su prve unešene procjenjuje se i uklanja prije procjene NV koje su kasnije unešene

- za svaku NV u hijerarhijskoj regresijskoj analizi, NV većeg prioriteta (one koje su prve unešene)

djeluju kao kovarijati onim NV nižeg prioriteta (koje su kasnije unešene)

- stupanj povezanosti ZV i seta NV procjenjuje se ponovno nakon svakog koraka hijerarhijske analize

d) Kanonički R

e) Višestruka analiza frekvencija

f) Multilevel modeling

2. Značajnost grupnih razlika

Kada se ispitanici po slučaju raspoređuju u skupine, osnovno je istraživačko pitanje u kojoj su mjeri statistički

značajne razlike u ZV povezane sa pripadnošću grupom (tj. sa nivoima NV)

a) Jednosmjerna ANOVA i t-test

- uspoređuje dvije ili više srednjih vrijednosti kako bi utvrdila razlikuju li se statistički značajno

b) Jednosmjerna ANCOVA

- procjenjuje razlike u grupama na jednoj ZV nakon statističkog „otklanjanja“ efekta jednog ili više

kovarijata, koji se bira na temelju njegove povezanosti sa ZV

c) Faktorska ANOVA

- više NV, jedna ZV

d) Faktorska ANCOVA

- faktorska ANCOVA razlikuje se od jednosmjerne ANCOVE samo po tome što u faktorskoj ima više NV

e) Hotelling`s T²

- koristi se kada NV ima 2 skupine (kada je NV na 2 nivoa), a kada imamo više ZV, tj. Hotellingov T² koristi se

kako bi vidjeli razlikuju se dvije skupine na dvije kombinirane ZV

- to je poseban slučaj multivarijatne analiza varijance (MANOVA-e), kao što je t-test poseban slučaj

univarijatne analize varijance (ANOVA-e), kada NV ima samo dva nivoa

f) Jednosmjerna MANOVA

- više ZV, jedna NV

g) Jednosmjerna MANCOVA

- više ZV, jedna NV, kovarijat(i)

h) Faktorska MANOVA

- više ZV, više NV

i) Faktorska MANCOVA

- više ZV, više NV, kovarijat(i)

3. Predikcija pripadnosti grupi

1. Jednosmjerna diskriminantna analiza – procjena pripadnosti grupi (ZV) na temelju seta varijabli (NV)

Page 4: Multivarijatna Statistika - Finalna Skripta

PREGLED UNIVARIJATNE I BIVARIJATNE STATISTIKE

1. USPOREDBA DVIJU ILI VIŠE SKUPINA NEZAVISNIH REZULTATA

Problem višestrukih usporedbi nezavisnih grupa

- ukoliko želimo usporediti grupe A, B i C na rezultatima neke intervalne ili omjerne varijable, primjena višestrukih t-

testova dovesti će do povećanja vjerojatnosti α- pogreške

- rješenje ovog problema su omnibus testovi, koji istovremeno testiraju razliku između svih skupina (npr. F-test,

analiza varijance)

- ako dobijemo statistički značajan F omjer znamo da se skupine međusobno razlikuju, ALI kako onda znati koje se

skupine međusobno razlikuju jedna od druge?

3 načina

1. Apriori planirane usporedbe (npr. placebo skupina vs. sve eksperimentalne)

2. Kontrasti (linearni, kvadratni, kubični..)

3. Post-hoc testovi višestrukih usporedbi po parovima (sve moguće usporedbe)

Jedna od metoda kontrole α- pogreške je i Bonferroni metoda

1. Odluči koja razina rizika je prihvatljiva (npr. p<0,05)

2. Utvrdi koliko usporedbi želiš napraviti (N). Maksimalan broj usporedbi za k broj grupa je:

( )

3. Izračunaj koliki mora biti p korigirani za svaku usporedbu u paru da bi ostali na prihvatljivoj razini rizika

određenog u prvom koraku:

4. Standardnim testovima napravi višestruke usporedbe, odbaci Ho samo ako dobiješ da je p manji od izračunatog

pkor.

Page 5: Multivarijatna Statistika - Finalna Skripta

ANALIZA VARIJANCE

Analiza varijance je set analitičkih procedura temeljenih na usporedbi dvije procjene varijance. Jedna procjena

odnosi se na ralike u rezultatima unutar svake skupine, te se ona smatra slučajnom ili varijancom pogreške. Druga

proizlazi iz razlika u rezultatima između skupina, te predstavlja odraz grupnih razlika zbog tretmana plus

pogreške. Ako se ove dvije procjene ne razlikuju značajno, zaključujemo da svi rezultati dolaze iz iste skupine

rezultata, tj. da nema razlike među analiziranim skupinama. Ako i postoje razlike među njima, one su posljedicom

pogreške ili slučaja. S druge strane, ako se skupine razlikuju statistički značajno, zaključujemo da su rezultati iz

pojedinih skupina „izvučeni“ iz različitih skupina.

Omjer ove dvije varijance naziva se F-omjerom.

Kako se "analizira varijanca"? Odgovor u par slika!

Podsjetnik: t-test stavlja u omjer razliku između aritmetičkih sredina grupa i standardnu pogrešku te razlike.

F omjer stavlja u omjer varijance ili prosječne sume kvadratnih odstupanja rezultata.

Kako se izračunava varijanca u analizi varijance?

( )

Suma kvadratnih odstupanja u ANOVA-i je zapravo nazivnik ovog razlomka, tj.

( )

A korijen iz varijance je standardna devijacija.

Page 6: Multivarijatna Statistika - Finalna Skripta

ANOVA i drugi testovi

Analiza varijance i t-test: nema znatnije razlike! Dokaz:

1. Na dvije nezavisne skupine provedite t-test i analizu varijance.

2. Izračunajte korijen iz F omjera dobivenog analizom varijance i usporedite s rezultatom t-testa (vrijednosti

su iste!)

U novije vrijeme analiza varijance se opisuje preko regresijskog modela. Nema suštinske razlike između analize

varijance i regresijske analize. Razlike su isključivo u istraživačkim tradicijama. Tradicionalno analiza varijance

učestalija je u eksperimentalnim istraživanjima i prirodnim znanostima, a regresijska analiza u opservacijskim

(korelacijskim) istraživanjima i društvenim znanostima.

Terminologija analize varijance, eksperiment i korelacija

Zbog eksperimentalističke tradicije varijable se u analizi varijance uglavnom dijele na nezavisne varijable

(ponegdje nazvane "faktori") i zavisne varijable.

U eksperimentalnom nacrtu pretpostavlja se da nezavisnu varijablu možemo slobodno manipulirati (npr. doza lijeka:

0 ili placebo, 5mg, 10mg, 15mg) te da razina nezavisne varijable utječe (izravno ili posredno) na zavisnu varijablu

(npr. diastolički i sistolički tlak). U navedenom slučaju ispravno je koristiti termine nezavisna, zavisna varijabla i

efekt ili utjecaj nezavisne varijable na zavisnu.

Mnogi nacrti su kvazieksperimentalni jer se nezavisna varijabla ne može slobodno manipulirati. U društvenim

znanostima (i mnogim istraživanjima vezanim uz ljude) moguća su samo opservacijska ili korelacijska istraživanja.

Ako želimo ispitati odnos između rase (postojeće grupe, pripadnost grupi ne može se manipulirati) i inteligencije, u

okviru terminologije analize varijance govorit ćemo o EFEKTU rase na inteligenciju, ali moramo uvijek imati na umu

da ne možemo zaključivati o uzročno-posljedičnim vezama već samo o proporciji varijance zavisne varijable

(inteligencija) koja je povezana ili se može objasniti s varijabilitetom rezultata u nezavisnoj varijabli (rasa). Ako

postoje rasne razlike u inteligenciji, one ne moraju biti posljedica rasne pripadnosti (socio-ekonomski status,

kulturalni utjecaji...).

Iz navedenog vidljiva je povezanost umjetno razdvojenih statističkih metoda. Kakvu interpretaciju rezultata ćemo

koristiti ovisi o metodologiji i nacrtu istraživanja.

Primjena jednosmjerne analize varijance

- Eksperimentalna, kvazieksperimentalna i terenska ("field studies") istraživanja.

- Testira se jesu li aritmetičke sredine u zavisnoj varijabli podjednake za nezavisne skupine određene nezavisnom

varijablom (faktorom).

Varijable u bazi:

1. Zavisna, kvantitativna, kontinuirana (intervalna ili omjerna) varijabla.

2. Nezavisna kvantitativna (broj tableta) ili kvalitativna (rasa) varijabla koja dijeli uzorak na više nezavisnih

skupina (tzv. faktor). Uzorak se dijeli na onoliko grupa koliko ima razina nezavisne varijable.

- Svaka jedinica analize (ispitanik) u retku baze ima navedena dva podatka: rezultat na zavisnoj

varijabli i pripadnost grupi na nezavisnoj varijabli.

Page 7: Multivarijatna Statistika - Finalna Skripta

Preduvjeti za analizu

1. Neovisnost rezultata: Slučajan uzorak iz populacije i rezultati u mjerenoj varijabli su nezavisni jedan od

drugoga. U suprotnom dobivaju se nepouzdane p vrijednosti.

2. Normalnost distribucije rezultata u zavisnoj varijabli za svaku populaciju jedinica analize definiranu

pojedinom razinom nezavisne varijable (faktora).

Ako preduvjet nije zadovoljen (posebice kod velikih asimetrija i platikurtičnosti) smanjena je snaga testa i p

koeficijent je nepouzdan. Veći uzorci smanjuju nepouzdanost p koeficijenta.

3. Homogenost varijance: varijance rezultata u zavisnoj varijabli trebale bi biti podjednake na svakoj razini

nezavisne varijable.

Ako preduvjet nije zadovoljen i ako skupine jedinica analize na svakoj od razina nezavisne varijable nisu podjednako

brojne p koeficijent je nepouzdan. Mogu se koristiti alternativni testovi (Browne-Forsythe, Welch, a za post-hoc:

Dunnett C ili T3, Games-Howel, Tamhane T2).

Veličina efekta

Ukoliko se analiza varijance provodi u okviru općeg linearnog modela, dostupna je mjera veličine efekta zvana eta-

kvadrat (η2). Predstavlja proporciju varijance rezultata u zavisnoj varijabli koja je povezana s nezavisnom

varijablom. Varira od 0 do 1. Interpretacija veličine efekta ovisi o području istraživanja, ali je uobičajeno vrijednosti

0.01, 0,06 i 0,14 smatrati malim, srednjim i velikim efektom (neslužbeno pojašnjenje: vjerojatno se misli na ove

intervale: do 0,05, 0,06-0,13 te 0,14 i više).

Interpretacija ANOVA-e

(Uvjeti za analizu se ne navode ukoliko su zadovoljeni – samo se napomene da su provjereni i zadovoljeni)

S obzirom da su zadovoljeni svi preduvjeti za parametrijsku analizu, provedena je jednosmjerna analiza

varijance kako bi se utvrdilo postoje li razlike u simptomima prehlade između kontrolne i eksperimentalnih skupina.

Uzimanje vitamina C predstavljalo je nezavisnu varijablu (faktor) prema kojoj su se razlikovale tri nezavisne skupine

ispitanika: placebo-kontrolna skupina i dvije eksperimentalne skupine (uzimanje srednje i velike doze).

Zavisnu varijablu predstavljalo je povećanje ili smanjene simptoma prehlade mjereno u danima skraćenja ili

produljenja prehlade. Utvrđeno je da se grupe statistički značajno razlikuju u mjerenim simptomima prehlade (F(2,

27)=4,84; p<0,05) i da je stupanj povezanosti (η2) između uzimanja C vitamina i simptoma prehlade znatan pri čemu

uzimanje C vitamina može objasniti 26% varijance promjena u simptomima prehlade.

Post-hoc testom višestruke usporedbe u parovima (Bonferroni) utvrđeno je da se statistički značajno

razlikuju placebo grupa (M=3,50; SD=4,14) od obje eksperimentalne grupe koje su imale statistički značajno manje

simptome prehlade (M1=-2,10, SD=4,07; M2= -2,00, SD=5,48). Eksperimentalne grupe nisu imale statistički značajno

različite simptome.

Page 8: Multivarijatna Statistika - Finalna Skripta

Neparametrijska zamjena za ONEWAY ANOVA s nezavisnim skupinama: Kruskal-Wallis test

- Testira jesu li medijani ZV podjednaki na svim nivoima NZV (faktora).

- Svi rezultati (bez obzira na grupu) rangiraju se. Za svaku grupu računa se prosječan rang. Kruskal-Wallis test

rezultira statistikom označenom slovom H.

- Kada je broj jedinica analize po grupama veći od 5, H statistik ima distribuciju sličnu χ2 distribuciji, što omogućuje

utvrđivanje statističke značajnosti razlika među grupama (p). U tom slučaju koristi se χ2 statistika kako bi provjerili

nul-hipotezu o jednakosti medijana u svim grupama.

Preduvjeti za analizu

1. Neovisnost rezultata: Slučajan uzorak iz populacije i rezultati u mjerenoj varijabli su nezavisni jedan od

drugoga. U suprotnom dobivaju se nepouzdane p vrijednosti.

2. Distribucije rezultata moraju biti podjednake u svim grupama. U suprotnom test ne odražava samo razliku

u medijanima, već i u oblicima distribucija.

3. Vezani rangovi predstavljaju problem (programi koriste korekciju za vezane rangove)

4. Veličina uzorka: χ2 statistika za ovaj test tek je aproksimativna i povećava joj se točnost na većim uzorcima

(N>29; broj ispitanika u svakoj grupi mora biti veći od 5)

Veličina efekta

Rezultati se mogu pretvoriti u rangove i potom se može izračunati η2 iz ANOVA-e.

η2 može se izračunati i izravno iz χ2 koeficijenta prema ovoj formuli:

Post-hoc usporedbe

Kako bi utvrdili koje grupe se statistički značajno razlikuju mogu se provesti Mann-Whitney U testovi za svaki par, uz

Bonferroni metodu kontrole alpha pogreške.

Interpretacija

Proveden je Kruskal-Wallis test kako bi se utvrdile razlike u medijanima simptoma prehlade između grupa koje su

uzimale različite količine vitamina C (placebo, srednja i velika doza). Uzimanje vitamina C predstavljalo je nezavisnu

varijablu. Zavisnu varijablu predstavljalo je povećanje ili smanjene simptoma prehlade mjereno u danima skraćenja

ili produljenja prehlade.

Utvrđeno je da se grupe statistički značajno razlikuju u mjerenim simptomima prehlade (χ2(2, N=30)=6,92; p<0,05).

Uzimanje vitamina C objasnilo je znatnu proporciju varijance rangirane zavisne varijable kojom su mjereni simptomi

prehlade (η2=0.24), što ukazuje na značajnu povezanost između uzimanja vitamina C i smanjenja simptoma

prehlade.

Testovi višestrukih usporedbi provedeni su Mann-Whitney U testom uz Bonferroni korekciju za kontrolu alpha

pogreške. Rezultati su pokazali da se statistički značajno razlikuje placebo grupa (C0 = 3; Q3-1=3) od prve

eksperimentalne grupe koja je imale statistički značajno manje simptome prehlade (C1 = -2,5; Q3-1=4), ali ne i od

druge eksperimentalne grupe (C2 = -5; Q3-1=11). Eksperimentalne grupe nisu imale statistički značajno različite

simptome.

Iz priloženog vidimo:

- neparametrijske zamjene ne moraju rezultirati istim zaključcima kao parametrijski testovi

- na značajnost razlike ne utječu samo parametri poput mjera centralne tendencije već i standardne pogreške

parametara koje su usko vezane uz raspršenje rezultata oko mjere centralne tendencije (npr. Q3-1=11)

Page 9: Multivarijatna Statistika - Finalna Skripta

2. USPOREDBA DVIJE ILI VIŠE SKUPINA ZAVISNIH REZULTATA

Zavisne i nezavisne skupine rezultata. U čemu je razlika?

Želite znati kako različite količine konzumiranog alkohola utječu na fluentnost govora?

NACRT A: Po zakonu slučaja podijelite ispitanike u nekoliko skupina i svakoj date različitu količinu alkohola. Potom

mjerite fluentnost govora.

Na rezultat će tek u određenoj mjeri utjecati alkohol. Dio varijance rezultata koji se neće moći objasniti

razlikama u konzumiranom alkoholu (npr. puno alkohola i fluentan ili bez alkohola i ne baš fluentan) može

se povezati sa spolom, tolerancijom na alkohol i drugim RELEVANTNIM INDIVIDUALNIM RAZLIKAMA.

Sve to donekle kompenzira razvrstavanje ispitanika u grupe po zakonu slučaja.

NACRT B: Svakom ispitaniku mjerite fluentnost govora nakon konzumacije različite količine alkohola, npr. 0, 1, 2, 3,

4 čaše vina. Dobivate pet zavisnih skupina rezultata. Kontroliraju se individualne razlike (nema ih jer u različitim

mjerenjima sudjeluju isti ispitanici). Reducira se nesistematski varijabilitet. Povećava se snaga testa.

Zašto se ne može koristiti formula analize varijance za nezavisne skupine?

Zato jer je narušen jedan od preduvjeta: Neovisnost rezultata. Rezultati u mjerenoj varijabli nisu nezavisni jedan od

drugoga. Rezultati dobiveni u različitim eksperimentalnim uvjetima najvjerojatnije su međuovisni i povezani jer

dolaze od iste jedinice analize (istog ispitanika).

Preduvjet: sferičnost rezultata

S obzirom da je očekivano da će ponovljena mjerenja imati određen stupanj povezanosti, mora se pretpostaviti

podjednak stupanj povezanosti među ponovljenim mjerenjima (1.-2.; 2.-3. i 1.-3.).

Nešto stroži uvjet ("compound symmetry") zahtjeva da varijance skupina rezultata budu podjednake (isto kao

homogenost varijance kod ANOVA-e za nezavisne skupine) i da kovarijance parova zavisnih skupina rezultata budu

podjednake.

Iako ANOVA za zavisne rezultate nema preduvjet neovisnosti rezultata, javlja se novi preduvjet: SFERIČNOST

REZULTATA (ε - epsilon).

Taj preduvjet se testira samo ako imamo više od dva ponovljena mjerenja (više od dvije zavisne skupine rezultata)

Preduvjet sferičnosti sličan je preduvjetu homogenosti varijance u ANOVA-i za nezavisne skupine. Odnosi se na

homogenost varijance razlika među ponovljenim mjerenjima. Ako se izračunaju razlike između svakog para

ponovljenih mjerenja (1.-2.; 2.-3. i 1.-3.), varijance dobivenih razlika trebale bi biti podjednake.

Testiranje preduvjeta sferičnosti: Testira se Mauchley testom sferičnosti (značajan p ukazuje da je narušen

preduvjet sferičnosti). Test provjerava nul-hipotezu po kojoj su varijance razlika u rezultatima različitih ponovljenih

mjerenja homogene.

Ako preduvjet nije zadovoljen mogu se koristiti korekcije (ε-epsilon, Greenhouse-Geisser; Huynh-Feldt) ili

multivarijatni test (MANOVA, λ lamda). Multivarijatni test zahtjeva multivarijatnu normalnost distribucije

rezultata.

Takođe, ispitanici odabrani iz populacije po zakonu slučaja; rezultati različitih ispitanika (usporedba po

redovima) su nezavisni (rezultat ispitanika A na prvom mjerenju je nezavisan od rezultata ispitanika B na

prvom mjerenju).

Page 10: Multivarijatna Statistika - Finalna Skripta

Analiza varijance za zavisne uzorke

F omjer stavlja u omjer varijance ili prosječne sume kvadratnih odstupanja rezultata.

Veličina efekta

Za ANOVA-u s ponovljenim mjerenjima navodi se parcijalni eta-kvadrat (η2). Izračun:

Kod primjene multivarijatnog Wilks' lambda (Λ) koristi se multivarijatni eta-kvadrat. Izračun:

Variraju od 0 do 1.

Primjena jednosmjerne analize varijance za zavisne rezultate

Eksperimentalna, kvazieksperimentalna, terenska ("field studies") istraživanja i longitudinalna istraživanja.

Testira se jesu li aritmetičke sredine u zavisnoj varijabli podjednake na svim skupinama zavisnih rezultata

(ponovljenih mjerenja). Svaka skupina rezultata predstavlja jednu razinu faktora po kojem se razlikuju

eksperimentalni nivoi ili ponovljena mjerenja ("within subject factor").

LONGITUDINALNI NACRTI: isti ispitanici, isti instrumenti i metoda, različito vrijeme pribavljanja podataka

(efekt vremena, maturacije…)

EKSPERIMENTALNI NACRTI: isti ispitanici, isti instrumenti i metoda, sukcesivno uzimanje podataka pod

različitim eksperimentalnim uvjetima (uz rotaciju redoslijeda eksperimentalnih uvjeta). Efekt

eksperimentalne manipulacije.

Rjeđe: ekvivalentni parovi ili različiti instr. s istom metrikom mjerenog fenomena.

Varijable u bazi:

Za razliku od ANOVA-e za nezavisne skupine, u bazi ne postoji posebna nezavisna varijabla (faktor) koja određuje

razine ponovljenih mjerenja već samo veći broj zavisnih varijabli koje, svaka u svome stupcu, sadrže rezultate

zavisne mjere. Broj varijabli (stupaca) jednak je broju razina faktora po kojemu su mjerenja ponovljena:

U bazi postoje samo zavisne, kvantitativne, kontinuirane (intervalne ili omjerne) varijable od kojih svaka predstavlja

po jednu skupinu zavisnih rezultata ili razinu faktora po kojemu su mjerenja ponovljena.

Svaka jedinica analize (ispitanik) u retku baze ima navedeno onoliko podataka koliko ima ponovljenih mjerenja tj.

"zavisnih varijabli".

Page 11: Multivarijatna Statistika - Finalna Skripta

Interpretacija

S obzirom da su zadovoljeni svi preduvjeti za parametrijsku analizu (Mauchly W=0,79; Hi2(2, N=15)=3,09; p>0,05)*,

provedena je jednosmjerna analiza varijance za zavisne skupine rezultata kako bi se utvrdilo osjećaju li profesori

podjednak stupanj stresa kada su suočeni s različitim stresorima koji se odnose na interakciju sa studentima,

roditeljima i administracijom. Faktor po kojemu se razlikuju zavisne skupine rezultata bio je izvor stresa, a zavisna

varijabla bila je razina stresa povezana sa svakim od navedenih izvora.

Rezultati ANOVA-e ukazuju da postoji statistički značajan efekt izvora stresa na stupanj doživljenog stresa (F(2,

28)=6,03; p<0.01). Izvor stresa objašnjava znatan dio varijance stupnja stresa kojeg doživljavaju profesori (η2=0,30).

Ovi rezultati podržavaju hipotezu da profesori doživljavaju različiti stupanj stresa kada se suoče s različitim izvorima

stresa.

Usporedbom rezultata dobivenih za različite izvore stresa (uz Bonferroni metodu kontrole alpha pogreške) utvrđeno

je da profesori navode statistički značajno viši stupanj stresa uzrokovan administracijom (M=62,53; SD 18.04) u

odnosu na stupanj stresa uzrokovan studentima (M=49.60; SD=15.69) ili roditeljima (M=52.27; SD=14.84). Stupanj

stresa uzrokovan studentima i roditeljima ne razlikuje se statistički značajno.

*Preduvjeti su navedeni samo kao primjer navođenja Mauchly testa; ti se podaci ne moraju navesti ukoliko su preduvjeti

zadovoljeni.

Neparametrijska zamjena za ONEWAY ANOVA-u sa zavisnim skupinama: Friedman test

Ekstenzija Wilcoxson-ovog testa: ima istu logiku i preduvjete (Modul 1)

Zavisna varijabla mora biti barem na ordinalnom mjernom nivou.

Testira se nul-hipoteza po kojoj su medijani u populaciji jednaki za svaku razinu faktora koji dijeli rezultate na više

zavisnih skupina.

Preduvjeti za analizu

1. Neovisnost rezultata: Slučajan uzorak iz populacije

2. Distribucije rezultata razlika među parovima nivoa faktora moraju biti kontinuirane i simetrične. U

suprotnom test ne odražava samo razliku u medijanima, već i u oblicima distribucija.

3. Veličina uzorka: χ2 statistika za ovaj test tek je aproksimativna i povećava joj se točnost na većim uzorcima

(N>29)

Veličina efekta

Veličina efekta izražava se Kendall-ovim koeficijentom konkordance (Kendall W).

To je indeks snage povezanosti i varira od 0 do 1, pri čemu više vrijednosti ukazuju na veću povezanost.

Post-hoc usporedbe

Kako bi utvrdili koje grupe se statistički značajno razlikuju mogu se provesti Wilcoxon testovi za svaki par, uz

Bonferroni metodu kontrole alpha pogreške.

Interpretacija

Proveden je Friedman test kako bi se utvrdile razlike u medijanima doživljenog stresa profesora izloženih različitim

stresorima. Test je ukazao da postoje statistički značajne razlike u stupnju doživljenog stresa ( χ2(2, N=15)=13,66,

p<0,01), a Kendallov koeficijent konkordance (0,46) ukazuje na postojanje znatne povezanosti između izvora stresa i

stupnja doživljenog stresa.

Page 12: Multivarijatna Statistika - Finalna Skripta

Wilcoxonovim testom uz Bonferroni kontrolu alpha pogreške provedene su post-hoc analize usporedbe po parovima

za svaki par izvora stresa. Utvrđeno je da profesori navode statistički značajno viši stupanj stresa uzrokovan

administracijom (C=62; Q3-1=34) u odnosu na stupanj stresa uzrokovan studentima (C=45; Q3-1=18) ili roditeljima

(C=55; Q3-1=19). Stupanj stresa izazvan studentima i roditeljima ne razlikuje se statistički značajno.

o C=medijan; Q3-1=kvartilni raspon

Prosjeci, post-hoc usporedbe (označene slovima) i F omjeri u tablici

Prosjeci i post-hoc usporedbe (označene slovima) u tablici

Stupnjevi slobode

Jednosmjerna analiza varijance sa zavisnim uzorcima

df total = df wg + df bg

df total = N – 1 (broj rezultata)

df wg = N – k (k-broj grupa)

df bg = k - 1

Page 13: Multivarijatna Statistika - Finalna Skripta

3. NACRT S JEDNOM ZAVISNOM VARIJABLOM I VIŠE DISKONTINUIRANIH FAKTORA (FAKTORSKA ANOVA)

Mogući nacrti s faktorskom analizom varijance

Faktorske ANOVAe dijelimo na dvosmjerne, trosmjerne… ovisno o broju faktora čije efekte na zavisnu varijablu

sagledavamo.

Nezavisni faktorski nacrti: zavisna varijabla i dva ili više faktora koji dijele jedinice analize na nezavisne

skupine. Primjer dvosmjerne 2x3 ANOVAe: ukupna godišnja primanja zaposlenika različitog spola (2) i rase

(3).

Zavisni faktorski nacrti: ponovljena mjerenja na dva ili više faktora. Primjer dvosmjerne 2x4 ANOVAe:

mjera anksioznosti kao stanja i kao osobine (2) u četiri naleta (“waves” npr: “A four-wave longitudinal

study”). Zavisna varijabla je anksioznost.

Mješoviti nacrti: po nekim (jednom ili više) faktorima jedinice analize se dijele u nezavisne skupine, a po

drugim (jednom ili više) faktorima se razlikuju ponovljena mjerenja zavisne varijable. Primjer trosmjerne

3x3x2 ANOVAe: Porast plaće kroz tri godine (3) kod zaposlenika različite rase (3) i spola (2)

Efekti faktora i interakcija

Svaka faktorska ANOVA daje za interpretaciju rezultata važne informacije o:

1. GLAVNIM EFEKTIMA faktora kojih ima onoliko koliko ima faktora u modelu i

2. INTERAKCIJSKE EFEKTE – u dvosmjernoj axb ANOVAi postoji jedna dvosmjerna interakcija (AxB); u

trosmjernoj axbxc ANOVAi postoje tri dvosmjerne (AxB; AxC; i BxC) i jedna trosmjerna interakcija (AxBxC) –

malim slovima označen je broj nivoa faktora, a velikim slovima označeni su faktori.

Podsjetimo se: u eksperimentalnim nacrtima primjereno je govoriti o efektima faktora; u opservacijskim nacrtima

ispravno je govoriti o povezanostima faktora i ZV ili o prosječnim razlikama u ZV među grupama koje su određene

faktorom.

Složenost nacrta

Složeni nacrti mogu biti problematični zbog najmanje dva razloga:

1. INTERPRETACIJA: dvosmjerne interakcije su zahtjevne za interpretaciju, trosmjerne interakcije je teško

interpretirati, a složenije interakcije je još teže interpretirati

2. BROJ jedinica analize (ispitanika) po kombinacijama faktora (ćelijama) poželjno je da bude 30 ili veći. Kod

2x3 nacrta imamo 6 ćelija; kod 3x3x2 nacrta imamo 18 ćelija

Interpretacije

U punom modelu ANOVAe uključeni su istovremeno glavni efekti i interakcije.

GLAVNI EFEKTI:

Glavni efekti pojedinog faktora ukazuju na značajnost razlika u zavisnoj varijabli između grupa koje određuje upravo

taj faktor, uz kontrolu efekata svih ostalih faktora i interakcija (Sume kvadrata Tip III i više -> Tip IV do VI odnosi se

na nacrte s nedostajućim podacima i praznim ćelijama; kada ih nema rezultati su identični SS Tipu III).

Glavnim efektima pojedinog faktora testira se nul hipoteza da se grupe određene tim faktorom ne razlikuju

statistički značajno u prosječnim grupnim rezultatima na zavisnoj varijabli (uz istovremenu kontrolu efekata ostalih

faktora i interakcija.

Za interpretaciju glavnih efekata potrebno je izračunati aritmetičke sredine i standardne devijacije rezultata u ZV po

grupama i napraviti planirane usporedbe ili post-hoc testove.

Page 14: Multivarijatna Statistika - Finalna Skripta

INTERAKCIJSKI EFEKTI

Dvosmjernom interakcijom testira se nul-hipoteza da su efekti jednog faktora na zavisnu varijablu podjednaki na

svim razinama drugog faktora.

Ukoliko vam je osnovni zadatak utvrditi je li:

- povezanost između zavisne varijable A i faktora B ili

- efekt faktora B na zavisnu varijablu A

... podjednak na svim razinama faktora C

onda provjeravate je li faktor C moderator tj. moderira li efekte (ili povezanost) faktora A na ZV.

Ponekad (često?) istraživači nemaju tako fokusirano istraživačko pitanje i ne mogu odrediti koji je faktor moderator

(npr. u analizi efekata spola i rase na inteligenciju) . Tada je proizvoljno hoće li interpretacija ići u smislu efekata

faktora B na ZV na različitim razinama faktora C ili efekata faktora C na ZV na različitim razinama faktora B.

Nakon značajne interakcije najčešće se provjeravaju jednostavni glavni efekti ("simple main effects") tj. efekti faktora

A zasebno na svakoj razini faktora B (koji teorijski može biti određen kao moderator).

Crtanje interakcija u faktorskoj ANOVAi

Statistički značajne interakcije prikazuju se grafički i najlakše ih je interpretirati pregledom grafa (puno teže ih je

interpretirati iz aritmetičkih sredina grupa dobivenih kombinacijom faktora u interakciji).

Najlakše je provjeriti jesu li linije koje predstavljaju rezultate ispitanika na ZV paralelne (nema statistički

značajne interakcije) ili su pod kutom (ima statistički značajne interakcije).

Trosmjerne interakcije se mogu grafički prikazati samo pomoću više grafova (po jedan za svaku razinu trećeg

faktora; potrebno ujednačiti skalu na "y" osi) ili s više linija na istom grafu, pri čemu se svaka linija koja predstavlja

razinu drugog faktora crta posebno za svaku razinu trećeg faktora (drugi i treći faktor su uneseni u legendu).

Vrlo lako se može dogoditi da glavni efekti faktora ne budu statistički značajni, a da bude statistički značajna

samo interakcija. Tada bi interpretacija glavnih efekata, bez podatka o interakciji dovela do krivog zaključka.

Primjer neznačajnih glavnih efekata i značajne interakcije

Istraživači su na skali od 1 do 5 mjerili zadovoljstvo muškaraca i žena (faktor sa nezavisnim skupinama rezultata)

sudjelovanjem u kompetitivnom i kooperativnom grupnom zadatku (zavisni rezultati; primjer mješovitog nacrta).

Željeli su utvrditi postoje li spolne razlike u zadovoljstvu sudjelovanjem u grupnom zadatku i postoje li razlike u

zadovoljstvu sudjelovanjem u raznim tipovima zadatka

Zasebni testovi za nezavisne skupine utvrdili su da nema spolnih razlika u zadovoljstvu sudjelovanjem u zadacima

kada se ne uzima informacija o tipu zadatka (Mž=Mm=3).

Zasebni testovi za zavisne skupine rezultata utvrdili su da nema razlike u zadovoljstvu sudjelovanjem u različitim

tipovima zadatka, kada se ne uzima u obzir informacija o spolu ispitanika Mkomp = Mkoop = 3)

Kada se provjeri interakcija faktora spol i tip zadatka, tj. kada se zadovoljstvo ispitanika kompetitivnim i

kooperativnim zadatkom sagleda zasebno na poduzorcima ispitanika različitog spola, dobivaju se nove važne

informacije.

Ispitanici različitog spola ne preferiraju podjednako kompetitivni i kooperativni zadatak. Muškarci više vole

kompetitivni zadatak (5) u usporedbi s kooperativnim zadatkom (1), dok žene manje vole kompetitivni (1) u

usporedbi s kooperativnim zadatkom (5).

Page 15: Multivarijatna Statistika - Finalna Skripta

Primjer grafičkog prikaza interakcija i glavnih efekata

Neparametrijske zamjene

Faktorska analiza varijance nema standardnu neparametrijsku zamjenu, ali u slučaju da nisu zadovoljeni svi uvjeti za

faktorsku ANOVAu, glavni efekti (i jednostavni glavni efekti) mogu se provjeriti zasebnim neparametrijskim

testovima.

Odabir neparametrijskog testa ovisi o broju skupina i ponovljenih mjerenja koji se uspoređuju -> Moduli 1 i 2).

Dvije nezavisne skupine: Mann-Whitney

Više od dvije nezavisne skupine: Kruskal-Wallis

Dva ponovljena mjerenja: Wilcoxon

Više od dva ponovljena mjerenja: Friedman

Veličina efekta

Ukoliko se analiza varijance provodi u okviru općeg linearnog modela, dostupna je mjera veličine efekta zvana

parcijalni eta-kvadrat (η2).

Predstavlja proporciju varijance rezultata u zavisnoj varijabli koja je povezana s nezavisnom varijablom. Varira od 0

do 1. Interpretacija veličine efekta ovisi o području istraživanja.

Preduvjeti za analizu

1. Neovisnost rezultata: Slučajan uzorak iz populacije i rezultati u mjerenoj varijabli su nezavisni jedan od

drugoga. U suprotnom dobivaju se nepouzdane p vrijednosti.

2. Normalnost distribucije rezultata u zavisnoj varijabli za svaku populaciju jedinica analize definiranu

pojedinom razinom nezavisne varijable (faktora).

Ako preduvjet nije zadovoljen (posebice kod velikih asimetrija i platikurtičnosti) smanjena je snaga testa i p

koeficijent je nepouzdan. Veći uzorci smanjuju nepouzdanost p koeficijenta.

3. Homogenost varijance: varijance rezultata u zavisnoj varijabli trebale bi biti podjednake na svakoj razini

nezavisne varijable.

Ako preduvjet nije zadovoljen i ako skupine jedinica analize na svakoj od razina nezavisne varijable nisu podjednako

brojne p koeficijent je nepouzdan. Mogu se koristiti alternativni testovi (Browne-Forsythe, Welch, a za post-hoc:

Dunnett C ili T3, Games-Howel, Tamhane T2).

Page 16: Multivarijatna Statistika - Finalna Skripta

Nejednaki broj ispitanika po ćelijama (grupama)

Ako nemate nedostajuće podatke i broj ispitanika po grupama je podjednak, primjereno je koristiti SS Tip III.

U slučaju da nedostaju podaci za neke ispitanike ili da su neke ćelije potpuno prazne primjereno je koristiti SS tip IV

do VI (program Statistica preferira još uvijek nestandardan Tip IV)

U slučaju različitog broja ispitanika u grupama koje se dobivaju kombinacijom razina faktora (često u

opservacijskim-korelacijskim istraživanjima ili kombinacijama takvih istraživanja i eksperimenta: vidi Primjer 1)

također je primjereno koristiti SS Tip IV do VI.

U takvim situacijama (SS Tip IV do VI) treba pri interpretaciji koristiti ponderirane aritmetičke sredine ("weighted

means" ili "estimated marginal means")

Aritmetičke sredine se ponderiraju tako da se se aritmetička sredina ćelije pomnoži s frekvencijom rezultata u toj

ćeliji, a umnožak se podijeli s ukupnom frekvencijom rezultata u svim ćelijama (brojem jedinica analize tj.

ispitanika).

Interpretacija

S obzirom da su zadovoljeni svi preduvjeti za parametrijsku analizu provedena je faktorska (3x2) ANOVA kako bi

provjerili efekte različitih metoda poučavanja (kontrolna grupa; individualni rad; grupni rad) na promjenu u općem

školskom postignuću učenica i učenika.

Rezultati su ukazali na statistički značajan efekt metoda poučavanja (F(2,54)=17.81, p<0,01, parcijalni η2=0.40) na

promjenu u općem školskom postignuću. Učenici i učenice u skupini s intenzivnijim grupnim radom (M=0,473;

SD=0,249) imali su statistički značajno veći napredak od skupine s intenzivnijim individualnim radom M=0,253;

SD=0,178) i kontrolne skupine (M=0,135; SD=0,147). Skupina s intenzivnijim individualnim radom ne razlikuje se

značajno u napretku u usporedbi s kontrolnom skupinom. Razlike među grupama utvrđene su uz Bonferroni metodu

kontrole alpha pogreške.

Rezultati su pokazali da ne postoji statistički značajan efekt spola na promjenu u općem školskom postignuću

(F(1,54)=0.61, p>0,05, parcijalni η2=0.01), ali je utvrđena značajna interakcija metode i spola u njihovim efektima na

promjene postignuća (F(2,54)=10.54, p<0,01, parcijalni η2=0.28) .

S obzirom na značajnu interakciju odlučili smo provjeriti jednostavne efekte ("simple main efects") metode na

uspjeh, zasebno za svaku podskupinu učenika i učenica. S obzirom na testiranje dva jednostavna efekta postavili smo

graničnu alpha razinu na 0.025. Utvrđeno je da različite metode nemaju statistički značajan efekt na uspjeh za

podskupinu učenika (F(2,54)=2.50, p>0,05), ali imaju za podskupinu učenica (F(2,54)=25.86, p<0,01).

Post-hoc testovi razlika u uspjehu učenica koje su bile razvrstane u tri različite grupe prema metodi poučavanja uz

kontrolu alpha pogreške postavljanjem granične alpha razine na 0,008 (0,025/3) pokazali su da statistički značajno

veći napredak postižu učenice u grupi intenzivnijeg grupnog rada (M=0.64, SD=0,15), u usporedbi s učenicama u

grupi intenzivnijeg individualnog rada (M=0,17, SD=0,18) i u kontrolnoj grupi (M=0,11, SD=0,15), među kojima nije

utvrđena statistički značajna razlika.

Rezultati podržavaju hipotezu o spolu učenika kao moderatoru odnosa između metoda poučavanja i napretka u

prosječnom školskom uspjehu. Metoda intenzivnijeg grupnog rada dovodi do boljeg uspjeha samo kod učenica, ali ne

i kod učenika.

Page 17: Multivarijatna Statistika - Finalna Skripta

GENERAL LINEAR MODEL

Jednostavna multivarijatna forma GLMa

1. Multipla regresija: svi X-evi kontinuirani ili dihotomni, Y kontinuiran

2. ANOVA: svi Xevi diskontinuirani, Y kontinuiran

3. ANCOVA: neki X-evi kontinuirani, a neki diskontinuirani, Y kontinuiran

4. Diskriminantna analiza s dvije grupe: svi X-evi kontinuirani, Y dihotoman

5. Višesmjerna analiza frekvencija (Multiway frequency analysis): svi X-evi diskontinuirani, Y dihotoman (u

“logit” analizi)

6. Logistička regresijska analiza s 2 grupe: X-evi kontinuirani i/ili diskontinuirani, Y dihotoman 24

Puna multivarijatna forma GLMa

Karakteristika pune multivarijatne forme jeste veći broj varijabli i s lijeve i s desne strane jednadžbe.

Cilj je utvrditi maksimalnu moguću povezanost između dva skupa vatijabli.

Tada ne postoji jedan linearni kompozit, već više linearnih kompozita (najmanje po jedan sa svake strane jednadžbe:

jedan par linearnih kompozita). Također, ti linearni kompoziti nisu jedinstveni jer se varijable mogu na različiti

način ponderirati i kombinirati kako bi se dobila maksimalna korelacija među skupovima varijabli, pa se može

napraviti više parova linearnih kompozita koji se tjekom analize izdvajaju tako da svaki par objašnjava preostali dio

povezanosti među skupovima varijabli. Dakle parovi linearnih kompozita su međusobno ortogonalni

Tako punim multivarijatnim GLM-om možemo opisati ove analize:

I. Kanonička korelacija (u užem smislu): svi X-evi kontinuirani, svi Y-i kontinuirani

2. MANOVA: svi X-evi diskontinuirani, svi Y-i kontinuirani

3. MANCOVA. neki X-evi kontinuirani, a neki diskontinuirani. svi Y-i kontinuirani

4. Diskriminantna analiza: svi X-evi kontinuirani, svi Y-i diskontinuirani

5. Višesmjerna analiza frekvencija: svi X-evi diskontinuirani, Y diskontinuiran

6. Politomna logistička regresija: svi Xevi kontinuirani i/ili diskontinuirani, y diskontinuiran

Page 18: Multivarijatna Statistika - Finalna Skripta

REGRESIJSKA ANALIZA

- set statističkih postupaka kojima se procjenjuje odnos ZV i NV

Jednostavna regresijska analiza- prognoziranje rezultata u kriteriju na temelju poznatog rezultata u jednom

kontinuiranom prediktoru

Y= a+ bX + e

Multipla regresijska analiza ekstenzija je bivarijatne regresije u kojoj se kombinira više NV kako bi se predvidjela

vrijednost ZV, tj. prognoziranje rezultata u kriteriju na temelju poznatih rezultata u više prediktora

Y´= A + B1X1 + B2X2 + ... + BkXk + e

gdje je

Y' predviđeni rezultat ZV,

A je intercept ili konstanta (vrijednost Y kada su sve X vrijednosti 0),

X različite NV (kojih ima k broj),

B je koeficijent pridodan svakoj NV tijekom regresije, tj. promjena rezultata u ZV za jediničnu promjenu rezultata u

prediktoru (nagib pravca)

e – standardna pogreška

β – standardizirani regresijski koeficijent – promjena u terminima standardnih devijacija

Malo o koeficijentima...

Nestandardizirani regresijski koeficijent b

- promjena rezultata u ZV za jediničnu promjenu rezultata u prediktoru ( u metrici ZV)

- jedinična promjena u prediktorskoj indikator varijabli odražava razliku među grupama pa b predstavlja

razliku između aritmetičke sredine ZV za grupu označenu brojem 1 i grupu označenu brojem 0

- predznak pokazuje je li aritmetička sredina grupe označene brojem 1 veća (+) ili manja (-) od aritmetičke

sredine grupe označene nulom

- apsolutna vrijednost pokazuje kolika je razlika između aritmetičkih sredina

Standardizirani koeficijent β

- standardizirana promjena rezultata u ZV za standardiziranu promjenu rezultata u prediktoru (nije u

metrici ZV)

- kod bivarijatne regresije β je po apsolutnom broju i po predznaku jednaka Pearsonovoj r korelaciji

Cilj regresijske analize je izvesti set vrijednosti B za NV kojim će vrijednost Y biti što je moguće sličnija Y

vrijednostima dobivenim mjerenjem

Regresijski koeficijenti (npr. B) tako:

1. minimiziraju sumu kvadriranih derivacija između predviđenih i opaženih Y vrijednosti

2. optimiziraju korelaciju između predviđenih i opaženih Y vrijednosti

Korisnik
Highlight
Korisnik
Highlight
Korisnik
Highlight
Page 19: Multivarijatna Statistika - Finalna Skripta

Za što sve nam služi regresijska analiza?

1. ispitivanje odnosa između ZV i nekoliko NV

2. ispitivanje odnosa između ZV i nekoliko NV, uz statističku kontrolu kovarijata

3. procjeniti koji set NV bolje predicira rezultat na ZV

- regresijska analiza može se provodit na kontinuiranim, ali i dihotomnim varijablama

- ANOVA je poseban slučaj regresijske analize u kojoj su glavni efekti i interakcije serije dihotomnih NV – možemo

provesti ANOVA-u u regresijskoj analizi, ali često ne i obrnuto – ANOVA zahtijeva diskretne kategorije (npr. niska,

srednja i visoka razina NV, ili dummy kodiranje 0,1), ako se kontinuirana varijabla „sreže“ u te kategorije često se

gube informacije, uz nejednak broj rezultata po ćelijama, dok se u regresijskoj analizi zadržava pun raspon

kontinuirane NV

Tako, regresijska odgovara na brojna statistička pitanja, kao što su stupanj povezanosti, važnost NV, dodavanje

NV, promjena NV, kontingencije između NV, usporedba seta NV, predikcija rezultata na ZV za članove novog

skupa te procjene parametara.

Ograničenja regresijske analize - Berry (1993), Fox (1991)

a) Teoretska pitanja

1. Regresijska analiza često otkriva odnos među varijablama, ali ne implicira da su ti odnosi kauzalni

2. Pitanje odabira varijabli u analizi, mjerenje istih – preporuka: koristiti NV koje su međusobno u niskim

korelacijama, ali su u visokoj korelaciji s kriterijem. Time je cilj regresijske analize utvrditi najmanji broj NV

potrebnih za predviđanje rezultata u ZV, pri čemu svaka NV predviđa odvojen i nezavisan dio varijabiliteta ZV

3. Regresijska analiza iznimno osjetljiva na kombinaciju varijabli koje su u nju uključenje, tj. je li određena NV važna

za rješenje regresijske analize, ovisi o setu NV

4. Regresijska analiza pretpostavlja da su NV mjerene bez pogreške, što je gotovo nemoguće u društvenim i

bihevioralnim znanostima

b) Praktična pitanja

1.Broj ispitanika s obzirom na broj NV (omjer ispitanika i NV)

Veličina uzorka ovisi o željenoj snazi, razini α- pogreške, broju prediktora i očekivanoj veličini efekta

Greenova (1991) jednostavna pravila:

1. za testiranje multiple korelacije: N ≥ 50 + 8m (pri čemu je m broj NV)

2. za testiranje individualnih prediktora : N ≥ 104 + m

pod uvjetom da je umjerena povezanost između NV i DV, da je α=0,05, a β=0,20

3. za testiranje i multiple korelacije i individualnih prediktora- izračunati oba N-a i odabrati veći

Ipak, veći broj ispitanika potreban je kada je ZV skewed, kada se očekuje mala veličina efekta ili kada se očekuje

znatna pogreška mjerenja u manje pouzdanim varijablama

ALI, ako imamo prevelik broj ispitanika, gotovo svaka multipla korelacija biti će značajna

4. kod stepwise regresijske analize, omjer ispitanika i NV mora biti 40:1

Page 20: Multivarijatna Statistika - Finalna Skripta

2. Izostanak multikolineranosti i singularnosti

- izračun regresijskih koeficijenata zahtijeva inverziju matrice korelacija između NV, koja je nemoguća ako su NV

singularne, te nestabilna ako su multikolinearne – to se može javiti ako su NV međusobno u visokim korelacijama

Koja je razlika između multikolinearnosti i singularnosti?

Multikolinearnost i singularnost su problemi u korealcijskoj matrici koji se događaju kada su varijable previsoko

koreliranje. Kod multikolinearnosti, varijable su previsoko korelirane (npr. iznad 0,9), kod singularnosti su varijable

redundantne – jedna od varijabli je kombinacija dvije ili više drugih varijabli

Znaci multikolinearnosti i singularnosti

- vrlo nizak Tolerance (koji se izračunava kao 1-SMC, a SMC su squared multiple correlations, ili kvadrirane multiple

korelacije među NV)

- u regresijskoj analizi, veoma visoke standardne pogreške regresijskih koeficijenata

Berry (1993): kada je r 0.9, standardne pogreške regresijskih koeficijenata poduplaju se, ali ako je prisutna

multikolinearnost, niti jedan od regresijskih koeficijenata neće biti značajan zbog visokih standardnih pogrešaka

Tolerance je vrijednost koja mjeri korelaciju između prediktora i varira od 0 do 1. Što je broj bliže 0, to je jača

veža između nje i ostalih varijabli.

VIF je alternativna mjera kolinearnosti, samo u suprotnom smjeru od Tolerancea- što je veći broj, to je jača

veza.

3.Normalnost, linearnost, homoscedascitet reziduala

Pregled Scatter dijagrama reziduala daje nam informacije o normalnosti, linearnosti i komoscedascitetu između

predviđenih rezultata na ZV i pogreške u predviđanju. Tj. dijagramom raspršenja rezultata možemo provjeriti

sljedeće preduvjete regresijske analize: normalnost, homoscedascitet, linearnost, ekstremne vrijednosti i

nezavisnost pogreške.

Pretpostavka analize je da su reziduali (razlika između opažnih i predviđenih vrijednosti ZV) normalno

distribuirani oko predviđenih vrijednosti ZV, da su u linearnom odnosu sa predviđenim vrijednostima na ZV, te da je

varijanca reziduala oko predviđenih vrijednosti na ZV ista za sve predviđene vrijednosti.

Što se događa sa Scatter dijagramima kada ti preduvjeti nisu zadovoljeni?

Heteroscedascitet –kada je raspršenje standardnih devijacija

reziduala oko predviđenih vrijednosti puno veće za najduži raspon

u odnosu na najuži raspon - Fox, (1991) kaže da je to oko 3 puta

4.Nezavisnost pogrešaka

Pretpostavka regresijske analize, koja se može testirati na temelju

analize reziduala je da su pogreške predviđanja nezavisne jedna od

druge. Testira se Durbin Watson testom.

Page 21: Multivarijatna Statistika - Finalna Skripta

Koeficijent determinacije

R- maksimalna moguća povezanost između kriterija i prediktora, jednaka je Pearsonovom koeficijentu korelacije

R²- koeficijent determinacije, proporcija objašnjene varijance

F,df, i p- testiraju značajnost R koeficijenta, tj. nul-hipotezu

- testira značajnost razlike između grupnih aritmetičkih sredina u ZV, tj. značajnost razlike između

aritmetičke sredine grupe 0 i grupe 1 u ZV

- u bivarijatnoj regresiji, F je identičan onome iz ANOVA-e

Kako možemo izračunati koeficijent determinacije (R²)?

Razlike između opažnih vrijednosti Zv (Y), srednja vrijednost Y i predviđena vrijednosti Y zbrajaju se i kvadiraju,

čime dobivamo procjenu varijacije koja se može pripisati različitim izvorima. Tako, ukupna suma kvadrata za Y može

se podijeliti u sumu kvadrata zbog regresije i sumu kvadrata reziduala, tj.

SSy= SSreg + SSres

Ukupna suma kvadrata za Y je:

SSy=Σ (Y-M)²

zapravo suma kvadiranih razlika između, za svakog ispitanika, opaženog rezultata Y i srednje vrijednosti Y dobivene

na temelju svih N ispitanika (M)

Suma kvadrata za regresiju je:

SSreg = Σ (Y' – M)²

zapravo dio varijacije u Y koja može biti objašnjena NV kao prediktorom, tj. suma kvadrata razlika između

predviđene vrijednosti Y' i srednje vrijednosti Y, jer je srednja vrijednost Y najbolji prediktor prave vrijednosti Y

kada nemamo korisnih nezavisnih varijabli.

Suma kvadrata reziduala:

Ssres= Σ (Y – Y')²

je zapravo suma kvadriranih razlika između opaženih (Y) i predviđenih vrijednosti (Y'), te predstavlja pogrešku u

predikciji.

Tako, kvadrirana multipla korelacija, iliti R² je

Tj. kvadrirana multipla korelacija je proporcija kvadrirane sume za regresiju u ukupnoj sumi kvadrata za Y. Ona je

proporcija varijacije u ZV koja se može objasniti najboljom linarnom kombinacijom nezavisnih varijabli, ili

prediktora, tj. ona je korelacija između opaženih i predviđenih Y vrijednosti

R= r yy'

Page 22: Multivarijatna Statistika - Finalna Skripta

Ali, koeficijent determinacije možemo izvesti i na temelju korelacija između svake od NV sa ZV. Kvadrirana multipla

korelacije je suma kroz sve NV koje su produkt korelacije između ZV i NV te standardiziranih regresijskih

koeficijenata za NV, tj.

gdje je svaki ryi korelacija između ZV i NV, a βi je standardizirani regresijski koeficijent, ili beta ponder.

Standardizirani regresijski koeficijent je onaj koeficijen koji se primjeni na standardiziranu Xi vrijednost- tj. z-

rezultat od Xi vrijednosti- kako bi se predvidila standardizirana vrijednost u Y'.

Adjusted R²- uzima u obzir broj varijabli modela i broj ispitanika, stupnjeve slobode

- pošto je R često prenaglašen, koristi se korekcija koja odražava realniju sliku stanja u populaciji. R ne uzima

u obzir broj ispitanika, pa tako što je broj ispitanika manji, R je umjetno veći

Kako izračunati Adj. R²?

( )(

)

N – veličina uzorka

k- broj nezavisnih varijabli ili prediktora

R²- koeficijent determinacije

Pravac regresije

- određuje se na temelju najmanje sume kvadrata odstupanja pojedinačnih rezultata u varijabli Y od pravca

- prognozirana vrijednost nalazi se na pravcu

- rezidual: razlika između prognozirane vrijednosti i stvarne vrijednosti u varijabli

Kako izračunavamo pogrešku?

Tako da kvadriramo reziduale (a to smo napravili tako da od predviđene vrijednosti oduzmemo opaženu vrijednost),

podijelimo ih sa brojem ispitanika, i to sve korjenujemo.

Page 23: Multivarijatna Statistika - Finalna Skripta

PRIMJERI REGRESIJSKIH ANALIZA

1. LINEARNI MODELI S JEDNIM KONTINUIRANIM PREDIKTOROM

Problem: ispitati može li se predvidjeti cijena automobila na temelju njegove starosti.

a) Pearsonov koeficijent korelacije

b) Regresijska analiza

Koeficijent determinacije iznosi 0.937, što znači da je 93,7% varijance cijene objašnjeno godinama

- u ovom slučaju, R je jednak r

Cijena = 2916,942 – (27902,913)(Godine)

Rezulatati ukazuju da postoji statistički značajna povezanost između godina starosti auta i njegove cijene (R=0,97;

F(1,8)=118,53; p<0,01).

Page 24: Multivarijatna Statistika - Finalna Skripta

Problem: Ispitati može li se predvidjeti srčani ritm s obzirom na visinu tjelesne temperature

a) Pearsonov koeficijent korelacije : r = 0,25, p<0,01

b) Regresijska analiza

Rezultati ukazuju da postoji statistički značajna povezanost između tjelesne temperature i srčanog ritma (R=0,25;

F(1,128)=8,80 p<0,01)

Broj otkucaja u minuti = -88,10 + 4,40x tjelesna temperatura

Ukoliko bi varijable standardizirali – intercept bi nam bio nula

Page 25: Multivarijatna Statistika - Finalna Skripta

2. LINEARNI MODELI S VIŠE KONTINUIRANIH PREDIKTORA

Problem: ispitati može li se predvidjeti cijena automobila na temelju godina i broja kilometara?

Koristeći ENTER metodu, dobili smo statistički značajan model (F2,16=26.14, p<0.01. Adj R square= 0.74, značajan

prediktor su kilometri: beta=-0.59 , p<0.05).

Page 26: Multivarijatna Statistika - Finalna Skripta

TIPOVI REGRESIJSKIH ANALIZA

Hijerarhijska regresijska analiza

- istraživač bira red unosa, na temelju teorijskih pretpostavki najčešće, uglavnom se prvo uključuju oni prediktori čiji

je efekt poznat, nakon čega se dodaju novi

- služi testiraju eksplicitnih hipoteza

sr1² + r2² = R²

Statistička regresijska analiza

– redoslijed unošenja prediktora temelji se na statističkim kriterijima

- uspoređuju se dva prediktora i prediktori se unose redom po visini korelacije s kriterijem

1. Forward selection- inicijalni model sadrži samo b. Računalo odabire među ponuđenim prediktorima onaj koji

objašnjava najveći postotak varijance, odnosno onaj koji je u najvećoj korelaciji s kriterijem, te ga u analizu

zadržava ako je značajan. U daljnjim koracima uključuju se varijable koje imaju najvišu semiparcijalnu

korelaciju s ostatkom i zadržavaju se one značajnog doprinosa

2. Stepwise regression- uključuje nove prediktore po istom kriteriju, ali nakon unosa novog provjerava

korisnost prethodno uključenih prediktora, te ih izbacuje ukoliko su redundantni s naknadno uključenima

3. Backward deletion - uključuju se svi prediktori u prvom koraku, izračunava se značajnost njihova doprinosa,

značajnost se uspoređuje sa kriterijem odbacivanja i isključuju se prediktori koji ga ne zadovoljavaju te se

model ponovno procjenjuje

1. Standardna multipla regresija

2. Hijerarhijska regresija

3. Statistička regresija

Standardna regresijska analiza

- svi prediktori uneseni u analizu istodobno

- svaki prediktor se ispituje kao da je unesen u RA

nakon svih prediktora- svaki je procjenjen u

terminima koliko doprinosi predikciji kriterija

- svi se prediktori odjednom uključuju u model, suma

sr² nije jednaka R² ako su prediktori u korelaciji

- može se dogoditi da NV nije značajna u rješenju

regresijske analize, iako je visoko povezana s

kriterijem (ZV). Točnije, ako se te korelacija

pokrivena drugim NV, jedinstveni doprinost te NV je

često vrlo malen, usprkos značajnoj korelaciji s

kriterijem.

Page 27: Multivarijatna Statistika - Finalna Skripta

3. HIJERARHIJSKA REGRESIJSKA ANALIZA

Problem: Ispitati može li se predvidjeti osjećaj nekompetentnosti studenata pomoću varijabli neuroticizma,

samopoštovanja, straha od negativne evaluacije, osamljenosti, samopoštovanja i socijalne osjetljivosti.

Iako je modelom objašnjeno 48,6% varijance kriterija (R=0,486; F(7,345)=46,60; p<0,01), ovom metodom nije jasan

doprinos svakog pojedinog prediktora u objašnjenju varijance kriterija!

Problem: Ukoliko kontroliramo efekte neuroticizma i samopoštovanja mogu li ostale varijable prediktori značajno

doprinijeti objašnjenju kriterija?

Page 28: Multivarijatna Statistika - Finalna Skripta
Page 29: Multivarijatna Statistika - Finalna Skripta

KODIRANJE VARIJABLI U REGRESIJSKOJ ANALIZI

VRSTE KODIRANJA

1. Indikator (dummy) kodiranje

2. Efekt kodiranje

3. Ortogonalno kodiranje

- odabir vrste kodiranja NE mijenja R i F, ali mijenja b i interpretaciju rezultata!

EFEKT KODIRANJE

Referentna grupa je uvijek -1, druga grupa je 1, a ostale 0

Interpretacija

b- kod pojedine efekt varijable ukazuje na razliku između aritmetičke sredine ZV za grupu koja je u toj varijabli

označena brojem 1 i aritmetičke sredine ZV za sve ostale grupe (predznak- jeli ta aritmetička sredina veća ili manja

od one svih grupa)

t-test – testira je li razlika aritmetičke sredine koja na efekt varijabli ima vrijednost 1 i aritmetičke sredine svih

grupa statistički značajna – nakon što se izdvoji efekt ostalih prediktora na ZV (multivarijatna regresija)

Referentna grupa je u potpunosti izostavljena iz interpretacije!

INDIKATOR KODIRANJE

Nominalna varijabla, 2 nivoa

0- referentna skupina, s njom se uspoređuju rezultati grupe koja u toj indikator varijabli ima oznaku 1

- zbog interpretacije neophodno naglasiti koja je grupa 0, a koja 1

Kako odabrati referentnu skupinu?

a) kada imamo nominalnu varijablu na dva nivoa – svejedno nam je

b) kada imamo nominalnu varijablu sa više nivoa:

1. kontrolna grupa (eksperiment)

2. grupa s najvećim brojem ispitanika

3. grupa sa srednje velikom aritmetičkom sredinom

Koraci dummy kodiranja

1. Prebroji broj kategorija (k)

2. Od broja kategorija oduzmi 1 – dobio si broj dummy varijabli

3. Odaberi jednu grupu kao baseline – referentna grupa

4. Rekodiraj varijable

- dodijeli 0 referentnoj skupini u svim dummy varijablama

- u prvoj dummy varijabli dodijeli 1 prvoj grupi koju želiš uspoređivati sa referetnom (sve druge su 0)

- ponovi dok ne kodiraš sve dummy varijable

5. Provedi regresijsku analizu sa svim dummy varijablama!

Page 30: Multivarijatna Statistika - Finalna Skripta

4.PRIMJER REGRESIJSKE ANALIZE SA KODIRANIM VARIJABLAMA

Problem: Može li odabir glazbe (music affiliation) predvidjeti higijenu (change in hygiene) tijekom glazbenog

festivala?

ZV: Mjera higijene kroz tri dana festivala

NV : Glazbena afilijacija, na 4 nivoa (indie, metalci, crusty i bez afilijacije)

Modelom s tri dummy (indikator) varijable objasnili smo 7.6% ukupne varijance promjene u higijeni (R² = .076, F

(3,119) = 3.27, p < .05), odnosno 7.6% varijance promjene higijene može se objasniti glazbenim opredjeljenjem.

Page 31: Multivarijatna Statistika - Finalna Skripta

Kako interpretirati svaku dummy varijablu posebno?

Ako u RA uključimo sve tri dummy varijable u isto vrijeme, naša baseline kategorija je uvijek 0, što znači da

dobivamo 3 nove informacije:

1. Promjena u higijeni Crusty vs No affiliation

2. Promjena u higijeni Metaller vs No affiliation

3. Promjena u higijeni Indie Kid vs No affiliation

RAZLIKA U ARITMETIČKIM SREDINAMA IZMEĐU NAVEDENIH GRUPA!

Crusty – No affiliation = (-0.966) – (-0.554) = - 0.412

Metaller – No affiliation = (-0.526) – (-0.554) = 0.028

Indie Kid – No affiliatin = (-0.964) – (-0.554) = - 0.410

Promjena u higijeni Crusty vs No affiliation

U usporedbi sa osobama bez afilijacije, Crusty postaju sve smrdljiviji kroz tri dana festivala (B=-0.410, t=-2.46, p<0.05).

Promjena u higijeni Metaller vs No affiliation

U odnosu na osobe bez glazbene afiliijacije, kod Metallera nije došlo do promjene u higijeni (B=0.028, t=0.18, p>0.05).

Promjena u higijeni Indie Kid vs No affiliation

U usporedbi sa osobama bez afilijacije, Indie Kid postaju sve smrdljiviji kroz tri dana festivala (B=-0.410, t=-2.00,

p<0.05).

Page 32: Multivarijatna Statistika - Finalna Skripta

Problem: dovodi li uzimanje stimulanta do promjene u libidu?

ZV/KRITERIJ: Objektivna mjera libida

NV/PREDIKTOR: Doza stimulanta (količina)

1. Placebo grupa (sugar pill)

2. Niska doza Viagre

3. Visoka doza Viagre

Modelom sa dvije dummy (indikator) varijable objasnili smo 46% ukupne varijance libida (R² = .460, F (2,12) = 5.12,

p < .05), odnosno 46% varijance promjene libida može se objasniti količinom stimulansa.

Promjena u libidu Low dose vs Placebo

U usporedbi sa osobama u kontrolnoj skupini, osobe iz Low dose grupe imaju veći libido (B=1.00, t=1.13, p>0.05).

Promjena u libidu High dose vs Placebo

U odnosu na osobe iz kontrolne skupine, osobe iz High dose grupe imaju veći libido (B=2.80, t=3.16, p<0.01).

Page 33: Multivarijatna Statistika - Finalna Skripta

SUPRESOR VARIJABLE

Neke NV dobro prediciraju rezultat na ZV i povećavaju koeficijent determinacije na temelju njihove povezanosti sa

drugim NV. To se naziva supresorskim efektom, jer takva varijabla supresira (potiskuje) varijancu koja je irelevantna

u predikciji rezultata na ZV. Time je supresorska varijabla definirana ne vlastitom regresijskom težinom, već njenim

povećavanjem efekta drugih varijabli u setu NV.

Cohen i sur. (2003) Tipovi supresije

1. Klasična supresija

1 NV slabo predviđa rezultat na ZV, druga uopće ne predviđa rezultat na ZV, ALI druga služi kao supresor varijabla

jer otklanja varijancu, pa je predviđanje rezultata na ZV od strane prve NV povećano

2. Kooperativna ili recipročna supresija

Nezavisne varijable su pozitivno povezane sa ZV, a međusobno negativno povezane (ili obrnuto), ALI obje imaju veće

korelacije sa ZV kada je svaka NV prilagođena drugoj

3. Negativna supresija

Kada je znak regresijskog pondera suprotan od onog kojeg bi očekivali na temelju njegove korelacije sa ZV

Odnos beta koeficijenata i personove korelacije između ZV i prediktora mora biti sljedeći da bi mogli reći da

je došlo do supresije:

1. Pearsonova korelacija između NV i ZV je značajno manja od bete NV

2. Personova korelacija NV i ZV imaju različite predznake

Page 34: Multivarijatna Statistika - Finalna Skripta

ANCOVA MODELI

KONTROLA "TREĆE VARIJABLE" PRI RAČUNANJU EFEKTA DISKONTINUIRANE VARIJABLE (FAKTORA) NA

KONTINUIRANU VARIJABLU (ZV)

Svrha ANCOVAe

ANCOVA se koristi kada želimo utvrditi razlikuju li se aritmetičke sredine rezultata u zavisnoj varijabli dobivene od

različitih grupa jedinica analize (ispitanika), nakon kontrole kovarijata (ili: kada bi sve jedinice analize imale jednak

rezultat na kovarijatu; ili: nakon izdvajanja efekta kovarijata na zavisnu varijablu).

ANCOVA F testom testiraju se grupne razlike (faktor) aritmetičkih sredina zavisne varijable koje su prilagođene s

obzirom na grupne razlike u kovarijatu. Prilagođene aritmetičke sredine nazivaju se i: "adjusted means" ili "Least

squares means"

Koja je razlika u F-omjeru u ANOVA-i i ANCOVA-i?

ANCOVA F-testom testiraju se grupne razlike (faktor) aritmetičkih sredina ZV koje su prilagođene s obzirom na

grupne razlike u kovarijatu. Tj. F omjer u ANCOVI, za razliku od ANOVA-e koja u omjer stavlja varijance ili prosječne

sume kvadratnih odstupanja rezultata, stavlja prilagođene sume kvadratnih odstupanja, prilagođena prosječna

kvadratna odstupanja i prilagođene aritmetičke sredine grupa

Kako se "prilagođavaju" grupne aritmetičke sredine? Konceptualne osnove izračuna

U osnovi analize kovarijance je regresijska analiza kojom predviđamo rezultate zavisne varijable temeljem rezultata

kovarijata. Nakon toga se prilagođavaju rezultati u zavisnoj varijabli za (hipotetsku) situaciju u kojoj bi kovarijat bio

kontroliran (u kojoj se ispitanici ne bi razlikovali prema rezultatima u kovarijatu).

"Prilagodba" svakog pojedinačnog rezultata u zavisnoj varijabli:

(Y-Y')=(Y-MY)- βy,x(X-MX)

Prilagodba svakog pojedinačnog rezultata (Y-Y') utvrđuje se na sljedeći način: razlika rezultata konkretnog

ispitanika na kovarijatu i aritmetičke sredine svih rezultata na kovarijatu ponderira se s regresijskim koeficijentom

predviđanja zavisne varijable temeljem kovarijata βy,x(X-MX), a navedeni izraz se oduzme od razlike između

originalnog rezultata konkretnog ispitanika u zavisnoj varijabli i aritmetičke sredine svih rezultata u zavisnoj

varijabli (Y-MY).

Računaju se prilagođene sume kvadratnih odstupanja, prilagođena prosječna kvadratna odstupanja i prilagođene

aritmetičke sredine grupa (koje služe za interpretaciju glavnih efekata ANCOVAe).

Kovarijatom prilagođeni glavni efekt se računa ovako:

Stupnjevi slobode vezani uz SSbg su k-1; stupnjevi slobode vezani uz SSwg su N-k-c (k=broj nivoa faktora, c=broj

kovarijata, N=broj ispitanika)

Veličina efekta

Od primarnog interesa je parcijalni η2 za faktor, a ne kovarijat. Računa se:

bg=model; wg=greška

Page 35: Multivarijatna Statistika - Finalna Skripta

Zašto su izmislili ANCOVAu? Svrha kovarijata!

1. Reducirati varijabilitet rezultata unutar grupe (varijancu pogreške), što uglavnom u eksperimentima

omogućava točniju procjenu efekata NV (faktora). Tada se povećavaju F omjeri faktora (kovarijat je u

većoj mjeri povezan sa zavisnom varijablom nego s faktorima koji su najčešće razine eksperimentalne

manipulacije i definiraju grupe u koje su ispitanici razvrstani po zakonu slučaja).

2. Smanjiti mogućnost pogrešnih zaključaka u neeksperimentalnim nacrtima uslijed problema "treće

varijable" koja sistematski kovarira s razinama faktora i zavisnom varijablom. Tada možemo reći da se

analizom kovarijance pokušava utvrditi samostalan doprinos faktora objašnjenju zavisne varijable, uz

kontroliran utjecaj kovarijata. F omjeri faktora (glavni efekti) nakon uvođenja kovarijata mogu biti manji,

posebno u neeksperimentalnim nacrtima u kojima kovarijat kovarira i s faktorom i s kriterijem. Primjer: ZV

Inteligencija, NV Rasa i SES kao kovarijat (SES=socioekonomski status; SES se ne može modelirati kao

zajednički uzrok, ali može biti jedan od mogućih medijatora u odnosu između rase i inteligencije)

Korištenje analize kovarijance u neeksperimentalnim, opservacijskim nacrtima je teorijski i statistički diskutabilno.

Iako predstavlja pokušaj poboljšanja zaključaka, nije zamjena eksperimentu i ne omogućuje uzročno-posljedične

zaključke. Ne mogu se sa dovoljnom sigurnošću procijeniti prilagođene aritmetičke sredine. U opservacijskim

nacrtima preferiraju se regresijski modeli (nacrt s inteligencijom, rasom i SESom mnogi lakše prihvaćaju u kontekstu

regresijske analize s nominalnim i kontinuiranim prediktorima, iako su te analize u okviru GLMa matematički i

konceptualno identične ANCOVAi; pitanje eksperimentalnih i korelacijskih istraživačkih tradicija).

Neka (relativno) primjerena istraživačka pitanja

Eksperimentalna istraživanja s predtestom i slučajnim rasporedom ispitanika u različite nivoe faktora

(eksperimentalne i kontrolne skupine):

Svi ispitanici sudjeluju u pred-testu i potom se po zakonu slučaja (ili temeljem njihovih rezultata na pred-

testu) razvrstavaju u grupe (nivoi faktora). Primjenjuje se eksperimentalna manipulacija (po zakonu slučaja

može se odrediti koja grupa dobiva koju vrstu manipulacije) nakon koje svi ispitanici sudjeluju u post-testu

(koji može biti ista mjera kao pred-test, ali i bilo koja druga mjera).

Ukoliko su zadovoljeni preduvjeti ANCOVA test može uspješno prilagoditi rezultate zavisne varijable (post-

testa) temeljem rezultata kovarijata (pred-testa).

U neeksperimentalnim nacrtima ispitanici pripadaju različitim grupama (u koje nisu raspoređeni po zakonu slučaja

ili prema rezultatima na pred-testu), što otvara mogućnost da se grupe razlikuju i prema drugim varijablama koje su

povezane sa zavisnom varijablom, a ne samo po odlici po kojoj su razvrstani u grupe.

Čak i ako u nacrt uključimo kovarijat, nismo sigurni u doprinos drugih varijabli. S obzirom da u takve nacrte mogu

biti umiješani nekontrolirani čimbenici ("confounded designs") nije moguće doći do pouzdanih zaključaka o grupnim

razlikama i nakon korigiranja aritmetičkih sredina prema vrijednostima kovarijata. Rezultati ANCOVAe u takvim

nacrtima mogu navesti na pogrešne zaključke.

Preduvjeti, ograničenja i specifičnosti

1. Normalnost distribucije rezultata u zavisnoj varijabli za svaku razinu faktora i svaku specifičnu vrijednost

kovarijata.

2. Homogenost varijanci rezultata u zavisnoj varijabli za svaku razinu faktora i svaku specifičnu vrijednost

kovarijata.

3. Slučajan uzorak i nezavisnost rezultata dobivenih od različitih jedinica analize.

Kovarijat je linearno i u podjednakoj mjeri (nagib regresijske linije) povezan sa zavisnom varijablom na svim

razinama faktora: uvjet linearnosti i homogenosti nagiba regresijske linije (“homogeneity of. reg. slopes”).

Page 36: Multivarijatna Statistika - Finalna Skripta

Nakon unošenja kovarijata ne interpretiraju se klasične grupne aritmetičke sredine već aritmetičke sredine

prilagođene rezultatima kovarijata. Grupne aritmetičke sredine mijenjaju se nakon unošenja kovarijata koji može

smanjiti varijancu pogreške ili umanjiti problem sistematskog kovariranja "treće varijable" s zavisnom varijablom i

eksperimentalnim manipulacijama.

Zbog toga nakon unošenja kovarijata u nekim programima nisu dostupni klasični post hoc testovi razlika između

običnih aritmetičkih sredina (npr. SPSS-u je primjereno koristiti post-hoc dostupan u dodatnim opcijama: Bonferroni

ili liberalniji, ali snažniji Sidak).

S obzirom da se kovarijati uvode s ciljem utvrđivanja glavnih efekata faktora uz kontrolu kovarijata, efekti kovarijata

se često ne navode u interpretacijama, već samo prilagođeni glavni efekti, prilagođene aritmetičke sredine i

standardne devijacije.

Varijable u uobičajenoj ANCOVA analizi

1. Jedna zavisna (kriterijska) varijabla (kontinuirana, intervalna ili omjerna)

2. Jedna ili više nezavisnih (prediktorskih) varijabli koje možemo zvati i faktori i koje dijele jedinice analize na

dvije ili više podskupina (kvalitativna, nominalna)

3. Jedan ili više kovarijata čije efekte na zavisnu varijablu želimo kontrolirati prije testiranja efekata koje

nezavisne varijable (faktori) imaju na zavisnu varijablu (kontinuirana intervalna ili omjerna varijabla).

Kada se u eksperimentalnim istraživanjima unosi kovarijat u analizu, prije ili nakon NV? Zašto? Kada i u

kojim uvjetima se taj uvijet ne mora poštovati?

Kovarijat se unosu u analizu prije NV, kako bi kontrolirao njegov efekt na ZV, tj. da utvrdimo da su se promjene u ZV

dogovdile zbog variranja NV. Taj uvjet se ne mora poštivati kada su prirodne grupe ili kada se može napraviti

raspodjela ispitanika u skupine po slučaju.

Homogenost regresijskih nagiba - uvod u logiku moderatora

- Analizom moderatora provjerava se je li:

a) povezanost između varijable A i B ili

b) regresijski nagib prognoze rezultata varijable A prediktorom B ili

c) efekt faktora B na zavisnu varijablu A

... podjednak na svim razinama moderatorske varijable C

Moderatorski efekt najčešće se statistički testira interakcijom varijable B i C (B*C). Ukoliko interakcija nije značajna,

odgovor na prethodna pitanja je DA i prihvaćamo navedene nul-hipoteze. Ukoliko je interakcija značajna,

odbacujemo navedene nul-hipoteze. Za konkretno pitanje homogenosti regresijskih nagiba zaključili bi da regresijski

nagibi modela s A kriterijem i C kovarijatom nisu podjednaki na svim razinama faktora B te da navedeni preduvjet

ANCOVAe nije zadovoljen.

Page 37: Multivarijatna Statistika - Finalna Skripta

Interpretacija ANCOVA-e

Provedena je jednosmjerna analiza kovarijance (ANCOVA) kako bi utvrdili postoje li razlike u simptomima prehlade

između grupa ispitanika koje su uzimale različite količine C vitamina, nakon kontrole simptoma prehlade u

prethodnoj godini. Uzimanje C vitamina predstavljalo je nezavisnu varijablu s tri nivoa (placebo, mala i velika doza),

dok je zavisnu varijablu predstavljao broj dana sa simptomima prehlade u godini tretmana. Broj dana sa

simptomima prehlade u godini prije tretmana uzet je kao kovarijat.

Preliminarnom analizom provjerena je pretpostavka o homogenosti regresijskih nagiba i utvrđeno je da je

povezanost između kovarijata i zavisne varijable podjednaka na svim razinama nezavisne varijable (F(2,24)=1.47;

p>0.05; parcijalni η2=0.11)*.

Utvrđen je statistički značajan efekt doze C vitamina na broj dana prehlade nakon kontrole broja dana prehlade u

prošloj godini (F(2,26)=6.45; p<0.01). Postoji znatna povezanosti između uzimanja vitamina C i zavisne varijable, na

što ukazuje parcijalni η2 prema kojem uzimanje vitamina objašnjava 33% varijance zavisne varijable, držeći

konstantnim broj dana sa simptomima prehlade prije tretmana koji objašnjavaju znatan dio varijance zavisne

varijable (F(1,26)=14,53; p<0,01)*.

* Ovi podaci se ponekad ne navode (ekstremna ekonomičnost prikaza samo neophodnih rezultata u znanstvenim radovima) već se samo

konstatira da su preduvjeti zadovoljeni i da je kovarijat statistički značajno povezan sa ZV.

Post hoc usporedba (Bonferroni korekcija) aritmetičkih sredina broja dana sa simptomima prehlade, prilagođenih za

inicijalne razlike među ispitanicima u simptomima, ukazuje da je placebo grupa imala statistički značajno višu

aritmetičku sredinu (M=12.01; SE=1.12) od grupa s niskom (M=7.71; SE=1.12), i visokom dozom (M=6.67; SE=1.11)

koje su imale podjednake rezultate.

Neparametrijske zamjene

Kao i za većinu složenih statističkiha analiza, neparametrijske zamjene za ANCOVAu nisu lako dostupne u mnogim

statističkim programima. Neke mogućnosti iznosi Huitema, B. E. (1980).The analysis of covariance and alternatives.

New York: John Wiley.

Kada je kovarijat pred-test, analiza (i neparametrijska) može se provesti na razlici rezultata "post-test minus

pred-test", ali ANCOVA ima veću snagu od navedene procedure.

TEHNIKA BLOKIRANJA kao zamjena za ANCOVA-u

Kada su kovarijati (CV) mjereni na drugoj skali, dopuštene su i druge alternative : randomiziranje po blokovima i

blokiranje. Kod tehnike blokiranja predmeti su mjereni na CV i onda grupirani s obzirom na njihove rezultate (pr.

skupine visokog, srednjeg i niskog samopoštovanja na osnovu prijašnjih rezultata). Grupe subjekata (predmeta)

postaju nivoi, razine druge skale NV koja je prešla s razine prve NV u faktorski dizajn.

Page 38: Multivarijatna Statistika - Finalna Skripta

PRIMJER ANCOVA-e I REGRESIJSKE ANALIZE SA VIŠE KATEGORIJALNIH I KONTINUIRANIH PREDIKTORA

Problem: ispitati postoji li utjecaj konzumacije viagre na libido, uz kontrolu varijable parnterovog libida

Tests of Between-Subjects Effects

Dependent Variable: Libido

31,920a 3 10,640 3,500 ,030

76,069 1 76,069 25,020 ,000

15,076 1 15,076 4,959 ,035

25,185 2 12,593 4,142 ,027

79,047 26 3,040

683,000 30

110,967 29

SourceCorrected Model

Intercept

partner

dose

Error

Total

Corrected Total

Type III Sum

of Squares df Mean Square F Sig.

R Squared = ,288 (Adjusted R Squared = ,205)a.

Parameter Estimates

Dependent Variable: Libido

4,014 ,611 6,568 ,000 2,758 5,270

,416 ,187 2,227 ,035 ,032 ,800

-2,225 ,803 -2,771 ,010 -3,875 -,575

-,439 ,811 -,541 ,593 -2,107 1,228

0a . . . . .

ParameterIntercept

partner

[dose=1]

[dose=2]

[dose=3]

B Std. Error t Sig. Lower Bound Upper Bound

95% Confidence Interval

This parameter is set to zero because it is redundant.a.

Page 39: Multivarijatna Statistika - Finalna Skripta

ANCOVA je pokazala da postoji statistički značajan utjecaj partnerovog libida (kovarijata) na libido ispitanika

(F1,26=4,96, p<0,05).

Uz kontrolu efekata partnerovog libida, statistički je značajan utjecaj količine Viagre na libido ispitanika (F2,26=4,14,

p<0,05). Oni ispitanici koji su uzeli veliku dozu Viagre imaju statistički značajno veći libido od onih pod utjecajem

placeba (p<0,05), pritom kontrolirajući efekt partnerovog libida.

Pairwise Comparisons

Dependent Variable: Libido

-1,786 ,849 ,136 -3,959 ,388

-2,225* ,803 ,031 -4,279 -,171

1,786 ,849 ,136 -,388 3,959

-,439 ,811 1,000 -2,515 1,637

2,225* ,803 ,031 ,171 4,279

,439 ,811 1,000 -1,637 2,515

(J) Dose of Viagra

Low Dose

High Dose

Placebo

High Dose

Placebo

Low Dose

(I) Dose of Viagra

Placebo

Low Dose

High Dose

Mean

Difference

(I-J) Std. Error Sig.a

Lower Bound Upper Bound

95% Confidence Interval for

Differencea

Based on estimated marginal means

The mean difference is significant at the ,05 level.*.

Adjustment for multiple comparisons: Bonferroni.a.

Page 40: Multivarijatna Statistika - Finalna Skripta

Isti problem ispitan regresijskom analizom:

Model Summary

,246a ,061 ,027 1,929 ,061 1,809 1 28 ,189

,536b ,288 ,205 1,744 ,227 4,142 2 26 ,027

Model

1

2

R R Square

Adjusted

R Square

Std. Error of

the Estimate

R Square

Change F Change df1 df2 Sig. F Change

Change Statistics

Predictors: (Constant), Partner's Libidoa.

Predictors: (Constant), Partner's Libido, Dummy Variable 1 (Placebo vs. Low), Dummy Variable 2 (Placebo vs. High)b.

ANOVAc

6,734 1 6,734 1,809 ,189a

104,232 28 3,723

110,967 29

31,920 3 10,640 3,500 ,030b

79,047 26 3,040

110,967 29

Regression

Residual

Total

Regression

Residual

Total

Model

1

2

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Partner's Libidoa.

Predictors: (Constant), Partner's Libido, Dummy Variable 1 (Placebo vs. Low),

Dummy Variable 2 (Placebo vs. High)

b.

Dependent Variable: Libidoc.

Coefficientsa

3,657 ,634 5,764 ,000

,260 ,193 ,246 1,345 ,189

1,789 ,867 2,063 ,049

,416 ,187 ,395 2,227 ,035

1,786 ,849 ,411 2,102 ,045

2,225 ,803 ,573 2,771 ,010

(Constant)

Partner's Libido

(Constant)

Partner's Libido

Dummy Variable 1

(Placebo vs. Low)

Dummy Variable 2

(Placebo vs. High)

Model

1

2

B Std. Error

Unstandardized

Coefficients

Beta

Standardized

Coefficients

t Sig.

Dependent Variable: Libidoa.

Tests of Between-Subjects Effects

Dependent Variable: Libido

52,346a 5 10,469 4,286 ,006

53,542 1 53,542 21,921 ,000

36,558 2 18,279 7,484 ,003

17,182 1 17,182 7,035 ,014

20,427 2 10,213 4,181 ,028

58,621 24 2,443

683,000 30

110,967 29

Source

Corrected Model

Intercept

dose

partner

dose * partner

Error

Total

Corrected Total

Type I II Sum

of Squares df Mean Square F Sig.

R Squared = ,472 (Adjusted R Squared = ,362)a.

Page 41: Multivarijatna Statistika - Finalna Skripta

Problem: Ispitati kako se osobe osjećaju dan nakon pijanstva kada im se daju različiti napitci (coca-cola, voda i

energetsko piće), uz kontrolu koliko se osoba napila.

Isti problem kroz regresijsku analizu:

Tests of Between-Subjects Effects

Dependent Variable: How Well Does The Person Feel?

13,320a 3 4,440 11,068 ,001

145,006 1 145,006 361,456 ,000

11,187 1 11,187 27,886 ,000

3,464 2 1,732 4,318 ,041

4,413 11 ,401

477,000 15

17,733 14

Source

Corrected Model

Intercept

drunk

drink

Error

Total

Corrected Total

Type I II Sum

of Squares df Mean Square F Sig.

R Squared = ,751 (Adjusted R Squared = ,683)a.

Parameter Estimates

Dependent Variable: How Well Does The Person Feel?

7,116 ,377 18,861 ,000 6,286 7,947

-,548 ,104 -5,281 ,000 -,777 -,320

-,142 ,420 -,338 ,741 -1,065 ,781

,987 ,442 2,233 ,047 ,014 1,960

0a . . . . .

Parameter

Intercept

drunk

[drink=1,00]

[drink=2,00]

[drink=3,00]

B Std. Error t Sig. Lower Bound Upper Bound

95% Conf idence Interv al

This parameter is set to zero because it is redundant.a.

Model Summary

,746a ,556 ,522 ,77842 ,556 16,266 1 13 ,001

,867b ,751 ,683 ,63338 ,195 4,318 2 11 ,041

Model

1

2

R R Square

Adjusted

R Square

Std. Error of

the Estimate

R Square

Change F Change df 1 df 2 Sig. F Change

Change Statistics

Predictors: (Constant), How Drunk was the Person the Night Beforea.

Predictors: (Constant), How Drunk was the Person the Night Before, water vs. lucozade, water v s. colab.

Coefficientsa

7,114 ,440 16,151 ,000

-,465 ,115 -,746 -4,033 ,001

6,974 ,469 14,869 ,000

-,548 ,104 -,879 -5,281 ,000

,142 ,420 ,062 ,338 ,741

1,129 ,405 ,489 2,785 ,018

(Constant)

How Drunk was the

Person the Night Before

(Constant)

How Drunk was the

Person the Night Before

water vs. cola

water vs. lucozade

Model

1

2

B Std. Error

Unstandardized

Coeff icients

Beta

Standardized

Coeff icients

t Sig.

Dependent Variable: How Well Does The Person Feel?a.

Page 42: Multivarijatna Statistika - Finalna Skripta

MODERACIJSKI EFEKTI

Općenito, moderator je kvalitativna ili kvantitativna varijabla koja utječe na smjer i/ili snagu odnosa između

nezavisne varijable ili prediktora te zavisne varijable ili kriterija. Unutar korelacijskih analiza, to je ona varijabla koja

mijenja inače nultu korelaciju između druge dvije varijable.

Razlike u mjerenju i testiranju moderatoskog efekta ovise o razinama mjerenja nezavisne varijable i

moderatorske varijable, te tako imamo ukupno 4 slučaja:

1. Moderator i NV su kategorijalne varijable

- najjednostavniji slučaj, efekt dihotomne NV varira u funkciji druge dihotomne varijable (moderatora)

- analiza: 2x2 ANOVA, ukoliko je interakcija značajna, govorimo o moderatorskom efektu

2. Moderator je kategorijalna varijabla, NV je kontinuirana

- npr. spol moderira odnos namjere na ponašanje, kako ispitujemo? koreliramo namjere sa ponašanjem za svaki spol

posebno i testiramo razliku

Ova korelacijska metoda ima nekoliko nedostataka:

a) Pretpostavlja da NV ima jednake varijance na svakom od nivoa moderatorske varijable

ALI ako se varijance razlikuju na nivoima moderatorske varijable, tada će za one nivoe moderatorske varijable koji

imaju manje varijance, korelacija NV sa ZV biti manja u odnosu na onu koju ćemo dobiti za one nivoe moderatorske

varijable koji imaju više varijance

b) Ako količina pogreške mjerenja u ZV varira u funkciji moderatora, tada će se korelacija između NV i ZV

razlikovati spuriozno.

Što nam govore ovi problemi?

Da na korelacije utječu promjene u varijanci. ALI pošto regresijski koeficijenti nisu pod utjecajem razlika u

varijancama NV niti pogreške mjerenja u ZV, moderatorski efekt mjerimo pomoću b koeficijenta (nestandardizirani

regresijski koeficijent)

Moderator = interakcijski efekt

- efekt jednog faktora na ZV može biti različit na različitim

nivoima drugog faktora

- efekt interakcije u ANOVA-i je moderator efekt sa

kategorijalnim varijablama

- treća vraijabla moderira vezu između varijabli X i Y

ukoliko je stupanj povezanosti X i Y pod utjecajem nivoa

varijable Z

- moderatorski efekti se uobičajeno koriste kada je barem

jedna varijabla kontinuirana

- moderacija implicira da se kauzalni odnos među dvjema

varijablama mijenja u funkciji moderatorske varijable

Page 43: Multivarijatna Statistika - Finalna Skripta

3. Moderator je kontinuirana, NV je kategorijalna varijabla

- kako bi mjerili ovaj moderatorski efekt, moramo a priori znati kako NV varira u funkciji moderatora

4. Moderator i NV su kontinuirane varijable

Poanta je da jednog od ovo dvoje dihotomiziramo, i onda dobijemo jedan od prethodno opisanih slučajeva.

Nastavljamo...

Kako smo rekli da je moderator interakcijski termin, kako bi u okviru regresijske analize ispitali moderacijski efekt,

jednostavno pomnožimo dvije NV!

Ali, onda su te dvije NV visoko povezane sa interakcijskim terminom – problem kolinearnosti. Kako bi ga izbjegli,

centiramo prediktore.

CENTRIRANJE PREDIKTORA

Centriranje se provodi tako da oduzmemo aritmetičku sredinu od svakog rezultata u varijabli.

Što se mijenja?

Aritmetička sredina centirane varijable tako postaje 0, centirana varijabla više nije visoko povezana s

interakcijskim terminom kojeg čini, interpretacija konstante: a postaje predviđeni rezultat u zavisnoj

varijabli kada su rezultati u prediktoru prosječni

Što se ne mijenja?

Metrijske karakteristike varijable, njena povezanost sa drugim varijablama, većina regresijskih koeficijenata.

Koja je razlika između centriranja i standardizacije?

Centriranje nije isto što i standardizacija (u z-vrijednosti, npr), jer se prilikom standardizacije osim aritmetičke

sredine, mijenja i standardna devijacija, čime se gubi izvorna metrika skale. Kod standardizacije, aritmetička sredina

varijable postaje 0, a standardna devijacija 1. Također, kod standardizacije nisu moguće kasnije interpretacije kao

„za jednu prikazanu reklamu, prodaja albuma povećala se toliko i toliko“

Kako centiranje smanjuje kolinearnost?

Prije centiranja, množitelj i umnožak su u linearnom odnosu. Nakon centriranja ostaju isti intervali, ali odnos između

množitelja i umnoška je izrazito nelinearan. Nakon centriranja koeficijent korelacije između množitelja i umnoška

postaje 0, ili se značajno smanji u odnosu na onaj prije centiranja, čime se izbjegava problem kolinearnosti.

Slika prikazuje tri idealizirana načina kako

moderator mijenja efekt NV na ZV

1. Efekt NV na ZV mijenja se linearno s

obzirom na moderator

- stalna, postepena promjena u efektu

NV na ZV kako se moderator mijenja

2. Kvadratna funkcija

3. Step funkcija – na nekom kritičnom

nivou moderatora, efekt NV na ZV

značajno se mijenja

Page 44: Multivarijatna Statistika - Finalna Skripta

PRIMJER MODERACIJE U REGRESIJSKOJ ANALIZI

Problem: Može li se želja sudionika za ponovnim susretom objasniti pomoću rječitosti sugovornika tijekom speed

datinga s obzirom na spol?

Y= 0.417 + 0.415*Xspol + 0.004*Xrječitost + (-0.017)*Xspol*Xrječitost

Provedena je hijerarhijska regresijska analiza s analizom glavnih efekata i interakcijom kako bi se utvrdilo može li se

želja za ponovnim susretom sa sugovornikom objasniti spolom (m=1,ž=0) i rječitošću sugovornika, te moderira li

spol sudionika vezu između rječitosti sugovornika i želje za ponovnim susretom. Prvi model objašnjava 23,2 % varijance želje za ponovnim susretom (R²=.23, F (2,47) = 7.10, p<0.01), a drugi model koji uključuje interakciju

40,8% (R²=0.41, F (1,46) = 13.65, p<0.01). Rezultati su pokazali da interakcijski termin statistički značajno

doprinosi objašnjenu varijance zavisne varijable povrh spola i broja riječi kao prediktora prisutnih u modelu glavnih

efekata (∆ R²=0,176, F (1,46) = 13,65, p<0,01). Prvi model pokazuje da je značajan glavni efekt spola (B=0,47,

t=7,62, p<0,01) i nema glavnog efekta rječitosti (B=,00, t=0,18, p>0,05). Drugi model pokazuje da nakon unošenja

interakcijskog termina i dalje postoji statistički značajan glavni efekt spola (B=0,42, t=3,72, p<0,01), pri čemu je iz

predznaka nestandardiziranog regresijskog koeficijanta vidljivo da muškarci (grupa s višim indikator kodom 1) u

usporedbi sa ženama (referentna grupa) iskazuju prosječno veću želju za ponovnim susretom. Nema glavnog efekta

rječitosti (B=0,00, t=1,94, p>0,05), ali postoji stat.značajna interakcija spola i rječitosti (B=-0,17, t=-3,69, p<0,01). To

potvrđuje pretpostavku o spolu kao moderatoru povezanosti između rječitosti sugovornika i želje za ponovnim

susretom. Negativan predznak interakcijskog efetka pokazuje da je regresijski koeficijent rječitosti kod muškaraca

niži ili negativniji nego kod žena. Kod muškaraca rječitost sugovornice statističi je značajno negativno povezana sa

željom za ponovnim susretom, dok je kod žena rječitost sugovornika statistički značajno pozitivno povezana sa

željom za ponovnim susretom što je vidljivo iz grafičkog prikaza u kojem nagib regresijske linije na poduzorku

muškarca ukazuje na negativnu a na poduzorku žena na pozitivnu povezanost. Rezultati su pokazali da interakcijski

termin statistički značajno doprinosi objašnjenu varijance zavisne varijable povrh spola i broja riječi kao prediktora

prisutnih u modelu glavnih efekata (∆ R²=0,176, , F (1,46) = 13,65, p<0,01).

Correlations

1 -,108 ,957**

,454 ,000

50 50 50

-,108 1 ,033

,454 ,818

50 50 50

,957** ,033 1

,000 ,818

50 50 50

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Spol ispitanika

Rjecitost partnera

rjecitost_spol

Spol

ispitanika

Rjecitost

partnera rjecitost_spol

Correlation is signif icant at the 0.01 level (2-tailed).**.

Model Summary

,482a ,232 ,199 ,38439 ,232 7,102 2 47 ,002

,639b ,408 ,369 ,34121 ,176 13,647 1 46 ,001

Model

1

2

R R Square

Adjusted

R Square

Std. Error of

the Estimate

R Square

Change F Change df 1 df 2 Sig. F Change

Change Statistics

Predictors: (Constant), Rjecitost partnera (centrirano), Spol ispitanikaa.

Predictors: (Constant), Rjecitost partnera (centrirano), Spol ispitanika, Interakcija Spol x Rjecitost (C)b.

Coefficientsa

,423 ,063 6,691 ,000

,469 ,125 ,484 3,762 ,000

,000 ,002 ,023 ,180 ,858

,417 ,056 7,423 ,000

,415 ,112 ,428 3,716 ,001

,004 ,002 ,252 1,940 ,059

-,017 ,005 -,484 -3,694 ,001

(Constant)

Spol ispitanika

Rjecitost partnera

(centrirano)

(Constant)

Spol ispitanika

Rjecitost partnera

(centrirano)

Interakcija Spol x

Rjecitost(C)

Model

1

2

B Std. Error

Unstandardized

Coeff icients

Beta

Standardized

Coeff icients

t Sig.

Dependent Variable: Zelja za ponovnim susretoma.

Page 45: Multivarijatna Statistika - Finalna Skripta

Problem: Utječe li broj pročitanih knjiga na ocjenu i ovisi li taj odnos o prisustvu na nastavi?

Y(ocjena)=61,60 + 4,16*X1(knjige) +1,33*X2 (prisustvo)+ 0,74*X2*X2

Page 46: Multivarijatna Statistika - Finalna Skripta

MEDIJACIJSKI EFEKTI

Glavna ideja medijacije je da jedna varijabla posreduje odnosu između druge dvije varijable. Tj. postoje ukupno

3 puta djelovanja:

put a – između NV i medijatora

put b- između medijatora i ZV

put c- između NV i ZV – izravan efekt

i sljedeći efekti:

a*b = neizravni ili medijacijski efekt

a*b + c = ukupni efekt

Varijabla je medijator kada:

1. varijacije u nivoima NV značajno odgovaraju varijacijama u pretpostavljenom medijatoru (put a)

2. varijacije u medijatoru značajno odgovaraju varijacijama u ZV (put b)

3. kada su put a i put b kontrolirani, prethodno značajan odnos NV i ZV prestaje biti značajan

Ako je put c 0 nakon kontrole puta a i puta b, tada imamo jedan, dominantan medijator. Ali, ako put c nije 0,

govorimo o više faktora koji posreduju u tom odnosu.

Točnije...

1. imamo značajan efekt NV na ZV (c)

2. značajan efekt NV na medijatora (a)

3. značajan efekt medijatora na ZV (b)

4. kada kontroliramo medijatora, ako prethodno značajan odnos u potpunosti prestane biti značajan – potpuna

medijacija (c')

ali ako je i dalje značajan, ali smanjen – djelomična medijacija (c')

Kako testirati medijaciju?

Sobelovim testom značajnosti

(Ne) izravni efekt = β iz trećeg koraka

√( ) ( )

Page 47: Multivarijatna Statistika - Finalna Skripta

UVOD U MULTIVARIJATNE ANALIZE U UŽEM SMISLU

Rezultat = model + pogreška

Puna multivarijatna forma:

Kada s obje strane imamo više varijabli:

- Latentne varijable se zove varijate (kanoničke varijate) – izlučuje se jedna ili više varijati (para)

- svaki par varijati ima maksimalnu moguću korelaciju

- svaka je sljedeća varijata ortogonalna s prethodnom (kao u faktorskoj analizi)

Kada imamo diskontinuirane prediktore (NV) = MANOVA (multivarijatna anova)

Kada imamo diskontinuirani kriterij (ZV) = DISKRIMINANTNA ANALIZA

Page 48: Multivarijatna Statistika - Finalna Skripta

Tako punim multivarijatnim GLM-om možemo opisati ove analize:

1. Kanonička korelacija (u užem smislu): svi X-evi kontinuirani, svi Y-i kontinuirani

2. MANOVA: svi X-evi diskontinuirani, svi Y-i kontinuirani

3. MANCOVA. neki X-evi kontinuirani, a neki diskontinuirani. svi Y-i kontinuirani

4. Diskriminantna analiza: svi X-evi kontinuirani, svi Y-i diskontinuirani

5. Višesmjerna analiza frekvencija: svi X-evi diskontinuirani, Y diskontinuiran

6. Politomna logistička regresija: svi Xevi kontinuirani i/ili diskontinuirani, y diskontinuiran

Page 49: Multivarijatna Statistika - Finalna Skripta

KANONIČKA KORELACIJSKA ANALIZA

Osnovni cilj CCA jeste utvrditi maksimalnu moguću korelaciju (ili korelacije) između dva seta od dvije ili više

varijabli.

Varijable u setovima su kontinuirane, kvantitativne, najmanje intervalnog mjernog nivoa (postoje robusne

verzije CCA koje mogu uključivati i varijable s nižim mjernim nivoima)

Setovi se mogu i ne moraju odrediti kao prediktorski i kriterijski set

Usporedba CCA i MRA

Za razliku od CCA u multiploj regresijskoj analizi utvrđuje se maksimalna moguća korelacija između jednog

kriterija i dva ili više prediktora.

Posebnost CCA: u multiploj regresijskoj analizi postoji samo jedna diferencijalno ponderirana linearna

kombinacija prediktora (jedan faktor, jedna “latentna” varijabla) koja rezultira maksimalnom mogućom

korelacijom s kriterijem. U CCA postoji "k" mogućih načina za kombiniranje varijabli u oba skupa varijabli

(k=broj varijabli u manjem skupu) prije utvrđivanja povezanosti među skupovima varijabli.

Svaki način kombinacije varijabli u skupovima varijabli povezan je s određenim svojstvima koja su zajednička

varijablama u prvom i drugom skupu.

Usporedba CCA i FA

Iako CCA rezultira faktorima treba naglasiti da je tu analizu primjereno koristiti samo ako istraživač može sve

varijable podijeliti u dva logički razdvojena skupa varijabli i ukoliko ga interesira maksimalna moguća

povezanost među tim skupovima varijabli (ili latentni izvori povezanosti među skupovima varijabli).

Ti faktori su konstruirani s ciljem utvrđivanja latentnih izvora povezanosti između dva skupa varijabli i svali

faktor rezultira s dvije varijable koje predstavljaju faktorske bodove (sintetske varijable) za skup A i skup B

(koja dva rezultata proizašla iz dva skupa varijabli bi ispitanik imao na prvom faktoru kada bi se on mogao

izravno mjeriti). Za razliku od CCA, faktori iz FA rezultiraju s jednom sintetskom varijablom u kojoj su faktorski

bodovi (koji rezultat bi ispitanik imao na faktoru kada bi se on mogao izravno mjeriti).

Ukoliko se varijable ne mogu podijeliti u dva distinktivna skupa ili povezanost i latentni izvori povezanosti

među dva skupa varijabli nisu predmet istraživačkog interesa, može se napraviti faktorska analiza (FA) svih

varijabli radi utvrđivanja latentne strukture i izvora varijabiliteta svih varijabli

Zasebne faktorske analize napravljene na 1. i 2. skupu varijabli ne bi bile smislene jer se faktori ne bi formirali s

ciljem maksimizacije povezanosti među skupovima, pa se na taj način ne bi postigao cilj CCA.

Što su to ponderi, što faktori, a što latentne varijable

Cilj svake multivarijatne statističke analize jeste formirati određenu diferencijalno ponderiranu linearnu

kombinaciju manifestnih (mjerenih, opažanih) varijabli (različite analize -> različite DPLK s različitom

svrhom).

Mnoge statističke analize koriste pondere, ali ih nazivaju različitim imenima: beta ponderi, koeficijenti u

matrici obrasca, funkcijski koeficijenti

Također, sinonimi su i faktor ili funkcija ili jednadžba ili skup pondera

Latentne (sintetičke) varijable ili faktorski bodovi dobivaju se ponderiranjem manifestnih varijabli

(množenjem rezultata pojedinaca na manifestnim varijablama s odgovarajućim ponderima)

Page 50: Multivarijatna Statistika - Finalna Skripta

Primjer skupova varijabli i kombinacija povezanosti među varijablama

Skup A: Školske ocjene (1. HJK, 2. POV, 3. LIK, 4. GLAZB, 5. MAT, 6. FIZ, 7. KEM, 8. TJEL)

Skup B: Sklonost različitim slobodnim aktivnostima (1. Kino, 2. Kazalište, 3. Modeliranje, 4.

Astronomija, 5. Sport)

S ciljem maksimizacije povezanosti među skupovima formiraju se parovi linearnih kompozita koji

predstavljaju latentni konstrukt (faktor) koji je izvor povezanosti među varijablama u različitim skupovima:

Prvi par može odražavati humanističko-umjetničku orijentaciju i povezivati A1-4 i B1-2 varijable. Prvi

faktor ima visoka zasićenja na varijablama A1-4 i B1-2 i niska zasićenja na ostalim varijablama. Za razliku od PC

ili FA, taj faktor ne rezultira jednom sintetičkom varijablom: faktorskim bodovima na Faktoru1, već dvjema

sintetičkim varijablama koje možemo nazvati PRED1 i KRIT1 (ukoliko dva skupa označimo kao prediktorski i

kruiterijski; ili F1A i F1B). Pearsonova korelacija između te dvije varijable je prva kanonička korelacija.

Drugi par može odražavati prirodoslovnu orijentaciju i povezivati A5-7 i B3-4 varijable

Treći par može odražavati sportsku orijentaciju i povezivati A8 i B5 varijablu

Iako različitih parova linearnih kompozita varijabli (u svakom paru varijable A i B skupa su različito

ponderirane) može biti koliko i varijabli u manjem skupu, gotovo uvijek ima manje statistički značajnih parova

parova linearnih kompozita varijabli koji odražavaju latentna svojstva po kojima su varijable iz dva skupa

povezane (faktore).

Osnovni elementi CCA

Varijable: opažane mjere grupirane u dvije skupine varijabli među kojima utvrđujemo povezanost

Kanoničke varijate: diferencijalno ponderirane linearne kombinacije varijabli u skupinama (npr. zbroj svih A

varijabli s tim da su najviše ponderirane A1-4).

Par kanoničkih varijata: u svakoj skupini ima najmanje jedna kanonička varijata, a par bi bio npr: kanonička

varijata koja ima najviše pondere na varijablama A1-4 (niske na A5-8) i kanonička varijata koja ima najviše

pondere na varijablama B1-2 (niske na B3-5).

Može biti više statistički značajnih parova kanoničkih varijata (u našem primjeru bila bi tri značajna para)

CCA je najopćenitija forma svih multivarijatnih analiza

Većina multivarijatnih analiza je samo specifična vrsta CCA:

1. Multipla regresija je CCA u kojoj se skup varijabli (prediktora) povezuje s jednom varijablom

(kriterijem).

2. MANOVA i Diskriminantna analiza su CCA u kojima se jedna ili više nominalnih varijabli povezuje s više

kontinuiranih varijabli

3. Eksploratorne komponentne i faktorske analize pri identifikaciji faktora temelje se na postupcima CCA

Page 51: Multivarijatna Statistika - Finalna Skripta

Istraživačka pitanja, elementi analize i interpretacija

1. Broj značajnih parova kanoničkih varijata.

Pitanje: koliko je latentnih dimenzija koje povezuju varijable iz dva različita skupa varijabli.

Parovi kanoničkih varijata izdvajaju se sukcesivno tako da se svaki slijedeći par odnosi na povezanost koja nije

obuhvaćena prethodnim parom. Zbog toga su najčešće samo prvi ili prva dva para statistički značajni.

Svaki par kanoničkih varijata neovisan je od svih ostalih ekstrahiranih parova kanoničkih varijata (ortogonalna

ekstrakcija parova kanoničkih varijata)

2. Interpretacija kanoničkih varijata

Osnovno je pitanje kako možemo interpretirati dimenzije koje povezuju dva skupa varijabli s obzirom na

kombinaciju varijabli u jednoj i drugoj varijati para.

Interpretacija se vrši temeljem matrica korelacija između varijabli i kanoničkih varijata.

3. Značajnost kanoničkih varijata:

Može se utvrditi visinom korelacije među kanoničkim varijatama u paru ili

- visinom korelacija varijate i varijabli iz korespodentnog skupa varijabli (koliko varijance tog skupa varijabli

ekstrahira varijata) ili

- visinom korelacija varijate i varijabli iz suprotnog skupa varijabli (koliko varijance suprotnog skupa varijabli

ekstrahira varijata)

4. Statistička značajnost pojedinih kanoničkih korelacija među parovima kanoničkih varijata

Određuje se χ2 testom

5. Značajnost većeg broja kanoničkih korelacija

Kako bi odgovorili na pitanje razlikuje li se statistički značajno od nule set kanoničkih korelacija računa se

velika lambda (Λ) kao umnožak proporcija varijanci kanoničkih varijata koje se ne preklapaju (1-r2c).

Što je Λ veća, veća je i proporcija varijance koja nije objašnjena kanoničkim korelacijama i manja je vjerojatnost

da su kanoničke korelacije statistički značajno različite od nule.

Značajnost Λ se računa χ2 testom i distribucijom (ili F testom i F distribucijom) kojim se testira nul hipoteza da

dvije ili više kanoničke korelacije nisu statistički značajno različite od nule. Najčešće se značajan χ2 interpretira

u smislu da je barem prva kanonička korelacija statistički značajna.

6. Izračun bodova na kanoničkim varijatama

Pri izračunu bodova na kanoničkim varijatama osnovno je pitanje koje rezultate bi ispitanici imali na

kanoničkim varijatama iz oba skupa, kada bi se te varijate mogle izravno mjeriti

Ako su kanoničke varijate interpretabilne, ti bodovi se mogu koristiti kao zavisne ili nezavisne varijable u

drugim analizama.

Page 52: Multivarijatna Statistika - Finalna Skripta

Zašto CCA nije popularna?

1. Izrazito eksploratorna; nije metoda za testiranje hipoteza

2. Procedura maksimalizacije korelacije između skupova varijabli ne maksimalizira i mogućnost

interpretacije parova kanoničkih varijata. Rezultati su često neinterpretabilni. Za razliku od

komponentne i faktorske analize, rotacija kanoničkih varijata s ciljem povećanja

interpretabilnosti nije uobičajena u CCA, niti dostupna u mnogim statističkim programima.

3. Nije moguća kosokutna ekstrakcija parova kanoničkih varijata.

Trenutno ju je najbolje koristiti kao deskriptivnu metodu ili metodu za inicijalni pregled (screening) podataka.

Najveća korist od razumijevanja CCA jeste uvod u koncepte poput faktora i dimenzija i pružanje teorijskog

okvira ostalim multivarijatnim analizama.

Osnove izračuna CCA

Formiraju se četiri matrice korelacija (Rxx, Ryy, Rxy i Ryx) iz kojih se formira kanonička korelacijska matrica R.

Potom se izračunavaju eigen-vrijednosti i eigen-vektori kanoničke korelacijske matrice R za svaki par

kanoničkih varijata.

Izračun svih eigen-vrijednosti matrice uključuje proces redistribucije varijance u matrici u manji broj

kompozitnih varijata iz većeg broja manifestnih varijabli.

Uz svaku eigen-vrijednost vezan je eigen-vektor koji sadrži koeficijente (regresijske ili kanoničke koeficijente)

kojima se manifestne varijable kombiniraju u kompozitnu varijatu.

Eigen-vrijednost para kanoničkih varijata jednaka je kvadratu kanoničke korelacije tog para (λi=r2ci).

Kanonička korelacija para kanoničkih varijata interpretira se kao pearsonov koeficijent. Kada je kvadrirana

predstavlja zajedničku varijancu kanoničkih varijata, što se odnosi i na eigen-vrijednost.

Drugi par kanoničkih varijata računa se na rezidualima prvog para pa se kvadrat kanoničke korelacije drugog

para odnosi na proporciju varijance ekstrahirane od reziduala. Stoga proporcije zajedničke varijance prvog i

drugog para kanoničkih varijata nisu sumativne do 100%.

Konceptualni primjer CCA

Page 53: Multivarijatna Statistika - Finalna Skripta

MANOVA

- multivarijatni pristup, koji istovremeno uspoređuje više zavisnih varijabli

- temelji se na usporedbi dviju ili više zavisnih varijabli kroz više grupa (NV)

- ANOVA je poseban slučaj MANOVA-e, kada imamo samo jednu zavisnu varijablu

ANOVA testira jesu li razlike među grupama na jednoj ZV posljedicom slučaja, dok MANOVA testira jesu li

razlike među grupama na kombinaciji ZV posljedicom slučaja. U MANOVA-i, nova ZV koja maksimizira razlike

među grupama je kombinacija više ZV. Nova ZV je linearna kombinacija mjerenih ZV, tako kombinirana da

razlikuje grupe što je više moguće. ANOVA se zatim provodi na linearnoj kombinaciji (novoj ZV).

Zašto MANOVA umjesto ANOVA-e?

1. Što više testova provodimo na istom skupu podataka povećava se vjerojatnost α- pogreške

2. Pomoću MANOVA-e dobivamo više informacija, budući da uključuje sve ZV u istu analizu i u obzir

uzima i odnos među tim varijablama

3. MANOVA ima vodeću snagu otkrivanja nekog efekta – pomoću nje možemo odrediti razlikuju li se grupe

u kombinacijama različitih varijabli

MANOVA može, u nekim situacijama kada se razlike ne pojavljuju u ANOVA-i, otkriti iste. Na primjer, kada se

distribucije ZV preklapaju, moguće da u ANOVA-i nećemo dobiti značajnu razliku, koja će međutim, biti vidljiva

u MANOVA-i

Zašto ipak ne MANOVA?

1. značajno kompiliciranija analiza

2. nemogućnost interpretacije efekta pojedine NV na pojedinu ZV

3. čak i manja preklapanja ili korelacije među ZV mogu umanjiti snagu testa

Princip MANOVA-e

1. Provjerava koliko se krivulje u svakoj od grupa međusobno slažu- preklapaju (curve fit), zato je važno

da su vrijednosti u svakoj od NV i ZV raspoređene po normalnoj krivulji

2. Uspoređuje se omjer sistematskog i nesistamatskog varijabliteta za veći broj ZV

3. Za razliku od ANOVA-e, u MANOVA-i je svaka vrijednost koja se uspoređuje zapravo matrica

sastavljena od varijanci i kovarijanci

OPIS I OPĆA PRIMJENA ANALIZE

Varijable u analizi

1. Dvije ili više zavisnih (kriterijskih) varijabli (kontinuirane, intervalne ili omjerne)

2. Jedna ili više nezavisnih (prediktorskih) varijabli koje možemo zvati i faktori i koje dijele jedinice

analize na dvije ili više podskupina (kvalitativne, nominalne)

Opća primjena

MANOVA se koristi kada želimo utvrditi razlikuju li se aritmetičke sredine linearne kombinacije zavisnih

varijabli između različitih grupa jedinica analize (ispitanika).

Page 54: Multivarijatna Statistika - Finalna Skripta

Primjerena istraživačka pitanja

MANOVA testira multivarijatnu hipotezu da su aritmetičke sredine populacija dobivene na višestrukim

zavisnim varijablama jednake u svakoj grupi određenoj razinom faktora (nezavisne varijable).

Hipoteza se odnosi na linearne kombinacije zavisnih varijabli (aritmetičke sredine populacija dobivene na svim

mogućim linearnim kombinacijama zavisnih varijabli).

Preduvjeti, ograničenja i specifičnosti

Teorijska ograničenja

1. Kauzalnost

2. Odabir varijabli

3. Generalizacija

Praktična ograničenja

- za svaku razinu NV moramo imati više ispitanika – što je broj ispitanika manji ili nejednak u pojedinim

ćelijama, smanjuje se snaga testa

- što je veća apsolutna vrijednost korelacija među dvjema ZV – veća je snaga testa

1. Multivarijatno normalna distribucija zavisnih varijabli (ZV) za svaku populaciju definiranu razinama

nezavisne varijable (NZV).

- Zavisne varijable su multivarijatno normalno distribuirane ukoliko je svaka ZV normalno

distribuirana, neovisno o rezultatima drugih varijabli i ukoliko je svaka ZV normalno distribuirana za

svaku kombinaciju rezultata ostalih ZV. Taj uvjet se ne može testirati u mnogim statističkim

programima. Vrlo je rijetko zadovoljen.

Praktično: Ukoliko taj uvjet nije zadovoljen i ukoliko je uzorak malen “p” postaje nepouzdan. Snaga

testa znatno opada kod platikurtičnih i znatno asimetričnih distribucija

2.Homogenost matrica varijance-kovarijance (matrica raspršenja).

Varijance pojedinih zavisnih varijabli i kovarijance svih zavisnih varijabli moraju biti jednake na svim

nivoima nezavisne varijable (faktora).

- Testira se Box-ovim M testom koji testira značajnost razlika među matricama varijance-kovarijance i

preduvjet je zadovoljen ukoliko rezultat nije statistički značajan. Statistički značajan rezultat može biti

povezan i s nezadovoljenim uvjetom multivarijatne normalnosti distribucije. S druge strane, statistički

neznačajan rezultat može biti posljedica malog uzorka i male snage testa.

- Ukoliko je uvjet narušen, a grupe su podjednako velike Hotelling i Pillai koeficijenti su stabilni

("robust"). "P" postaje izrazito nepouzdan sa sve većim razlikama u veličini grupa i sa sve više zavisnih

varijabli. Ako veći uzorci imaju veće varijance i kovarijance p postaje konzervativan (pa se značajne

razlike mogu prihvatiti). U obratnoj situaciji p postaje liberalan (neznačajne razlike se mogu prihvatiti).

Page 55: Multivarijatna Statistika - Finalna Skripta

3.Linearnost

- MANOVA i MANCOVA pretpostavljaju linearan odnos među svim parovima ZV, svim parovima kovarijata i

svim ZV-kovarijat parovima u svakoj ćeliji

- ako ovaj uvjet nije zadovoljen, smanjuje se snaga testa, jer:

1. linearna kombinacija ZV ne maksimizira razliku među grupama za NV

2. kovarijati ne maksimiziraju prilagobu za pogrešku

4. Pouzdanost kovarijata

- u MANCOVI i ANCOVI, F test razlika među grupama snažniji je što su kovarijati pouzdaniji, a ako nisu,

povećava se vjerojatnost α i β pogreške

5. Izostanak multikolinearnosti i singularnosti

- kada su korelacije među ZV visoke, jedna ZV je nelinearna kombinacija drugih ZV – redundantna u

objašnjenju

Ostali uvjeti: Slučajan uzorak i nezavisnost rezultata dobivenih od različitih jedinica analize.

Konceptualne osnove izračuna

Osnova izračuna MANOVE je matrični račun. F-omjer u ANOVAi je omjer sistematskog varijabiliteta koji

proizlazi iz pripadnosti ispitanika određenoj grupi i nesistematskog varijabiliteta koji se odnosi na

interindividualne razlike. MANOVA stavlja u omjer matricu koja predstavlja sistematski varijabilitet svih

zavisnih varijabli (H) i nesistematski varijabilitet svih zavisnih varijabli (E).

H=Hipothesis ili model sum of squares and cross-products matrix (H-SSCP)

E=Error SSCP matrix

Računa se i matrica koja predstavlja ukupan varijabilitet za svaku zavisnu varijablu: T – total SSCP matrix

Nakon što podijelimo matrice sistematskog i nesistematskog varijabiliteta, opet dobivamo matricu.

Osnovno je pitanje: kako svesti matricu na jedinstveni broj?

Rješenje: Svođenjem zavisnih varijabli na zajednički faktor. Linearne kombinacije zavisnih varijabli zovu se

varijate, latentne varijable ili faktori koje su formirane tako da najbolje diskriminiraju grupe određene nivoima

nezavisne varijable. Zovu se i varijate diskriminantnih funkcija (ili DF) jer se temeljem njih predviđa grupna

pripadnost ispitanika.

Veći broj varijata uvijek predstavlja ortogonalne dimenzije (nezavisne su). Može ih biti koliko i zavisnih

varijabli ili broj grupa minus jedan (manja od navedenih vrijednosti)

Svaka varijata povezana je s jednim karakterističnim korijenom koji je konceptualno sličan F omjeru u ANOVAi.

Vrijednosti karakterističnih korijena uspoređuju se s vrijednostima koje bi dobili po zakonu slučaja.

Page 56: Multivarijatna Statistika - Finalna Skripta

Postoje četiri načina procjene te vrijednosti:

1. Pillai-Bartlett Trace (V);

2. Hotelling-Lawley trace (T2);

- kada postoji više od 1 stupnja slobode za svaki efekt , ima više od jednog načina za kombinaranje zavisnih

varijabli i odvojenih grupa, kada ima više od 1 stupanj slobode za svaki efekt Wilkosv' lambda, Hotelling T2 i

Pillai kriteriji izvače podatke iz različitih dimenzija kako bi ustanovili postoji li statistički značajan efekt

Hotelling T'2 je omjer dobiven/ujedinjen od omjera efekta varijance i pogreške varijance

3. Wilksov Lambda (Λ) – najpopularniji - umnožak neobjašnjenih varijanci svake varijate – zato je NIŽA

vrijednost statistički značajna;

4. Royev najveći korijen – predstavlja karakteristični korijen prve varijate - omjer objašnjene i

neobjašnjene varijance za prvu diskriminantnu funkciju – ima najveću snagu testa.

Veličina efekta

Veličina efekta vezana uz Wilks lambdu je:

S = broj zavisnih varijabli ili broj razina faktora umanjen za jedan (manja od navedenih vrijednosti) . Raspon od

0 do 1. Pokazuje kolika je proporcija multivarijatne varijance zavisnih varijabli povezana s nezavisnom

varijablom (faktorom)

Što ćemo dobiti kada provedemo MANOVA-u?

1. Box-M test- testira nul-hipotezu da su matrice varijanci i kovarijanci jednake u svim grupama na

multivarijatnoj razini – test homogenosti

2. Wilks` Lambda- daje informaciju postoje li značajne razlike među grupama u linearnoj kombinaciji ZV

na multivarijatnoj razini

- umnožak neobjašnjene varijance svih varijata (kombinacija ZV)

- predstavlja omjer varijance pogreške u ukupnoj varijanci za svaki varijat

3. partial η² - proporcija varijance objašnjene varijatima (veličina efekta)

Primjer jednosmjerne MANOVA-e

Jednosmjerna multivarijatna analiza varijance provedena je kako bi utvrdili efekt tri tipa strategija učenja

(razmišljanje, pisanje i poučavanje drugih) na dvije zavisne varijable koje su predstavljale ispitne rezultate na

testu dosjećanja i testu primjene naučenog.

Među grupama koje su koristile različite strategije učenja pronađene su statistički značajne razlike u zavisnim

varijablama (Wilks-ov Λ = 0.42, F(4,52)=7.03, p<0.01). Multivarijatni η2 zasnovan na Wilks Λ statistici ukazuje

na znatnu (0.35) povezanost strategija učenja i ispitnih rezultata.

Radi interpretacije rezultata multivarijatne MANOVAe provedene su jednosmjerne ANOVAe zasebno za svaku

zavisnu varijablu. Korištena je Bonferroni metoda korekcije za višestruka testiranja (značajne su razlike čiji je

SMV1

1

Page 57: Multivarijatna Statistika - Finalna Skripta

p<0.025). Utvrđene su statistički značajne grupne razlike na testu dosjećanja (F(2,27)=17.11, p<0.01, η2=0,56),

ali ne i na testu primjene naučenog (F(2,27)=4.20, p=0.026, η2=0,24).

Post hoc testovima uspoređeni su rezultati skupina na testu dosjećanja, a značajnim su se smatrale razlike čiji p

je bio manji od 0.025/3=0.008. Grupa koja je učila pisanjem pokazala je statistički značajno bolje rezultate na

testu dosjećanja, u usporedbi s ostalim grupama koje nisu imale statistički značajno različite rezultate.

Analize nakon značajne MANOVA-e

Značajna MANOVA mora se za potrebe interpretacije nastaviti:

1. Jednosmjernim ANOVAma uz post hoc korekciju za veći broj testova (treba imati na umu da su značajne

razlike identificirane MANOVAom možda dobivene samo na linearnim kombinacijama – zbog toga se

MANOVA smatra testom veće snage od univarijatnih ANOVA).

2. Teorijski formuliranim linearnim kombinacijama zavisnih varijabli.

3. Diskriminantnom analizom i empirijski determiniranim, nekoreliranim linearnim kombinacijama

zavisnih varijabli (faktori ili diskriminantne varijate) koje su formirane tako da se maksimiziraju razlike

među grupama (ili: koje su konstruirane s ciljem maksimalnog razlikovanja grupa). S obzirom da su

empirijski determinirane, te linearne kombinacije mogu biti teorijski neinterpretabilne.

MANCOVA

= multivarijatna ekstenzija ANCOVA-e

- ispituje postoji li statistički značajna razlika među grupama kada se prilagodi nova ZV za razlike na jednom ili

više kovarijata

MANCOVA se koristi kada i ANCOVA:

1. U eksperimentalnim istraživanjima – kao kontrola – kada je varijanca povezana sa kovarijatom/ima

uklonjena iz varijance pogreške

2. U neeksperimentalnim istraživanjima – MANCOVA omogućava statističko uparivanje grupa, kada

slučajan odabir nije moguć

Page 58: Multivarijatna Statistika - Finalna Skripta

PRIMJER MANOVA-e

Istraživačko pitanje: Koji su efekti kognitivno-bihevioralne terapije na OKP?

Varijable u bazi

NV

1. CBT – kognitivno-bihevioralna terapija

2. BT- bihevioralna terapija

3. NT – bez tretmana

ZV: radnje i misli

POSTUPAK

1. Računanje korelacija

2. Provođenje analize

a) Ubacimo ZV i NV – odredimo post-hoc (SNK) za grupe

b) pod Options: odredimo novu razinu značajnosti, pošto imamo dvije ZV, nova razina značajnosti je 0,025

Page 59: Multivarijatna Statistika - Finalna Skripta

3. Rezultati

a) preduvjeti

Testira nul – hipotezu da su matrice varijanci i kovarijanci jednake u sve tri grupe – TEST

HOMOGENOSTI!

Ukoliko test nije značajan, matrice varijanci i kovarijanci su homogene, stoga možem nastaviti s

testom.

Osjetljiv na veličinu uzorka i normalnost distribucije!

b) Multivarijatna razina

Postoji značajan efekt tipa terapije na simptome OKP-a ( =0,70, , = 0,16).

c) Univarijatna razina

Ako postoji pretpostavka o homogenosti varijance zavisnih varijabli, Levenov test ne bi trebao biti značajan.

Testira nul hipotezu da je varijanca pogreške jednaka među svim grupama!

Page 60: Multivarijatna Statistika - Finalna Skripta

d) Post-hoc

e) Interpretacija

Provedena je jednosmjerna MANOVA kako bi se saznalo postoje li efekti kognitivno – bihevioralne terapije na

simptome OKP – a (ponašanja i misli). Na multivarijatnoj razini postoji značajan efekt terapije na broj

opsesivnih misli i ponašanja (=0,70, =2,56, p=0,05, = 0,16). Međutim, na univarijatnoj razini ne postoji

značajan efekt vrste terapije na broj opsesivnih misli ( =2,15, p>0,05, = 0,14) i ponašanja ( =2,77,

p>0,05, = 0,17).

Page 61: Multivarijatna Statistika - Finalna Skripta

PRIMJER MANOVA-e

Istraživačko pitanje: Postoji li razlika među 8 faktora multiple inteligencije kod učenika srednje škole obzirom

na spol?

Varijable u analizi:

NV: spol (M/Ž)

ZV: Matematičko – logička inteligencija, Spacijalna , Tjelesno – kinetička, Muzička. Intrapersonalna,

Interpersonalna, Verbalna, Naturalna

a) Testiranje korelacija

b) Provjera deskriptivne statistike

Page 62: Multivarijatna Statistika - Finalna Skripta

c) Provedba analize

d) Provjera homogenosti

Page 63: Multivarijatna Statistika - Finalna Skripta

e) Multivarijatna razina

Na multivarijatnoj razini postoji značajan efekt spola na različite faktore multiple inteligencije (= 0,82,

= 0,18).

f) Homogenost varijanci na univarijatnoj razini

g) Univarijatna razina

Na univarijatnoj razini postoji značajan efekt spola na interpersoalnu ( ) ,

verbalnu ( = 9,46, p< 0,01, 0,05) i naturalističku inteligenciju ( 0.06).

Page 64: Multivarijatna Statistika - Finalna Skripta

h) Smjer razlike

Interpretacija

Provedena je jednosmjerna MANOVA kako bi se utvrdilo postoji li razlika u 8 faktora multiple inteligencije kod

učenika srednje škole obzirom na spol.

Na multivarijatnoj razini, rezultati su pokazali da postoji značajan efekt spola na neke različite faktore multiple

inteligencije (= 0,82, = 0,18).

Na univarijatnoj razini postoji značajan efekt spola na interpersoalnu ( ) ,

verbalnu ( = 9,46, p< 0,01, 0,05) i naturalističku inteligenciju ( 0.06).

Žene (Mž =

Page 65: Multivarijatna Statistika - Finalna Skripta

DISKRIMINANTNA ANALIZA

Opis i opća primjena analize

Disktiminantna analiza (DA) može se opisati kao "obrnuta MANOVA".

U MANOVAi pitali smo se razlikuju li se grupe na nizu zavisnih varijabli (ZV) tj. postoje li linearne kombinacije

ZV koje maksimiziraju razlike među grupama i na kojima bi se grupe mogle statistički značajno razlikovati.

Ukoliko postoje, onda zavisne varijable iz MANOVAe možemo iskoristiti za uspješno predviđanje grupne

pripadnosti ispitanika.

To su matematički isti postupci s različitom svrhom analize: DA utvrđuje kako se grupe razlikuju, a ne samo

postoje li linearne kombinacije ZV na kojima se grupe razlikuju.

Osnovni cilj analize je otkriti i interpretirati linearne kombinacije kvantitativnih prediktora (diskriminantne

funkcije) koje na različite načine objašnjavaju razlike među grupama. Zbog toga se DA često koristi za

interpretaciju rezultata MANOVAe

Može se koristiti i kao samostalna tehnika u nacrtima čiji cilj nije utvrditi razlikuju li se grupe statistički

značajno na zavisnim varijablama, već mogu li se ispitanici ispravno klasificirati u grupe temeljem rezultata na

većem broju kontinuiranih varijabli i može li se predvidjeti grupna pripadnost ispitanika (i s kojom točnošću)

temeljem dvije i više kontinuiranih varijabli.

Zbog navedenog, oznake varijabli u DA su upravo suprotne onima u MANOVAi: Kontinuirane varijable koje smo

u MANOVAi zvali zavisnim sada zovemo nezavisnim ili prediktorima. Varijablu po kojoj se ispitanici dijele u

grupe i koju smo u MANOVAi zvali nezavisna varijabla ili faktor, u DA zovemo zavisna ili kriterijska varijabla

koja opisuje stvarnu pripadnost ispitanika grupi.

1. Varijabla koja određuje grupnu pripadnost ispitanika (zavisna varijabla ili kriterijska varijabla;

diskontinuirana, nominalna).

2. Dvije ili više kontinuiranih varijabli (nezavisnih varijabli ili prediktora; kontinuiranih, intervalnih ili

omjernih) temeljem kojih se grupe pokušavaju razlikovati ili temeljem kojih se vrši statistička

klasifikacija ispitanika u grupe (koja se potom može usporediti sa stvarnom pripadnošću ispitanika

grupama).

Primjena

1. Predikcija grupne pripadnosti ispitanika temeljem većeg broja kvantitativnih prediktora ili

2. Interpretacija značajne MANOVAe

Točnost klasifikacije ispitanika u grupe

DA se može upotrijebiti kao odgovor na pitanje s kolikom točnošću se ispitanici mogu klasificirati u grupe

temeljem niza kvantitativnih prediktora.

Kvantitativni prediktori se svode na linearne kombinacije (nazvane Fisherovim linearnin diskriminantnim

funkcijama ili klasifikacijskim funkcijama) s ciljem predviđanja grupne pripadnosti ispitanika, definirane

grupirajućom varijablom (kriterijem).

Preciznost klasifikacije određuje se izračunom postotka ispravno klasificiranih ispitanika u grupe temeljem

klasifikacijskih funkcija. Može se napraviti korekcija za ispravne klasifikacije po zakonu slučaja korištenjem

Page 66: Multivarijatna Statistika - Finalna Skripta

"kappa" koeficjenta koji također procjenjuje postotak ispravnih klasifikacija korigiran za podudaranja po

zakonu slučaja ("chance agreements").

Ovaj postupak razlikuje se od postupaka klasifikacije poput klaster analize kojoj je cilj formirati grupe. Treba

imati na umu da u DA svaki ispitanik već prije analize nosi informaciju o njegovoj stvarnoj pripadnosti

određenoj grupi.

Ovaj postupak je po cilju vrlo sličan logističkoj ili multinominalnoj logističkoj regresijskoj analizi koje se češće

se koriste za ovakva pitanja jer ima manje ograničenja i preduvjeta.

OSNOVNI TIPOVI DISKRIMINANTNE ANALIZE

1. Standardna (direktna, izravna) diskriminantna analiza: svi prediktori su uneseni u jednadžbu

istovremeno i svaki prediktor je na jedinstven način povezan sa zavisnom varijablom. Test je identičan

MANOVAi u kojoj se kombiniraju sve zavisne varijable.

2. Hijerarhijska (sekvencijalna) diskriminantna analiza: procjenjuje doprinos prediktora predikciji

grupne pripadnosti redoslijedom kojeg odredi istraživač. Dodavanjem u model novih prediktora

procjenjuje se napredak u klasifikaciji ispitanika, relativan napretku ostvarenom temeljem prije

dodanih prediktora. Ako se ranije uneseni prediktori smatraju kovarijatima, a kasnije uneseni

prediktori faktorima analiza korespondira MANCOVAi.

3. Stepwise (eksploratorna; u koracima) diskriminantna analiza: koristi se kada istraživač nema

teorijske osnove za redoslijed kojim će se prediktori unositi u model. Koriste se statistički kriteriji

(različiti, odabire ih korisnik) odabira značajnih prediktora. Istraživač želi empirijski reducirati broj

prediktorskih varijabli. Slična "Stepwise" metodama u regresijskoj analizi.

PREDUVJETI, OGRANIČENJA, SPECIFIČNOSTI

Preduvjeti su isti kao za MANOVAu (oprez: drugačiji nazivi varijabli).

1.Multivarijatno normalna distribucija kvantitativnih varijabli (nezavisne, prediktori) za svaku

populaciju definiranu razinama grupirajuće varijable (zavisne, kriterij).

Kvantitativne varijable su multivarijatno normalno distribuirane ukoliko je svaka normalno distribuirana,

neovisno o rezultatima drugih varijabli i ukoliko je svaka normalno distribuirana za svaku kombinaciju

rezultata drugih varijabli. Taj uvjet se ne može testirati u mnogim statističkim programima. Vrlo je rijetko

zadovoljen.

Praktično: Ukoliko taj uvjet nije zadovoljen i ukoliko je uzorak malen “p” postaje nepouzdan. Snaga

testa znatno opada kod platikurtičnih i znatno asimetričnih distribucija

2. Homogenost matrica varijance-kovarijance (matrica raspršenja). Varijance pojedinih zavisnih

varijabli i kovarijance svih zavisnih varijabli moraju biti jednake na svim nivoima nezavisne varijable

(faktora).

Testira se Box-ovim M testom koji testira značajnost razlika među matricama varijance-kovarijance i preduvjet

je zadovoljen ukoliko rezultat nije statistički značajan. Statistički značajan rezultat može biti povezan i s

nezadovoljenim uvjetom multivarijatne normalnosti distribucije. S druge strane, statistički neznačajan rezultat

može biti posljedica malog uzorka i male snage testa.

Ostali uvjeti: Slučajan uzorak i nezavisnost rezultata dobivenih od različitih jedinica analize.

Page 67: Multivarijatna Statistika - Finalna Skripta

KONCEPTUALNE OSNOVE IZRAČUNA

Diskriminantnom analizom kreiramo jednu ili više linearnih kombinacija kvantitativnih prediktora koje

nazivamo diskriminantnim funkcijama (DiF).

Prva diskriminantna funkcija ekstrahira se na način da maksimizira grupne razlike na toj funkciji. Druga DiF

ekstrahira se na isti način, ali uz dodatno ograničenje: ne smije korelirati s prvom DiF. Sve naredne DiF

ekstrahiraju se na isti način uz uvjet da ne koreliraju s prethodno ekstrahiranim DiF.

Tako dobivene DiF nazivaju se još i sukcesivne kanoničke varijate (vidi kasnije izračun koeficijenata DiF).

Broj mogućih DiF je broj grupa umanjen za 1 ili broj kvantitativnih prediktora (manji od dva navedena broja).

DiF I REGRESIJSKA JEDNADŽBA

Diskriminantne funkcije mogu se opisati regresijskim jednadžbama

Možemo predvidjeti rezultat ispitanika na DiF temeljem sume prediktora ponderiranih koeficijentima DiF koji

se utvrđuju kao koeficijenti kanoničkih varijata.

Za svaku DiF postoji različiti set koeficijenata diskriminantnih funkcija (koeficijenata kanoničkih varijata).

Formula za standardizirani rezultat ispitanika na DiF: Di=di1z1+di2z2+...+dinzn

Koeficijenti "d" mogu biti standardizirani, ali i nestandardizirani, pri čemu se množe s nestandardiziranim

rezultatima.

KOEFICIJENTI DiF

U osnovi DA je utvrđivanje kanoničkih korelacija između skupa kontinuiranih, prediktorskih varijabli i varijable

kojom su ispitanici klasificirani u grupe.

Koeficijenti di utvrđuju se s ciljem maksimizacije razlika između grupa (SSbg) u odnosu na razlike unutar grupa

(SSwg)

ELEMENTI INTERPRETACIJE

Karakteristični korijen svake DiF ukazuje koliko dobro ta funkcija razlikuje grupe ispitanika. Što je veći, grupe

se bolje mogu razlikovati. Najveći je za prvu DiF i opada sa svakom slijedećom ekstrahiranom DiF.

Predstavlja omjer SSbg i SSwg računat kao u ANOVAi u kojoj je grupirajuća varijabla faktor, a DiF zavisna

varijabla.

Može biti bilo koji broj veći ili jednak nuli, stoga je teško interpretabilan.

Interpretabilnija mjera veličine efekta je omjer SSbg i ukupne sume kvadrata (SStotal) koja se iz karakterističnog

korijena računa ovako:

λ/(1+λ)

Navedena mjera može se interpretirati kao Rc2 i lako se interpretira kao veličina efekta. Kvadratni korijen

navedene mjere je koeficijent kanoničke korelacije Rc.

Page 68: Multivarijatna Statistika - Finalna Skripta

Također, može se za svaku DiF navesti postotak varijance koji ukazuje snagu predikcije te DiF u odnosu na

sve preostale DiF (koliko varijabiliteta rezultata između grupa objašnjava konkretna DiF). Računa se

dijeljenjem λ konkretne DiF sa sumom svih λ (od te proporcije postotak se dobiva množenjem sa 100)

Na svim ispitanicima, bez obzira na grupnu pripadnost, aritmetička sredina svake DiF sa standardiziranim

rezultatima je 0, a standardna devijacija 1.

Aritmetičke sredine grupa različite su od nule i predstavljaju udaljenost grupe od nulte aritmetičke sredine DiF

izražene u jedinicama standardne devijacije i tipično se zovu centroidi u reduciranom prostoru (reduciranom

sa n prediktora na jednu dimenziju, tj. DiF)

CENTROIDI

Zbog načina izračuna najveću diskriminacijsku snagu imaju prve diskriminantne funkcije (najčešće jedna do

dvije).

Ne interpretiraju se sve diskriminantne funkcije već samo one koje zadovolje različite kriterije (temeljem

karakterističnog korijena, kanoničke korelacije, postotka objašnjene varijance - koliko varijabiliteta rezultata

između grupa objašnjava DiF)

ZNAČAJNOST SUKCESIVNIH DISKRIMINANTNIH FUNKCIJA

Razina značajnosti DiF provjerava se χ2 testom

INTERPRETACIJA DISKRIMINANTNE ANALIZE

S obzirom da je cilj DA otkriti i interpretirati linearne kombinacije kvantitativnih prediktora (diskriminantne

funkcije) koje na različite načine objašnjavaju razlike među grupama, interpretacija uključuje tri analize:

1. Koliko je DiF statistički značajno

2. Dif dobiva oznaku (“ime”) analizom korelacija prediktora i DiF i analizom standardiziranih koeficijenata

DiF (interpretabilnost DiF ili substancijalne osnove empirijski deriviranih DiF).

3. Uz to se gledaju i prosječni grupni rezultati na značajnim DiF (analiza centroida). Centroidi pokazuju

kako se grupe prostorno razlikuju na različitim značajnim DiF (uobičajen je grafički prikaz za 2

značajne DiF).

INTERPRETACIJA

Provedena je diskriminantna analiza kako bi utvrdili može li se temeljem četiri kontinuirana prediktora

(ugodnost, prosječan uspjeh na studiju, prijašnji uspjeh na poslu i uspjeh na konkretnom zadatku) predvidjeti

pripadnost ispitanika jednoj od tri grupe s različitom izvedbom na poslu: 1. Neuspješan radnik, 2. Uspješan

individualist, 3. Uspješan timski igrač.

Prva diskriminantna funkcija pokazala je da prediktori statistički značajno diferenciraju ispitanike različite

uspješnosti (Wilksov Λ = 0,61, χ2(8, N=124)=59.53, p<0.01, Rc2= 0.26). Druga diskriminantna funkcija također

je bila značajna pokazujući da prediktori statistički značajno diferenciraju ispitanike različite uspješnosti nakon

parcijalizacije efekata prve diskriminantne funkcije (Wilksov Λ = 0,82, χ2(3, N=124)=24.24, p<0.01, Rc2=018).

(Rc2=kvadrirana kanonička korelacija kao veličina efekta jednaka je η2 kojeg bi dobili ANOVAom primijenjenom

na grupne razlike na prvoj DiF; 26% varijance prve DiF može se objasniti grupnom pripadnošću ispitanika).

Page 69: Multivarijatna Statistika - Finalna Skripta

S ciljem interpretacije značajnih diskriminantnih funkcija u Tablici 1 prikazane su korelacije između prediktora

i diskriminantnih funkcija (matrica strukture) i standardizirani koeficijenti (ponderi) diskriminantnih funkcija.

Iz navedenih rezultata vidljivo je da uspješnost na testu pokazuje najveću pozitivnu povezanost sa prvom

diskriminantnom funkcijom, (manju ali također pozitivnu povezanost pokazuju uspjeh na studiju i prethodni

uspjeh na poslu) koju ćemo označiti kao inžinjersko znanje, dok skala ugodnosti kao osobine ličnosti pokazuje

najveću, pozitivnu povezanost sa drugom diskriminativnom funkcijom, s kojom prosječan uspjeh na studiju

pokazuje nešto nižu negativnu povezanost. Drugu diskriminativnu funkciju označiti ćemo kao ugodnost u

interpersonalnim odnosima.

Centroidi diskriminantnih funkcija u skladu su s navedenom interpretacijom diskriminantnih funkcija. Najviši

prosječan rezultat na inženjerskom znanju (1. diskriminantna funkcija) imaju uspješni individualci (M=0.79),

dok neuspješni radnici (M=-0.40) i timski igrači (-0.43) imaju podjednako niske aritmetičke sredine. S druge

strane najviši prosječan rezultat na ugodnosti u interpersonalnim odnosima (drugoj diskriminantnoj funkciji)

imaju timski igrači (M=0.40), uspješni individualci imaju osrednji rezultat (M=0.01), dok najniži prosječan

rezultat imaju neuspješni radnici (M = -0.83).

Temeljem svih prediktora može se uspješno klasificirati 66% ispitanika u uzorku. Kako bi kontrolirali slučajno

podudaranje predviđene i stvarne grupne pripadnost ispitanika izračunat je "kappa" koeficijent koji je iznosio

0.46, što ukazuje na umjereno podudaranje klasifikacije ispitanika temeljem prediktora s informacijama u

kriterijskoj varijabli.

Tablica 1

Standardizirani koeficijenti i korelacije prediktorskih varijabli i diskriminantnih funkcija

Korelacijski koeficijenti prediktora i

diskriminantnih funkcija

Standardizirani koeficijenti

diskriminantnih funkcija

Prediktori

Funkcija 1 Funkcija 2 Funkcija 1 Funkcija 2

Ugodnost .01 .86 -.09 .96

Ocjena na studiju .47 -.27 .09 -.56

Prijašnji uspjesi .43 .02 .28 .04

Rezultat na testu .95 .10 .88 .24

Page 70: Multivarijatna Statistika - Finalna Skripta

PRIMJER DISKRIMINANTNE ANALIZE

Istraživačko pitanje: Može li terapija smanjiti simptome OKP-a? Ako može, koja od tih terapija je najefikasnija u

tome (CBT, BT ili bez tretmana (NT) )?

Varijable u analizi:

ZV: vrsta terapije (CBT, BT i NT)

NV:

1. Broj opsesija – povezan sa ponašanjem

2. Broj opsesija – povezan s mislima

1. Analyze- classify – discriminant, pod grouping variable – unosimo ZV i određujemo raspon (od 1 do 3)

• separate-groups covariance prikaz matrice

kovarijanci različitih grupa

• unstandardized rad sa nestandardiziranim

koeficijentima (lakše razumljivo)

• all groups equal program računa kao da su sve grupe

podjednake veličine (ne uzima u obzir razliku u broju

ispitanika)

• summary table tablica sa svim rezultatima

• within-groups prikaz matrice kovarijanci unutar

pojedinih grupa

VAŽNO!

• označiti PREDICTED GROUP MEMBERSHIP program

sprema rezultate s obzirom na pripadnost pojedinoj grupi

(predviđenu pripadnost)

Page 71: Multivarijatna Statistika - Finalna Skripta

REZULTATI

Page 72: Multivarijatna Statistika - Finalna Skripta

Interpretacija

Provedenom analizom dobili smo dvije diskriminatne funkcije. Prva funkcija je značajna i objašnjava 82, 2 % ukupno

objašnjene varijance, dok druga funkcija objašnjava samo 17,2 % ukupno objašnjene varijance i ako ju gledamo

odvojeno, nije značajna, (Wilksov Λ = 0.93, χ²(1) = 1.86, p > .05, Rc2 =0.07).

U kombinaciji ove dvije funkcije pokazuju značajnu razliku među grupama (Wilksov Λ= .70, χ²(4)= 9.51, p=.05, Rc2

=0.25).

Ove dvije funkcije zajedno objašnjavaju 32% varijance (Rc12+ Rc22 = 0.32, 32*100= 32%).

Iz navedenih rezultata može se vidjeti da smanjenje simptoma OKP-a pokazuje najveću pozitivnu povezanost sa

prvom diskriminantnom funkcijom koju ćemo nazvati opsesivna ponašanja, dok ćemo drugu diskriminantnu

funkciju nazvati opsesivne misli.

Utvrđeno je da terapija ne mijenja nužno ponašanja i misli zasebno, ali utječe na temeljne dimenzije OKP-a.

Najviši prosječan rezultat na 1. DiF ima KBT (M=0,60), zatim ide grupa bez tretmana (NT) (M=0,13), dok BT ima

visok negativan rezultat (M=-0,73).

S druge strane, najviši prosječan rezultat na 2 DiF ima grupa bez tretmana (NT) (M=0,36), dok KBT (M=-0,23) i BT

(M=-0,13) imaju niske aritmetičke sredine.

Na temelju svih prediktora može se uspješno klasificirati 46,7% ispitanika u uzorku.

Page 73: Multivarijatna Statistika - Finalna Skripta

PRIMJER DISKRIMINANTNE ANALIZE

Istraživačko pitanje: Diskriminiraju li anksioznost, self-koncept i odsutnost uspješno ljude različitih kvalifikacija?

Varijable u analizi:

ZV: kvalifikacija (bachelor, master, doctorate)

NV: anksioznost, self-koncept i odsutnost

1. Matrica kovarijanci

- vrijednosti daju naznake o promjeni veze između ZV po grupama

Page 74: Multivarijatna Statistika - Finalna Skripta

Interpretacija

Da bi se utvrdilo može li se i s kojom točnošću, na temelju prediktora self koncepta, anksioznosti i odsutnosti

predvidjeti stupanj kvalifikacije ispitanika, provedena je diskriminantna analiza.

Provedenom analizom dobili smo dvije diskriminatne funkcije. Prva funkcija je značajna i objašnjava 96.1% ukupno

objašnjene varijance (Wilksov Λ= .0.95, χ²(6)= 20.14, p<.05, Rc2 =0,04).

41.6% originalnih ispitanika je točno klasificirano.

Page 75: Multivarijatna Statistika - Finalna Skripta

PATH ANALIZA

- proširenje regresijske analize

- glavna svrha regresijske analize: predikcija rezultata u jednom kriteriju na temelju jednog ili više prediktora

- multipla regresijska analiza, kao statistički postupak, ne pretpostavlja kakav je odnos među prediktorima, dokle

god nisu previše povezani (problem kolinearnosti)

U regresijskoj analizi...

1. Možemo imati samo jednu varijablu kao kriterij

2. Jedna varijabla može biti ILI prediktor ILI kriterij

Path analiza Na temelju teorije pretpostavlja uzročni slijed izravnih i neizravnih efekata prediktora na jedan ili više

kriterija.

= statistička metoda analize kvantitativnih podataka, koja pruža empirijske procjene utjecaja varijabli u

pretpostavljenom kauzalnom sistemu

Standardna regresijska analiza Path analiza

= regresija za predikciju

CILJ:

Objasniti što veću varijancu jednog kriterija

- Kolinearnost predikora nepoželjna

- Odnosi među prediktorima nisu nam pretjerano zanimljivi, osim kako bi utvrdili kolinearnost

= regresija za razumijevanje kauzalnih odnosa među varijablama

CILJ:

Modelirati odnose među prediktorskim varijablama i odnose prediktorskih varijabli s medijacijskim i/ili kriterijskim varijablama

- Povezanost među prediktorima nije problem – nju proučavamo!

Path analiza i strukturalno modeliranje

Path analiza je posebna vrsta SEM-a, koja sadrži samo varijable mjerene jednim indikatorom. Pretpostavlja da su

varijable mjerene bez pogreške. SEM koristi latentne varijable kako bi „nadoknadio” za pogrešku mjerenja.

Što NE možemo pomoću path analize?

Kada istraživanje nije eksperimentalno...

1. Dokazati jesu li dvije varijable kauzalno povezane

2. Dokazati kauzalni poredak među varijablama

3. Razlikovati modele koji rezultiraju identičnim uzorcima korelacija

Što možemo pomoću path analize?

1. Grafički prikazati pretpostavljenu teoriju

2. Procijeniti povezanosti među varijablama u pretpostavljenoj teoriji i utvrditi jesu li one pozitivne,

negativne ili nulte

3. Procijeniti pretpostavljeni kauzalni efekt jedne varijable na drugu

4. U eksperimentalnim istraživanjima, dokazati uzrokuje li promjena u nezavisnoj varijabli promjenu u

zavisnoj

Page 76: Multivarijatna Statistika - Finalna Skripta

Pretpostavke path analize

1. Više zavisnih varijabli

2. Jedan indikator za svaku mjeru (jedna latentna i jedna manifestna varijabla)

3. Svaka varijabla mjerena je bez pogreške

4. Veliki uzorak ispitanika

20:1 idealno

10:1 zadovoljavajuće

5:1 minimum

Terminologija path analize

1. Model kauzalnih odnosa među varijablama

2. Egzogene varijable : one varijable na koje mogu utjecati varijable koje su izvan modela, prediktori

Hint: ona varijabla koja u path dijagramu ima strelice OD sebe, ali niti jednu PREMA sebi

3. Endogene varijable: one varijable kojima pokušavamo objasniti varijancu varijancom jedne ili više

egzogenih varijabli, za koje pretpostavljamo da utječu na njih, zavisna varijabla, medijator

Hint: ona varijabla koja u path dijagramu ima najmanje jednu strelicu PREMA sebi

4. Direktan utjecaj – put u kauzalnom modelu koji povezuje dvije varijable

5. Indirektan utjecaj- zbirni put, koji povezuje dvije varijable preko treće varijable

6. Path- koeficijent – numerička procjena kauzalnog odnosa među dvjema varijablama u path analizi

Hint: β u multiploj regresijskoj analizi

MODEL

Osnovno polazište path analize je teorijski model kauzalnih odnosa među varijablama. Takav model uključuje

set hipoteza. Eksplicitan i kompaktan opis seta hipoteza može se formulirati:

1. Većim brojem regresijskih jednadžbi

2. Path dijagramom

Path dijagram

= Slikovna reprezentacija povezanosti i kauzalnih odnosa među ispitivanim varijablama

Simboli koje koristimo:

1. Pravokutnici označavaju mjerene (manifestne, opažene) varijable

2. Dvoglavim, zakrivljenim strelicama označavaju se korelacije (neanalizirana povezananost)

3. Jednoglavim strelicama označavaju se izravni efekti

4. Krugovi označavaju neobjašnjenu varijancu endogene varijable – nepoznati utjecaji koji nisu uključeni u

model

Page 77: Multivarijatna Statistika - Finalna Skripta

Kako crtamo path dijagram?

1. Varijable sa lijeve strane kauzalno prethode varijablama sa desne strane path dijagrama

2. One varijable za koje se pretpostavlja da su povezane, ali ne u kauzalnom odnosu, trebale bi biti u istoj

ravnini

3. Kauzalni odnos koji je pretpostavljen između dvije varijable označava se predznacima + i – pored strelica,

kako bi pokazali kako smanjenje ili povećanje u jednoj varijabli utječe na drugu

Primjeri path dijagrama

A - Jednostavna multipla regresija sa

dvije egzogene (X1 i X2) i jednom

endogenom (Y) varijablom

B - Medijacijski model, u kojem varijabla

Y posreduje odnosu varijabli X i Z

C - Kombinacija elemenata iz dva

prethodna modela. Varijabla X ima

direktan utjecaj na varijablu Z, ali i na

varijablu Y, koji ima utjecaj na varijablu

Z.

D- Varijabla X1 utječe na varijablu X2, ali

i na varijablu Y2. Varijabla X2 utječe na

varijablu Y2, a varijabla Y1 utječe na

varijablu Y2.

Page 78: Multivarijatna Statistika - Finalna Skripta

Path analiza preko regresijske analize:

1. Potrebna po jedna regresijska analiza za svaku endogenu varijablu u modelu

2. Korelacije egzogenih varijabli (ili kovarijance) dobivamo iz običnih bivarijatnih korelacija (kovarijanci)

3. Path koeficijenti (β) su regresijski koeficijenti iz korespondentnih regresijskih analiza

4. Standardizirani rezidual je proporcija neobjašnjene varijance i računa se kao 1 - R²

Rezultati path analize

1. Možemo utvrditi veličine efekata, korelacija i reziduala – ako je pretpostavljeni model točan

2. Možemo utvrditi podudaranje modela s empirijski dobivenim podacima – testiranje modela, na način

da..

.. Korelacije između svake varijable možemo rastaviti na najviše 4 elementa:

1. Izravni efekt

2. Sumu posrednih (medijacijskih) efekata

3. Sumu spurioznih efekata (zajednički uzrok)

4. Sumu neanaliziranih efekata

Testiranje modela - Korelacija između dvije varijable koju implicira model računa se zbrajanjem ovih elemenata, i

zatim se uspoređuje s empirijskom korelacijom. Ako su odstapanja velika, odbacujemo model.

Procjene podudarnosti modela (model fit statistics)

Goodness-of-fit testovi, koji se temelje na previđenoj vs. opaženoj varijanci

Goodness-of-fit testovi, koji se temelje na usporedbi modela s alternativnim modelom

a) χ²

b) RMSEA (Root Mean Square Error of Approximation)

c) SRMR (Standardized Root Mean Residual)

Što manji to bolji!

a) CFI (Comparative Fit Index)

b) TLI (The Tucker-Lewis Index) ili NNFI (Non-Normed Fit Index)

Što veći to bolji!

Page 79: Multivarijatna Statistika - Finalna Skripta

PRIMJER PATH ANALIZE

Problem: Istraživače zanima povezanost crta ličnosti, materijalizma i prekomjernog kupovanja. Iz literature

doznajemo da su crte ličnosti povezane s materijalizmom i prekomjernim kupovanjem, kao i da postoji povezanost

materijalizma i prekomjernog kupovanja.

1. Testiranje medijacije

2. Path dijagram – mapiranje onih povezanosti koje su bile statistički značajne u regresijskim analizama

Indeksi prilagodbe:

1. χ²(df)=10,14(4), p=.038;

2. χ²/df= 2,53;

3. CFI=.99;

4. GFI=.99,

5. AGFI=.97,

6. NFI=.99,

7. RMSEA=.048

Rezultati općenito pokazuju dobru prilagodbu modela podacima dobivenim na ispitivanom uzorku (χ²(df)=10,14(4),

p=.038; χ²/df= 2,53; CFI=.99; GFI=.99, AGFI=.97, NFI=.99, RMSEA=.048). Općenito, model pokazuje medijacijsku

ulogu materijalizma u povezanosti dimenzija petofaktorskog modela ličnosti i prekomjernog kupovanja, uz

iznimku direktnog utjecaja savjesnosti na prekomjerno kupovanje. Točnije, materijalizam obuhvaća sve utjecaje koje

ugodnost, otvorenost i ekstravezija imaju na prekomjerno kupovanje. Uz to, neuroticizam ima direktan utjecaj na

prekomjerno kupovanje.

Page 80: Multivarijatna Statistika - Finalna Skripta

KONFIRMATORNA FAKTORSKA ANALIZA

Svi statistički modeli koje smo do sad opisivali imaju preduvjet koji je u nekim znanstvenim područjima nemoguće

zadovoljiti: pretpostvaljaju da su proučavane pojave mjerene izravno i bez pogreške mjerenja. Ukoliko taj preduvjet

nije zadovoljen, parametri koji se procjenjuju nisu pouzdani i mogu sustavno odstupati od parametara populacije

(npr. u medijacijskim modelima, medijacijski efekti su podcijenjeni, a izrvni precjenjeni)

Faktorska analiza

Statistički postupak kojim nastojimo ispitati međuzavisnost unutar velikog broja varijabli te ih objasniti pomoću

malog broja zajedničkih faktora.

1. Proučavanje odnosa među hipotetskim konstruktima koje ne možemo izravno mjeriti (ličnost, inteligencija,

stres,…) – LATENTNE VARIJABLE

2. O njima zaključujemo posredno preko pojava koje možemo mjeriti (procjene i samoprocjene) –

MANIFESTNE VARIJABLE

CFA i regresijski modeli

Osnove faktorske analize mogu se opisati kroz particioniranje varijanci (komunalitet, unikvitet, specifičnost,

pogreška), ali i kao specifičan oblik regresijske analize i općeg linearnog modela.

Faktorska analiza je varijanta regresijske analize.

Koja je razlika?

1. U faktorskoj analizi neke varijable nisu izravno mjerene (latentne)

2. U faktorskoj analizi se najčešće prikazuju standardizirani (beta) regresijski koeficijenti, iako možemo dobiti i

nestadardizirane.

U CFA se najčešće dozvoljava faktorima da koreliraju, iako se mogu modelirati i nekorelirani (ortogonalni) faktori ili

kombinacija koreliranih i nekoreliranih faktora.

Nedostaci regresijskih i prednosti faktorskih modela

U regresijskim (path) analizama svaka teorijska varijabla mjerena je samo jednom mjerom – ne može se razlučiti

varijanca greške (u mjerenju i specifikaciji modela) od varijance teorijske varijable koju želimo izmjeriti i o kojoj

želimo zaključivati.

Kada su dostupne višestruke mjere istog faktora, različiti izvori varijance mogu se razdijeliti i pouzdanost svake

mjere može se procijeniti i uključiti u model.

Vennov i path prikaz FA

Vennov

- Praktičan prikaz

- Ne implicira statistički način

modeliranja faktora

Path

- Kvadrat – mjerene v. (indikatori)

- Elipsa – latentne v.

Page 81: Multivarijatna Statistika - Finalna Skripta

Eksploratorna FA

- Omogućuje identifikaciju onoga što objektivno postoji

- Utvrđujemo izvore varijacija i kovarijacija među manifestnim varijablama

Konfirmatorna FA

Pretpostavlja postojanje unaprijed određenog modela, hipoteze, teorije o strukturi izvora kovarijacija među

promatranim varijablama

Eksploratorna FA govori nam kakva je faktorska struktura te izračunava maksimalan iznos varijance, dok

konfirmatorna FA a priori postavlja model i broj faktora, te koja čestica opterećuje koji faktor. Taj je model podržan

teorijom i prethodnim istraživanjima.

- Nema restrikcija za korelacije faktora

- Svaka čestica je u nekoj mjeri zasićena svim

faktorima

1. X1 = *F1 + *F2 + u1

2. x2 = *F1 + *F2 + u2

3. X3 = *F1 + *F2 + u3

4. X4 = *FI + *F2 + u4

5. x5 = *F1 + *F2 + u5

6. x6 = *F1 + *F2 + u6

Suprotno od EFA, CFA zahtjeva restrikcije korelacija među

faktorima, faktorskih zasićenja što omogućuje bolje

inferencijalno zaključivanje

1. xl = *F1 + 0F2 + u1

2. X2 =*F1 + 0F2 + u2

3. X3 = *F1 + 0F2 + u3

4. X4 = 0F1 + *F2 + u4

5. x5 = 0F1 + *F2 + u5

6. x6 = 0F1 + *F2 + u6

Page 82: Multivarijatna Statistika - Finalna Skripta

Razlike između CFA i EFA

U EFA je moguće dobiti bilo koji broj faktora i uzoraka faktorskih zasićenja, te ih vidimo nakon analize.

U CFA, broj faktora i uzorci zasićenja se pretpostavljaju prije analize tako što se postave brojne restrikcije faktorske

solucije (npr dvofaktorska struktura sa manifestnim varijablama 1, 2 i 3 na jednom faktoru a 4, 5 i 6 na drugom.

CFA se često prikazuje veoma drugačijom ili čak superiornom EFA, no u praksi su te razlike dosta zamagljenje

- Stvarni podaci se često razlikuju od naših teorija, te je stoga ponekad prikladno koristiti i EFA i CFA, te koristeći

takav pristup dobiti najbolju reprezentaciju stvarnih podataka

- Oba pristupa imaju svoje jake i slabe strane, te ih treba gledati kao komplementarne

Opći prikaz CFA

Je li model dobar ?

1. Hi – kvadrat

- Količina razlike između očekivane i promatrane matrice kovarijance.

- 0 označava da postoji mala razlika između očekivane i promatrane matrice kovarijance.

- Razina značajnosti :veća od 0.05

2. GFI (Goodnes of fit)

- mjera relativne veličine varijanca i kovarijanca zajednički objašnjenih modelom

- R2

3. CFI (Comparative Fit Index)

- Mjeri razliku

- Od 0 do 1 (veća vrijednost – bolje pristajanje modelu)

- Mora biti : 0.90 ili veća

4. RMSEA (Root Mean Square Error of Approximation)

- Povezan s rezidualima

- Od 0 do 1 (manja vrijednost – bolje pristajanje modelu)

- Mora biti : 0.06 ili manja

Page 83: Multivarijatna Statistika - Finalna Skripta

Primjene CFA

1. Modeli višeg reda

Ukoliko model uključuje četiri ili više faktora koji kovariraju, tada se može koristiti CFA za testiranje hipoteze o

postojanju faktora višeg reda

2. Stabilnost mjere

Radi se o stupnju u kojem su aspekti CFA modela (na primjer, broj faktora, uzorci faktorskih zasićenja) stabilni među

grupama ili kroz vrijeme

3. Konstruktna valjanost

Nakon što se odgovori na bazična pitanja poput broja faktora i uzoraka faktorskih zasićenja, CFA se može koristiti za

procjenu kontruktne valjanosti – to jest stope u kojoj je hipotetski konstrukt povezan sa drugim konstruktima u

teorijski značajnom uzorku.

Jedan od načina za procjenu konstruktne valjanosti koristeći CFA je ubacivanje više konstrukata u jedan model i

provjeravati uzorke kovarijanci među faktorima koji predstavljaju konstrukt u usporedbi sa uzorkom predviđenim

teorijom ili bazičnim znanjem o odnosu među konstruktima

Na primjer, trenutno dominantna teorija ličnosti govori o pet glavnih dimenzija. Takvu hipotezu se može testirati

koristeći CFA, te dobiti statističku mjeru prikladnosti svojeg modela u usporedbi sa izmjerenim.

Naravno ponekad se može koristiti CFA i EFA u tandemu kako bi dobili faktorski model najviše konzistentan sa

izmjerenim.

CFA na praktičnom primjeru

Tepper i Hoyle (1996) provode CFA na skali potrebe za unikatnošću, te dobivaju da nije moguće modificirati

pretpostavljeni trofaktorski model kako bi adekvatno opisali komunalitet unutar 32 čestice upitnika .

Na osnovu toga pretpostavlju da je potrebno više faktora i provode EFA, koja predlaže korištenje 4 faktora.

Dobivena saznanja koriste za naknadnu CFA bez resktrikcija, koja omogućava testiranje broja faktora bez

simultane procjene uzorka zasićenja.

Nakon što su dobili potvrdu za takav model koriste empirijsku strategiju za resktrikciju neznačajnih

zasićenja i time razvijaju četiri faktorski model sa nekoliko dvostrukih zasićenja koji je veoma

drugačiji od pretpostavljenog jednostavnog trofaktorskog modela

Uvjeti za provođenje CFA

1. Veliki uzorak

Preporučuje se N>200 za bilo koji iole kompleksniji CFA model, N>400 se preferira, no ako se koristi nedavno

modificirani lošiji model potrebno je barem N>800 kako bi se zaštitili od mogućeg utjecaja slučajnih varijacija u

podacima 2. Distribucija

Pošto je test dosta robusan, ukoliko je donekle velik uzorak metoda uglavnom daje dobre rezultate. U ekstremnim

slučajevima nenormalne distribucije postoje neke solucije, no zahtjevaju ili N=5000 ili posebne statističke pristupe

kako bi CFA funkcionirala

3. Skala mjerenja

Čestice bi trebale biti mjerene na omjernoj ili intervalnoj skali, zbog toga se preporučuje da na upitnicima kakve

koristimo u psihologiji bude 5 ili više mogućih odgovora za svaku česticu.

Page 84: Multivarijatna Statistika - Finalna Skripta

MODELIRANJE STRUKTURALNIM JEDNADŽBAMA

Razlika CFA- SEM

U CFA sve latentne varijable su egzogene – mogu i ne moraju biti korelirane, zato je CFA modeli ne pokušavaju

razlučiti uzročno-posljedične veze među faktorima (izravne, posredne efekte, zajedničke uzroke i neanalizirana

povezanost), tj. sve povezanosti među faktorima su neanalizirane povezanosti, tj. obične korelacije.

Strukturalno modeliranje je kombinacija CFA pristupa i path analize. Modeliraju se uzročne veze među

LATENTNIM VARIJABLAMA (faktorima). Tada latentne varijable opet dijelimo na one koje utječu na druge:

egzogene (prediktore) i one koje su pod utjecajem drugih – endogene varijable (medijatore ili ishode i kriterije).

CFA može biti samostalna analiza, npr. za utvrđivanje faktorske strukture neke skale ili prvi korak u izradi

strukturalnog modela.

Modeliranje strukturalnim jednadžbama (SEM)

– sveobuhvatan statistički pristup testiranju odnosa između latentnih i manifestnih varijabli

= Skup stat. metoda uz pomoć kojih reprezentiramo, procjenjujemo i testiramo teorijsku mrežu linearnih

kombinacija među varijablama

Osnovna ideja SEM-a: testiranje podudaranja modela s empirijskim podacima – uspoređujemo očekivane

(teoretske) i dobivene (opažene) matrice kovarijance konfirmatorna tehnika

Alternativni modeli

1. Kada se na teoretskoj osnovi postavlja više modela

2. Kada se model nedovoljno podudara s dobivenim podacima – modifikacija i ponovno testiranje

Cilj: pronaći model koji je

1. teoretski smislen,

2. razumno parsimoničan i

3. prihvatljivo se podudara s podacima

Page 85: Multivarijatna Statistika - Finalna Skripta

1. Specifikacija modela

= deriviranje hipoteza iz poznate teorije- grafički prikaz odnosa među varijablama

npr.

2. Identifikacija modela

= prevođenje modela u seriju jednadžbi i matrica – izrada matrica kovarijanci na temelju teorije (očekivanih (hipotetskih) odnosa i rezultata)

3. Procjena parametara populacije

= također izrada matrice kovarijance, ali na temelju stvarnih rezultata na uzorku

Upotreba kovarijanci u SEM-u:

covxy = rxy SDx SDy

1. razumijevanje obrazaca kovarijanci među promatranim varijablama

2. objašnjavanje proporcije varijance tih varijabli što je više moguće unutar postavljenog modela

* Moguće je izračunati aritmetičke sredine faktora, no najčešće nema potrebe za tim

Page 86: Multivarijatna Statistika - Finalna Skripta

4. Adekvatnost modela

Usporedba očekivanih i izmjerenih matrica uz pomoć indeksa podudarnosti (slaganja) (fit index)

Indeksi podudarnosti – indeksi koji govore o tome koliko se testirani model (očekivana matrica) poklapa s

podacima (dobivena, izmjerena matrica)

Dvije vrste:

1. hi kvadrat – ukazuje na razliku između matrica

2. indeksi koji govore o kvaliteti modela (točnost: CFI, GFI, RNFI (trebaju biti što bliže 1); pogreška: RMSEA,

SRMR (trebaju biti što bliže 0))

Comparative Fit Index (CFI) – vrijednosti između 0 i 1: veća vrijednost ukazuje na bolji model

GFI – mjera relativne veličine varijanca i kovarijanca zajednički objašnjene modelom

Normativan indeks slaganja (NFI, Bentler i Bonett) – u kojoj se mjeri predloženi model podudara s podacima

Tucker – Lewis (TL): koliko bolje predloženi model opisuje podatke u odnosu na nul-model, uzimajući u obzir df

* možemo prihvatiti model kao adekvatan onda kada su njihove vrijednosti 0.90 ili više!

Root Mean Square Error of Approximation (RMSEA) – povezana s rezidualom modela

– vrijednosti između 0 i 1: manja vrijednost ukazuje na adekvatnost modela

– možemo prihvatiti model kao dobar onda kada je vrijednost RMSEA-e 0.06 ili niža

Standardized Root Mean Residual (SRMR) –također između 0 i 1: dobar model ima vrijednosti SRMR-a manje od

0.05

* obratiti pozornost na reziduale

Reziduali

Manifestne varijable: E – pogreške mjerenja

Faktori: D – proporcija varijance neobjašnjena faktorom

- Nakon procjene modela reziduali bi trebali biti što manji (blizu 0), a frekvencija kovarijanci reziduala bi trebala biti

simetrična

Nesimetrična distribucija – slab model – npr. odstupanje reziduala neke varijable može ukazati da ta

varijabla nije dobar predstavnik modela, ili model ne objašnjava dobro varijablu

VRSTE PARAMETARA I MATRICA U SEM-u

1. Lambda y – povezanost latentne zavisne varijable s njenim manifestnim (indikatorima)

2. Lambda x – povezanost latentne nezavisne varijable s njenim manifestnim (indiaktorima)

3. Beta – neanalizirana povezanost (korelacije) među latentnim zavisnim varijablama

4. Gama – efekti nezavisnih latentnih varijabli na zavisne latentne varijable

5. Phi matrica – varijance (u dijagonali) i kovarijance latentnih nezavisnih varijabli

6. Psi matrica – varijance i kovarijance zeta varijabli

7. Theta epsilon matrica – varijance i kovarijance reziduala manifestnih indikatora ZV

8. Theta delta matrice – varijance i kovarijance reziduala manifestnih indikatora NV

Page 87: Multivarijatna Statistika - Finalna Skripta

Prednosti SEM-a

1. Testiranje kompleksnih veza i medijacijskih utjecaja:

ANOVA: postoji li razlika i u kojem smjeru?

SEM: zbog čega postoje te razlike? – testiranje svih mogućih odnosa među varijablama, odnosno potencijalne

medijacijske efekte

2. Mogućnost usporedbe različitih modela – najbolji je model onaj koji je najekonomičniji (princip

parsimonije – ako imamo dva modela koji podjednako dobro opisuju dobivene podatke: bolji onaj koji je

jednostavniji – analogija s faktorskom analizom)

Ograničenja SEM-a

1. Moguće dvosmislenosti zbor velike složenosti

2. Oprez: ukoliko se ne radi o eksperimentalnom nacrtu, strukturalno modeliranje (kao ni ostale statističke

tehnike) ne pruža dokaz o uzročnosti!

3. Kada istraživači testiraju jedan model, dobiju pozitivne procjene te ne uzimaju u obzir alternativna

objašnjenja

OPĆI PRIMJER SEM- modela

Page 88: Multivarijatna Statistika - Finalna Skripta

PRIMJER SEM-analiza - Primjer istraživanja

Strukturalni model za predikciju promjena preventivnih ponašanja u vezi s AIDS-om kod mladih ljudi (Prišlin,

Ajduković i Ajduković, 1998)

Pretpostavke (na temelju dotadašnjih spoznaja)

1. promjene u ponašanju izravna posljedica percepcije ugroženosti

2. Percepcija ugroženosti rezultat je znanja i stavova o AIDS-u

3. Znanje i stavovi su međusobno uvjetovani i

4. Razvijaju se putem socijalizacije, stoga ih predviđa

5. Socioekonomski status, demografski status i dob

Page 89: Multivarijatna Statistika - Finalna Skripta

BINARNA LOGISTIČKA REGRESIJSKA ANALIZA

Logistička regresija je vrsta multiple regresijske analize gdje je zavisna varijabla kategorijalna, a nezavisne su

kontinuirane ili kategorijalne

Cilj: predvidjeti članstvo grupi, tj vjerojatnost nekog događaja

Možemo predvidjeti kojoj će skupini osoba pripasti na temelju ostalih informacija koje o njoj imamo(NV)

Kada želimo odrediti članstvo ispitanika samo za dvije grupe 0 ili 1- Y binarna logistička regresija

Principi logističke regresije

U logističkoj regresiji umjesto predviđanja vrijednosti varijable Y na temelju poznavanja prediktorskih varijabli X ili

nekolicine njih, mi predviđamo vjerojatnost Y na temelju poznavanja prediktorskih varijabli X ili nekolicine njih

Unatoč sličnostima s linearnom regresijskom analizom, postoje razlozi zašto koristimo logističku

Naime linearnu regresiju ne možemo koristiti ukoliko je ZV kategorijalna- narušen preduvjet o lineranom

odnosu varijabli

Rješenje problema: transformacija podataka pomoću logaritma - prikaz ne linearnog odnosa na linearan način

Drugim riječima, logistička regresija izražava multiplu linearnu regresiju u terminima logaritma

Vjerojatnost

Vrijednost vjerojatnosti kreće se između 0 i 1

Vrijednost bliža 0 znači da se Y vjerojatno nije ostvario, dok vrijednost bliže 1 znači da se vjerojatno ostvario

Kao i u linearnoj regresiji svaki prediktor ima svoj pripadajući koeficijent

Analiza se temelji na modelima odabiremo model koji ima najveću procjenu vjerojatnosti - prema kojoj će

rezultati u nezavisnim varijablama najbolje kategorizirati pripadnost određenoj grupi

Cilj: kao i u multiploj regresijskoj analizi pokušavamo naše podatke uvrstiti u određeni model koji nam

pomaže procijeniti zavisnu varijablu na temelju nezavisnih

Procjena vjerojatnosti događaja za određenu osobu

Npr. Prolazak na ispitu

0- pad

1- prolazak

p vrijednost biti će između 0 i 1, gdje 0 znači- nema nikakve šanse da će se događaj dogoditi, do 1 koji znači događaj

će se zasigurno dogoditi

Log- vjerojatnost jest zamjena za koeficijent mulltiple regresijske analize

Temelji se na sumiranju vjerojatnosti povezanih s predviđenim i pravim vrijednostima

Ova je vrijednost analogna rezidualu sume kvadrata u multiploj regresijskoj analizi

pokazatelj koliko je ostalo neobjašnjene varijance nakon primjene određenog modela

Što je ova vrijednost veća to je model koji objašnjava naše podatke lošiji odnosno veći je postotak neobjašnjene

varijance

Page 90: Multivarijatna Statistika - Finalna Skripta

Intercept u multiploj odgovara vrijednosti kada su prediktori konstatni, a u logističkoj ta vrijednost predviđa ishod

koji je najčešći

Potpuni logistički regresijski model, kada su u njega uključeni i prediktori

hi kvadrat = 2 ( LL(model)- LL( baseline)

Hi kvadrat distribucija, što olakšava izračun značajnosti vrijednosti

Df- broj parametra u novom modelu – broj parametra u temeljnom modelu

U temeljnom modelu je broj parametar uvijek 1

Broj parametra u novom modelu- broj prediktora + 1( konstanta)

R i R²- ili je li izračunati logistički model ispravan?

R-statistic

Parcijalna korelacija između zavisne varijable i svakog od prediktora ( varira između -1 do 1)

Pozitivna vrijednost označuje da što je prediktor veći to je vjerojatnost događaja veća

Negativna vrijednost- porast prediktora- manja vjerojatnost događaja

“veličina” R- što je R manji to je vrijednost cijelog modela manja

Varira između 0 i 1

0- prediktori su beskorisni u predviđanju zavisnu varijablu

1-prediktori odlično predviđaju zavisnu varijablu

SPSS: Cox i Snells R²- oni se razlikuju od R ² jer u analizu uključuju i veličinu uzorka

Nagelkerke R ²

Zajedničko svim ovim mjerama jest da odgovaraju koeficijentu multiple determinacije u linearnom modelu

Wald test

Kao i kod linearne regresije ne želimo znati samo koliko je općenito model dobar, već i doprinosi svakog

individulanog faktora

Linearna regresija b koeficijent i njihova standarna pogreška t distribucija

Analogno u logističkoj:

Wald statistika hi kvadrat distribucija

Ukazuje na značajnost koeficijenata

Ako je on značajan, on doprinosi u predviđanju zavisne varijable

( )

Page 91: Multivarijatna Statistika - Finalna Skripta

Odd Ratio : Exp(B)

- Bitan za interpretaciju logističke regresije

- Pokazatelj promjene izgleda koji proizlaze iz promjena jedinice prediktora

- Slično b koeficijentu u linearnoj regresiji

Binarni prediktor Odd zavisne varijable (događaj)- vjerojatnost da se 1 dogodi podijeljen s vjerojatnosti

da se 1 ne dogodi

P( 0) =1-P(1)

0 označava staginaranje u bolesti, 1 –označava napredak u bolesti

- računa se promjena u Odd Ratio- dijelimo odd prije promjene u prediktor i odd poslije promjene u

prediktoru

- ∆Odd

Ako je vrijednost veća od 1 – s porastom prediktora raste i odd vjerojatnosti događaja raste

Ako je vrijednost manja od 1- s porastom prediktora, odd vjerojatnosti događaja opada

Metode logističke regresije

1. Enter metoda

2. Stepwise metoda

Jednake kao i kod linearne regresijske

Pretpostavke na koje treba obratiti pozornost

1. Linearnost

- Narušen je linearni odnos jer je zavisna varijabla dihotomna

- Zato koristimo logaritamsku vrijednost

- Međutim, pretpostavka o linearnosti se u logističkoj regresiji odnosi na postojanje linearnog odnosa kontinuiranih

prediktora i logaritamske vrijednosti zavisne varijable

- Provjera značajnosti interakcije prediktora i logaritamske vrijednosti zavisne varijable

2. Nezavisnost uzorka

3.Multikolinearnost