skripta pitanja za pismeni deo ispita - puskice.org lins... · 5. loglinearni modeli – omogućuju...
TRANSCRIPT
LINEARNI STATISTIČKI MODELI
SKRIPTA – PITANJA ZA PISMENI DEO
ISPITA
Jun 2018. godine
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
2
SPISAK ISPITNIH PITANJA – JUN 2018.
1. Metode zavisnosti
2. Metode međusobne zavisnosti
3. Vrste podataka i merne skale
4. Kovarijaciona i korelaciona matrica slučajnog vektora X
5. Diskriminaciona analiza – osnovna ideja i ciljevi
6. Metod glavnih komponenata – osnovna ideja i ciljevi
7. Definicija i osobine glavnih komponenata
8. Izbor broja glavnih komponenata
9. Faktorska analiza – osnovna ideja i ciljevi
10.Model faktorske analize
11.Određivanje broja faktora
12.Rotacija faktora
13.Interpretacija faktora
14.Analiza grupisanja – osnovna ideja i ciljevi
15.Hijerarhijski i nehijerarhijski metodi grupisanja
16.Testiranje nezavisnosti kategorijskih obeležja (Hi-kvadrat test nezavisnosti)
17.Testiranje nezavisnosti kvantitativnih obeležja (testiranje koeficijenta korelacije)
18.T-test nezavisnih uzoraka
19.Man-Vitnijev test
20.Analiza varijanse
Sadržaj pitanja je u najvećoj meri preuzet iz knjige „Multivarijaciona analiza“ – Zlatka Kovačića,
kao i određenih materijala sa Matematičkog fakulteta. Materijal je namenjen pripremi za
pismeni ispit iz predmeta Linearni statistički modeli.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
3
1. Metode zavisnosti
Klasifikacije metoda multivarijacione analize zasnovane su na različitim klasifikacionim
kriterijumima. Kod jednog od pristupa, u cilju poređenja dva objekta, posmatramo redove u
matrici podataka, odnosno definišemo različite mere bliskosti između dva objekta ili osobe.
Osnovu ovih metoda multivarijacione analize predstavlja matrica odstojanja između objekata.
Metode se prema ovom pristupu dele u dve grupe: metode zavisnosti i metode međuzavisnosti.
Ukoliko se u istraživanju bavimo ispitivanjem zavisnosti između dva skupa promenljivih, gde
jedan skup predstavlja zavisne promenljive, a drugi nezavisne, tada je reč o metodama
zavisnosti.
U metode zavisnosti spadaju:
1. Multivarijaciona regresija – razlikujemo dva slučaja: prvi, kada se bavimo analizom
zavisnosti jedne promenljive (zavisne promenljive) od skupa drugih (nezavisnih
promenljivih) – ovaj slučaj predstavlja metod višestruke regresije. Drugi slučaj je kada
skup zavisnih promenljivih sadrži više od jednog člana, te tada govorimo o opštijem
modelu multivarijacione regresije. Zadatak je oceniti ili predvideti srednju vrednost
zavisnih promenljivih, na osnovu poznatih vrednosti nezavisnih.
2. Kanonička korelaciona analiza – njome se uspostavlja linearna zavisnost između skupa
nezavisnih i skupa zavisnih promenljivih. Kod izračunavanja kanoničke korelacije,
formiraju se dve linearne kombinacije, po jedna za skup nezavisnih i zavisnih
promenljivih, a koeficijent korelacije između njih treba da bude maksimalan.
3. Diskriminaciona analiza – bavi se razdvajanjem grupa i alokacijom opservacija u ranije
definisane grupe. Ona omogućava da otkrijemo koja je promenljiva doprinela najviše da
se razdvoje grupe, kao i da predvidi verovatnoću da će neki objekat pripasti nekoj od
grupa.
4. Multivarijaciona analiza varijanse (MANOVA) – koristi se kada nam je cilj da ispitamo
uticaj različitih nivoa jedne ili više „eksperimentalnih“ promenljivih na dve ili više
zavisnih promenljivih. Koristi nam u situaciji kada je moguće sprovesti kontrolisani
eksperiment. Osnovni cilj je testiranje hipoteze koja se tiče varijanse efekata dve ili više
zavisnih promenljivih.
5. Logit analiza – kada je u regresionom modelu zavisna promenljiva dihotomnog tipa (npr.
pol može da bude muški i ženski), tada takav model predstavlja regresioni model sa
kvalitativnom zavisnom promenljivom. Kod njih je zavisna promenljiva zapravo logit
funkcija – logaritam količnika verovatnoća da će dihotomna zavisna promenljiva uzeti
jednu ili drugu vrednost. Ove modele nazivamo i modelima logističke regresione analize.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
4
2. Metode međusovne zavisnosti
Ako nema osnova za podelu promenljivih na dva skupa (zavisne i nezavisne), tada se koriste
metode međuzavisnosti. U ove metode spadaju:
1. Analiza glavnih komponenti – služi za redukciju većeg broja promenljivih koje
posmatramo na manji broj novih promenljivih koje nazivamo glavne komponente.
Najčešće uz pomoć manjeg broja glavnih komponenata objašnjavamo najveći deo
varijanse originalnih promenljivih, što omogućava lakše razumevanje podataka. Zadatak
je napraviti linearnu kombinaciju originalnih promenljivih (glavnih komponenata) uz
uslov da one treba da obuhvate što je moguće veći iznos varijanse početnog skupa
promenljivih.
2. Faktorska analiza – slična je metodi glavnih komponenti, jer koristi opis varijacija
između promenljivih na osnovu manjeg broja promenljivih (nazivamo ih faktorima).
Međutim, za razliku od prethodne metode, faktorska analiza pretpostavlja postojanje
odgovarajućeg statističkog modela kojim originalnu promenljivu iskazujemo kao
linearnu kombinaciju faktora plus grešaka modela. Na ovaj način se celokupna
kovarijansa ili korelacija objašnjava zajedničkim faktorima, a neobjašnjeni deo se
pridružuje grešci – specifičnom faktoru. Ovde težimo da objasnimo kovarijansu,
odnosno onaj deo ukupne varijanse koji promenljiva deli sa ostalim promenljivama.
3. Analiza grupisanja – služi za redukciju podataka, ali za razliku od prethodne dve metode,
ona je orijentisana ka redovima matrice podataka (objektima). Ovom analizom
kombinujemo objekte u grupe relativno homogenih objekata, a zadatak je
identifikovanje manjeg broja grupa, tako da elementi koji pripadaju nekoj grupi budu što
sličniji jedan drugom.
4. Višedimenziono proporcionalno prikazivanje – orijentisano je ka objektima, a koristi
meru sličnosti, odnosno razlike između njih, u cilju njihovog prostornog prikazivanja.
Prostorna reprezentacija sadrži geometrijski raspored tačaka na mapi, gde se svaka
tačka odnosi na jedan od objekata. Ukoliko smo za računanje mere sličnosti koristili
kvanitativne promenljive, metodi dodajemo pridev kvantitativna, a ako smo koristili
kvalitativne, onda dodajemo pridev kvalitativna.
5. Loglinearni modeli – omogućuju ispitivanje međusobne zavisnosti kvalitativnih
promenljivih koje formiraju višedimenzionu tabelu kontigencije. Ukoliko je jedna od
promenljivih u tabeli zavisna, onda na osnovu ocenjenih loglinearnih modela možemo
izvesti logit modele. Ali, ovde se logit funkcija izražava preko ćelijskih frekvencija, za
razliku od logit modela.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
5
3. Vrste podataka i merne skale
Statistička obeležja mogu biti kvantitativna (merljiva) ili kvalitativna (nemerljiva). Kvantitativne
promenljive su one kod kojih se vrednosti razlikuju po veličini, a kvalitativne promenljive su one
kod kojih se vrednosti razlikuju po vrsti. Klasifikaciju metoda multivarijacione analize moguće je
izvršiti i prema vrsti podataka koji se koriste.
Kvantitativne promenljive Kvalitativne promenljive
Metode međuzavisnosti
Glavne komponente
Faktorska analiza
Analiza grupisanja
Kvantitativno višedimenziono
proporcionalno prikazivanje
Loglinearni modeli
Kvalitativno višedimenziono proporcionalno prikazivanje
Metode zavisnosti
Jedna zavisna promenljiva
Višestruka korelacija
Višestruka regresija
Diskriminaciona analiza (zavisna promenljiva je kvalitativna)
Logit analiza
Više zavisnih promenljivih
Višedimenziona regresija
Višedimenziona analiza varijanse
Kanonična korelaciona analiza
Kanonična korelaciona analiza sa veštačkim promenljivim
Merenja kvantitativnog obeležja iskazujemo na različitim skalama i u različitim jedinicama mere.
Ukoliko se jedinica mere može beskonačno deliti (primer: kilometri, metri, centimetri), tada
kažemo da je promenljiva neprekidna. Kada jedinica mere nije deljiva (primer: veličina
porodice), tada promenljivu nazivamo prekidnom. Najčešće korišćena skala kod kvantitativnih
promenljivih je skala odnosa. Ona ima sledeće osobine: količnik ma koje dve vrednosti ima
smislenu interpretaciju, rastojanje između dva objekta mereno na ma kom delu ove skale je
jednako i opservacijama pozicioniranim na ovoj skali mogu se dodeliti rangovi od višeg ka nižim.
Postoji i intervalna skala, koja nema fiksni početak. Temperaturna skala je primer intervalne
skale, a za nju važe samo poslednje dve osobine koje važe za skalu odnosa. Kod kvantitativnih
obeležja poslednji tip skale je ordinalna skala, za koju važi samo poslednja osobina.
Najniži nivo merne skale koriste kvalitativna obeležja i naziva se nominalna skala. Ona ne
omogućava ni rangiranje jedinica. Kod nje kategorijama pridružujemo vrednosti, kako bismo ih
kodirali radi lakše obrade. Primer: bračni status može imati kategorije: neoženjen, oženjen,
razveden, udovac, razdvojen – pridružujemo im vrednosti 1, 2, 3, 4 i 5.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
6
4. Kovarijaciona i korelaciona matrica slučajnog vektora X
Za ma koji par slučajnih promenljivih Xj i Xk definišemo kovarijansu: σjk = E[(Xj - µj)(Xk - µk)] – nju
označavamo i kao Cov(Xj, Xk), pri čemu je na osnovu definicije: Cov(Xj, Xj) = Var(Xj) i Cov(Xj, Xk) =
Cov(Xk, Xj) = σkj = σjk.
Za slučajan vektor X definišemo (p x p) simetričnu matricu kod koje je j-ti dijagonalni element σjj
= Var(Xj), a čiji je (j,k) – element σjk = Cov(Xj, Xk), j ≠ k. Ovu matricu nazivamo kovarijacionom
matricom od X i označavamo je kao Var(X) ili Cov(X), odnosno ∑. Tako je:
Cov(X) = ∑ = [σjk] = ([
𝜎11 𝜎12 ⋯ 𝜎1𝑝
𝜎21 𝜎22 ⋯ 𝜎2𝑝
⋮ ⋮ ⋱ ⋮𝜎𝑝1 𝜎𝑝2 ⋯ 𝜎𝑝𝑝
]) =
(
[
𝑉𝑎𝑟(𝑋1) 𝐶𝑜𝑣(𝑋1, 𝑋2) ⋯ 𝐶𝑜𝑣(𝑋1, 𝑋𝑝)
𝐶𝑜𝑣(𝑋1, 𝑋2) 𝑉𝑎𝑟(𝑋2) ⋯ 𝐶𝑜𝑣(𝑋2, 𝑋𝑝)
⋮ ⋮ ⋱ ⋮𝐶𝑜𝑣(𝑋1, 𝑋𝑝) 𝐶𝑜𝑣(𝑋2, 𝑋𝑝) ⋯ 𝑉𝑎𝑟(𝑋𝑝) ]
)
Kovarijacionu matricu možemo iskazati i kao očekivanu vrednost slučajne matrice. Za slučajan
vektor X sa sredinom µ definišemo (p x p) simetričnu slučajnu matricu kvadrata, odnosno
uzajamnih proizvoda odstupanja elemenata slučajnog vektora od odgovarajuće sredine.
Slučajna matrica je proizvod slučajnih vektora odstupanja od sredine, tj. (X - µ)(X - µ)’, pa je
njena očekivana vrednost:
E[(X - µ)(X - µ)’] = ∑
Koeficijent korelacije između dve slučajne promenljive Xj i Xk definišemo kao:
ρjk = 𝜎𝑗𝑘
√𝜎𝑗𝑗√𝜎𝑘𝑘
što predstavlja normalizovanu kovarijansu između Xj i Xk. On uzima vrednost iz intervala -1 do
+1. Ukoliko koeficijent korelacije uzme donju ili gornju graničnu vrednost, tada kažemo da
postoji perfektrna linearna veza između Xj i Xk.
Korelacionu matricu ρ možemo dobiti na osnovu poznate kovarijacione matrice, a njen (j,k) – ti
element definisan je gornjim izrazom. U matričnoj notaciji veza između korelacione i
kovarijacione matrice je data sa:
ρ = (D1/2)-1∑(D1/2)-1 =
(
[
1 𝜌12 ⋯ 𝜌1𝑝
𝜌21 1 ⋯ 𝜌2𝑝
⋮ ⋮ ⋱ ⋮𝜌𝑝1 𝜌𝑝2 ⋯ 1 ]
)
gde smo sa D označili dijagonalnu matricu koja sadrži elemente na glavnoj dijagonali
kovarijacione matrice ∑.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
7
5. Diskriminaciona analiza – osnovna ideja i ciljevi
Metod multivarijacione analize koji se bavi razdvajanjem različitih grupa i alokacijom
opservacija u unapred definisane grupe nazivamo diskriminaciona analiza.
Diskriminaciona analiza ima dva osnovna cilja. Prvi cilj je da se utvrdi da li postoji statistički
značajna razlika u sredinama dve ili više grupa, a zatim da odredi koja od promenljivih daje
najveći doprinos utvrđenoj razlici. Ovaj cilj analize nazivamo diskriminacija ili razdvajanje
između grupa. Drugi cilj se odnosi se na utvrđivanje postupka za klasifikaciju opservacija na
osnovu vrednosti nekoliko promenljivih u dve ili više razdvojenih, unapred definisanih grupa.
Ovaj cilj analize nazivamo klasifikacija ili alokacija opservacija.
Sa tehničke strane, osnovni cilj diskriminacione analize jeste formiranje linearnih kombinacija
nezavisnih promenljivih kojima će se diskriminacija između unapred definisanih grupa izvršiti
tako da greška pogrešne klasifikacije opservacija bude minimalna. Linearnom kombinacijom
nezavisnih promenljivih za svakog ispitanika formiramo broj koji se naziva diskriminacioni skor,
koji se zatim transformiše u verovatnoću da ispitanik potiče iz jedne od grupa. U opštem
slučaju, imamo da je:
Y = a’X
gde je Y diskriminacioni skor, dok je a p-dimenzioni vektor diskriminacionih koeficijenata
(koeficijenti linearne kombinacije), a X je p-dimenzioni vektor nezavisnih promenljivih.
Projekcija tačaka sa dijagrama rasturanja na y-osu generiše jednodimenzione rasporede
diskriminacionih skorova dveju populacija π1 i π2. Sredine diskriminacionih skorova za ove dve
grupe predstavljaju prvi, odnosno drugi centroid. Njihovim međusobnim poređenjem možemo
utvrditi koliko su grupe udaljene jedna od druge.
U diskriminacionoj analizi formiramo linearnu kombinaciju merljivih promenljivih, ali je zavisna
promenljiva nemerljiva (kvalitativna). Za razliku od regresione analize, ovde je zavisna
promenljiva fiksna (uzima vrednosti 0 i 1 ako razmatramo problem diskriminacije dve grupe), a
nezavisne promenljive su slučajne promenljive koje su normalno raspoređene.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
8
6. Metoda glavnih komponenata – osnovna ideja i ciljevi
Metod multivarijacione analize koji se koristi za smanjivanje dimenzije skupa podataka
(sačinjava ga veliki broj uzajamno korelisanih promenljivih) uz istovremeno zadržavanje
maksimalno mogućeg varijabiliteta koji je prisutan u tim podacima, naziva se metod glavnih
komponenata. Kažemo da ovaj metod pored toga što redukuje dimenziju skupa podataka
predstavlja i istraživačko sredstvo analize pomoću koga se generišu hipoteze o proučavanom
fenomenu.
Osnovni zadatak metode glavnih komponenata jeste određivanje one linearne kombinacije
originalnih promenljivih koja će imati maksimalnu varijansu. Drugi, opštiji zadatak ove metode
jeste određivanje nekoliko linearnih kombinacija originalnih promenljivih koje će, pored toga
što imaju maksimalnu varijansu, biti među sobom nekorelisane, gubeći u što je manje mogućoj
meri informaciju sadržanu u skupu originalnih promenljivih.
U ovom postupku, originalne promenljive se transformišu u nove promenljive koje nazivamo
glavne komponente. Prva glavna komponenta je konstruisana tako da obuhvata najveći deo
varijanse, a naredne onaj deo koji nije još uvek obuhvaćen.
Ovime se postižu dva cilja:
1. Vrši se redukcija originalnog skupa podataka
2. Olakšava se njihova interpretacija
Problem se može prikazati i grafički, koristeći proizvoljne linearne kombinacije.
Ako se zahteva reprezentovanje dvodimenzionalnog skupa samo jednom promenljivom, onda
bismo izabrali onu koja ima veći varijabilitet. Na osnovu promenljive sa većim varijabilitetom
možemo u većoj meri razlikovati pojedinačne opservacije dvodimenzionog skupa. U
ekstremnom slučaju kada sve tačke leže na pravoj normalnoj na X1 osu, tada je dovoljno
analizirati samo promenljivu X2, jer ona nosi svu informaciju o varijabilitetu dvodimenzionog
skupa podataka. Naš izbor koeficijenata se može opisati kao zadatak maksimiziranja varijanse
linearne kombinacije uz uslov da je zbir kvadrata koeficijenata linearne kombinacije jednak
jedinici. Geometrijski to znači da je vektor koeficijenata linearne kombinacije [α11, α12]’
jedinične dužine. Izborom koeficijenata, mi zapravo menjamo ugao pod kojim se projektuju
tačke na pravu liniju.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
9
7. Definicja i osobine glavnih komponenata
Pretpostavimo da je X p – dimenzioni slučajan vektor sa kovarijacionom matricom ∑. Neka je Y1
= α11X1 + α12X2 + ... + α1pXp = α’1X linearna kombinacija elemenata slučajnog vektora X, gde su
α11, α12, ... , α1p koeficijenti linearne kombinacije. Poznato je da je Var(Y1) = α’1∑ α1, pa je naš
zadatak da odredimo vektor koeficijenata α1 tako da se maksimizira varijansa od Y1. Pri tome
vodimo računa o ograničenju da je vektor koeficijenata jedinične dužine – α’1α1 = 1.
Problem se rešava pomoću maksimizacije Lagranžove funkcije:
α’1∑α1 – λ(α’1α1 – 1)
gde je λ Lagranžov činilac. Diferenciranjem Lagranžove funkcije po koeficijentima α1, a zatim
izjednačavanjem dobijenog izraza sa nulom, dobijamo:
∑α1 - λα1 = 0
ili
(∑ - λI)α1 = 0
gde je I (p x p) jedinična matrica. Da bi se dobilo netrivijalno rešenje za α1 determinanta |∑ - λI|
mora biti jednaka nuli. Pošto težimo da maksimiziramo varijansu, za λ ćemo uzeti najveći
karakteristični koren, a njemu je pridružen odgovarajući vektor α1. Ako nam je zadatak da
odredimo više od jedne linearne kombinacije, tada postupamo kao i u ovom slučaju, pri čemu
uzimamo dodatni uslov da kovarijansa prve i druge glavne komponente bude jednaka nuli.
Glavne komponente imaju sledeće osobine:
E(Yj) = 0, Var(Yj) = λj, Cov(Yi,Yj) = 0, i ≠ j
Var(Y1) ≥ Var(Y2) ≥ ... ≥ Var(Yp) ≥ 0
Takođe, može se dokazati da su generalizovane varijanse glavnih komponenata jednake
generalizovanim varijansama originalnog skupa promenljivih. Neka je, dakle, Y vektor glavnih
komponenata takav da je Y’ = [Y1, Y2, ... , Yp]. Sada se transformacija originalnog skupa
promenljivih sadržanog u vektoru X može pisati na sledeći način: Y = AX, gde je A matrica čiji su
redovi karakteristični vektori kovarijacione matrice ∑. Matrica A ima osobinu da je A’ = A-1, pa
se Y = AX naziva ortogonalna transformacija ili rotacija, a sama matrica A se naziva
ortogonalnom matricom, a njena osobina je i da je |A| = ± 1. Transformacija se naziva
ortogonalnom, jer se njome vrši rotacija koordinatnih osa za određen ugao, pri čemu ose ostaju
normalne jedna na drugu, a ugao između bilo koja dva vektora nakon rotacije ostaje isti.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
10
8. Izbor broja glavnih komponenata
Jedan od ciljeva analize glavnih komponenata jeste redukcija početnog skupa podataka. Umesto
velikog broja promenljivih u daljoj analizi se koristi samo manji broj glavnih komponenata koje u
najvećoj meri treba da obuhvate varijansu početnog skupa podataka. Postoje brojni pristupi koji
se tiču odabira odgovarajućeg broja glavnih komponenata.
Prvi pristup polazi od fiksiranja kumulativne proporcije ukupne varijanse koja je „objašnjena“
izdvojenim skupom glavnih komponenata. Obično se izabere proporcija od 80% ili 90% ukupne
varijanse, pa se broj zadržanih glavnih komponenata povećava dok se ne postigne ovaj
kriterijum.
Drugi pristup sugeriše da treba zadržati one glavne komponente čija varijansa (λj) je veća od
prosečne vrednosti
�̅� = ∑𝜆𝑗
𝑝
𝑝𝑗=1 .
Ako umesto kovarijacione koristimo korelacionu matricu, tada je prosečna vrednost varijanse
jednaka jedinici, što znači da bi kriterijum glasio: treba zadržati one glavne komponente kod
kojih je varijansa veća od jedinice.
Prema trećem pristupu u kriterijumu izbora neophodno je koristiti geometrijsku sredinu.
Generalizovana varijansa je jednaka proizvodu karakterističnih korena, odnosno
∏ 𝜆𝑗𝑝𝑗=1 .
Ako dobijenu vrednost dignemo na stepen 1 / p dobićemo geometrijsku sredinu karakterističnih
korena. Prosečna generalizovana varijansa data je geometrijskom sredinom karakterističnih
korena, pa zadržavamo one komponente čiji je karakteristični koren veći od geometrijske
sredine svih karakterističnih korena.
Poslednji pristup se zasniva na grafičkom prikazu vrednosti karakterističnih korena prema
njihovom rednom broju. Ovaj dijagram se naziva „scree test“ – prelom na krivoj se određuje
tako što se lenjir prisloni uz poslednje vrednosti karakterističnog korena proveravajući da li one
leže na pravoj liniji. Broj glavnih komponenata određujemo tako što uočavamo tačku nakon
koje spomenuta prava ima prelom, pri čemu se krećemo od većeg ka manjem rednom broju
glavne komponente. Broj glavnih komponenata zapravo predstavlja redni broj glavne
komponente čija vrednost karakterističnog korena kao poslednja leži na pravoj liniji.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
11
9. Faktorska analiza – osnovna ideja i ciljevi
Metod multivarijacione analize koji se koristi za opisivanje međusobne zavisnosti velikog broja
promenljivih korišćenjem manjeg broja osnovnih, ali neopažljivih slučajnih promenljivih
poznatih kao faktori naziva se faktorska analiza. U faktorskoj analizi nas zanimaju
vandijagonalni elementi (kovarijanse), za razliku od analize glavnih komponenata. Faktorska
analiza podrazumeva postojanje teorijskog modela kojim se uspostavlja relacija između
opservacija dimenzione promenljive i manjeg broja zajedničkih faktora.
Osnovna ideja faktorske analize sastoji se u sledećem – ona je razvijena kako bi se lakše
analizirali rezultati određenih testova. Ako za primer uzmemo test inteligencije, zadatak
faktorske analize je da utvrdi da li se inteligencija sastoji iz jednog opšteg faktora ili od nekoliko
zajedničkih faktora.
Rezultate svih testova (Xi) moguće je iskazati u obliku:
Xi = βiF + εi, i = 1, 2, 3, ... , n
U ovom modelu F je zajednički faktor, a βi su koeficijenti koje nazivamo faktorska opterećenja,
a εi su slučajne greške, odnosno specifični faktori. Rezultati ovih testova mogu se
dekomponovati na dva dela, pri čemu se jedan odnosi na sve testove (F), a drugi je specifičan za
svaki test (εi).
Kasnija istraživanja su proširila prvobitni model, te je uvedeno nekoliko zajedničkih faktora, a
specifičan faktor je razložen na dva dela. Dakle, faktorska analiza služi za redukciju originalnog
skupa podataka – koristimo je da bismo identifikovali zajedničku strukturu koja je generisala
dobijeni skup korelisanih originalnih promenljivih. To je istraživačka primena faktorske analize,
ona se koristi u deskriptivne svrhe. Druga primena se tiče istraživanja gde posedujemo već neku
teorijsku informaciju o zajedničkoj strukturi, a faktorsku analizu koristimo kako bismo testirali
hipoteze o broju zajedničkih faktora. Dakle, ona se ovde koristi kako bi se potvrdila, odnosno
negirala hipoteska struktura podataka.
Za razliku od analize glavnih komponenata, faktorska analiza polazi od razlagaja promenljive na
dva dela: zajednički i specifični. Zajednički deo je onaj deo varijacija promenljive koji ona deli sa
ostalim promenljivama, dok je specifilan onaj deo varijacija koji je poseban za tu promenljivu.
Faktorska analiza izučava deo varijacija koji je zajednički za sve, a analiza glavnih komponenata
ukupan varijabilitet.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
12
10. Model faktorske analize
Pretpostavimo da je X p – dimenzioni vektor opažljivih promenljivih sa sredinom µ i
kovarijacionom matricom ∑. Model faktorske analize pretpostavlja da se X, vektor opažljivih
promenljivih, može izraziti preko skupa od m neopažljivih promenljivih, koje nazivamo
zajednički faktori, u oznaci F1, F2, ... ,Fm, gde je m << p i p specifičnih, ali neopažljivih faktora, u
oznaci ε1, ε2, ... , εp. Model u razvijenog obliku dat je sledećim jednačinama:
(X1 - µ1) = β11F1 + β12F2 + ... + β1mFm + ε1
(X2 - µ2) = β21F1 + β22F2 + ... + β2mFm + ε2
(Xp - µp) = βp1F1 + βp2F2 + ... + βpmFm + εp
ili ekvivalentno u matričnoj notaciji:
X - µ = B F + ε
(px1) (pxm) (mx1) (px1)
gde je:
𝑿 − 𝝁 = [
𝑋1 − 𝜇1
𝑋2 − 𝜇2
⋮𝑋𝑝 − 𝜇𝑝
], 𝑭 = [
𝐹1
𝐹2
⋮𝐹𝑚
], 𝜺 = [
𝜀1
𝜀2
⋮𝜀𝑝
], 𝑩 = [
𝛽11 𝛽12 ⋯ 𝛽1𝑚
𝛽21 𝛽22 … 𝛽2𝑚
⋮ ⋮ ⋱ ⋮𝛽𝑝1 𝛽𝑝2 ⋯ 𝛽𝑝𝑚
]
Elementi matrice B nazivaju se faktorska opterećenja i-te promenljive na j-ti faktor, a sama
matrica se naziva matrica faktorskih opterećenja. Na prvi pogled, model faktorske analize više
liči na model višestruke regresije. Međutim, ovde p odstupanja (X1 - µ1), ... , (Xp - µp) izražavamo
preko m + p slučajnih promenljivih F1, F2, ... , Fm i 𝜀1, 𝜀2, ... , 𝜀𝑝 koje su neopažljive, za razliku od
regresionog modela gde su nezavisne promenljive opažljive.
Dodajemo dodatna ograničenja, vezana za zajedničke faktore:
E(F) = 0, Cov(F) = E(FF’) = Φ
Što se specifičnih faktora tiče, njihova očekivana vrednost je jednaka nuli, a kovarijaciona
matrica dijagonalna:
E(ε) = 0, Cov (ε) = E(εε’) = Ψ = [
𝛹1 0 ⋯ 00 𝛹2 … 0⋮ ⋮ ⋱ ⋮0 0 ⋯ 𝛹𝑝
]
Takođe, pretpostavlja se da su zajednički faktori nezavisni od specifičnih, odnosno da je:
Cov(ε, F) = E(εF’) = 0
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
13
Vezu između odstupanja opažljivih promenljivih od njihove sredine i neopažljivih faktora
zajedno sa navedenim pretpostavkama i ograničenjima nazivamo model faktorske analize. Ovaj
model omogućava razlaganje kovarijacione matrice ∑ na:
∑ = BB’ + Ψ
Korelacionu matricu promenljivih X i faktora F nazivamo matricom faktorske strukture.
Na osnovu razlaganja kovarijacione matrice, imamo da je varijansa i – te promenljive:
Var(Xi) = σii = βi12 + βi2
2 + ... + βim2 + Ψi = ∑ 𝛽𝑖𝑗
2𝑚𝑗=1 + Ψi , i = 1, 2, ... , p
Znači da je varijansa i-te originalne promenljive podeljena na dva dela. Prvi deo je varijansa
objašnjena zajedničkim faktorima i nazivamo ga zajednička varijansa ili komunalitet (u oznaci
hi2), a drugi deo nazivamo specifična varijansa (u oznaci Ψi).
Imamo da je jedinična varijansa standardizovane promenljive jednaka:
Var(Xi) = 1 = hi2 + Ψi
Takođe, generalizovana varijansa od X je:
tr(∑) = ∑ 𝜎𝑖𝑖𝑝𝑖=1 = + ∑ ∑ 𝛽𝑖𝑗
2𝑚𝑗=1
𝑝𝑖=1 + ∑ 𝜓𝑖
𝑝𝑖=1
Ako sa h označimo ukupan komunalitet od X, tada je:
tr(∑) = h + tr(Ψ)
što znači da je ukupna ili generalizovana varijansa od X jednaka zbiru ukupnog komunaliteta i
ukupne varijanse specifičnih faktora.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
14
11. Određivanje broja faktora
Iako se faktorska analiza razlikuje od metode glavnih komponenata, postupci izbora broja
glavnih komponenata se koriste i prilikom određivanja broja faktora. Najpoznatiji je kriterijum
jediničnog korena gde zadržavamo u modelu onoliko zajedničkih faktora koliko ima
karakterističnih korena uzoračke korelacione matrice koji su veći od jedinice. Ovo se koristi kada
je broj promenljivih između 20 i 50, ali ako je broj promenljivih veći od 50, tada ovaj kritetijum
bira previše zajedničkih faktora, a ako je broj ispod 20, tada bira mnogo mali broj zajedničkih
faktora.
Za određivanje broja faktora može se koristiti i „scree test“ koji izdvaja veći broj faktora nego
prethodni metod. Preporuka je da se koristi više od jednog metoda za odabir broja faktora.
Moguće je koristiti i određene statističke testove za određivanje broja odgovarajućih faktora,
pri čemu za veliki broj zajedničkih faktora statistika testa nije pouzdana, pa se zato predlaže da
se koristi postupak korak po korak, tako što će analiza započeti sa jednim zajedničkim faktorom,
pa se potom broj faktora povećava za po jedan sve dok se ne prihvati nulta hipoteza, koja glasi:
H0: BB’ + Ψ (alternativna hipoteza je: H1: ∑) ili dok broj stepena slobode ne postane negativan.
Mora se ipak proveriti da li je uopšte potrebno sprovesti faktorsku analizu, pošto ukoliko je
kovarijaciona matrica dijagonalna, to znači da su originalne promenljive međusobno
nekorelisane, pa nema potrebe za faktorskom analizom. Zato se prvo proverava da li se može
odbaciti hipoteza o sferičnosti.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
15
12. Rotacija faktora
U faktorskoj analizi ortogonalnu transformaciju matrice faktorskih opterećenja i time
impliciranu ortogonalnu transformaciju faktora (faktorskih osa) nazivamo rotacija faktora ili
preciznije ortogonalna rotacija faktora. Napuštanjem zahteva da rotirani faktori moraju
međusobno biti ortogonalni, razvijeni su postupci tzv. neortogonalne rotacije faktora. Postupak
se primenjuje u cilju dobijanja takve matrice faktorskih opterećenja koja će olakšati
interpretaciju faktora. Izbor ugla za koji ćemo rotirati faktore opredeljen je jednim od
kriterijuma, a najčešće se koristi onaj pod nazivom jednostavna struktura.
Kod jednostavne strukture pokušavamo da postignemo mali broj visokih vrednosti faktorskih
opterećenja i veliki broj niskih vrednosti faktorskih opterećenja. Istraživač potom interpretira
niske vrednosti kao nule, a visoke kao vrednosti različite od nule.
Ortogonalna rotacija faktora ne menja međusobni odnos faktorskih osa, one su i dalje
ortogonalne. Ona se po tome razlikuje od neortogonalne rotacije faktora kod koje nema tog
ograničenja, jer se faktorske ose rotiraju nezavisno jedna od druge.
Neka je T ortogonalna matrica kojom smo transformisali ocenjenu matricu faktorskih
opterećenja �̂�. Znači da je �̂� = �̂�𝑻, pri čemu je T’T = TT’ = I, gde matricu �̂� nazivamo ocenjena
matrica rotiranih faktorskih opterećenja.
Najčešće korišćenjen analitički metod ortogonalne rotacije faktora je Kaiserov varimax metod.
Kod njega posmatramo kvadrate elemenata matrice �̂� u j-oj koloni. Sabirajući vrednosti
varijansi kod svih m faktora dobijamo sirov varimax kriterijum, a na osnovu njega dobijamo
normalan varimax kriterijum. Postupak primene varimax i drugih kriterijuma jednostavnosti
strukture je iterativan proces. Izdvojeni faktori se posmatraju po parovima i vrši se njihova
rotacija dok se ne postigne maksimalna vrednost varimax kriterijuma za prvi par faktora. Zatim
se prvi rotirani faktor u paru sa trećim, nerotiranim faktorom, rotira do postizanja maksimuma
svih varimax kriterijuma. Postupak se ponavlja sve dok se svih m(m-1)/2 parova faktora na
navedeni način rotiraju. Ovaj niz rotacija se naziva ciklus. On se ponavlja sve dok se ne postigne
da su svi uglovi dobijeni za parove faktora manji od unapred izabrane vrednosti, koja
predstavlja kriterijum konvergencije.
Za rotaciju se koriste i druge metode, kao što je quatrimax kriterijum prema kome se kao
indikator jednostavnosti strukture uzima suma varijansi kvadrata svih elemenata matrice �̂�. Ova
metoda obično rezultira u opštem faktoru, jer se varijansa računa na osnovu svih elemenata
matrice faktorskih opterećenja.
Postoji i tzv. ortomax metod koji se zasniva na ponderisanom proseku sirovog varimax i
quatrimax kriterijuma i on predstavlja generalizaciju ortogonalnih kriterijuma rotacije. Posebni
slučajevi ovog kriterijuma su biquatrimax i equamax kriterijum.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
16
13. Interpretacija faktora
Pre nego što se pristupi interpretaciji faktora mora se odgovoriti na sledeće pitanje: koji se od
ocenjenih elemenata matrice faktorskih opterećenja mogu smatrati statistički značajnim? Na
raspolaganju je nekoliko iskustvenih kriterijuma.
Prvi je proistekao iz iskustva velikog broja istraživača u primeni modela faktorske analize. Oni su
sugerisali da se svi koeficijenti faktorskih opterećenja čija je apsolutna vrednost veća od 0.30,
smatraju statistički značajno različitim od nule. Kod veličine uzorka od 50 i više elemenata, ovaj
kriterijum se pokazao prihvatljivim.
Drugi kriterijum je zasnovan na činjenici da je kod ortogonalnog modela faktorske analize,
matrica faktorskih opterećenja identična matrici faktorske strukture. Kako su elementi ove
druge matrice koeficijenti korelacije promenljivih sa faktorima, tako nam njihova visoka
vrednost govori da odnosna promenljiva opredeljuje faktor sa kojim je korelisana. Zato se
testovi statističke značajnosti koeficijenata korelacije direktno primenjuju na elemente matrice
faktorskih opterećenja. Tako, na primer, za t-test za testiranje hipoteze o nultoj vrednosti
koeficijenta korelacije sugeriše, za uzorke veličine 100 elemenata i na nivou značajnosti od 5% i
1%, da se smatraju statistički značajnim ona faktorska opterećenja čija je apsolutna vrednost
veća od 0.19 i 0.26 respektivno.
Navedeni kriterijumi u obzir ne uzimaju broj promenljivih u analizi, kao i redosled faktora čija
opterećenja preispitujemo sa stanovišta značajnosti.
Postupak interpretacije faktora je sledeći: posmatramo matricu faktorskih opterećenja po
redovima, zaokružujemo koeficijente sa najvećom apsolutnom vrednošću u prvom redu, pa
prelazimo u red ispod i tako postupamo sa svim preostalim redovima matrice. Nakon toga
proveravamo značajnost zaokruženih faktorskih opterećenja korišćenjem nekog od prethodno
navedenih kriterijuma, pa podvučemo statistički značajna faktorska opterećenja. Idealna
situacija je kada se broj zaokruženih i podvučenih koeficijenata poklapa, jer tada svaka
promenljiva pripada samo jednom faktoru. Svakom faktoru potom pridružujemo naziv, s
obzirom na strukturu faktora, tj. listu promenljivih koje su visoko korelisane sa tim faktorom.
Moguća su još dva slučaja, da postoji manji broj podvučenih od zaokruženih koeficijenata. To
znači da se neka od promenljivih nije pridružila jednom od izdvojenih faktora. Tada možemo
zanemariti datu promenljivu ili preispitati njen značaj koristeći njen komunalitet.
Druga situacija je da postoji veći broj statistički značajnih faktorskih opterećenja u jednom redu.
To znači da je promenljiva korelisana sa više faktora, što otežava interpretaciju. To se najćešće
dešava kada imamo nerotiranu matricu faktorskih opterećenja.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
17
14. Analiza grupisanja – osnovna ideja i ciljevi
Metod multivarijacione analize koji se koristi za grupisanje objekata u grupe, tako da su objekti
unutar grupe sličniji međusobno, a između grupa znatno različiti, naziva se analiza grupisanja.
Da bi odgovorila ovom zadatku, analiza grupisanja zahteva definisanje mere bliskosti dva
objekta na osnovu njihovih karakteristika. Osnovni zadatak analize grupisanja je nalaženje
prirodnog grupisanja skupa objekata ili osboa. Grupisanje objekata je zasnovano na različitim
karakteristikama koje merimo kod svakog objekta. Ako smo merili dve karakteristike kod svakog
objekta, možemo se poslužiti dijagramom rasturanja u cilju određivanja grupa objekata. Na
njemu su objekti unutar grupe slični međusobno (tačke su bliže jedna drugoj), a objekti u
različitim grupama različiti (tačke u prostoru su na većoj razdaljini).
Postoji i definicija grupa na osnovu kriterijuma bliskosti, pa se prema njemu smatra da objekti u
grupi treba da budu bliži jedni drugima, nego objektima u drugim grupama.
Pored grafičkih metoda, koriste se i analitički postupci na osnovu kojih se prema skupu
formalnih pravila vrši grupisanje objekata u grupe. Polaznu osnovu čine podaci uređeni u
matricu podataka sa n redova (objekata) i p kolona (promenljivih). Elementi u i-om redu odnose
se na različite karakteristike i-og objekta i formiraju njegov profil, dok elementi u j-oj koloni
predstavljaju vrednosti j-te karakteristike koju različiti objekti uzimaju. Na osnovu ove matrice
podataka, formiramo (m x n) matricu bliskosti čiji elementi mere stepen sličnosti i razlike
između svih parova profila iz matrice podataka. Ona se označava sa P, a njeni elementi su prs,
gde je r,s = 1,2, ... , n, a predstavljaju meru bliskosti između r-tog i s-tog objekta.
Nakon formiranja matrice bliskosti, vršimo izbor matrice grupisanja. Metodi grupisanja su skup
pravila pridruživanja objekata u grupe na osnovu mere bliskosti između objekata. Najčešće su
korišćene hijerarhijske metode grupisanja kod kojih se u svakoj iteraciji objekti pridružuju
prethodno formiranim grupama ili sa drugim objektom prave novu grupu. Ovakva struktura
predstavlja hijerarhijsko drvo. Hijerarhijsku strukturu možemo formirati udruživanjem ili
deobom.
Ciljevi analize grupisanja su:
1. Istraživanje podataka – otkrivamo strukturu skupa objekata na osnovu analize
grupisanja.
2. Redukcija podataka – interes je formirati manji broj grupa objekata.
3. Generisanje hipoteza – analiza grupisanja nam pomaže da definišemo hipotezi o
strukturi podataka.
4. Predviđanje – grupe dobijene u analizi grupisanja možemo koristiti u kasnijim
istraživanjima u svrhe predviđanja.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
18
15. Hijerarhijski i nehijerarhijski metodi grupisanja
Hijerarhijski metodi
Hijerarhijski metodi grupisanja se mogu svrstati u dve grupe prema tome da li su zasnovani na
iterativnom spajanju ili deljenju grupa i objekata. U prvom metodu, od n grupa težimo da
napravimo jednu grupu, kod drugog se metod kreće u suprotnom smeru – od jedne grupe koja
sadrži sve objekte težimo da iz iste, po određenom kriterijumu, izdvajamo po jedan objekat ili
grupu dok se ne formira onoliko grupa koliko ima individualnih objekata.
Najčešće korišćeni metodi grupisanja pripadaju hijerarhijskim metodama udruživanja, a izdvaja
se metod povezivanja. Kod metode jednostrukog povezivanja polazi se od matrice odstojanja,
bira se elemenat koji je najmanji i odgovarajuća dva objekta se udružuju u jednu grupu. Sada se
određuje odstojanje nove grupe od ostalih objekata. U drugoj iteraciji, ponovo biramo najmanji
element matrice – može se desiti da su neka druga dva objekta bliža međusobno ili da je jedan
objekat bliži ranije formiranoj grupi. U prvom slučaju se formira nova grupa, a u drugom se
element pridružuje ranije formiranoj grupi. Postupak se nastavlja dok se svi objekti ne udruže u
jednu grupu. Ovaj metod povezuje objekte na osnovu najkraćeg odstojanja između njih.
Kod metode potpunog povezivanja koraci su identični kao kod metode jednostrukog
povezivanja, razlika se javlja jedino u načinu određivanja odstojanja između grupa, jer se kod
ove metode odstojanje određuje prema najvećem odstojanju objekata koji pripadaju dvema
grupama.
Postoji i tzv. metod prosečnog povezivanja, gde su koraci, ponovo identični, a odstojanje se
određuje prema prosečnom odstojanju svih objekata koji pripadaju dvema grupama.
Preostala dva metoda hijerarhijskog udruživanja su metod centroida i metod minimalne sume
kvadrata (Wardov metod). Kod metoda centroida dve grupe se udružuju u novu ako su njihovi
centroidi najmanje udaljeni međusobno u odnosu na međusobnu udaljenost svih mogućih
parova grupa koji postoje na datom nivou. Kod Ward-ovog metoda dve grupe se spajaju u
jednu, ako je njihovim udruživanjem došlo do najmanjeg povećanja sume kvadrata unutar
grupa u odnosu na povećanje sume kvadrata do koga je došlo udruživanjem bilo koje dve druge
grupe.
Hijerarhijski metodi se prikazuju pomoću hijerarhijskog drveta, a ako uz njega navedemo i skalu
na kojoj su navedene vrednosti mere odstojanja u svakom koraku udruživanja grupa, tada
dobijamo dendogram. Na osnovu njega možemo formirati izvedenu matricu odstojanja. Ovde
koristimo i kofenetički koeficijent koji je običan koeficijent korelacije između originalnih i
izvedenih mera odstojanja.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
19
Nehijerarhijski metodi
Nehijerarhijski metodi dozvoljavaju premeštanje objekata iz ranije formiranih grupa. Do
premeštanja će doći ukoliko to sugeriše izabrani kriterijum optimalnosti. U primeni ovih metoda
se pretpostavlja da je broj grupa unapred poznati ili ga menjamo tokom postupka grupisanja.
Postupak nehijerarhijskog grupisanja počinje podelom skupa objekata u izabran broj grupa.
Alternativna podeli objekata je određivanje inicijalne klice, odnosno centroida za svaku grupu.
Potom se određuje odstojanje između svakog objekta i grupe. Objekti se razmeštaju u grupe
koje su najbliže, nakon pridruživanja se izračunava centroid grupe iz koje je objekat izašao i
grupe u kojoj se objekat pridružio. Ponovo se izračunava rastojanje od centroida grupa i vrši se
preraspodela objekata, sve dok izabrana funkcija kriterijuma to zahteva. Najpopularniji metod
je metod k-sredina, prema kome objekat pridružujemo grupi koja ima najbliži centroid.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
20
16. Hi-kvadrat test nezavisnosti
Postupak nazvan hi-kvadrat test se upotrebljava u većini slučajeva ako se radi o kvalitativnim
podacima ili ako tim podacima distribucija značajno odstupa od normalne. Već u početku treba
naglasiti da se hi-kvadrat test računa samo s frekvencijama, pa u račun nije dopušteno unositi
nikakve merne jedinice. Osnovni podaci istraživanja mogu biti i merne vrednosti, ali u hi-kvadrat
unose se samo njihove frekvencije.
Hi-kvadrat test je vrlo praktičan test koji može poslužiti onda kad želimo utvrditi da li neke
dobijene (opažene) frekvencije odstupaju od frekvencija koje bismo očekivali pod određenom
hipotezom. Kod ovog testa nekada tražimo postoji li povezanost između dve varijable i on
pokazuje verovatnoću povezanosti. Možemo pretpostaviti da neka teorijska raspodela dobro
opisuje opaženu raspodelu frekvencija. Da bismo tu pretpostavku (hipotezu) proverili,
primenjujemo ovaj test.
Često želimo znati da li se opažene frekvencije značajno razlikuju od očekivanih frekvencija. Ta
razlika se računa se prema sledećoj formuli:
𝜒2 = ∑(𝑓0 − 𝑓𝑖)
2
𝑓𝑖
pri čemu f0 znači opažene frekvencije, a ft očekivane (teoretske) frekvencije, tj. frekvencije koje
bismo očekivali pod nekom određenom hipotezom. Broj stepeni slobode ν definisan je kao broj
nezavisnih varijabli uključenih u računanje χ2.
Nulta hipoteza (H0) glasila bi: „Opažene frekvencije slede teorijsku raspodelu.“, dok bi
alternativna hipoteza (H1): „Opažene frekvencije ne slede teorijsku raspodelu.“ Nulta hipoteza
se odbacuje za ako test značajnosti pokaže da su podaci nekonzistentni sa testom, odnosno za
graničnu vrednost testa. Značajnost testa α je verovatnoća odbacivanja nulte hipoteze kada je
ona istinita.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
21
17. Testiranje koeficijenta korelacije
Pirsonov r-test je test koji se najčešće koristi kako bi se testirao koeficijent korelacije. Sledeća
formula služi za izračunavanje zadatog koeficijenta:
𝑟 =𝑁 ∑𝑥𝑦 ∑(𝑥)(𝑦)
√[𝑁 ∑𝑥2 − ∑(𝑥)2][𝑁 ∑𝑦2 − ∑(𝑦)2]
pri čemu je:
r – Pirosnov (Pearson) koeficijent
N – broj opservacija
x, y – zadate promenljive
Ovaj test se može upotrebiti u slučajevima kada želimo da otkrijemo da li postoji statistički
značajna razlika između dve promenljive – za primer možemo uzeti vezu između starosti i
visine, temperature i prodaje sladoleda, zadovoljstva radnim mestom i zarade i sl.
Obe promenljive treba da imaju normalnu raspodelu.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
22
18. T-test nezavisnih uzoraka
Najčešće upotrebljavan parametarski test značajnosti za testiranje nulte hipoteze je Studentov
t-test. Koristi se za testiranje značajnosti razlika između dve aritmetičke sredine.
Uslovi za primenu t-testa:
1. Obe varijable koje se testiraju moraju biti numeričke.
2. Ukoliko je veličina uzorka manja od 30 jedinica, raspored treba biti normalan ili bar
simetričan.
Za njegovo realizovanje potrebno je poznavati parametre statističkog skupa: veličinu uzorka (n),
standardnu devijaciju (SD), i aritmetičku sredinu (�̅�).
Nije potrebno poznavanje varijanse osnovnog skupa, pa je ovaj tip testa praktičniji od z – testa,
jer se testiranje hipoteze o aritmetičkoj sredini osnovnog skupa najčešće odvija u uslovima kada
je varijansa osnovnog skupa nepoznata. U tim uslovima varijansu osnovnog skupa
procenjujemo na osnovu varijanse uzorka, odnosno grešku ocene aritmetičke sredine osnovnog
skupa izračunavamo na osnovu standarne devijacije uzorka po obrascu:
𝑆𝐺 = 𝑆𝐷𝑢𝑧
√𝑛 − 1
gde je n-1 stepen slobode. Pod uslovom da osnovni skup uma normalan raspored ili da je n>30,
a varijansa osnovnog skupa nije poznata, testiranje hipoteze zasniva se na statistici Studentovog
t-testa, koji se izračunava po obrascu:
𝑡 = �̅�𝑢𝑧 − �̅�𝑜𝑠
𝑆𝐷𝑢𝑧
√𝑛 − 1
gde je X osnovnog skupa hipotetična, unapred poznata vrednost.
Ako je realizovana t-vrednost manja od granične tablične vrednosti za odgovarajući broj
stepena slobode i prag značajnosti, nulta hipoteza se prihvata kao tačna, a odbacuje
alternativna hipoteza. Obrnuto, ako je realizovana t-vrednost jednaka ili veća od granične
tablične vrednosti, za odgovarajući broj stepena slobode i prag značajnosti, nulta hipoteza se
odbacuje kao netačna, a prihvata se alternativna hipoteza.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
23
19. Man-Vitnijev test
Ovaj test se primenjuje za testiranje hipoteze o jednakosti neprekidnih raspodela za obeležja X i
Y na osnovu dva slučajna uzorka (X₁,X₂, ... ,Xm) i (Y₁,Y₂, ... ,Yn) pri čemu je n≥m. Efikasniji je od t –
testa (0,95) kod raspodela koje su različite od normalne i slične efikasnosti kod normalne
raspodele, pri čemu je:
H₀(Fx(x) = Fy(x))
H₁(Fx(x) ≠ Fy(x)).
Pri testiranju se formira objedinjeni uzorak sortiran u neopadajućem poretku.
Jedan od načina da se izračuna vrednost statistike U je da se saberu svi rangovi elemenata X i
svi rangovi elemenata Y. Tada se vrednost test – statistike računa na osnovu jedne od ove dve
formule:
𝑈 = 𝑅𝑥 −𝑚(𝑚 + 1)
2
𝑈 = −𝑅𝑦 + 𝑚𝑛 +𝑛(𝑛 + 1)
2
𝑈1 + 𝑈2 = 𝑚𝑛
Aproksimacija normalnom raspodelom je dobra već za m,n ≥ 8. Ako su obimi uzoraka manji od
8, koriste se posebne tablice.
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
24
20. Analiza varijanse (ANOVA)
Često je potrebno porediti i više od dve grupe različitih ispitanika (grupe različitih sportista,
odeljenja u školi, klubova u nekom takmičenju i sl.). U takvim slučajevima koristi se statistička
metoda poznata kao Analiza varijanse ili ANOVA (engl. Analysis of Variance). Izbor ispitanika u
grupama treba da bude slučajan i nezavisan, a varijabiliteti rezultata u populacijama analiziranih
grupa treba da budu statistički jednaki. Rezultati grupa ispitanika treba da budu normalno
distribuirani, odnosno da ne odstupaju statistički značajno od normalne distribucije.
Osnovna logika analize varijanse sastoji se u tome da se testira odnos varijabiliteta rezultata
između grupa i varijabiliteta unutar grupa ispitanika.
Ako se analizira položaj nekog rezultata (X) u masi svih rezultata, može se zaključiti da se on
sastoji iz dve komponente:
1. Varijabiliteta unutar grupe – odstupanja u odnosu na aritmetičku sredinu svoje grupe.
2. Varijabiliteta između grupa - odstupanja aritmetičke sredine kojoj pripada rezultat od
zajedničke aritmetičke sredine.
U analizi varijanse važna je tzv. suma kvadrata odstupanja rezultata od odgovarajuće
aritmetičke sredine, odnosno varijansa.
Za sve ispitanike suma kvadrata je:
𝑆𝑆𝑇 = ∑(𝑋𝑖 − 𝐴𝑆𝑡𝑜𝑡)2
𝑛
𝑖=1
Suma kvadrata unutar grupa je:
𝑆𝑆𝑢𝑔 = ∑(𝑋𝑖𝑔 − 𝐴𝑆𝑔)2
𝑁𝑔
𝑖=1
Suma kvadrata između grupa je:
𝑆𝑆𝑏𝑔 = ∑𝑁𝑔(𝐴𝑆𝑔 − 𝐴𝑆𝑡𝑜𝑡)2
Odnos svih suma kvadrata je:
𝑆𝑆𝑇 = 𝑆𝑆𝑏𝑔 + 𝑆𝑆𝑢𝑔
Linearni statistički modeli – skripta za pitanja | Fakultet organizacionih nauka
25
Testira se nulta hipoteza H0 : ASg = AStot, odnosno da je varijabilitet oko zajedničke aritmetičke
sredine (MSb) statistički jednak varijabilitetu oko aritmetičkih sredina grupa (MSu). To testiranje
vrši se F-odnosom:
𝐹 = 𝑀𝑆𝑏
𝑀𝑆𝑢
Kada je nulta hipoteza odbačena, tada se može računati t-testom između kojih parova grupa
postoji statistički značajna razlika. F-odnos ili F test, ima očekivanu vrednost 1, a veća vrednost
od određene granične vrednosti ukazuje na postojanje statistički značajne razlike između
analiziranih grupa ispitanika na posmatranoj varijabli.
U istraživačkoj praksi se često javlja potreba da se za neke grupe ispitanika testiraju razlike na
osnovu dve, pa i više nezavisnih, faktor varijabli. Za takve analize se koristi posebna varijanta
analize varijanse koja se naziva dvofaktorska analiza varijanse (eng. Two-Way ANOVA). Tada se
testiraju tri nulte hipoteze: da razlike za prvi faktor nisu statistički značajne, da razlike za drugi
faktor nisu statistički značajne i da interakcija ovih faktora nije statistički značajna.