nova i stara ajtem analiza – poređenje · psihologija, 2001, 1-2, 83-110 udk 159.9.072.59 83...

PSIHOLOGIJA, 2001, 1-2, 83-110

UDK 159.9.072.59

83

Nova i stara ajtem analiza – poređenje

STANISLAV FAJGELJ BRANISLAV KOSANOVIĆ

Odeljenje za psihologiju, Filozofski fakultet, Novi Sad

Osnovni cilj ovog rada je da poboljša informisanost o teoriji stavskog odgovora (IRT). U tu svrhu komparirane su dve ajtem analize: jedna koja je bazirana na klasičnom psihometrijskom modelu i druga koja je bazirana na modelu teorija stavskog odgovora. Za izračunavanje pokazatelja korišćeni su SPSS makro RTT9G i program za Rašovu ajtem analizu BIGSTEPS. Na podacima sa dva testa: EPQ90-skala N i subtest A iz DAT serije demonstrirano je da su ocene pouzdanosti na nivou celog testa slične kod dva modela ajtem analize. Međutim, na nivou ajtema, pokazatelji kvaliteta ajtema vrlo su se razlikovali. Ukupan utisak je da je Rašova ajtem analiza nudila znatno više podataka za ocenjivanje kako ispitanika, tako i ajtema. Ključne reči: psihometrija, IRT modeli, ajtem analiza, Rašov model, teorija pravog skora.

Danas se često kaže da su u opticaju dve psihometrijske tradicije. Prva je tradicija skoriranja, a druga tradicija skaliranja. Prvu je započeo svojom celovitom teorijom merenja još 1904. godine Spirman (Spearman 1904) i danas se obično naziva klasičnom teorijom testa (Classical Test Theory – CTT) ili teorijom pravog skora. Međutim, ono što mnogi smatraju presudnim u tom nazivu je sam pojam "skora". U okviru te tradicije su testni skorovi predstavljeni zbirom tačnih odgovora na stavke (u testovima sposobnosti), ili zbirom afirmativnih odgovora (u testovima ličnosti). Upravo zbog toga se ta tradicija naziva tradicijom skoriranja (RMT, 1995).

S. Fajgelj, B. Kosanović

84

Nasuprot njoj, a počev od radova L. L. Terstona 1925, ( prema Embretson i Reise, 2000), teče tradicija skaliranja koja se zasniva na ideji da se objekti (ispitanici) poređaju po stepenu prisustva osobine i da se, ako je ikako moguće, njihov poredak kvantifikuje, tj. da im se dodeli broj. Prva tradicija se od inicijalnog modela paralelnih testova razvila u model uzorkovanja iz domena koji je imao dve glavne operacionalizacije: image teoriju Gutmana (Guttman, 1953) i teoriju generalizabilnosti Kronbaha (Cronbach et al, 1963), Shavelson i Webb, 1991). Druga tradicija se pred Drugi svetski rat prilično povukla sa scene i nije praktično bila dostupna psihološkoj praksi sve donedavno. Njen povratak na scenu je počeo radovima Lorda (Lord, 1952), Birnbauma (Birnbaum, 1968) i posebno Raša (Rash, 1960) u obliku takozvane teorije stavskog odgovora (IRT – Item Response Theory, van der Linden i Hambleton, 1997). Ove su dve tradicije po shvatanjima glavnih zastupnika potpuno različite, ali se objektivno mogu utvrditi i značajne sličnosti. Interes psihometrije kao discipline nalaže da se sličnosti i razlike objektivno evaluiraju kako se ne bi desio najnepovoljniji ishod – prenebregavanje stvarnih kvaliteta oba učesnika. Tako, na primer, procena nivoa crte kod ispitanika, bilo da se ona zove skor ili mera, u psihometriji se i dalje konzekventno deli na "pravi" i "pogrešni" deo. Prosto je teško drukčije konceptualizirati različite izvore individualnih razlika osim na prave i pogrešne. Zatim, od Fišera pa nadalje, demonstrirano je da je ukupni skor dobijen prostim sabiranjem dovoljan i nužan statistik (Linacre, 1996; van der Linden, 1996). Obema tradicijama, ako ništa drugo, zajedničko je i to što su podvrgnute kritikama i preispitivanjima (npr. pojam pouzdanosti, fitovanje IRT modela i sl.) Dakle, izgleda da je psihometrijskim modelima merenja suđeno da budu rođeni slični. Međutim, te sličnosti izlaze na svetlo dana tek nakon epistemološke analize. Praktično, kad psiholog pogleda rezultate jedne i druge ajtem analize teško da će uočiti bilo kakvu sličnost. S obzirom da je ajtem analiza osnovna psihometrijska alatka za određivanje mernih svojstava stavki i testa, razumljivo je što svaki model merenja, kao prvo, nastoji da formuliše svoja merna svojstva i način njihovog izračunavanja i, kao drugo, da se merna svojstva ne mogu protumačiti bez poznavanja odgovarajućeg modela. Ovaj rad ima za cilj da u domaćoj psihološkoj javnosti doprinese popularnosti IRT modela. Cilj je operacionalizovan (a time mu je određen i domet) na jedan od najboljih mogućih načina – komparativnom analizom dva modela ajtem analize. Poređenje će obuhvatiti klasičnu ajtem analizu i ajtem analizu po modelu Džordža Raša. Potrebno je skrenuti pažnju na to da je korišćenje termina klasičan krajnje relativno. Neki modeli koji pripadaju tradiciji skoriranja su nastali posle nekih IRT modela. Obično se korišćenje ovog termina pravda time što je Spirman prvi počeo.


85

Metod

Klasična ajtem analiza u ovom radu predstavljena je modifikovanim makroom RTT9G (Knežević i Momirović, 1996). Ovaj makro sadrži veliki broj pokazatelja metrijskih karakteristika stavki i testa baziranih prvenstveno na klasičnom i Guttmanovom imaž modelu (Momirović, Wolf, Popović, 1999). Makro je pisan u makro jeziku statističkog paketa SPSS i statističkom meta-jeziku Matrix iz istog paketa1. Sredstvo za Rašovu ajtem analizu bio je program BIGSTEPS.EXE autora Rajta i Linekra (Wright, 1996) koji su jedni od vodećih proponenata Rašovog modela i zastupnici stava da je taj model više od podvrste IRT modela. Program je danas besplatno dostupan na http://www.winsteps.com/bigsteps.htm. Postoji sve više specijalizovanih programa za IRT ajtem analizu, ali su oni na Internetu dostupni jedino u obliku tzv. demo-verzija (sa krajnje ograničenim brojem ajtema i ispitanika).

Podaci

Uzorak ispitanika čine studenti psihologije dve uzastopne generacije: 1999/2000 i 2000/2001. Oni su odgovarali na jednu bateriju testova u okviru vežbi iz predmeta psihometrija na drugoj godini studija. Od nepoznatog ukupnog broja studenata u te dve godine, evidentirano je oko 180 koji su prisustvovali vežbama i predavanjima. Od toga je jedan manji broj (njih oko 167) učestvovao u testiranjima, ali ne uvek i ne na svim testovima. U komparaciji koja je predmet ovog rada učestvovalo je oko 120 studenata (tačan broj videti u prikazu rezultata). Proporcionalno tradiciji studija psihologije, dominantnu većinu uzorka čine žene. Lako je pretpostaviti da je postojao neki sistematski faktor koji je uticao na to koji će studenti, pa dakle i koliko njih, učestvovati u testiranju (nazovimo ga motivacijom). Prema tome, uzorak ispitanika nikako nije reprezentativan za opštu populaciju, ali mi ne vidimo da bi to moglo imati uticaja na rezultate komparacije modela ajtem analize. Postoji jedan drugi činilac na koji smo pokušali da obratimo pažnju tokom analize: prva generacija je prošla prijemni ispit, a druga nije. Iz primenjenih baterija izdvojili smo za potrebe ovog rada krajnje slučajno dva testa, tačnije subtesta. To su subtest shvatanja apstraktnih odnosa iz serije DAT (DAT, 1970 – subtest DAT-A), i skala N iz Ajzenkovog testa EPQ-90 (Lojk, 1979). Nije postojao nikakav poseban razlog zašto su izabrana ova dva –

———————— 1 Makro rtt9g dostupan je kod svih spomenutih autora, ili na http://www.cpijm.org.yu/stanef.htm.


86

osim da jedan bude iz domena merenja maksimalne delatnosti, a drugi iz domena merenja tipične delatnosti. Rezultate prve generacije studenata unosila je "na magnetni medijum" osoba za koju se može smatrati da se time profesionalno bavi (u okviru norme od 8000 zakova na sat), a druga generacija studenata unosila je svoje podatke sama svojeručno. Tokom analize obratili smo pažnju i na ovu "facetu" podataka.

Terminologija i pokazatelji

Klasični model Najčešći pokazatelj pouzdanosti koji se danas koristi je Kronbahova alfa. Iako je Kronbah autor teorije generalizabilnosti, nema ništa sa tom teorijom, nego je striktno bazirana na klasičnom modelu ukupnog skora i paralelnih testova (Zumbo, 1999, Momirović, Wolf i Popović, 1999).

⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛ ∑−

−= =

21

2

11 σ

σα

m

ii

mm

(1)

Osim , u radu će biti prikazan i Gutman-Nnajsvanderov koeficijent pouzdanosti � koji pripada porodici tzv. donjih granica pouzdanosti (kako je to definisao Gutman), a računa se u Harisovom prostoru. Ovaj prostor razapinju imaž delovi varijabli, reskalirani na univerzalnu metriku postupkom koga je predložio Haris. Shodno tome, ovako definisana pouzdanost je na "suprotnom kraju" od (naj)klasičnijeg modela po tome što stavke testa tretira kao uzorak svih mogućih stavki koje mere domen ponašanja uslovljen delovanjem neke varijable. S obzirom da se, po imaž teoriji, u Harisovom prostoru nalaze samo delovi zajedničke varijanse ajtema (bez grešaka i specifiteta), u praksi je � uvek veći od . Ako je U2 = (diag R-1)-1 dijagonalna matrica varijansi greške, onda su kovarijanse imaž varijabli u Harisovom prostoru jednake Q = U-1RU-1 (R je matrica korelacija). Prva glavna komponenta ove matrice je h = Qw, gde je w prvi svojstveni vektor matrice Q, a varijansu te komponente označićemo sa ��. Onda će �� biti prosto:

� = 1 - � �. (2) Oba ova koeficijenta odnose se na testni skor u celini. Makro RTT9G daje i niz pokazatelja za stavke. Mi smo se opredelili za sledeće pokazatelje:


87

– normalizirane Kajzer-Mejer-Olkinov koeficijente reprezentativnosti koji se u listinzima statističkih paketa često nazivaju MSA (Measure of Sampling Adequacy), a ovde ih označavamo sa MSA, – koeficijente determinacije (SMC – Squared Multiple Correlation) koji su zapravo imaž varijanse varijabli i služe kao procena pouzdanosti čestice, označeni sa relijab, – kovarijanse (faktorska opterećenja) imaž varijabli sa njihovom prvom glavnom komponentom, ovde u funkciji pokazatelja homogenosti čestica, označeni sa homog, – korelacije (standardizovana faktorska opterećenja) imaž varijabli reskaliranih na Harisovu metriku sa njihovom prvom glavnom komponentom, ovde u funkciji procene faktorske valjanosti, označeni sa Haris i, na kraju, – koeficijente korelacije ajtem-total kao pozatelje interne valjanosti stavki, označeni sa Burt.

Rašov model Model danskog matematičara Raša ne sadrži dva parametra na koja su mnogi psiholozi navikli: diskriminativnost i pogađanje. Zato se obično naziva jednoparametarskim IRT modelom. Međutim, njegova logička i matematička elegancija ga čine veoma razumljivim, prihvatljivim, a u numeričko-matematičkom pogledu (relativno) lako izračunljivim. Za potrebe ovog rada nije važno da li je opravdano deliti oduševljenje sa zastupnicima Rašovog modela, već je važno to što se radi o pravom predstavniku tradicije skaliranja i prema tome pravom oponentu tradiciji skoriranja. Osnovna formula Rašovog modela za računanje mere n-tog ispitanika na i-tom ajtemu (i obratno) je

inni

ni DBp1

pln −=⎟⎟

⎠

⎞⎜⎜⎝

⎛−

, (3)

a formula za računanje verovatnoće da će ispitanik odgovoriti sa "da" je

)D(B

)D(B

ni in

in

e1ep

−

−

+= , (4)

gde je Bn mera crte ispitanika, a Di mera težine ajtema.

Kao i svi IRT modeli, ovaj model ravnopravno tretira merne agente (stavke, testove) i merene objekte (ispitanike). I jedni i drugi dele potpuno iste, a komplementarne pokazatelje.


88

Standardna greška merenja ispitanika n na stavki i se u Rašovom modelu definiše kao

)P(1P nini −

=1

nieσ . 5)

Prosečna standardna greška merenja (�e) iz dobijenih podataka se računa kao root mean square standardnih grešaka za sve ispitanike ili za sve stavke. Obično se označava sa RMSE. Interval poverenja (preciznost) uobičajeno se definiše kao raspon od dve ili tri ove standardne greške. Prava ili korigovana (adjusted) standardna devijacija svih mera računa se kao: (prava ili korigovana SD)2 = (dobijena SD)2 – RMSE2, odnosno

�a2 = �2 - �e

2 (6) Separacioni odnos ili separacija računa se kao: (prava SD) / RMSE, odnosno

e

a

tt

tt

r1r

Gσσ

=−

= (7)

Separaciona pouzdanost ili prosto pouzdanost se računa kao Rtt = G2 / (1+G2) = (prava SD)2/(dobijena SD)2 i ekvivalentna je pouzdanosti izračunatoj kao , KR-20, SB, �.

2

2

σσ a=

+=

2

2

tt G1G

r (8)

Kao što je rečeno, ovi pokazatelji se računaju kako za ajteme, tako i za ispitanike. Sve veličine, a posebno mere ispitanika izražene su u logitima (log-odds unit). Jedan logit odgovara verovatnoći "tačnih" odgovora od 73%. Dakle, ako je ispitanik na 100-ajtemskom testu tačno odgovorio na 73 stavke, njegova mera će biti 1. Ukoliko je tačno odgovorio na 27 stavki, dobiće meru -1. Raspon mera od -5 do 5 obuhvata približno raspon 0-100%. Nula logita je na 50% tačnih. Skala u logitima je intervalna i aditivna, tj. zadovoljava drugi Kembelov zakon merenja. Što je standardna greška merenja manja, a rtt veći, to će preciznost pojedinačnih merenja biti veća, odnosno, pravi rezultat ispitanika biće bliže dobijenom skoru. U daljem tumačenju, to znači da će mogućnost razlikovanja ispitanika po pravom skoru biti veća. Upravo taj način razmišljanja je usvojen u Rašovom konceptu separacione pouzdanosti.


89

Po tom konceptu, separacija je broj statistički različitih stratuma u postignuću koje test može da identifikuje u uzorku. To se može vizuelno predstaviti lociranjem distribucije grešaka u svakom stratumu. Separacija jednaka 2 podrazumeva da se datim testom mogu konzistentno identifikovati samo 2 nivoa postignuća u uzorcima koji su slični onome koji je testiran. Broj razdvojivih stratuma egzaktno se može izračunati kao: (4G+1)/3. Funkcionalni opseg mera je oko 4 prave SD (u logitima). Ovaj broj povećavamo za 1 radi uključivanja grešaka u dobijenim merama. Smatraćemo da značajna razlika između dve mere iznosi 3 RMSE (standardne greške). U tom slučaju će izraz (4 Prave SD + RMSE)/(3 RMSE) = (4G+1)/3 predstavljati broj značajno različitih nivoa mera u funkcionalnom opsegu. Ako je separacija manja ili jednaka 1, onda svi ispitanici spadaju u jednu grupu i ne mogu se razlikovati. Može se izračunati i kolika minimalna veličina grupe (uzorka, stratuma) mora biti da bi se za dobijenu pouzdanost mogla postići neka željena separacija kao: (veličina grupe) = Gz

2/G2 gde je Gz zadata separacija. Posebno poglavlje zaslužuju pokazatelji fitovanja modela. Naime, pošto su IRT modelski pristup merenju, onda one podrazumevaju i proceduru ocene uspešnosti modeliranja. Za to se koristi izvorni engleski izraz fit, jer je teško prevodiv, a postao je uobičajen u matematičkom žargonu. U literaturi se stalno nalaze novi pokazatelji fitovanja, ili modifikovane verzije postojećih. Pošto su za izračunavanje svih parametara IRT modela potrebne vrlo sofisticirane numeričke metode, praktično je nemogućno izračunavanje nekih drugih (eventualno boljih ili novijih) pokazatelja, osim onih koje nude konkretni IRT programi. Program BIGSTEPS računa dva glavna pokazatelja misfita (pogrešnog fitovanja): infit i outfit. U svojoj osnovi, misfit je razlika između dobijenih verovatnoća i onih koje su izračunate na osnovu modela, tj. predstavlja ono što se uobičajeno naziva rezidualima. Infit je srednje kvadratno odstupanje ponderisano sa informativnošću. Osetljiv je na nepravilne unutrašnje sklopove, odnosno na neočekivane odgovore na ajteme koji su blizu nivoa ispitanikove crte/sposobnosti.

Outfit je srednje kvadratno odstupanje, osetljiv na neočekivane i retke ekstreme, tj. na neočekivano ponašanje ispitanika na ajtemima koji su daleko od ispitanikovog nivoa crte/sposobnosti.

Oba ova pokazatelja prikazuju se u "sirovom" i standaradizovanom vidu: – srednji kvadrat sa prosečnom vrednošću 1, označen sa Mnsq i – srednji kvadrat standardizovan tako da mu AS i SD budu približno 0 i 1, označen sa Zstd. Oba misfita mogu biti ili prigušeni ili šumni. Prigušeni su ako je vrednost Mnsq<0,7 ili Zstd<-2, a šumni ako je Mnsq>1,3, odnosno Zstd>2.


90

Ako je infit prigušen, onda se radi o redundantnom ajtemu, o teškom ajtemu koji se nalazi na kraju testa pa do njega stignu samo najbolji ispitanici, a ako je reč o ispitaniku, onda je to ispitanik koji prečesto bira srednje kategorije, spor je, uspavan, oprezan, konformističan itd. Ako je infit šuman, onda se radi o lošem ajtemu, pristrasnom ajtemu (DIF), prečestom biranju ekstremnih kategorija, greškama u unosu, specifičnom ispitaniku itd. Ako je outfit prigušen, možda se radi o lošem ajtemu (sa drukčijim sadržajem), preteranom biranju srednjih kategorija, greškama u unosu itd. Ako je outfit šuman, možda se radi ispitaniku koji je nagađao, prepisivao, ili koji previše žuri, greškama u obradi i unosu, prečestom biranju ekstremnih kategorija itd. Sve u svemu, poreklo misfita nije lako utvrditi. Postoje kratke preporuke za interpretaciju misfita koje su prikazane tabelarno i uzimaju u obzir vrstu misfita (infit-outfit, prigušen-šuman), njihovu interakciju, kao i facetu na koju se odnose: ispitanik, ajtem, procenjivač itd. Opšta preporuka pri interpretaciji misfita je da njegove uzroke treba tražiti u neočekivanim, parcijalnim (idiosinkretskim) korelacijama sa drugim varijablama. Program BIGSTEPS nudi detaljni prikaz tačaka gde je došlo do misfita, odnosno prikazuje odgovore koji su najviše neočekivani, kod kojih ispitanika i kod kojih ajtema su se javili i iznos odstupanja od očekivanja.

Pokazatelji za poređenje

Kad se radi o klasičnoj ajtem analizi, konkretno outputu iz makroa RTT9G, svaki psiholog odmah će uočiti da se svi koeficijenti (kako za test u celini, tako i za stavke) međusobno znatno razlikuju, ponekad drastično. Biće posebno zbunjujuće što su ponekad koeficijenti deklarisani kao "donje granice" viši od nekih drugih koeficijenata. Dotičnom psihologu biće od male pomoći što su te razlike logična posledica različitih pretpostavki, odnosno modela pod kojima su koeficijenti izračunati. Kao što je malopre rečeno, pretpostavlja se da će svi koeficijenti koji su bazirani na faktorskom modelu (komponentni, Gutmanov, Harisov) biti viši od klasičnih "sumacionih" koeficijenata, jer su ovi prvi obavili jedan deo posla na eliminisanju pogrešne varijanse. Međutim, kao što je ugrađeni nedostatak teorije pravog skora što je uvek tačna, odnosno ne poseduje proceduru pomoću koje bi se odredio tačan iznos prave i pogrešne varijanse, tako je i problem celokupne tradicije skoriranja u tome što nema proceduru za procenu koliko je koji od njenih modela prikladan. Upravo to, prikladnost modela podacima, koja se obično naziva fitovanjem, je pravi fetiš-izraz u IRT modelima, koji su modeli sui generis, jer predstavljaju modelski pristup merenju (Embretson, 1996; Embretson i Reise, 2000). Mi smo usvojili jednu strategiju koja, ma koliko arbitrarna, ima jaku potporu u modernim psihometrijskim razmišljanjima. Radi se o datametriji i meta-


91

analizi (Thompson i Vacha-Haase, 2000 i Schafer, 1999), koje donekle prate liniju rezonovanja Kronbahove teorije generalizabilnosti i nalaze veličine i pojmove koji su generalizabilni preko većeg broja istraživanja, publikacija, nalaza i sl. Analogni postupak primenjen je u ovom radu: napravljeni su jedinstveni kompoziti od ponuđenih pokazatelja, kako bi se ajtemi jednostavno mogli upoređivati međusobno i između dve ajtem analize, a kompatibilnost kompozita i drugih pokazatelja je iskazana korelacijama. Kako je to urađeno? Po svakom od 5 odabranih pokazatelja iz klasične ajtem analize, ajtemi su rangirani tako da je ajtem sa najvećim koeficijentom dobio rang 1. Zatim su izračunati prosečan rang (kao aritmetička sredina, označena sa AS) i standardna devijacija svih 5 rangova za svaku stavku (označena sa SD). Standardna devijacija rangova treba aproksimativno da ukaže na "problematičnost" ajtema, ili modela. Naime, neki ajtemi imaju vrlo približan rang na svim pokazateljima, a kod nekih se rangovi vrlo razlikuju. Ovaj kompozitni pokazatelj je, po našem mišljenju, ono bitno što se iz RTT9G makroa može iskoristiti za ocenu kvaliteta ajtema. U Rašovoj ajtem analizi računali smo kompozitni pokazatelj kvaliteta ajtema iz pokazatelja misfita. Za svaki ajtem smo računali odstupanje sva 4 pokazatelja (infit-outfit, Mnsq-Zstd) od njihovog proseka (prikazanog u dnu tabele). Zatim smo za svaki ajtem izračunali prosečno odstupanje (označeno kao AS), kao jednostavan relativni indikator misfita dotičnog ajtema. Međutim, misfit nije jedini relevantan podataka u IRT modelima koji ukazuje na kvalitet ajtema. Jedan od udarnih pokazatelja je egzaktna standardna greška merenja, koja je dovela do jednog od "novih pravila merenja": najtačniji su srednje teški ajtemi (Embretson, 1996). Pored toga, program BIGSTEPS prikazuje i point-biserijalni koeficijent korelacije koji se računa koristeći varijanse iz jednačina 5 i 6. U Rašovom modelu na ovaj koeficijent ne gleda se rado, jer je on predstavnik druge psihometrijske tradicije, ali ćemo ga mi ipak iskoristiti za poređenje. Naravno, izrada spomenutih kompozitnih pokazatelja nije podržana nikakvom psihometrijskom teorijom, što znači da se ne radi o opšte prihvaćenim pokazateljima kvaliteta ajtema. Takođe, nivo metastatističke analize je ovde elementaran i moguće je zamisliti primenu daleko većeg broja statističkih tehnika za komparaciju podataka.

Skala EPQ - N Klasična ajtem analiza (RTT9G) Pouzdanost testa: Kronbahova = 0.8352 Gutman-Najsvanderov �= 0.8952


92

Tabela 1.1. Merna svojstva ajtema po klasičnom modelu

Ajtem AS SD MSA relijab homog Harris Burt EPQ34 1,2 0,45 0,884 0,546 0,6761 0,766 0,681 EPQ41 2,2 0,45 0,871 0,526 0,6365 0,725 0,634 EPQ31 3,4 2,19 0,817 0,573 0,6275 0,722 0,618 EPQ72 4,8 0,45 0,831 0,443 0,5466 0,6 0,6 EPQ38 5,4 2,61 0,764 0,517 0,5666 0,648 0,585 EPQ75 7,0 4,12 8705 0,33 0,4792 0,533 0,548 EPQ58 7,8 1,48 0,827 0,366 0,4598 0,502 0,527 EPQ3 8,6 3,65 0,707 0,423 0,4616 0,51 0,526

EPQ19 9,2 1,10 0,76 0,379 0,4586 0,501 0,521 EPQ77 9,4 0,89 0,787 0,376 0,4379 0,475 0,519 EPQ7 11,6 1,34 0,749 0,339 0,4174 0,464 0,493

EPQ15 12,8 0,84 0,758 0,331 0,4074 0,461 0,443 EPQ27 13,0 2,45 0,765 0,327 0,3795 0,422 0,442 EPQ23 13,8 6,02 0,849 0,263 0,3535 0,379 0,446 EPQ80 14,4 1,67 0,703 0,324 0,373 0,414 0,45 EPQ62 15,4 2,51 0,686 0,338 0,3592 0,401 0,417 EPQ12 16,0 2,24 0,76 0,302 0,3401 0,365 0,417 EPQ88 17,0 5,79 0,607 0,392 0,2709 0,286 0,36 EPQ54 18,0 0,71 0,7 0,267 0,3035 0,342 3346 EPQ68 20,4 0,55 0,623 0,243 0,2432 0,264 0,321 EPQ84 20,4 1,82 0,693 0,264 0,2043 0,215 0,29 EPQ47 21,4 1,14 0,622 0,22 0,2366 0,272 0,274 EPQ66 22,8 0,45 0,541 0,222 0,1535 0,158 0,248

Napomena: oznake kolona su objašnjene ranije u tekstu Iz Tabele 1.1. vidi se da su svi koeficijenti relativno visoki, a posebno MSA. Interkorelacije između koeficijenata se kreću od 0,589 do 0,999, pri čemu je ova najviša između homogenosti i Harisove valjanosti, jer su to praktično dve iste stvari (korelacije sa prvom glavnom komponentom). Rašova (IRT) ajtem analiza (BIGSTEPS) Tabele 1.2. i 1.3., koje se nazivaju rezimeima, prikazaćemo u originalnom obliku. U literaturi vrlo se često nalaze prikazane upravo na takav način. Kod EPQ ćemo, da bismo olakšali posao čitaocu, prevesti oznake pokazatelja.


93

Tabela 1.2. Rezime 116 (ne-ekstremnih) studenata

Sirovi Realna Infit Outfit skor

N Mera greška MNSQ ZSTD MNSQ ZSTD

A.S. 10.1 22.8 -.31 .56 .99 -.1 1.09 -.1 S.D. 4.9 .5 1.31 .13 .26 1.0 .98 1.0 MAX. 22.0 23.0 3.63 1.20 1.95 2.8 8.90 4.6 MIN. 1.0 20.0 -3.76 .46 .58 -2.4 .15 -1.9

Realni RMSE .58 kor.SD 1.18 Separacija 2.04 Pouzdanost studenata .81 Model RMSE .55 kor.SD 1.19 Separacija 2.16 Pouzdanost studenata .82 S.E. aritmetičke sredine studenata .12 Sa 2 ekstremna studenta = 118 Student A.S. -.38 S.D. 1.41 Realni RMSE .60 kor.SD 1.27 Separacija 2.11 Pouzdanost studenata .82 Model RMSE .58 kor.SD 1.28 Separacija 2.22 Pouzdanost studenata .83

Minimalni ekstrem. skor: 2 studenta Ispuštenih odgovora: 50 studenata Validnih odgovora: 99.3% Tabela 1.3. Rezime 23 merena ajtema

Sirovi Realna Infit Outfit skor

N Mera greška MNSQ ZSTD MNSQ ZSTD

A.S. 51.1 115.1 0.00 .24 .99 -.2 1.09 .1 S.D. 21.5 1.2 1.17 .04 .16 1.6 .33 1.4 MAX. 99.0 116.0 2.66 .37 1.40 3.8 1.85 3.1 MIN. 10.0 112.0 -2.64 .21 .72 -3.1 .62 -2.6 Realni RMSE .25 kor.SD 1.14 Separacija 4.65 Pouzdanost ajtema .96 Model RMSE .24 kor.SD 1.14 Separacija 4.79 Pouzdanost ajtema .96 S.E. aritmetičke sredine ajtema .25

Iz tabela 1.2. i 1.3. vidi se da ispitnici imaju nižu prosečnu meru od ajtema, što znači da je stepen prisustva crte neurotizma kod izmerenih studenata niži nego što je sadržan u stavkama EPQ. Analogno interpretaciji klasičnih metrijskih karakteristika testa, distribucija Rašovih mera kod studenata je pozitivno asimetrična, tj. ima više niskih rezultata. Međutim, pouzdanost ajtema je primetno viša nego ispitanika (0,96 u odnosu na 0,82). To je verovatno posledica toga što se radi o psihometrijski stabilnom i proverenom testu, koji je, međutim, zadat selekcioniranom uzorku (o greškama unosa podataka kasnije će biti reči). U Tabeli 1.2. vidi se da dva studenta imaju minimalni ekstremni skor (konkretno, nemaju nijedan "da" odgovor), što po IRT modelima znači da imaju neizračunljivu stan-


94

dardnu grešku merenja. Nulti i perfektni skorovi po IRT zahtevaju beskonačno niske, odnosno visoke mere. Zato se pouzdanost i separacija posebno prikazuju kada se ekstremni ispitanici (ili ajtemi) uključe u proračun, a koeficijenti pouzdanosti se samo procenjuju. U tabelama 1.2. i 1.3. postoje dve vrste standardnih grešaka: realna i modelska. Realna je najgori, a modelska najbolji slučaj, odnosno prva uključuje i misfit modela, a druga ne. Nepovoljan znak za fitovanje modela je ako su ove dve vrednosti (i pouzdanosti izračunate iz njih) značajno različite. I konačno, pouzdanost (studenata) izračunata po Rašovom modelu je nešto niža od pouzdanosti izračunate na klasičan način. Taj nalaz se stabilno javlja u praksi i rezultat je toga što se u IRT modelima odbacuju ekstremni skorovi koji neopravdano naduvavaju procenu pouzdanosti u klasičnom modelu. Osim toga, procena "prave varijanse" (jednačina 6) u IRT modelima konzervativnija je jer isključuje varijansu misfita modela. Uopšte uzev, u našem slučaju, kako klasična pouzdanost ( ) tako i Rašova pouzdanost vrlo su bliske pouzdanostima navedenim u priručniku (Lojk, 1979).

Tabela 1.4. Merna svojstva ajtema po Rašovom modelu

Ajtem AS Skor Rašova mera

REALSE

rpbis InfitMnsq

InfitZstd

OutfitMnsq

OutfitZstd

Rang RTT9G

Razlika

EPQ7 0.06 36 .75 0.23 .40 0.99 -0.1 1.02 0.1 11 -10.00 EPQ62 0.09 23 1.50 0.26 .34 1.02 0.1 0.95 -0.2 16 -14.00 EPQ88 0.14 98 -2.64 0.3 .27 1.02 0.1 1.15 0.3 18 -15.00 EPQ80 0.14 52 -.06 0.22 .39 1.04 0.4 1.02 0.1 15 -11.00 EPQ77 0.18 37 .69 0.23 .40 1.01 0.1 0.9 -0.5 10 -5.00 EPQ15 0.20 44 .34 0.22 .38 1.04 0.4 1.06 0.3 12 -6.00 EPQ27 0.24 30 1.08 0.24 .37 0.98 -0.2 1.15 0.6 13 -6.00 EPQ58 0.31 59 -.39 0.22 .44 0.97 -0.3 1.12 0.8 7 1.00

EPQ3 0.34 59 -.36 0.21 .46 0.96 -0.4 0.89 -0.8 8 1.00 EPQ23 0.39 86 -1.69 0.24 .31 1 0 1.35 1.2 14 -4.00 EPQ19 0.42 57 -.29 0.22 .47 0.93 -0.8 0.89 -0.7 9 2.00 EPQ12 0.47 70 -.87 0.22 .33 1.03 0.3 1.25 1.3 17 -5.00 EPQ54 0.61 10 2.66 0.37 0.23 1.09 0.4 1.85 1.1 19 -6.00 EPQ84 0.66 99 -2.58 0.31 .17 1.11 0.6 1.64 1.3 21 -7.00 EPQ38 0.71 45 .30 0.22 .51 0.87 -1.3 0.8 -1.2 5 10.00 EPQ72 0.79 68 -.80 0.22 .51 0.86 -1.6 0.8 -1.2 4 12.00 EPQ68 0.84 39 .57 0.25 .25 1.22 1.9 1.22 1 20 -3.00 EPQ41 1.04 40 .54 0.22 .59 0.77 -2.4 0.76 -1.3 2 16.00 EPQ31 1.25 38 .57 0.23 .60 0.77 -2.4 0.64 -2 3 16.00 EPQ75 1.46 43 .27 0.22 .64 0.72 -3 0.65 -2.2 6 14.00 EPQ47 1.53 40 .54 0.25 .16 1.28 2.5 1.64 2.7 22 -1.00 EPQ34 1.59 47 .17 0.22 .64 0.73 -3.1 0.62 -2.6 1 21.00 EPQ66 1.97 56 -.31 0.26 .11 1.4 3.8 1.57 3.1 23 0.00

A.S. 51. .00 .24 0.99 -.2 1.09 .1 S.D. 21. 1.17 .04 .16 1.6 .33 1.4

Napomena: – Skor je uobičajeni zbir "da" odgovora – rpbis je u osnovi point-biserijalni koeficijent korelacije ajtem-total,

izračunat na osnovu podataka iz modela.


95

Iz Tabele 1.4. vidi se da ajtemi nemaju značajan misfit. To je u direktnoj vezi sa zadovoljavajućom pouzdanošću kako studenata, tako i ajtema (tabele 1.2. i 1.3.), a u celini govori da primenjeni model merenja (Rašov IRT model) odgovara podacima. Pošto cilj ovog rada nije provera i restandardizacija testa, nego demonstracija mogućnosti IRT ajtem analize, iskoristićemo ono malo misfita koji imamo. Ajtemi 31, 75 i 34 imaju prigušen outfit i infit. Iz Tabele 1.5. vidimo da su prva dva ajtema imala jedan neočekivan "da" odgovor jednog te istog ispitanika koji je srednji po nivou neurotičnosti. Dakle, moglo bi se raditi prosto o greški unosa, ili o nepažnji ispitanika. Nasuprot tome, moglo bi se razmišljati i o redundantnosti tih ajtema, tj. o mogućnosti da sva tri mere istu stvar raznim rečima (to bi ovde moglo imati osnova jer se u sva tri slučaja pita nešto u smislu "da li ste nervozna osoba"). Ajtemi 47 i 66 imaju šuman outfit i infit. Iz Tabele 1.5. vidi se da su na njima ispitanici sa niskom neurotičnošću neočekivano često odgovarali sa "da", a da istovremeno oba ajtema imaju par suprotnih neočekivanih odgovora: odgovora "ne" od visokih ispitanika. Ajtem 66 glasi "Da li vodite puno računa o svom spoljašnjem izgledu", a ajtem 47 "Da li ste zabrinuti za svoje zdravlje". Formalno teorijski to znači da pretpostavke Rašovog modela (sadržane u jednačinama 3 i 4) nisu prikladne za ove ajteme. U praksi, istraživač-psiholog bi mogao razmišljati o tome da ova dva ajtema, kada se primene na uzorku mladih obrazovanih žena, ne mere najbolje neurotičnost, ili mere i nešto drugo.

Tabela 1.5. "MOST UNEXPECTED RESPONSES" AJTEM MEASURE |STUDEN | 111 11 11 1 1 1 1 1111 1111 111 11 |64303 218546542 366154282 29105752109635431 541805 |58983313487126296412148135856336947966659096444628 high-------------------------------------------------- 88 EPQ88 -2.64 I|.........0...........00.00........................ 84 EPQ84 -2.58 C|.........00......0.0.0..0..0...................... 23 EPQ23 -1.69 E|..0......0...000..0............................... 12 EPQ12 -.87 F|..00.0.0...00..................................... 72 EPQ72 -.80 e|......0.0................... ..................... 58 EPQ58 -.39 J|....0....0..0....................................1 3 EPQ3 -.36 h|........................................1.1....... 66 EPQ66 -.31 D|0....0.0.................... .. ........1....1..1. 19 EPQ19 -.29 g|..0............................................... 80 EPQ80 -.06 L|.0...................................1.11......... 75 EPQ75 .27 a| .............. .............1.................... 38 EPQ38 .30 f|.................................1....1........... 15 EPQ15 .34 K|.............................1....1.1..1.1........ 41 EPQ41 .54 d|.............................1................1... 47 EPQ47 .54 B|0...............................11...11...111..1.. 31 EPQ31 .57 c|................... .........1.................... 68 EPQ68 .57 G|...............................1...1.1....1....... 77 EPQ77 .69 i|...........................1..1...1............... 7 EPQ7 .75 k|...........................1................1..... 27 EPQ27 1.08 H|............................1..1.....1.........1.. 62 EPQ62 1.50 j|.................... 1.11.1..........1............ 54 EPQ54 2.66 A|................1...1..........................1.. |-----------------------------------------------low |61113311854114191661542825191157111196311116111811 |54303 214876562 341214813 25603652106665431 541605 | 898 13 12 2 6 8 3 9479 5909 444 28


96

Tabela 1.5. jedan je od izvora podataka za analizu misfita. Pokazuje ajteme sa najneočekivanijim odgovorima. Ajtemi su sređeni po "težini" (parametar Di iz jednačina 3 i 4), koja u ovom slučaju odražava učestanost odgovora "da". U zaglavlju tabele prikazani su studenti koji su dali te neočekivane odgovore, sortirani po meri neurotizma, od "visokih" do "niskih" (s leva na desno). Uočava se jasna strukturacija da glavni izvor misfita potiče od toga što neki "visoki" studenti odgovaraju sa "ne" na "lake" stavke, a "niski" studenti sa "da" na "teške" stavke. Na primer, jedan od 3 najmanje neurotična studenta (student 158), odgovorio je da se "ponekad bez razloga oseća bespomoćno i umorno" (ajtem 58). Izuzetak su nekoliko srednjih ajtema koji imaju i neočekivane "da" i neočekivane "ne" odgovore, a među njima je najuočljiviji ajtem 66 (njegov slučaj raspravljen je uz Tabelu 1.4.). Razlike klasične i Rašove ajtem analize

u oceni kvaliteta stavki U Tabeli 1.4. je, u poslednje dve kolone, dat rang koji su stavke dobile po klasičnoj ajtem analizi (iz Tabele 1.1.) i razlika u odnosu na rang dobijen u Rašovoj analizi. Stavke su u Tabeli 1.4. sortirane po "kvalitetu", odnosno odsustvu misfita. Negativna razlika rangova ukazuje da je stavka dobra u Rašovoj, a loša u klasičnoj ajtem analizi, a stavke sa pozitivnom razlikom su bolje prošle u klasičnoj analizi. Vidljivo je da su razlike velike. Spirmanova rang-korelacija između dva rangiranja je -0,124. Otprilike pola ajtema ima dvocifrenu razliku, sa tendencijom da budu kažnjeni ekstremi. Kao da se dve ajtem analize iz dve psihometrijske tradicije većinom ne slažu baš u pogledu toga šta je dobar, a šta loš ajtem. Izuzetak je ajtem 66 oko koga su se obe ajtem analize usaglasile da je najlošiji. Nasuprot njemu, oko ajtema 34 postoji upravo tužno neslaganje. Radi se o pitanju "Da li ste često zabrinuti" koji je u Rašovom modelu imao skoro najveći misfit (prigušen), prosečnu meru od 0,17 logita (odgovori da-ne su podeljeni skoro 50-50%), visok rpbis i nijedan visoko neočekivan odgovor. Na osnovu našeg izbora pokazatelja iz makroa RTT9G ovaj je ajtem bio najbolji. Naravno, misfit ajtema 34 je na samoj granici prigušenosti i na osnovu misfita, uzimajući u obzir mali i selekcioniran uzorak, ne bismo imali pravo da loše sudimo o ajtemu. To nije cilj ovog rada, ali ako bismo hteli da razmišljamo, mogli bismo pretpostaviti da je zabrinutost postojala kao stanje, a ne kao crta (na primer, prva generacija studenata izgubila je praktično ceo letnji semestar zbog bombardovanja SRJ od strane NATO). Pošto poređenje dve ajtem analize na osnovu kompozitnih pokazatelja sugeriše da ne postoje sličnosti, pogledajmo korelacije između svih pokazatelja koji su u oba modela relevantni za procenu kvaliteta ajtema.


97

Tabela 1.5a. Interkorelacije pokazatelja kvaliteta stavki

ASmisfita

Rašova mera

Real SE rpbis ASRtt9g

SD Rtt9g

AS misfita 1,000 ,066 -,020 ,074 -,047 -,277 Rašova mera ,066 1,000 ,049 ,164 -,123 -,480

Real SE -,020 ,049 1,000 -,620 ,590 ,048 rpbis ,074 ,164 -,620 1,000 -,961 ,005

AS Rtt9g -,047 -,123 ,590 -,961 1,000 ,046 SD Rtt9g -,277 -,480 ,048 ,005 ,046 1,000

Meta-statistička Tabela 1.5a. kazuje da su kompozitni pokazatelji 5 koeficijenata iz RTT9G makroa (AS RTT9G) i rpbis iz Rašove analize redundatni jer je njihova korelacija 0,96 (predznak odbacujemo). Predstavnici Rašovog modela imaju, očigledno, pravo kada kažu da rpbis pripada klasičnoj tradiciji. S druge strane, korisnik Rašove ajtem analize izgleda da nema potrebe za klasičnim pokazateljima, jer sve to dobija sa ovim nusproduktom. Nije zanemarljiva ni korelacije standardne greške merenja (njene gornje granice, otuda "real") sa AS RTT9G. O poreklu ostalih korelacija čitalac može sam da razmišlja. Razlika između poduzoraka U opisu uzorka ispitanika rečeno je da se dve obuhvaćene generacije studenata razlikuju po dva aspekta: a) prva je imala prijemni, a druga nije i b) podatke za prvu je unosio profesionalac, a za drugu su unosili sami studenti. Ove razlike, naravno, nisu od značaja za ovaj tekst, ali su bile pogodne za demonstraciju još jedne mogućnosti IRT ajtem analize. Radi se, zapravo, o dve psihometrijske teme kojima je preplavljena savremena pedagoška i psihološka literatura – jednačenju testova i diferencijalnom ponašanju ajtema. Obe oblasti su poznate od ranije i u obema su razvijena rešenja u okviru klasične psihometrijske tradicije. Kod jednačenja testova (test equating, Wright, 1996, Smith i Kramer, 1992) radi se o tome da za dva ispitanika dobijemo isti skor/meru bez obzira kojim testom ih ispitujemo. U klasičnoj tradiciji se to rešava jednakim normama, npr. percentilnim, ali se pokazalo da su jednaki percentili daleko od jednake crte. Ujednačavanje skorova na različitim testovima postala je obavezna disciplina sa razvojem računarskog adaptivnog testiranja (Computer Adaptive Testing – CAT) i banki ajtema. Danas se smatra da je dobro jednačenje testova nemoguće postići bez primene IRT modela. Druga oblast, diferencijalno ponašanje ajtema (Differential Item Functioning – DIF) bavi se problemom različitog ponašanja ajtema u različitim grupama ispitanika (Huang i Church, 1997, Teresi, 2000). Pri tome se ne misli na slučaj kada se grupe razlikuju po nivou crte koja se meri, nego kada se grupe razlikuju po nekim drugim varijablama, a delovanje tih varijabli ima uticaj na odgovaranje na ajteme. Na primer, kada se tokom administracije testa znanja iz matematike u jednom razredu dozvoli korišćenje kalkulatora, a u drugom ne.


98

Postoje posebni programi koji se bave ovom problematikom, a BIGSTEPS raspolaže tehnikom tzv. sidrenja koja služi za ujednačavanje merne skale i, posredno, komparacije uzoraka ispitanika i ajtema. Mogu se sidriti (anchoring) kako ispitanici, tako i ajtemi, ali i jedni i drugi istovremeno. Mi smo usidrili studente prve generacije (1999/2000) na taj način što smo ih odvojeno podvrgli Rašovoj ajtem analizi i njihove mere sačuvali. Zatim smo izvršili ajtem analizu na ukupnom uzorku, tako što smo zadali mere studenata iz prve generacije kao fiksne (sidra). Model je, dakle, mogao da ima slobodu proračuna samo za studente druge generacije, pa su i svi proračuni za ajteme varirali samo u okviru te generacije. Kada bi naša dva poduzorka bila različita u bilo kom pogledu, to bi se očitovalo u razlikama aritmetičkih sredina, grešaka, misfita itd. Ništa od toga nije utvrđeno, kao što se vidi iz tabela 1.6., 1.7. i 1.8. Promene u svim pokazateljima su minimalne, što govori o tome da prijemni ispit i način unosa podataka u računar nisu imali uticaja na visinu izmerene crte neurotičnosti (naravno, nisu delovali ni drugi eventualni izvori razlika, ili su delovali balansirajuće).

Tabela 1.6. "SUMMARY OF 118 MEASURED STUDENS (Usidrena generacija 1999/2000)"

RAW REAL INFIT OUTFIT SCORE

COUNT MEASURE ERROR MNSQ ZSTD MNSQ ZST

D MEAN

10.0 22.8 -.42 .60 1.00 -.1 1.11 -.1

S.D. 5.1 .5 1.49 .21 .29 1.0 1.05 1.0 MAX. 22.0 23.0 3.80 1.72 1.98 2.8 9.48 4.7 MIN. .0 20.0 -4.94 .46 .06 -2.5 .02 -1.9

REAL RMSE .63 ADJ.SD 1.35 SEPARATION 2.13 STUDEN RELIABILITY .82 MODEL RMSE .60 ADJ.SD 1.36 SEPARATION 2.26 STUDEN RELIABILITY .84 S.E. OF STUDEN MEAN .14

LACKING RESPONSES: 50 STUDENS VALID RESPONSES: 99.3%

Tabela 1.7. "SUMMARY OF 23 MEASURED AJTEMS"


COUNT MEASURE ERROR MNSQ ZSTD MNSQ ZST

D MEAN

51.1 117.1 -.02 .25 1.01 -.1 1.11 .1

S.D. 21.5 1.2 1.19 .04 .17 1.6 .35 1.1 MAX. 99.0 118.0 2.69 .38 1.43 4.0 1.92 2.5 MIN. 10.0 114.0 -2.70 .22 .73 -3.0 .61 -1.9


99

REAL RMSE .25 ADJ.SD 1.16 SEPARATION 4.67 AJTEM RELIABILITY .96 MODEL RMSE .24 ADJ.SD 1.16 SEPARATION 4.83 AJTEM RELIABILITY .96 S.E. OF AJTEM MEAN .25

DELETED: 67 AJTEMS Tabela 1.8. "MOST UNEXPECTED RESPONSES

(Usidrena generacija 1999/2000) " AJTEM MEASURE |STUDEN | 111 11 111 1 1 1 1111 1111 11111 |64303 218546524 366154282 2105279635210 5431854105 |58983313487122696412148135863396666947965909644428 high-------------------------------------------------- 88 EPQ88 -2.70 I|.........0...........00.00....0................... 84 EPQ84 -2.64 C|.........00......0.0.0..0......................... 23 EPQ23 -1.74 E|..0......0...000..0............................... 12 EPQ12 -.90 F|..00.0.0...00..................................... 72 EPQ72 -.83 e|......0.0.................. ...................... 58 EPQ58 -.41 H|....0....0..0....................................1 3 EPQ3 -.38 h|.........................................1.1...... 66 EPQ66 -.33 D|0....0.0....0.............. ... .........1....1.1. 19 EPQ19 -.31 g|..0............................................... 80 EPQ80 -.08 L|.0.....0.........................1......11........ 75 EPQ75 .26 a| .............. ............1.1................... 38 EPQ38 .29 f|..................................1.1............. 15 EPQ15 .33 K|............................1...1....1..1.1....... 41 EPQ41 .53 d|............................1..................1.. 47 EPQ47 .53 B|00...............................1111..1...111.... 31 EPQ31 .57 c|................... ........1..................... 68 EPQ68 .56 G|...0..........................11.1....1....1...... 77 EPQ77 .69 i|.............................1.......1............ 7 EPQ7 .74 k|.............................................1.... 27 EPQ27 1.08 J|...........................1...1.1..........1..... 62 EPQ62 1.51 j|.................... 1.11.1......1................ 54 EPQ54 2.69 A|........111.....1...1.......................1..... |-----------------------------------------------low |61113311854111491661542825111527963111161111811111 |54303 214876526 341214813 2603966665210 5431654105 | 898 13 122 6 8 3 9479 5909 44428

Test DAT-A Klasična ajtem analiza (RTT9G) Pouzdanost testa: Kronbahova = 0.8191 Gutman-Najsvanderov �= 0.9301


100

Tabela 2.1. Merna svojstva ajtema po klasičnom modelu

AS SD MSA relijab homog Harris Burt DATA39 4,2 3,90 0,6395 0,671 0,5207 0,6015 0,488 DATA27 4,8 3,90 0,7173 0,595 0,5164 0,5433 0,5537 DATA44 5,0 4,30 0,6394 0,622 0,5522 0,5977 0,482 DATA46 5,6 5,94 0,6816 0,5669 0,5494 0,5828 0,5129 DATA48 6,4 1,82 0,6879 0,5974 0,4861 0,4945 0,4768 DATA35 6,6 4,34 ,06737 0,5768 0,5203 0,5662 0,4868 DATA38 9,8 8,04 0,581 0,721 0,4727 0,5422 0,426

DATA9 10,4 10,26 0,752 0,505 0,4550 0,4675 0,471 DATA18 11,8 2,86 0,67 0,597 0,3785 0,4166 0,418 DATA34 12,6 3,91 0,611 0,569 0,4078 0,4252 0,448 DATA26 13,2 3,42 0,606 0,59 0,4065 0,4235 0,427 DATA43 13,6 6,50 0,657 0,517 0,4166 0,428 0,399 DATA25 14,0 5,15 0,589 0,554 0,4102 0,4246 4391 DATA20 14,4 11,82 0,517 0,758 0,3742 0,466 0,411 DATA41 17,0 13,73 0,69 0,422 0,3942 0,4088 0,41 DATA30 17,0 8,22 0,625 0,644 0,3216 0,3865 0,33 DATA21 17,6 3,58 0,63 0,566 0,3513 0,3637 0,403 DATA32 18,0 8,86 0,677 0,48 0,3681 0,3847 0,389 DATA45 19,0 6,56 0,628 0,499 0,3874 0,4057 0,374 DATA31 20,2 2,77 0,577 0,562 0,3378 0,3715 0,389 DATA42 20,8 9,88 0,645 0,451 0,3588 0,3774 0,38

DATA7 22,8 8,70 0,569 0,6 0,2335 0,2595 3372 DATA36 24,0 4,69 0,529 0,54 0,3230 0,3803 0,306 DATA23 24,8 1,92 0,583 0,512 0,2723 0,306 0,337 DATA12 25,0 3,32 0,523 0,519 0,2864 0,2666 0,343

DATA5 26,4 8,65 0,632 0,515 0,2244 0,2095 0,328 DATA28 27,0 8,37 0,513 0,448 0,3437 0,3693 0,367 DATA40 27,6 4,10 0,531 0,468 0,3201 0,3393 0,314

DATA3 30,0 6,78 0,545 0,55 0,2191 0,208 0,257 DATA10 30,8 13,52 0,494 0,601 0,1762 0,2152 0,248 DATA33 31,0 5,83 0,532 0,419 0,2345 0,2324 0,315 DATA22 32,2 7,92 0,521 0,388 0,2629 0,2621 0,286 DATA13 33,6 6,66 0,407 0,479 0,2407 0,2411 0,26

DATA8 34,0 10,58 0,586 0,376 0,2322 0,2528 0,234 DATA16 34,6 12,97 0,393 0,584 0,2049 0,2013 0,235 DATA11 35,0 16,64 0,403 0,616 0,1395 0,1522 2468 DATA17 35,6 5,94 0,513 0,514 0,1850 0,2004 0,221 DATA50 36,6 4,93 0,471 0,401 0,2143 0,2254 0,262 DATA15 37,2 4,97 0,496 0,5 0,1837 0,1706 2341 DATA49 37,2 7,98 0,445 0,363 0,2282 0,2275 0,279 DATA19 38,2 9,78 0,353 0,519 0,1758 0,1772 0,242

DATA2 38,8 13,31 0,614 0,465 0,0394 0,032 0,115 DATA1 39,0 0,71 0,464 0,438 0,1802 0,186 0,237

DATA47 40,8 6,38 0,518 0,458 0,1114 0,1031 0,137 DATA37 43,6 3,21 0,383 0,412 0,1546 0,1709 0,186

DATA4 43,6 8,38 0,511 0,477 -0,0587 -0,06 0,05 DATA24 44,0 1,73 0,397 0,402 0,1477 0,1379 0,192 DATA29 45,6 3,21 0,457 0,359 0,0816 0,083 0,141 DATA14 46,6 2,07 0,428 0,384 0,0176 0,038 0,07

DATA6 47,4 2,70 0,411 0,4 -0,0200 0 0,03

Napomena: oznake kolona su objašnjene ranije u tekstu


101

Iz Tabele 2.1. vidi se da neki ajtemi imaju zadovoljavajuće pokazatelje, a neki ne. Nema ajtema sa vrlo visokim koeficijentima, ali ih zato ima sa negativnim (istina, sasvim malim). Sve skupa, iz stavskih pokazatelja se ne može osloniti na pouzdanost testa izračunatu u koeficijentima za ceo test. Zadovoljavajuća i � pouzdanost potiče očigledno iz osobine klasičnog modela da nagrađuje duge testove – što više ajtema, pouzdanost je veća. Međutim, niski stavski pokazatelji nam govore da nešto sa podacima ipak nije u redu. Jedino što u raspoloživim rezultatima makroa RTT9G nema ničega što bi nam ukazalo na put objašnjenja. Interkorelacije koeficijenata se kreću od 0,353 do 0,992, gde je najveća korelacija, logično, između homogenosti i Harisove valjanosti (koji su praktično ista stvar). Rašova (IRT) ajtem analiza (BIGSTEPS)

Tabela 2.2. "SUMMARY OF 122 MEASURED (NON-EXTREME) STUDENS"


COUNT MEASURE ERROR MNSQ ZSTD MNS

Q ZSTD

MEAN

38.3 46.0 2.16 .52 .99 .0 .95 -.1

S.D. 6.0 4.9 .93 .14 .19 .7 .52 .8 MAX. 48.0 50.0 4.07 1.11 1.51 2.6 3.66 2.5 MIN. 20.0 31.0 -.45 .34 .54 -1.5 .11 -1.5 REAL RMSE .53 ADJ.SD .76 SEPARATION 1.42 STUDEN RELIABILITY .67 MODEL RMSE .52 ADJ.SD .77 SEPARATION 1.48 STUDEN RELIABILITY .69 S.E. OF STUDEN MEAN .08 WITH 2 EXTREME STUDENS = 124 STUDENS MEAN 2.21 S.D. .99 REAL RMSE .56 ADJ.SD .81 SEPARATION 1.45 STUDEN RELIABILITY .68 MODEL RMSE .55 ADJ.SD .82 SEPARATION 1.50 STUDEN RELIABILITY .69

MAXIMUM EXTREME SCORE: 2 STUDENS LACKING RESPONSES: 43 STUDENS VALID RESPONSES: 92.1%


102

Tabela 2.3. "SUMMARY OF 50 MEASURED AJTEMS"


COUNT MEASURE ERROR MNSQ ZSTD MNS

Q ZSTD

MEAN

93.4 112.4 .00 .36 1.00 .0 .97 -.1

S.D. 25.5 12.7 1.39 .14 .09 .7 .37 1.0 MAX. 120.0 122.0 3.56 .72 1.35 3.6 1.89 3.2 MIN. 20.0 81.0 -2.34 .20 .85 -1.0 .29 -1.4 REAL RMSE .38 ADJ.SD 1.34 SEPARATION 3.51 AJTEM RELIABILITY .93 MODEL RMSE .38 ADJ.SD 1.34 SEPARATION 3.56 AJTEM RELIABILITY .93 S.E. OF AJTEM MEAN .20

Iz tabela 2.2. i 2.3. vidi se da ja pouzdanost (studenata) upadljivo niža nego pouzdanost izračunata po klasičnom modelu. Separacija je manja od 2, što znači da mere studenata na DAT-A subtestu ne omogućavaju da pouzdano razdvojimo ni dve grupe; npr. niske i visoke. Pouzdanost ajtema, međutim, sasvim je zadovoljavajuća. S obzirom da nema mnogo studenata sa nultim ili savršenim skorovima (samo 2 maksimalna), možemo da zaključimo da se niska pouzdanost studenata može objasniti jedino velikim misfitom u okviru ispitanika. Takođe vidimo da je mera studenata 2,16, što znači da je DAT-A lak za studente psihologije i da su oni većinu zadataka rešili. Klasična pouzdanost ( ) je bliska, a Rašova pouzdanost znatno manja od pouzdanosti koja je navedena u priručniku, ali poređenje nije korektno jer je pouzdanost u priručniku računata kao stabilnost, odnosno kao test-retest korelacija. Tabela 2.4. predstavlja pregled mernih karakteristika ajtema DAT-A. U ajtemima nema velikog misfita, što znamo već iz Tabele 2.3 gde je pouzdanost ajtema 0,93. Poslednje dve kolone, jednako kao u Tabeli 1.4., daju poređenje dve ajtem analize. Razlike u rangovima su opet velike, a Spirmenova korelacija je -0,06. To znači da na osnovu ova dva pokazatelja ne postoje sličnosti ocene kvaliteta ajtema po klasičnoj i Rašovoj ajtem analizi. Treba se osloniti prvenstveno na informaciju da se klasični i IRT model razlikuju po tome što prvi ocenjuje samo pouzdanost ispitanika, a drugi i ispitanika i ajtema. IRT model pokazuje da postoji značajna razlika u pouzdanosti, tačnije odsustvo pouzdanosti ispitanika, uz visoku pouzdanost ajtema. Razlike u proceni kvaliteta ajtema verovatno potiču iz kombinacije različitog ugla gledanja kod ova dva pristupa i svojstava podataka.


103

Tabela 2.4. Merna svojstva ajtema po Rašovom modelu

Ajtem A.S. Skor Rašovamera

RealSE

rpbis InfitMnsq

InfitZstd

OutfitMnsq

OutfitZstd

ASRtt9g

SDRtt9g

Rang Rtt9g

Razlika

data36 0,02 106 -.23 .27 .26 1 0,1 0,98 0,0 24,0 4,69 23 -22 data21 0,04 92 .60 .23 .31 1 0,2 1,00 0,0 17,6 3,58 17 -15 data45 0,04 65 1.77 .20 .36 1 0,1 1,01 0,1 19,0 6,56 19 -16 data50 0,06 20 3.85 .26 .22 1 0,1 1,05 0,2 36,6 4,93 38 -34 data11 0,07 118 -1.54 .43 .14 1 0,1 1,10 0,2 35,0 16,64 36 -31 data13 0,08 111 -.64 .31 .21 1 0,2 0,96 -0,1 33,6 6,66 33 -27 data23 0,11 113 -.84 .33 .25 1 -0,1 0,95 -0,1 24,8 1,92 24 -17 data30 0,15 112 -.74 .32 .26 1 -0,1 1,12 0,3 17,0 8,22 16 -8

data1 0,16 117 -1.37 .40 .19 1 0,0 0,81 -0,3 39,0 0,71 43 -34 data32 0,19 96 .39 .23 .34 1 0,0 0,90 -0,5 18,0 8,86 18 -8 data40 0,21 106 -.23 .27 .30 1 -0,2 1,13 0,4 27,6 4,10 28 -17 data19 0,23 108 -.46 .30 .17 1,1 0,3 1,18 0,5 38,2 9,78 41 -29 data26 0,24 104 -.09 .26 .36 0,9 -0,5 0,95 -0,2 13,2 3,42 11 2 data42 0,24 54 2.12 .20 .39 1 -0,6 1,02 0,2 20,8 9,88 21 -7

data5 0,25 114 -.96 .34 .24 1,00 0,0 0,75 -0,6 26,4 8,65 26 -11 data6 0,27 121 -2.28 .61 -.02 1,1 0,1 1,54 0,5 47,4 2,70 50 -34

data49 0,28 28 3.36 .24 .23 1,1 0,7 1,08 0,4 37,2 7,98 39 -22 data10 0,28 122 -2.71 .72 .14 1,00 0,0 0,53 -0,5 30,8 13,52 30 -12 data34 0,29 82 1.07 .21 .39 1 -0,5 0,94 -0,4 12,6 3,91 10 9 data12 0,29 116 -1.22 .38 .28 1 -0,2 0,75 -0,5 25,0 3,32 25 -5 data22 0,32 115 -1.08 .36 .25 1 -0,1 0,71 -0,7 32,2 7,92 32 -11 data17 0,33 110 -.64 .32 .15 1,1 0,4 1,28 0,7 35,6 5,94 37 -15 data41 0,34 54 2.21 .20 .38 1 -0,4 0,93 -0,7 17,0 13,73 15 8 data25 0,35 84 .98 .21 .38 1 -0,3 0,88 -0,8 14,0 5,15 13 11 data28 0,36 109 -.46 .29 .33 1 -0,3 0,77 -0,7 27,0 8,37 27 -2 data16 0,36 122 -2.71 .72 .17 1 0,0 0,41 -0,7 34,6 12,97 35 -9

data3 0,37 102 .04 .26 .18 1,10 0,6 1,20 0,7 30,0 6,78 29 -2 data8 0,37 122 -2.71 .72 .19 1 0,0 0,37 -0,7 34,0 10,58 34 -6

data31 0,37 113 -.84 .33 .29 0,9 -0,2 1,36 0,8 20,2 2,77 20 9 data7 0,37 120 -1.98 .52 .21 1 0,0 0,47 -0,8 22,8 8,70 22 8

data43 0,39 59 1.97 .20 .40 1 -0,5 0,92 -0,8 13,6 6,50 12 19 data9 0,50 96 .39 .23 .42 0,9 -0,7 0,83 -0,9 10,4 10,26 8 24

data39 0,53 77 1.28 .21 .44 0,9 -0,9 0,89 -0,9 4,2 3,90 1 32 data20 0,54 117 -1.37 .40 .33 0,9 -0,3 0,48 -1,1 14,4 11,82 14 20 data18 0,55 120 -1.98 .52 .32 0,90 -0,2 0,34 -1,1 11,8 2,86 9 26 data15 0,57 99 .23 .26 .18 1,1 0,9 1,28 1,1 37,2 4,97 40 -4 data24 0,67 101 .11 .26 .15 1,1 0,9 1,39 1,4 44,0 1,73 47 -10 data38 0,71 97 .24 .24 .45 0,9 -0,9 0,70 -1,4 9,8 8,04 7 31 data33 0,73 58 2.03 .21 .26 1,1 1,5 1,14 1,3 31,0 5,83 31 8 data14 0,77 116 -1.22 .40 -.02 1,1 0,4 2,09 1,6 46,6 2,07 49 -9 data29 0,78 115 -1.08 .37 .07 1,1 0,2 2,20 1,8 45,6 3,21 48 -7 data35 0,79 85 .94 .21 .47 0,9 -1,2 0,79 -1,5 6,6 4,34 6 36 data44 0,84 79 1.20 .21 .46 0,9 -1,3 0,80 -1,6 5,0 4,30 3 40 data46 0,84 81 1.11 .21 .51 0,9 -1,8 0,85 -1,1 5,6 5,94 4 40

data2 0,89 116 -1.22 .39 .02 1,1 0,3 2,39 1,9 38,8 13,31 42 3 data48 0,90 61 1.93 .20 .47 0,9 -1,9 0,88 -1,3 6,4 1,82 5 41

data4 0,93 119 -1.74 .49 -.08 1,10 0,2 2,77 1,8 43,6 8,38 45 2 data27 0,95 100 .17 .24 .52 0,8 -1,4 0,63 -1,7 4,8 3,90 2 46 data37 1,02 51 2.29 .22 .17 1,2 1,9 1,24 1,9 43,6 3,21 46 3 data47 1,45 57 2.03 .22 .12 1,2 2,6 1,32 2,8 40,8 6,38 44 6

A.S. 95. .00 .32 1.00 -1,0 104,00 0,0 S.D. 26. 1.57 .14 .08 8,0 48,00 10,0

Napomena: – Skor je uobičajeni zbir tačnih odgovora ,– rpbis je kao u Tabeli 1.4.


104

Tabela 2.4a. Interkorelacije pokazatelja kvaliteta stavki

ASmisfita

Rašova mera

Real SE rpbisAS

Rtt9gSD

Rtt9g AS misfita 1,000 ,158 -,133 -,025 ,009 -,145

Rašova mera ,158 1,000 -,825 ,467 -,273 -,202 Real SE -,133 -,825 1,000 -,559 ,410 ,324

rpbis -,025 ,467 -,559 1,000 -,923 -,117 AS Rtt9g ,009 -,273 ,410 -,923 1,000 ,057 SD Rtt9g -,145 -,202 ,324 -,117 ,057 1000

Meta-statistika, prikazana u Tabeli 2.4a. govori da postoje sličnosti i razlike u odnosu na skalu EPQ-N. Korelacija rpbis i kompozita kvaliteta iz modela RTT9G i dalje je vrlo visoka. Sve u svemu, sada se može zaključiti da nijedan misfit posebno, niti neki izvedeni zbirni pokazatelj nisu pogodni za opšte rangiranje ajtema po kvalitetu. Možda je na to uticala činjenica da nijedan test u ovom radu nije imao mnogo ajtema sa visokim misfitom. Osim toga, misfit u IRT modelima više je "individualni" pokazatelj, baziran na odstupanjima pojedinačnih odgovora od modelskog predviđanja. Zato i njegova prvenstvena namena nije globalna. Pokazalo se da rpbis i standardna greška merenja pružaju bolju osnovu za rangiranje i za komparaciju sa drugim modelima. DAT-A je neverbalni test i teško je uočiti mehanizme koji bi ukazali na to koji ajtemi su problematični. Treba imati u vidu da uzorak čine uglavnom žene. Taj podatak treba kombinovati sa jednim ovlaš učinjenim zapažanjem da neki ajtemi koji su teški i imaju misfit sadrže mehanizam uočavanja broja elemenata, za razliku od drugih kod kojih se mora uočiti prostorni raspored, oblik i sl. Dakle, problem je u ovom trenutku potpuno sagledan. Pouzdanost ispitanika je niska, a iz stavskih pokazatelja ne može se zaključiti zbog čega je niska. Zato ćemo ovde priložiti tabelu koja sadrži grafički prikaz misfita kod studenata.


105

Tabela 2.5. "STUDENT FIT GRAPH: MISFIT ORDER"

+-------------------------------------------------------------------+ |ENTRY| MEASURE | INFIT MEAN-SQUARE | OUTFIT MEAN-SQUARE | | |NUMBR| - + |0 0.7 1 1.3 2|0 0.7 1 1.3 2| STUDEN| |-----+---------+---------------------+---------------------+-------| | 25| * | : * : |A : . : *| 200025| | 144| * | : * : |B : . : *| 199044| | 9| *| : .* : |C : . : *| 200009| | 114| * | : * : |D : . : *| 199014| | 52| * | : . *: |E : . : * | 200052| | 78| * | : . :* |F : . : * | 200078| | 154| * | : *. : |G : . : * | 199054| | 156| * | * . : |H : . : * | 199056| | 15| * | : . :* |I : . : * | 200015| | 81| * | : . :* |J : . : * | 200081| | 149| * | * . : |K : . : * | 199049| | 105| * | : . : * |L : . : * | 199005| | 111| * | : .* : |M : . : * | 199011| | 118| * | : . * |N : . : * | 199018| | 159| * | : . * |O : . : * | 199059| | 55| * | : .* : |P : . : * | 200055| | 138| * | : .* : |Q : . :* | 199038| | 125| * | : .* : |R : . :* | 199025| | 136| * | : . * |S : . :* | 199036| | 57| * | : * : |T : . :* | 200057| | 95| * | : . * |U : . :* | 200096| | 59| * | : *. : |V : . * | 200059| | 89| * | : . * |W : .* : | 200089| | 101| * | : * : |X : . * | 199001| | 139| * | : . * |Y : .* : | 199039| | 70| * | : * : |Z : . * | 200070| |-OMIT+---------+---------------------+---------------------| | | 77| * | :* . : |z :* . : | 200077| | 26| * | :* . : |y * : . : | 200026| | 146| *| :* . : |x * : . : | 199046| | 133| * | :* . : |w * . : | 199033| | 145| * | :* . : |v * : . : | 199045| | 44| *| :* . : |u * : . : | 200044| | 76| * | :* . : |t :* . : | 200076| | 32| * | :* . : |s * . : | 200032| | 129| * | :* . : |r :* . : | 199029| | 94| *| :* . : |q* : . : | 200095| | 12| * | * . : |p *: . : | 200012| | 119| * | * . : |o *: . : | 199019| | 130| * | * . : |n * . : | 199030| | 160| * | * . : |m * : . : | 199060| | 39| * | * . : |l * : . : | 200039| | 162| * | * . : |k * : . : | 199062| | 122| * | * . : |j * : . : | 199022| | 86| * | * . : |i *: . : | 200086| | 167| * | * . : |h * : . : | 199067| | 157| * | *: . : |g * : . : | 199057| | 158| * | *: . : |f * : . : | 199058| | 102| * | *: . : |e * : . : | 199002| | 93| * | *: . : |d * : . : | 200094| | 164| *| * : . : |c* : . : | 199064| | 113| * | * : . : |b * : . : | 199013| | 38| * | * : . : |a* : . : | 200038| +-------------------------------------------------------------------+


106

Iz Tabele 2.5 vidi se da postoji veoma mnogo studenata sa veoma mnogo misfita. Dominantan je šuman outfit, sa nešto manje prigušenog outfita i vrlo malo slabog infita. Iz drugih tabela koje nudi BIGSTEPS vidi se da ogromnu većinu misfitovanih odgovora čine neočekivani pogrešni odgovori, odnosno izostanak odgovora. S ozbirom da iz prosečne studentske mere (Tabela 2.1) znamo da je test za njih bio lak, onda su neočekivani pogrešni odgovori upravo znaci outfita: neočekivano ekstremno odgovaranje. Od ukupno 52 studenta sa značajnim misfitom, 29 su iz prve, a 23 iz druge generacije studenata. Takođe, prosečna mera studenata prve generacije je 2,21, a druge 2,10. To se na prvi pogled čini u skladu sa time što je prva generacija imala prijemni ispit, a druga nije, međutim, pouzdanost je toliko niska da se ni u jednom poduzorku ne mogu razdvojiti ni dve grupe ispitanika. Kao i kod EPQ-N, usidrili smo prvu generaciju studenata kako bismo videli postoje li razlike poduzoraka. Opet se pokazao vrlo slab učinak sidrenja na prosečne ocene i pouzdanost, ali se promenila situacija sa strukturom misfita i to prvenstveno kod studenata. Kada se usidre mere prve generacije, broj misfitovanih studenata iz te generacije pada na 19, a iz druge generacije se regrutuje 31 misfitovan student. Prostim uvidom u podatke uočava se znatno veći broj izostalih odgovora kod mlađih studenata, što se sasvim može pripisati njihovim problemima sa unosom podataka.

Zaključci

Rašova ajtem analiza na oba analizirana testa (subtesta) pokazala se kao potpuno efikasno oruđe. Pouzdanost testnog skora je, kako u prostoru ispitanika, tako i u prostoru ajtema, procenjena vrlo razumno. Dijagnostikovanje razlika u pouzdanosti ispitanika i ajtema se moglo efikasno obaviti istraživanjem misfita. Procena kvaliteta ajtema na osnovu dobijene mere ("težine"), standardne greške merenja, misfita i ajtem-total korelacije informativna je i inspirativna. Mnoge ostale tabele koje nudi program BIGSTEPS obezbeđuju percentilne norme, listinge skorova ispitanika, grafičke prikaze misfita, distraktora i obilje drugih informacija koje su korisne za širok dijapazon oblasti primene – od ocenjivanja ispitanika do konstrukcije i verifikacije testova. Komparacija sa klasičnom ajtem analizom pokazala je da postoji značajna sličnost u oceni pouzdanosti testa u celini, ali da se ocene kvaliteta ajtema prilično razlikuju. Ove ocene su skoro saglasne kada se za komparaciju koristi ajtem-total korelacija iz Rašovog modela, ali su po svim ostalim osnovama slabe ili protivrečne. Ovi nalazi samo su donekle saglasni sa nekim drugim studijama, jer je npr. Ksitao (Xitao, 1998) našao veliku saglasnost u oceni težine ajtema, crte ispitanika i diskriminativnosti ajtema između IRT i CTT modela. Klasični model, oličen u ovom radu u programu RTT9G, baziran na ideji interne konzistencije testa ne može se odbaciti. Ta ideja utemeljena je kako


107

logički, tako i tradicionalno. To što klasični model muče paradoks atenuacije (Engelhard, 1992), protivrečne veze težine i interkorelacije ajtema i diskriminativnosti ukupnog skora, pojmovno preklapanje koeficijenata pouzdanosti, validnosti, homogenosti, reprezentativnosti i sl. može da znači samo to da je bilo dovoljno vremena da se ovi pojmovi izlože kritici. Dok IRT modeli ne izdrže probu vremena nije plauzibilno odbacivati klasični model, koji će, ako ništa drugo, preživeti kroz podelu ukupnog skora na pravi i pogrešni deo. U praktičnom smislu, koji je tekući i zato možda privremen, svako danas može da "kupi" statističke pakete kao što je SPSS, gde će najverovatnije naći neku vrstu klasične ajtem analize. Nasuprot tome, programi za IRT modele još nisu opšte dostupni. Pored toga, ono što te modele čini praktično obaveznim, a to je bankiranje ajtema, računarsko adaptivno testiranje (CAT), računarski zasnovano testiranje (CBT), automatska generacija ajtema (Embretson, 1999) i slične stvari, u domaćoj psihologiji još nisu zaživele toliko da bi za sobom privukle i primenu IRT modela.

Reference

Birnbaum, A. (1968), Some Latent Trait Models and Their Use in Inferring an Examinee's Ability, u F. M. Lord i M. R. Novick (ur.); Statistical Theories of Mental Test Scores, Reading, MA, Addison-Wesley, 397-479.

Cronbach, L.J., Rajaratnam, N., Glaser, G.C. (1963) Theory of generalizability: A liberalization of reliability theory, British Journal of Statistical Psychology, 16:137-163.

DAT - Baterija testova sposobnosti, Priručnik (1970). Ljubljana: Zavod SR Slovenije za produktivnost dela.

Guttman, L. (1953) Image theory for the structure of quantitative variates, Psychometrika, 18:277-296.

Embretson, S. E. (1996). The New Rules of Measurement, Psychological Assessment, 8:4:341-349.

Embretson, S. E. (1999). Generating Items During Testing: Psychometric Issues and Models, Psychometrika, 64:4:407-433.

Embretson, S. E., Reise, S. P. (2000). Item Response Theory for Psychologists, Mahwah: New Jersey, Lawrence Erlbaum.

Engelhard, G. jr (1992) What is The Attenuation Paradox?, u M. Linacre (ur): Rasch Measurement Transactions, Part1, 6:4:257, Chicago: MESA.

Huang, C.D., Church, A.T. (1997). Identifying cultural differences in items and traits, Journal of Cross-Cultural Psychology, 28:2:192.


108

Knežević, G., Momirović, K. (1996). RTT9G, program za analizu metrijskih karakteristika kompozitnih mernih instrumenata. U P. Kostić, Problemi merenja u psihologiji, 2: 37-56, Beograd: Institut za kriminološka i sociološka istraživanja.

Linacre, J. (1996) Why Fuss about Statistical Sufficiency? RMT, 1996, 6:3.

Linden, van der, W. (1996) Sufficient and Necessary Statistics, RMT, 1996, 6:3.

Linden, van der, W.J., Hambleton, R.K. (1997). Handbook of Modern Item Response Theory, New York: Springer Verlag.

Lojk, L. (1979). EPQ - Eysenckov upitnik ličnosti – Priručnik, Ljubljana: Zavod SR Slovenije za produktivnost dela.

Lord, F. M. (1952), A Theory of Test Scores, Psychometric Monograph No. 7, Psychometric Society.

Momirović, K., Wolf, B., Popović, B. (1999). Uvod u teoriju merenja, I. Metrijske karakteristike kompozitnih mernih instrumenata, 2. izdanje, Priština: Fakultet za fizičku kulturu.

Rasch, G. (1960) Probabilistic models for some intelligence and attainment tests, Copenhagen: Danmarks Paedagogiske Institut.

RMT – Rasch Measurement Transactions: Part 1 (1995). John Michael Linacre (Ur.), Rasch Measurement Transactions od 1987 (Vol. 1:1) do 1992 (Vol. 5:4), Institute for Objective Measurement, http://www.rasch.org/rmt/index.htm, Chicago.

RMT – Rasch Measurement Transactions: Part 2 (1996). John Michael Linacre (Ur.), Rasch Measurement Transactions od 1992 (Vol. 6:1) do 1995 (Vol. 8:4), Institute for Objective Measurement, http://www.rasch.org/rmt/index.htm, Chicago.

Schafer, W.D. (1999). An overview of meta-analysis, Measurement & Evaluation in Counseling & Development, 32:1:43.

Shavelson, R. J., Webb, N. M (1991). Generalizability Theory: A Primer, California: Newbury Park, Sage Publications.

Smith, R.M., Kramer, G.A. (1992). A comparison of two methods of test equating in the Rasch model, Educational & Psychological Measurement, 52:4:835.

Spearman, C. E. (1904). The proof and measurement of association between two things. American Journal of Psychology, 15:72-101.

Teresi, J. A. (2000). Applications of Item Response Theory to the Examination of the Psychometric Properties and Differential Item Functioning of the Comprehensive Assessment and Referral Evaluation Dementia Diagnostic..., Research on Aging, 22:69:738.

Thurstone L.L. 1925. A method of scaling psychological and educational tests, Journal of Educational Psychology, 16:433-451.


109

Thompson, B., Vacha-Haase, T. (2000) Psychometrics Is Datametrics: The Test Is Not Reliable, Educational & Psychological Measurement, 60:2:174.

Wright, B.D. (1996) Equitable Test Equating, u J. M. Linacre (Ur.), RMT, 7:2, Chicago: Institute for Objective Measurement.

Xitao, F. (1998). Item response theory and classical test theory: an empirical comparison of their item/person statistics, Educational & Psychological Measurement, Vol. 58, Issue 3, str.357-380.

Zumbo, B. D. (1999). A glance at coefficient alpha with an eye towards robustness studies: Some mathematical notes and a simulation model (Paper No. ESQBS-99-1). Prince George, B.C.: University of Northern British Columbia. Edgeworth Laboratory for Quantitative Behavioural Science.

New and Old Item Analysis – Comparison

STANISLAV FAJGELJ BRANISLAV KOSANOVIĆ

The main aim of this paper is to improve knowledge about the Item Response Theory (IRT). For that purpose two item analyses were compared: one based on the classical psychometric model and the other based on the model of Item Response Theories. SPSS macro RTT9G and Rasch item analysis program BIGSTEPS were used for calculation of indicators. The data from two tests - EPQ90 (N-scale) and DAT Series (subtest A) – have suggested that the tests as a whole are similar in both models of item analysis. However, on the item level, the item quality indicators show a great deal of difference. The main impression is that the Rasch item analysis offers much more data for evaluation of those who were tested as for the items themselves. Key words: psychometry, IRT models, item analysis, Rasch model, true score theory.


110

Новый и старый айтем анализ – сравнение

СТАНИСЛАВ ФАЙГЕЛЬ, БРАНИСЛАВ КОСАНОВИЧ

В работе рассматривается теория айтем ответа (IRT). В целях более широкого ознакомления с этой теорией сравниваются два айтем анализа: анализ, основывающийся на классической психометрической модели и анализ, основывающийся на модели теории айтем ответа. Для вычисления показателей использованы SPSS макро RTT9G и программа BIGSTEPS для айтем анализа по Рашу. На основании данных по двум тестам: EPQ90-шкала N и субтест A из DAT серии показано что оценки достоверности на уровне всего теста совпадают у этих двух моделей айтем анализа. Однако,на уровне айтема, показатели качества айтема очень различаются. Складывается впечатление, что айтем анализ по Рашу дает значительно больше данных для оценики и испытуемых и айтема. Ключевые слова: психометрия, IRT модели, айтем анализ, модель Раша, теория истинного результата.

nova i stara ajtem analiza – poređenje · psihologija, 2001, 1-2, 83-110 udk 159.9.072.59 83...

Documents