testovi statistika

19
EZR - Adekvatnost merenja ADEKVATNOST MERENJA U svakom merenju postoji izvestan stepen neizvesnosti, koji može biti iskazan kao greška u merenju. Greške u merenju mogu se klasifikovati u dve kategorije: sistematske i slučajne greške. Sistematske greške daju predvidive precenjene ili potcenjene vrednosti (npr. loše kalibrisani instrument koji daje uvek precenjene ili uvek potcenjene). Za razliku od sistematskih grešaka, slučajne greške nisu predvidive, i u datom mernom procesu mogu dati i precenjene i potcenjene vrednosti. Greške u merenju nastaju delovanjem različitih faktora kao što je to loša kalibracija instrumenta, neodgovarajuće vreme odziva instrumenta u odnosu na promene merene varijable, uticaj samog instrumenta namerenu veličinu, delovanje okoline, humani faktori – međuposmatrački i unutarposmatrački varijabilitet (npr. kako lekar ocenjuje depresivnost pacijenta na nekoj skali). Slučajne greške nastaju i usled “šuma” - malih i brzih promena u okolini ili u samom instrumentu koje mogu uticati na izmerenu vrednost. Identifikacijom i smanjenjem grešaka merenje se može učiniti više adekvatnim. Adekvatnost merenja podrazumeva koncepte kao što su tačnost, preciznost, slaganje, valjanost i pouzdanost. . TAČNOST Odnosi se na bliskost izmerene vrednosti i tačne/korektne vrednosti (označena kao referentna, kriterijumska, ili vrednost zlatnog standarda). Primer: Cilj je bio evaluacija tačnosti novog automatskog brojača retikulocita u odnosu na referentne vrednosti koje su dobijene manuelnim / vizuelnim brojanjem od strane dva laboratorijska tehničara. Na osnovu sedam uzoraka, koeficijent korelacije iznosio je 0.96 što se prihvaćeno kao zadovoljavajuće slaganje automatskog brojača sa referentnim vrednostima. .

Upload: ana

Post on 25-Dec-2015

129 views

Category:

Documents


14 download

DESCRIPTION

medicina

TRANSCRIPT

Page 1: testovi statistika

EZR - Adekvatnost merenja

ADEKVATNOST MERENJA

U svakom merenju postoji izvestan stepen neizvesnosti, koji može biti iskazan kao

greška u merenju. Greške u merenju mogu se klasifikovati u dve kategorije:

sistematske i slučajne greške. Sistematske greške daju predvidive precenjene ili

potcenjene vrednosti (npr. loše kalibrisani instrument koji daje uvek precenjene ili

uvek potcenjene). Za razliku od sistematskih grešaka, slučajne greške nisu

predvidive, i u datom mernom procesu mogu dati i precenjene i potcenjene

vrednosti. Greške u merenju nastaju delovanjem različitih faktora kao što je to loša

kalibracija instrumenta, neodgovarajuće vreme odziva instrumenta u odnosu na

promene merene varijable, uticaj samog instrumenta namerenu veličinu, delovanje

okoline, humani faktori – međuposmatrački i unutarposmatrački varijabilitet (npr.

kako lekar ocenjuje depresivnost pacijenta na nekoj skali). Slučajne greške nastaju i

usled “šuma” - malih i brzih promena u okolini ili u samom instrumentu koje mogu

uticati na izmerenu vrednost.

Identifikacijom i smanjenjem grešaka merenje se može učiniti više adekvatnim.

Adekvatnost merenja podrazumeva koncepte kao što su tačnost, preciznost,

slaganje, valjanost i pouzdanost.

.

TAČNOST

Odnosi se na bliskost izmerene vrednosti i tačne/korektne vrednosti (označena kao

referentna, kriterijumska, ili vrednost zlatnog standarda).

Primer: Cilj je bio evaluacija tačnosti novog automatskog brojača retikulocita u

odnosu na referentne vrednosti koje su dobijene manuelnim / vizuelnim

brojanjem od strane dva laboratorijska tehničara. Na osnovu sedam uzoraka,

koeficijent korelacije iznosio je 0.96 što se prihvaćeno kao zadovoljavajuće

slaganje automatskog brojača sa referentnim vrednostima.

.

Page 2: testovi statistika

PRECIZNOST

Preciznost je bliskost nezavisnih merenja istog kvantiteta ili kvantiteta napravljenog

pod istim uslovima. Za ocenu preciznosti koriste se mere varijabiliteta, a najčešće

koeficijent varijacije (CV). Male vrednosti CV ukazuju na precizno merenje. U

laboratorijskim uslovima određuje se pravljenjem poduzoraka od istog materijala.

Primer: Na istom ispitaniku na istom mernom mestu pet puta je ponovljeno

merenje mineralne gustine primenom DXA metode. Dobijene su sledeće

vrednosti (g/cm2): 0.85, 0.89, 0.86, 0.82, 0.85. Zaključeno je da merenje ima

zadovoljavajuću preciznost (CV = 2.9%).

Primer: Od istog uzorka plazme napravljeno je pet poduzoraka i izmerene su

sledeće vrednosti HDL holesterola (mg/dL): 55, 56, 55, 54, 57. Ocenjeno je da

merenje ima zadovoljavajuću preciznost (CV = 2.1%)

.

SLAGANJE

Odnosi se na bliskost izmerenih vrednosti različitim metodama, pri čemu se niti

jedan od njih ne može proglasiti referentnim/zlatnim standardom, pa se i ne može

primeniti ocena tačnosti. Metode za ocenu slaganja prikazane su u delu ove lekcije

pod nazivom „Međuposmatračka pouzdanost“.

VALJANOST I POUZDANOST

Vrlo često merenja u medicini zasnivaju se na primeni “papirnih instrumenata” -

upitnika i skala. Izmerena vrednost na takvim instrumentima dobija se

kombinacijom odgovara na pitanja (stavke, ajteme) na upitniku ili skali, čime se

dobija kompozitni skor. Adekvatnost takvog mernog procesa, primenom

kompozitnih skorova, opisana je konceptima valjanosti (validnosti) i pouzdanosti

(relijabilnosti). Koncept valjanosti srodan je konceptu tačnosti, a koncept

pouzdanosti srodan je konceptu preciznosti.

Page 3: testovi statistika

Pouzdanost označava do koje mere se metoda merenja (test) konzistentno ili

postojano ponaša, a valjanost je odnos između onog što se pretpostavlja da bi

instrument (test) trebalo da meri i onog što on stvarno meri.

POUZDANOST

Postoje tri standardna načina za ocenu pouzdanosti: interna konzistentnost,

međuposmatračka pouzdanost i test retest pouzdanost. Pouzdanost se ocenjuje

primenom različitih tipova koeficijenata pouzdanosti. Uopšte uzev, vrednosti

koeficijenata pouzdanosti preko 0.7 smatraju se prihvatljivim.

.

INTERNA KONZISTENTNOST je mera slaganja individualnih stavki (ajtema) na

skali i označava stepen do kojeg su stavke međusobno korelisane. Ovom prilikom,

svaka stavka se posmatra kao poseban instrument za merenje ispitivanog

konstrukta, tako da koherentnost između njih sugeriše da svi ajtemi mere istu stvar

(a takođe i sve stavke zajedno kao celina).

Interna konzistencija skale zavisi od interne konzistencije konstrukta kojeg težimo

da tom skalom izmerimo, i veća je kod unidimenzionalnih konstrukata nego kod

onih sa dva ili više nezavisnih domena.

Interna konzistentnost je prosečna korelacija između stavki unutar skale. Vrednosti

Cronbach alfa preko 0,7 su zadovoljavajuće.

Interna konzistentnost se najčešće ocenjuje:

alfa koeficijentom (Cronbach alfa), za skale koje nemaju dihotomne stavke, ili

Kuder-Richardsonovom formulom 20 (KR-20), za skale koje imaju dihotomne

stavke.

.

Opis podataka: Za 17 ispitanika dati su podaci na Bekovoj skali za anksioznost.

Ova skala sastoji se od 21 pitanja (stavke, ajtema), a koristi se za procenu

simptoma opšte anksioznosti. Pacijenti odgovaraju na svako pitanje i procenjuju

sopstveno stanje na skali od 0 (odsustvo simptoma) do 3 (veoma izraženi

simptomi). Zbir svih ajtema daje totalan skor (maksimalno 63).

Page 4: testovi statistika

Dati ocenu interne konzistentnosti ove skale.

.

Procedura u EZR-u:

1) Preuzeti i učitati bazu podataka BAI.xlsx

2) Cronbachov alfa koeficijent dobija se klikom na liniji sa komandama: Statistical

analysis→Accuracy of diagnostic test→Cronbach`с аlpha coefficient of

reliability

U dijalog prozoru koji se pojavio:

o u polju Variables (pick three or more) označiti stavke za koje se izračunava

interna konzistentnost

o kliknuti na dugme OK

Page 5: testovi statistika

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke

procedure.

.

3) Zaključak: BAI poseduje adekvatan nivo interne konzistentnosti (Cronbach

alfa=0,93).

.

.

MEĐUPOSMATRAČKA POUZDANOST meri slaganje dva ili više posmatrača koji

koriste iste informacije o istom objektu. Najčešće se koristi za procenu

međuposmatračke pouzdanosti različitih skala. Kod upitnika se ne izračunava jer se

radi o instrumentima za samoprocenu.

Postoji više postupaka za izračunavanje koeficijenata međuposmatračke

pouzdanosti.

o intraklasni koeficijent korelacije (ICC),

o Pearsonov koeficijent korelacije,

o kappa koeficijent,

o Spearmanov koeficijent korelacije i

o Kendallov koeficijent konkordancije.

.

Opis podataka: Dvojica radiologa postavljaju dijagnozu karcinoma pluća na osnovu

radiografskog snimka. Njihove odluke o dijagnozi za 92 pregledana pacijenta date

su u fajlu “radiolozi”. Oceniti slaganje dva radiologa koje se odnosi postavljanje

dijagnoze karcinoma pluća na osnovu radiografskog snimka.

Slaganje radiologa biće ocenjeno primenom kappa koeficijenta.

Page 6: testovi statistika

.

Procedura u EZR-u:

1) Preuzeti i učitati bazu podataka radiolozi.xlsx

2) Prvo je potrebno napraviti tabelu kontingencije što se postiže klikom na liniji sa

komandama: Statistical analysis→Discerete variables→Create two-way table

and compare two proportions (Fisher`s exact test)

U dijalog prozoru koji se pojavio:

o u okviru polja Row variable (pick one or more): odabrati prvog ocenjivača

o u okviru polja Column variable (pick one): odabrati drugog ocenjivača

o odčekirati sva ostala polja

o kliknuti na dugme OK

Page 7: testovi statistika

U prozoru sa rezultatima pojavila se tabela kontingencije koja prikazuje odluke

radiologa.

3) Kappa koeficijent dobija se klikom na liniji sa komandama: Statistical

analysis→Accuracy of diagnostic test→Kappa statistics for agreement of

two tests

U prozoru koji se pojavio, na osnovu tabele kontingencije, uneti apsolutne

učestalosti kategorija odluka oba radiologa.

.

4) Zaključak: Radiolozi imaju adekvatan nivo slaganja u postavljanju dijagnoze

(kappa=0,74).

.

.

Page 8: testovi statistika

TEST-RETEST POUZDANOST je ocena stabilnosti skale u vremenu, odnosno mera

slaganja rezultata koji se dobijaju ponovljenim merenjem na istim objektima pod

uslovom da nije došlo do promene stanja tih objekata.

Ocenjuje se primenom:

o intraklasnog koeficijenta korelacije,

o Pearsonovog koeficijenta linearne korelacije ili

o Spearmanovog koeficijenta rang korelacije

Ova vrsta pouzdanosti je posebno značajna ako se skala koristi za ocenu promene

stanja ispitanika u toku tretmana. Ako skala nema dovoljno visoku test-retest

pouzdanost, onda je nemoguće odrediti da li je izmerena promena stvarna ili

predstavlja slučajnu grešku skale.

Zadovoljavajuća vrednost koeficijenta test retest pouzdanosti iznosi preko 0,7

.

Opis podataka: Kod 16 ispitanika starijih od 65 godina meren je kognitivni status.

Za procenu kognicije korišćen je Mini Mental State Examination (MMSE). Testiranje

je rađeno dva puta u razmaku od 7 dana radi procene test-retest pouzdanosti

MMSE.

.

Procedura u EZR-u:

1) Preuzeti i učitati bazu podataka MMSE.xlsx

Test-retest pouzdanost izračunaćemo pomoću Pearsonovog koeficijenta korelacije

koji se u EZR dobija klikom na liniji sa komandama: Statistical

analysis→Continuous variables→Test for Pearson`s correlation

Page 9: testovi statistika

U prozoru koji se pojavio:

o u okviru polja Variables (pick two) označiti varijable za koje određujemo test

retest

o kliknuti na dugme OK.

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke

procedure.

2) Zaključak: Test retest pouzdanost MMSE je zadovoljavajuća (r=0,94).

Page 10: testovi statistika

DIJAGNOSTIČKA VALJANOST - DIJAGNOSTIČKA TAČNOST

Kod dijagnostičke valjanosti instrument se ispituje u odnosu na kriterijumski

standard (definitivna dijagnoza, “zlatni standard”) koja se najčešće iskazuje u

terminima senzitivnosti, specifičnosti i površine ispod ROC krive ispitivanog

instrumenta. U psihijatriji “zlatni standard” jesu dijagnostički kriterijumi, najčešće

MKB ili DSM.

Dijagnostički test čiju tačnost ispitujemo naziva se indeksni test. Njegova se tačnost

poredi sa zlatnim standardom za isto dato oboljenje. Indeksni test iz dijagnostičke

studije u praksi može postati standardan test ako je njegova tačnost

zadovoljavajuća za rešavanje konkretnog zdravstvenog problema. Referentni

(zlatni) standard je u datom trenutku najbolji raspoloživi kriterijum ili standard za

postavljanje konačne dijagnoze.

Poređenje dijagnostičkih rezultata indeksnog testa i rezultata zlatnog standarda

može se predstaviti u vidu dijagnostičke tabele 2x2 (Tabela 1), u kojoj se ispitanici

klasifikuju kao pozitivni ili negativni na osnovu zlatnog standarda i indeksnog testa.

Tabela 1. Poređenje rezultata indeksnog testa i zlatnog standarda

Dijagnostička tabela je tabela kontingencije dimenzija 2x2 u kojoj su ispitanici

klasifikovani dvostruko:

Page 11: testovi statistika

Ispitanici su klasifikovani u dve kolone prema referentnom standardu: prva

kolona u kojoj su ispitanici kod kojih je oboljenje zaista prisutno (D+) i druga

kolonu u kojoj su ispitanici kod kojih oboljenje ne postoji (D-).

Na osnovu rezultata indeksnog testa ispitanici su klasifikovani u dva reda: prvi

red u kojem su ispitanici kod kojih je test pozitivan (T+) i drugi red u kojem su

ispitanici kod kojih je test negativan (T-).

Na taj način u četiri ćelije ove tabele predstavljene su četiri moguće kombinacije. U

prvom redu (T+), pozitivni rezultati testa mogu biti ili tačno-pozitivni (TP) ili lažno-

pozitivni (LP) zavisno od toga da li bolest zaista postoji. U drugom redu (T-),

negativni rezultati testa mogu biti lažno-negativni (LN) ili tačno-negativni (TN) u

zavisnosti od prisustva ili odsustva bolesti.

Zbir TP+LP je ukupan broj pacijenata koji imaju pozitivan test; zbir LN+TN je

ukupan broj pacijenata koji imaju negativan rezultat ispitivanja, a N je veličina

uzorka u dijagnostičkoj studiji.

Mere tačnosti dijagnostičkog testa su: senzitivnost, specifičnost, sveukupna tačnost

i površina ispod krive operativne karakteristike.

Senzitivnost je sposobnost testa da identifikuje one koji stvarno imaju bolest. Na

osnovu dijagnostičke tabele izračunava se kao proporcija tačno pozitivnih od

ukupnog broja obolelih:

Senzitivnost se takođe može definisati kao (1) stopa tačno pozitivnih, (2)

verovatnoća pozitivnog rezultata testa kod onih koji imaju bolest, ili (3) proporcija

obolelih koji su pozitivni na testu.

Specifičnost je sposobnost testa da prepozna stvarno zdrave tj. sposobnost testa

da isključi postojanje bolesti, odnosno da rezultat testa bude negativan kod zdravih.

Izračunava se kao proporcija tačno negativnih od ukupnog broja zdravih:

Page 12: testovi statistika

Specifičnost se takođe može definisati kao (1) stopa tačno negativnih, (2)

verovatnoća negativnog rezultata testa kod onih koji nemaju bolest, ili (3)

proporcija zdravih koji su negativni na testu.

Odnos verodostojnosti

Odnos verodostojnosti (LR) je odnos verovatnoća određenog rezultata testa (+ ili –)

ispitanika koji ima bolest podeljeno verovatnoćom istog rezultata testa osobe koja

nema bolest.

Mogu se izračunati dve vrste odnosa verodostojnosti:

1. Odnos verodostojnosti pozitivnog testa (LR+) je odnos senzitivnosti i stope

lažno pozitivnih (1–specifičnost):

2. Odnos verodostojnosti negativnog testa (LR–) je odnos stope lažno

negativnih (1– senzitivnost) i specifičnosti:

Odnos verodostojnosti pokazuje koliko mnogo rezultat testa menja pretest

verovatnoću bolesti, odnosno šansu bolesti. LR+ pokazuje koliko puta pozitivan

rezultat testa povećava pretest šansu bolesti, a LR– pokazuje koliko puta negativan

rezultat testa smanjuje pretest šansu bolesti.

Odnos verodostojnosti može poslužiti za izračunavanje posttest verovatnoće.

Veličina promena od pretest verovatnoće do posttest verovatnoće u velikoj meri

zavisi od vrednosti odnosa verodostojnosti. Poželjno je da LR+ ima što veće (veće

od 10), a LR- što manje vrednosti (manje od 0.1).

PRIMER:

Opis podataka: Cilj istraživanja bio je ocena tačnosti ultrazvučnog pregleda u

detekciji povreda medijalnog meniskusa. Artroskopski nalazi uzeti su kao referentni

standard. Rezultati istraživanja prikazani su kao ultrazvučni nalaz stanja medijalnog

meniskusa u odnosu na referentni standard.

Page 13: testovi statistika

Odrediti: senzitivnost, specifičnost, odnos verodostojnosti pozitivnog testa i odnos

verodostojnosti negativnog testa za UZ u detekciji povreda medijalnog meniskusa.

.

Procedura u EZR-u:

1) Preuzeti i učitati bazu podataka Artroskopija i UZ.xlsx

2) Prvo je potrebno dijagnostičku tabelu iz podataka što se postiže klikom na liniji

sa komandama: Statistical analysis→Discerete variables→Create two-way

table and compare two proportions (Fisher`s exact test)

U dijalog prozoru koji se pojavio:

o u okviru polja Row variable (pick one or more): odabrati indeksni test

o u okviru polja Column variable (pick one): odabrati zlatni standard

o odčekirati sva ostala polja

o kliknuti na dugme OK

Page 14: testovi statistika

U prozoru sa rezultatima pojavila se tabela kontingencije UZ nalaza i

artroskopije.

Ultrazvučni nalazom je dobijeno ukupno 76 pozitivnih nalaza: 75 tačno

pozitivnih i 1 lažno pozitivan. Dobijeno je 12 negativnih nalaza: 11 tačno

negativnih i 1 lažno negativan.

3) Mere dijagnostičke tačnosti iz nominalnih podataka dobijaju se klikom na liniji sa

komandama: Statistical analysis→Accuracy of diagnostic test→Accuracy of

qualitative test

U prozoru koji se pojavio, na osnovu tabele kontingencije, ukucati apsolutne

učestalosti. Obratiti pažnju da se u polja ukucaju prave vrednosti, jer zavisno od

kodiranja tabela kontingencije može da bude drugačija od dijagnostičke tabele.

Gledati prave vrednosti za: TP, LP, LN I TN i uneti ih u odgovarajuća polja.

Page 15: testovi statistika

U prozoru sa rezultatima pojavili su se rezultati primenjene statističke

procedure.

4) Zaključak: Ocene tačnosti ultrazvučnog pregleda medijalnog meniskusa su:

Sn = 0,987 = 99%

Sp = 0,917 = 92%

Vrednosti mera verodostojnosti pozitivnog i negativnog testa (LR + i LR –)

iznose:

LR+ = 11,84

LR- = 0,014

.

.

Page 16: testovi statistika

ROC KRIVA

Dobar način za prikaz odnosa senzitivnosti i specifičnosti za testove koji su

kontinuirani je kriva operativne karakteristike (ROC – engl. Receiver Operating

Caracteristic Curve ili Receiver Operating Curve).

Na grafičkom prikazu ROC krive senzitivnost je predstavljena vertikalnom osom, a

stopa lažno pozitivnih (1 – specifičnost) horizontalnom osom. Linija koja ide od

donjeg levog ugla ka gornjem desnom uglu predstavljala bi test bez dijagnostičke

korisnosti. Ukoliko je linija bliža levom gornjem uglu, test ima sve veću

dijagnostičku tačnost, jer je tada senzitivnost bliža jedinici, a stopa lažno pozitivnih

sve bliža nuli. Ako kriterijum na testu postaje strožiji, tačke na krivoj se pomeraju

ka dole i ulevo (niža senzitivnost, veća specifičnost). Ako kriterijum na testu postaje

blaži, tačke na krivoj se pomeraju gore i udesno (veća senzitivnost, niža

specifičnost).

Površina ispod ROC krive može poslužiti za poređenje dijagnostičke korisnosti dva ili

više različitih testova.

.

Page 17: testovi statistika

PRIMER:

Opis podataka: Cilj u istraživanju bio je ocena dijagnostičke tačnosti BNPa u

otkrivanju srčane insuficijencije. Istraživanje je sprovedeno na 170 pacijenata, a

zlatni standard bio je opsežno kliničko ispitivanje.

Odrediti: senzitivnost, specifičnost, optimalnu vrednost praga detekcije srčane

insuficijencije i površinu ispod krive BNPa u otkrivanju srčane insuficijencije.

Površina ispod ROC krive (engl. Area Under Curve, AUC) može poslužiti kao zbirna,

sveukupna mera dijagnostičke korisnosti testa uzimajući u obzir sve moguće

vrednosti praga. Kada test nema dijagnostičku korisnost, ROC kriva se poklapa sa

dijagonalnom linijom, a površina ispod krive je jednaka 0.5. Sa porastom

dijagnostičke korisnosti, ROC kriva se udaljava od dijagonalne linije tj. raste i

površina ispod krive postaje bliža jedinici odnosno maksimalnoj mogućoj površini

ispod krive (Slika 6). Što je veća površina ispod ROC krive, test ima veću

dijagnostičku korisnost.

.

Procedura u EZR-u:

1) Preuzeti i učitati bazu podataka BNP.xlsx

2) Mere dijagnostičke tačnosti iz kvantitativnih podataka dobijaju se klikom na liniji

sa komandama: Statistical analysis→Accuracy of diagnostic test→ROC curve

analysis for quantitative test

Page 18: testovi statistika

U dijalog prozoru koji se pojavio:

o u okviru polja Response (encoded as 0 or 1) (pick one) odabrati zlatni

standard

o u okviru polja Predictor (pick one) odabrati numeričku varijablu

o kliknuti na dugme OK

U posebnom prozoru pojavio se grafikon površine ispod krive sa vrednošću

praga detekcije BNPa u otkrivanju srčane insuficijencije dobijenog na osnovu

optimalnog odnosa senzitivnosti i specifičnosti.

Page 19: testovi statistika

U prozoru sa rezultatima može se pročitati vrednost površine ispod krive BNPa

otkrivanju srčane insuficijencije.

.

3) Zaključak:

Ocene tačnosti BNPa u otkrivanju srčane insuficijencije iznose:

Sn = 0,96 = 96%

Sp = 0,63 = 63%

Optimalna vrednost praga BNPa za detekciju srčane insuficijencije iznosi 80,41

pg/mol.

Površina ispod krive BNPa iznosi 0,86.