biostatistika 5 . přednáška
DESCRIPTION
Biostatistika 5 . přednáška. Aneta Hybšová email: [email protected]. Náplň kurzu. Úvod do biostatistiky. Význam biostatistiky v biologii a v učitelství. Biostatistický znak, náhodná veličina. - PowerPoint PPT PresentationTRANSCRIPT
2
Náplň kurzu1. Úvod do biostatistiky. Význam biostatistiky v biologii a v učitelství.
Biostatistický znak, náhodná veličina. 2. Analýza jednorozměrných biostatistických dat, četnosti, střední hodnota,
charakteristiky variability, grafické zobrazení. Grafy, tabulky.3. Vícerozměrná biostatistická data. Základní a výběrový soubor v biostatistice. 4. Testování hypotéz v biostatistice, vybrané parametrické
a neparametrické testy, testovací kritérium, kritická hodnota. T-testy, F-test, Mann-Whitneyův pořadový test, Wilcoxonův test, znaménkový test.
5. Měření závislosti mezi kvantitativními a kvalitativními proměnnými (jednoduchá a vícenásobná regresní a korelační analýza, jednorozměrná analýza rozptylu, analýzy v kontingenčních tabulkách). Pearsonův koeficient, Spearmanův koeficient pořadové korelace.
6. Obecný postup analýzy biostatistických dat. Prezentace biostatických výstupů.7. Úvod do vícerozměrných metod. Analýza rozptylu, Analýza kovariance,
Analýza hlavních komponent, Faktorová analýza, Shluková analýza, Diskriminační analýza.
3
Tvrzení vs. Hypotéza Tvrzení
Agresivita u dětí předškolního věku se vyskytuje častěji u dětí z neúplných rodin.
Chlapci dosahují lepších výsledků ve fyzice než dívky.
Hypotéza Četnost projevů agresivity je vyšší u dětí,
které vyrůstají v neúplné rodině. Průměrný počet bodů v testu z fyziky je u
chlapců vyšší než u dívek.
4
Komparativní experiment porovnání dvou a více skupin
muži vs. ženy – kalorický příjem žáci s BOV vs. žáci s frontální výukou pacienti léčení standardně vs. pacienti léčeni novým lékem
stanovení hypotézy H0 = nulová hypotéza jednoznačné tvrzení vyjadřuje vztah mezi proměnnými (pohlaví, kalorický příjem) lze empiricky ověřit obvykle tvrdí, že neexistuje rozdíl mezi skupinami např. Muži mají stejný kalorický příjem než ženy.
stanovení alternativní hypotézy H1 popírá H0 rozdíl mezi skupinami existuje
5
Testování hypotéz hladina významnosti α
pravděpodobnost, že nesprávně odmítneme nulovou hypotézu
standardně 0,05 (0,01 ; 0,001) kritická hodnota
hodnota, která rozděluje kritický obor a obor přijetí (kvantil)
zpravidla hledáme v tabulkách testové kritérium
hodnota, podle níž určujeme výsledek testu pokud spadá do oboru přijetí pak H0 nezamítáme spočítáme jej
6
Výsledek testování1) srovnáním vypočteného testového kritéria s kritickou hodnotou, která se určuje v závislosti na zvolené hladině významnosti α. Jestliže hodnota vypočtené testovací statistiky překročí kritickou hodnotu, znamená to, že existuje evidence pro zamítnutí nulové hypotézy (tzn. „že jsme potvrdili rozdíl“).
2) pomocí p hodnoty – vypočtená pomocí software
a) Jestliže p-hodnota je menší než hladina významnosti α, zamítáme H0
b) Jestliže je p-hodnota větší než hladina významnosti α (chyba α), nulovou hypotézu H0 nemůžeme zamítnout a tedy předpokládáme, že platí.
7
Statistické metody pro analýzu nominálních dat1. Chí kvadrát test dobré shody2. Test nezávislosti chí kvadrát pro
kontingenční tabulku3. Fischerův test (kombinatorický)
8
1. Chí kvadrát test dobré shody zkoumá, zda existuje souvislost mezi dvěma
jevy, resp. nominálními proměnnými H0: mezi skupinami není rozdíl ověřujeme, zda četnosti, které byly získány
měřením se liší od očekávaných četností vychází z absolutních četností Očekáváná četnost – četnost při platnosti H0
hrací kostka
9
1. Chí kvadrát test dobré shody - předpoklad
očekávané četnosti jsou větší než 5 80% očekávaných četností je větších
než 5
10
1. Chí kvadrát test dobré shody - příklad Skupina 90 žáků ZŠ odpovídala na
otázku: Který z vyučovacích předmětů máš nejraději?
A) matematika B) fyzika
C) chemie Rozhodněte zda mezi oblibou předmětů
existuje statisticky významný rozdíl.
11
Postup:
1) Stanovení očekávaných četností O2) Počet stupňů volnosti3) Stanovení kritické hodnoty4) Výpočet chí-kvadrát testového kritéria5) Porovnání kritické hodnoty a testového kritéria
12
1. Chí kvadrát test dobré shody - příklad
Předmět Pozorovaná četnost P
Očekávaná četnost O P-O (P-O)2
(P-O)2
----------- O
Matematika 35 30 5 25 0,833
Fyzika 28 30 -2 4 0,133
Chemie 27 30 -3 9 0,3
Součet 90 90 - - 1,266
testové kritérium je 1,266 stupně volnosti 2 (počet řádků – 1) hladina významnosti 0,05 kritická hodnota (tabelovaná) 5,99 – přijímáme H0 Výsledky lze připsat působení náhody. Obliba předmětů je stejná.
13
Příklad 2 - Zmrzlina Řetězec cukráren, který nabízí 4 druhy zmrzliny
otevřel provozovnu v nové lokalitě. Ve stávajících provozovnách řetězce byla dosud struktura prodeje podle druhů zmrzliny následující: vanilková 62%, čokoládová 18%, jahodová 12%, pistáciová 8%. Po otevření provozovny v nové lokalitě máme záznam o následujícím prodeji: vanilková 120, čokoládová 40 jahodová 18, pistáciová 22.
Vyjádřete se pomocí statistického testu ke shodě či odlišnosti struktury prodeje v nové lokalitě oproti dosavadním prodejům řetězce.
14
Příklad 2 - Zmrzlinazmrzlina struktura prodeje nová provozovna oč.při stejné struktuře chi-kvadrát
vanilková 62% 120 124 0,13
čokoládová 18% 40 36 0,44
jahodová 12% 18 24 1,5
pistáciová 8% 22 16 2,25
S 100% 200 200 4,32
- počet stupňů volnosti - 3- hladina významnosti – 0,05
Spočtená hodnota testového kritéria (4,32) nepřekračuje mez vymezující kritický obor (7,81), nachází se v oboru přijetí a na zvolené 5%ní hladině významnosti hypotézu o shodě struktury prodeje nezamítáme.
15
2. Test nezávislosti chí kvadrát pro kontingenční tabulku existuje souvislost mezi dvěma jevy,
resp. nominálními proměnnými?
H0: skupiny jsou shodné
PŘEDPOKLAD 80% očekávaných četností nad 5
16
Příklad 4 400 náhodně vybraných studentů
odpovědělo na dvě otázky: Byl jste v loňském roce ubytován na kolejích?
ANO - NE Jaký je Váš průměrný studijní průměr?
A) lepší než 1,6 B) 1,6-2,1 C) horší než 2,1
Rozhodněte zda existuje vztah mezi průměrnou známkou a bydlením na kolejích.
17
H0: Mezi četnostmi na obě uvedené otázky není závislost.
H1: Mezi četnostmi na obě uvedené otázky je závislost.
průměr/ koleje ano ne součetdo 1,6 39 41 801,6 - 2,1 107 73 180od 2,1 93 47 140součet 239 161 400
Empirická četnost
18
počet stupňů volnosti (r-1)*(s-1) = 2 kritická hodnota (2) = 5,991 alfa 0,05 prokázána rozdílnost mezi empirickými a
očekávanými četnostmi = souvislost mezi znaky
průměr/ koleje ano ne součetdo 1,6 39 41 801,6 - 2,1 107 73 180od 2,1 93 47 140součet 239 161 400
Empirická četnostprůměr/ koleje ano ne součetdo 1,6 47,8 32,2 801,6 - 2,1 107,55 72,45 180od 2,1 83,65 56,35 140součet 239 161 400
Teoretická četnost
průměr/ koleje ano ne součetdo 1,6 1,620084 2,404969 4,0250531,6 - 2,1 0,002813 0,004175 0,006988od 2,1 1,045099 1,55142 2,596518součet 2,667995 3,960564 6,628559
chí kvadrát
19
Příklad 5 - Platy Příjmy obyvatelstva závisí na dosaženém
vzdělání. Počítejte na 1% hladině významnosti.empirické základní středoškolské vysokoškolské součet
do 7 293 156 3 4527-12 876 609 34 1519
13-18 712 667 68 144719-24 173 112 18 303nad 24 67 25 2 94součet 2121 1569 125 3815
teoretické základní středoškolské vysokoškolské součetdo 7 251 185 15 4517-12 845 625 50 1520
13-18 805 595 47 144719-24 168 125 10 303nad 24 52 39 3 94součet 2122 1569 125 3815
20
Příklad 5 - Výsledek kritická hodnota (8) je 15,507 pro alfa
0,01 testové kritérium 73,29 prokázán statisticky významný rozdíl