luento 2: tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Download Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät

Post on 19-Jan-2016

68 views

Category:

Documents

0 download

Embed Size (px)

DESCRIPTION

Luento 2: Tilastollisen tutkimuksen peruskäsitteet ja menetelmät. Petri Nokelainen. petri.nokelainen@uta.fi http://www.uta.fi/~petri.nokelainen. Kasvatustieteiden yksikkö Tampereen yliopisto. Sisältö. 1. Tilastollisia käsitteitä 1.1 Sijaintiluvut 1.2 Hajontaluvut - PowerPoint PPT Presentation

TRANSCRIPT

  • Luento 2: Tilastollisen tutkimuksen perusksitteet ja menetelmtPetri NokelainenKasvatustieteiden yksikkTampereen yliopistopetri.nokelainen@uta.fihttp://www.uta.fi/~petri.nokelainen

  • Sislt1. Tilastollisia ksitteit 1.1 Sijaintiluvut 1.2 Hajontaluvut 1.3 Todennkisyysjakaumat 1.4 Hypoteesien testaaminen2. Tilastollisten analyysimenetelmien ptyypit2.1 Muuttujien vlisten riippuvuussuhteiden voimakkuus2.2 Ryhmien vlisten erojen merkitsevyys2.3 Ryhmjsenyyden ennustaminen2.4 Muuttujarakenteen mallintaminen

  • Tilastollisia ksitteit1.1 SijaintiluvutMediaaniJrjestettyjen arvojen keskimmisin arvo (n+1)/2MoodiTyypillisin arvo, esiintyy useimminMultimodaalinen

  • Tilastollisia ksitteit1.1 SijaintiluvutKeskiarvo (k.a., M)Generalized mean

    k = 1 aritmeettinen keskiarvok = -1 harmoninen keskiarvok -> 0 geometrinen keskiarvo

  • Tilastollisia ksitteit1.1 Sijaintiluvut

  • Tilastollisia ksitteit1.1 Sijaintiluvut

  • (FSD, http://www.fsd.uta.fi/menetelmaopetus/keskiluvut/keskiluvut.html.)Tilastollisia ksitteit1.1 Sijaintiluvut

  • Tilastollisia ksitteit1.1 SijaintiluvutTynnyrikuvaaja (Boxplot)Laatikon ript kuvaavat kvartiileja (quartiles)Ensimminen kvartiili on mediaania pienempien arvojen mediaani, toinen kvartiili on itse mediaani ja kolmas kvartiili on mediaania korkeampien arvojen mediaani.Mediaani on merkitty laatikon keskell kulkevalla viivallaLaatikon ulkopuolella olevat viivat (whiskers) kuvaavat pienint ja suurinta havaintoa.10987654321

  • Sislt1. Tilastollisia ksitteit 1.1 Sijaintiluvut 1.2 Hajontaluvut 1.3 Todennkisyysjakaumat 1.4 Hypoteesien testaaminen2. Tilastollisten analyysimenetelmien ptyypit2.1 Muuttujien vlisten riippuvuussuhteiden voimakkuus2.2 Ryhmien vlisten erojen merkitsevyys2.3 Ryhmjsenyyden ennustaminen2.4 Muuttujarakenteen mallintaminen

  • Tilastollisia ksitteit1.2 Hajontaluvut

  • Tilastollisia ksitteit1.2 HajontaluvutKeskihajonta s (k.h., SD, standard deviation)Varianssin s2 nelijuuri:

    Edellytt vlimatka-asteikollista muuttujaa.Kuvaa havaintojen keskimrist etisyytt keskiarvosta.Keskihajonta silytt alkuperisen mitta-asteikon tulkinnassa.

  • Tilastollisia ksitteit1.2 Hajontaluvut

  • Tilastollisia ksitteit1.2 Hajontaluvut(FSD, http://www.fsd.uta.fi/menetelmaopetus/hajontaluvut/hajontaluvut.html.)

  • Normaalijakauman oletukseen perustuvissa testeiss on syyt tarkastella otosjakauman symmetrisyytt.Vinous g1 (skewness) kuvaa jakauman vaakapoikkeamaa oikealle tai vasemmalle verrattuna normaalijakaumaan.Huipukkuus g2 (kurtosis) kuvaa jakauman huipun muotoa.g1: oikealle ja vasemmalle vinot jakaumatg2: huipukas ja tasainen jakaumaTilastollisia ksitteit1.2 Hajontaluvut

  • 234 vastaajaa ovat kyttneet kaikkia 7-portaisen vastausasteikon vastausvaihtoehtoja. Keskiarvon keskivirheen (n = /n = 1.253/ 234 .082) avulla voidaan arvioida 95% luottamusvli annetuille vastauksille: 5.28 - 5.60 (5.44 1.96*.082). Kaksi kertaa keskivirhett (.159) suuremman ja itseisarvoltaan 1 lhestyvn skewness (g1) arvon (-.956) perusteella voidaan ptell ett vastausjakauma on vasemmalle vino (negatiivinen). Kurtosis (g2) saa positiivisen, kaksi kertaa keskivirhettn (.317) suuremman arvon (.923), joten jakauman voidaan todeta olevan huipukas.234 vastaajaa ovat kyttneet kaikkia 5-portaisen vastausasteikon vastausvaihtoehtoja. Keskiarvon keskivirheen (n = /n = 1.099/ 234 .072) avulla voidaan arvioida 95% luottamusvli annetuille vastauksille: 3.03 3.31 (3.17 1.96*.072). Jakauma muistuttaa vaakavinoumaltaan normaalijakaumaa, koska skewness arvo (-.122) on pienempi kuin sen keskivirhe (.160). Jakauma on muodoltaan hieman tasainen, koska kurtosis saa negatiivisen arvon (-.578), mutta ei poikkea normaalista koska tuo arvo jaettuna sen keskivirheell (.320) on pienempi kuin kaksi (-.578/.320 = 1.81).Esimerkki vasemmalle vinosta (negatiivisesta) ja huipukkaasta vastausjakaumastaEsimerkki normaalista vastausjakaumasta

  • Sislt1. Tilastollisia ksitteit 1.1 Sijaintiluvut 1.2 Hajontaluvut 1.3 Todennkisyysjakaumat 1.4 Hypoteesien testaaminen2. Tilastollisten analyysimenetelmien ptyypit2.1 Muuttujien vlisten riippuvuussuhteiden voimakkuus2.2 Ryhmien vlisten erojen merkitsevyys2.3 Ryhmjsenyyden ennustaminen2.4 Muuttujarakenteen mallintaminen

  • Tilastollisia ksitteit1.3 TodennkisyysjakaumatEmpiiriset frekvenssijakaumat kuvaavat havaittujen mittaustulosten jakautumista.Diskreeteille muuttujille pylvsdiagrammi tai viivadiagrammi.

  • Tilastollisia ksitteit1.3 TodennkisyysjakaumatEmpiiriset frekvenssijakaumat kuvaavat havaittujen mittaustulosten jakautumista.Jatkuville muuttujille histogrammi tai tynnyrikaavio (boxplot, laatikko-jana).

  • Tilastollisia ksitteit1.3 TodennkisyysjakaumatTilastolliset todennkisyysjakaumat ovat matemaattisia malleja ilmiiden esiintymistodennkisyyksist, ts. empiirisesti havaittuja ilmiit voidaan kuvata matemaattisten mallien avulla.Lhes kaikki tilastolliset testit perustuvat erilaisten todennkisyysjakaumien kyttn.Diskreettej jakaumia: binomijakauma, Poisson jakauma.Jatkuvia jakaumia: Normaalijakauma, Studentin t-jakauma, 2 jakauma, F jakauma.

  • HajontaOdotusarvoTilastollisia ksitteit1.3 TodennkisyysjakaumatNormaalijakaumaTilastollisessa pttelyss yleisimminkytetty jakauma (ns. Gaussin kyr).Odotusarvo () ja hajonta () mrittvt jakauman muodon.

  • Standardoidun normaalijakauman odotusarvo on 0 ja keskihajonta 1. X-akselin mittayksikkn on keskihajonta, joten voimme esim. ptell ett 68.2% havainnoista on +/- yhden keskihajonnan mitan pss keskiarvosta. Tilastollisia ksitteit1.3 Todennkisyysjakaumat

  • WAIS-R testill mitattujen lykkyysosamrien keskiarvo Suomessa on 100 ja keskihajonta 15. lykkyys on normaalisti jakautunut ominaisuus, joten testipistemrien jakauma noudattelee normaalijakaumaan parametrein = 100 ja = 15. Saat MENSAn jrjestmst testist pistemrksesi 131 miten menee?!Tilastollisia ksitteit1.3 Todennkisyysjakaumat

  • Tilastollisia ksitteit1.3 Todennkisyysjakaumatlykkyysosamr 131 sijaitsee yli kahden keskihajonnan mitan pss keskiarvosta. Vain 2.3 prosenttia ihmisist saa vastaavia tai korkeampia lykkyysosamrpisteit.

  • Sislt1. Tilastollisia ksitteit 1.1 Sijaintiluvut 1.2 Hajontaluvut 1.3 Todennkisyysjakaumat 1.4 Hypoteesien testaaminen2. Tilastollisten analyysimenetelmien ptyypit2.1 Muuttujien vlisten riippuvuussuhteiden voimakkuus2.2 Ryhmien vlisten erojen merkitsevyys2.3 Ryhmjsenyyden ennustaminen2.4 Muuttujarakenteen mallintaminen

  • 1.4 Hypoteesien testaaminenHypoteesi sislt tutkijan valistuneen arvauksen aineiston tutkimuskysymykseen antamasta vastauksesta.Hypoteesin testaamisen avulla arvioidaan, voidaanko otoksen perusteella tehd populaatiota koskevia luotettavia ptelmi.

  • 1.4 Hypoteesien testaaminenNollahypoteesi (H0) tarkoittaa sit, ett aineiston antama tulos ei esiinny populaatiossa, se on syntynyt esim. epedustavan otoksen vaikutuksesta.Vastahypoteesi (H1), tai vaihtoehtoinen hypoteesi, olettaa pinvastaista: Aineistossa esiintynyt ilmi on lydettviss mys populaatiosta.

  • 1.4 Hypoteesien testaaminenOtannalla on suuri merkitys tilastollisen tutkimuksen tulosten yleistettvyydelle: otos mrittelee sen populaation johon tulokset voidaan yleist.Mihin populaatioon yliopisto-opiskelijoiden silmien vri koskevat tulokset voidaan yleist?Entp jos tutkitaan loogista ajattelua?

  • 1.4 Hypoteesien testaaminenTutkimuskysymyksiss esitettyj hypoteeseja testataan aineistosta tilastollisten testien avulla.Testit laskevat todennkisyyden (ns. p-arvo) aineistolle jos nollahypoteesi pit paikkansa: P(D|H0). P-arvot vaihtelevat vlill 0 = eptosi .. 1 = tosi.

  • Nollahypoteesin hylkmist silloin kun se oikeasti pitkin paikkansa kutsutaan tyypin yksi virheeksi (Type I error, ).Nollahypoteesin virheellinen hyvksyminen johtaa tyypin kaksi virheeseen (Type II error, ).1.4 Hypoteesien testaaminen

  • P-arvoille on asetettu yleisi raja-arvoja (kriittinen -arvo), joita kytetn apuvlinein tulkittaessa tutkimuslydsten tilastollista merkitsevyytt:p < .05 tilastollisesti melkein merkitsevTm on yleisin merkitsevyysraja (5%).p < .01 tilastollisesti merkitsevp < .001 tilastollisesti erittin merkitsev.1.4 Hypoteesien testaaminen

  • Esim. jos t-testi tuottaa tulokseksi t(49)=3.4, p=.04, voidaan todeta ett on olemassa vain neljn prosentin todennkisyys saada vastaavan suuruinen ero kahden verrattavan ryhmn vlille, jos otos edustaa populaatiota jossa nollahypoteesi on tosi.Vaikka kahden ryhmn vlinen ero on tilastollisesti merkitsev, se ei automaattisesti tarkoita tieteellisess mieless merkityksellist eroa.1.4 Hypoteesien testaaminen

  • Hypoteesintestaukseen liittyy kaksi virhetyyppi:Tyypin I virhe (Type I error, error)Oikeasti paikkansa pitv H0 hyltn ja H1 astuu virheellisesti voimaan. Lydetn tutkimustulos jota ei oikeasti ole olemassakaan.Tyypin II virhe (Type II error, error)Oikeasti paikkansa pitv H1 hyltn ja H0 j virheellisesti voimaan.Tm on ns. nollatutkimusta josta usein puuttuu voima (power), mutta ei ht myhempi tutkimus kyll ennemmin tai myhemmin lyt asioiden oikean laidan!1.4 Hypoteesien testaaminen

  • Sislt1. Tilastollisia ksitteit 1.1 Sijaintiluvut 1.2 Hajontaluvut 1.3 Todennkisyysjakaumat 1.4 Hypoteesien testaaminen2. Tilastollisten analyysimenetelmien ptyypit2.1 Muuttujien vlisten riippuvuussuhteiden voimakkuus2.2 Ryhmien vlisten erojen merkitsevyys2.3 Ryhmjsenyyden ennustaminen2.4 Muuttujarakenteen mallintaminen

  • 2. Tilastollisten analyysimenetelmien ptyypitMuuttujien vlisten riippuvuussuhteiden voimakkuusKorreloiko vastaajien ik tyhn sitoutumista mittaavan muuttujan arvojen kanssa, ja jos korreloi, niin mink suuntaisesti?Ryh