ntnu - 4 kapittel 1 ser på statistikk i hverdagen...kapittel 1: introduksjon til statistikk og...
TRANSCRIPT
-
Kapittel 1: Introduksjon til statistikk ogdataanalyseForeleses tirsdag 9. januar 2007.
Eirik MoInstitutt for matematiske fag, NTNU
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
3
Kapittel 1 ser på— Datainnsamling.
— Datatyper: diskrete og kontinuerlige.
— Grafiske metoder og tabeller.
— Mål for beliggenhet (lokasjon).
— Mål for variabilitet.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
4
Statistikk i hverdagen
— Daglig rapporteres interessante funn i pressen.— Tenk på:
• har observatøren påvirket målingene?• er utvalget stort nok?• er utvalget representativt for den gruppen konklusjoner trekkes?• har målingene pågått lenge nok?• trekkes konklusjoner for langt?
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
-
5
Spørsmålet
— Er du enig i at hvalfangst, drapet på verdens største,utryddingstruede pattedyr, må forbys snarest mulig?
— Er du enig i at hvalfangst må tillates i begrenset omfang, for åsikre bærekraftig ressursforvaltning og kystbefolkningenslivsgrunnlag?
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
6
TV-debatt ogrepresentativ undersøkelse
— TV2-programmet Holmgang er et debattprogram som utførerundersøkelser basert på telefonavstemming blant TV-seere.
— Det blir stilt et spørsmål med to svaralternativ, og seereinviteres til å ringe inn sin mening.
— Representative undersøkelser utføres av mange seriøse firma,bla. Opinion A/S.
Eksempel tatt fra Dimkos et al. (2004), Norsk Regnesentral
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
7
TV-debatt ogrepresentativ undersøkelse
— Spørsmål: ”Bør Norge stenge grensene for flyktninger?”
Ja NeiHolmgang 89.4 % 10.6 %Opinion A/S 17 % 83 %
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
8
Representativt utvalg
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
-
9
Diskrete og kontinuerlige data
— Diskrete data: endelig (tellbart) antall mulige utfall.• Eks: karakter, kjønn, skonummer
— Kontinuerlige data: uendelig antall mulige utfall.• Målinger (mengde, volum, andel) er ofte kontinuerlig.
— Sannynlighetsteori ulik for diskrete og kontinuerlige data –spesielt kapittel 3, 5, 6.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
10
Vise frem data: valg av akser
Histogrammer fra Nettavisen, 2002 og 2006.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
11
Relativ frekvens
— Karakter til eksamen i TMA4240 Statistikk H2004
Intervall Midtpunkt Frekvens Relativ frekvens86-100 A 47 0.1376-85 B 55 0.1566-75 C 65 0.1856-65 D 73 0.2036-55 E 84 0.230-35 F 36 0.100-100 A-F 360 1.00
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
12
Relativ frekvens: karakter (høst 2004)
Relative frekvens histogram
Karakter i TMA4240 H2004
Den
sity
0 1 2 3 4 5
0.00
0.05
0.10
0.15
0.20
F
E
D
C
B
A
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
-
13
Relativ frekvens: høyde (vår 2005)
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
14
Mål for beliggenhet
— Gjennomsnitt (mean): x̄ = 1n∑n
i=1 xi— Median
• n odde x̃ = x(n+1)/2• n like x̃ = 12 (xn/2 + xn/2+1)
Lokasjon
Karakter i TMA4240 H2004
Den
sity
0 1 2 3 4 5
0.00
0.05
0.10
0.15
0.20
F
E
D
C
B
A
Lokasjon
Karakter i TMA4245 V2005
Den
sity
0 1 2 3 4 5
0.00
0.05
0.10
0.15
0.20
0.25
0.30
F
E
D
C
B
A
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
15
Gjennomsnittet
Figur fra G. Løvås: ”Statistikk”
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
16
Gjennomsnittet
Figur fra G. Løvås: ”Statistikk”
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
-
17
Median vs gjennomsnittBor du i Stavanger, og har postnummer 4009 eller 4044? I såfall tilhører du de rikeste strøkene i byen.— Vi har sortert samtlige skatteytere i Stavanger på postnummer,
og plukket ut to kriterier for å måle rikdom:• Medianinntekt og• antall millionærer per 1000 skattytere.
— Dermed har vi ett mål på formue og ett på inntekt. Til slutt isaken har vi redegjort for hvorfor nettopp disse målene ervalgt.
— Målekriteriene: Vi har valgt å unngå gjennomsnittstall forinntekt og formue fordi gjennomsnitt er et upresist mål når detfinnes ekstreme utslag i tallmaterialet.
Kilde: Stavanger Aftenblad, 16. oktober 2003
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
18
Median vs gjennomsnitt: Eksempel
— Ni personer tjener 200.000 kroner hver, mens den siste tjener 10millioner kroner. Hva er den mest representative inntekten i utvalget?
— De fleste vil si 200.000 kroner fordi ni av ti tjener så mye.
— Men dersom man regner gjennomsnittsinntekten for de ti, blir dennenesten 1,2 millioner kroner fordi den ene rike drar snittet så kraftigopp.
— Medianinntekten, som forteller hva den midterste i utvalget tjener nåralle er sortert fra rikest til fattigst, blir derimot 200.000 kroner.
— Skattelistene er kanskje det beste eksempelet på utvalg hvor detfinnes ekstreme utslag. Noen få skattytere tjener svært mye i forholdtil «røkla», eller har en skyhøy formue. Dette fører til urealistisk høyegjennomsnittstall for noen tilfeldig utvalgte postnummer.
Kilde: Stavanger Aftenblad, 16.10.2003
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
19
Mål for variabilitet
— Empirisk varians (DEF 1.1):• s2 = 1n−1
∑ni=1(xi − x̄)
2
• Gjennomsnittlig kvadratavvik til gjennomsnittet.
— Empirisk standardavvik (DEF 1.1):• s =
√s2
• Samme måleenhet som originalobservasjonene.
— Inter-kvartil rekkevidde(IQR): Q3-Q1• Q1=verdien som 25% av data er mindre enn• Q3=verdien som 25% av data er større enn
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007