ntnu - 4 kapittel 1 ser på statistikk i hverdagen...kapittel 1: introduksjon til statistikk og...

5
Kapittel 1: Introduksjon til statistikk og dataanalyse Foreleses tirsdag 9. januar 2007. Eirik Mo Institutt for matematiske fag, NTNU www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007 www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007 3 Kapittel 1 ser på — Datainnsamling. — Datatyper: diskrete og kontinuerlige. — Grafiske metoder og tabeller. — Mål for beliggenhet (lokasjon). — Mål for variabilitet. www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007 4 Statistikk i hverdagen — Daglig rapporteres interessante funn i pressen. — Tenk på: har observatøren påvirket målingene? er utvalget stort nok? er utvalget representativt for den gruppen konklusjoner trekkes? har målingene pågått lenge nok? trekkes konklusjoner for langt? www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

Upload: others

Post on 20-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

  • Kapittel 1: Introduksjon til statistikk ogdataanalyseForeleses tirsdag 9. januar 2007.

    Eirik MoInstitutt for matematiske fag, NTNU

    www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

    www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

    3

    Kapittel 1 ser på— Datainnsamling.

    — Datatyper: diskrete og kontinuerlige.

    — Grafiske metoder og tabeller.

    — Mål for beliggenhet (lokasjon).

    — Mål for variabilitet.

    www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

    4

    Statistikk i hverdagen

    — Daglig rapporteres interessante funn i pressen.— Tenk på:

    • har observatøren påvirket målingene?• er utvalget stort nok?• er utvalget representativt for den gruppen konklusjoner trekkes?• har målingene pågått lenge nok?• trekkes konklusjoner for langt?

    www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

  • 5

    Spørsmålet

    — Er du enig i at hvalfangst, drapet på verdens største,utryddingstruede pattedyr, må forbys snarest mulig?

    — Er du enig i at hvalfangst må tillates i begrenset omfang, for åsikre bærekraftig ressursforvaltning og kystbefolkningenslivsgrunnlag?

    www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

    6

    TV-debatt ogrepresentativ undersøkelse

    — TV2-programmet Holmgang er et debattprogram som utførerundersøkelser basert på telefonavstemming blant TV-seere.

    — Det blir stilt et spørsmål med to svaralternativ, og seereinviteres til å ringe inn sin mening.

    — Representative undersøkelser utføres av mange seriøse firma,bla. Opinion A/S.

    Eksempel tatt fra Dimkos et al. (2004), Norsk Regnesentral

    www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

    7

    TV-debatt ogrepresentativ undersøkelse

    — Spørsmål: ”Bør Norge stenge grensene for flyktninger?”

    Ja NeiHolmgang 89.4 % 10.6 %Opinion A/S 17 % 83 %

    www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

    8

    Representativt utvalg

    www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

  • 9

    Diskrete og kontinuerlige data

    — Diskrete data: endelig (tellbart) antall mulige utfall.• Eks: karakter, kjønn, skonummer

    — Kontinuerlige data: uendelig antall mulige utfall.• Målinger (mengde, volum, andel) er ofte kontinuerlig.

    — Sannynlighetsteori ulik for diskrete og kontinuerlige data –spesielt kapittel 3, 5, 6.

    www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

    10

    Vise frem data: valg av akser

    Histogrammer fra Nettavisen, 2002 og 2006.

    www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

    11

    Relativ frekvens

    — Karakter til eksamen i TMA4240 Statistikk H2004

    Intervall Midtpunkt Frekvens Relativ frekvens86-100 A 47 0.1376-85 B 55 0.1566-75 C 65 0.1856-65 D 73 0.2036-55 E 84 0.230-35 F 36 0.100-100 A-F 360 1.00

    www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

    12

    Relativ frekvens: karakter (høst 2004)

    Relative frekvens histogram

    Karakter i TMA4240 H2004

    Den

    sity

    0 1 2 3 4 5

    0.00

    0.05

    0.10

    0.15

    0.20

    F

    E

    D

    C

    B

    A

    www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

  • 13

    Relativ frekvens: høyde (vår 2005)

    www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

    14

    Mål for beliggenhet

    — Gjennomsnitt (mean): x̄ = 1n∑n

    i=1 xi— Median

    • n odde x̃ = x(n+1)/2• n like x̃ = 12 (xn/2 + xn/2+1)

    Lokasjon

    Karakter i TMA4240 H2004

    Den

    sity

    0 1 2 3 4 5

    0.00

    0.05

    0.10

    0.15

    0.20

    F

    E

    D

    C

    B

    A

    Lokasjon

    Karakter i TMA4245 V2005

    Den

    sity

    0 1 2 3 4 5

    0.00

    0.05

    0.10

    0.15

    0.20

    0.25

    0.30

    F

    E

    D

    C

    B

    A

    www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

    15

    Gjennomsnittet

    Figur fra G. Løvås: ”Statistikk”

    www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

    16

    Gjennomsnittet

    Figur fra G. Løvås: ”Statistikk”

    www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

  • 17

    Median vs gjennomsnittBor du i Stavanger, og har postnummer 4009 eller 4044? I såfall tilhører du de rikeste strøkene i byen.— Vi har sortert samtlige skatteytere i Stavanger på postnummer,

    og plukket ut to kriterier for å måle rikdom:• Medianinntekt og• antall millionærer per 1000 skattytere.

    — Dermed har vi ett mål på formue og ett på inntekt. Til slutt isaken har vi redegjort for hvorfor nettopp disse målene ervalgt.

    — Målekriteriene: Vi har valgt å unngå gjennomsnittstall forinntekt og formue fordi gjennomsnitt er et upresist mål når detfinnes ekstreme utslag i tallmaterialet.

    Kilde: Stavanger Aftenblad, 16. oktober 2003

    www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

    18

    Median vs gjennomsnitt: Eksempel

    — Ni personer tjener 200.000 kroner hver, mens den siste tjener 10millioner kroner. Hva er den mest representative inntekten i utvalget?

    — De fleste vil si 200.000 kroner fordi ni av ti tjener så mye.

    — Men dersom man regner gjennomsnittsinntekten for de ti, blir dennenesten 1,2 millioner kroner fordi den ene rike drar snittet så kraftigopp.

    — Medianinntekten, som forteller hva den midterste i utvalget tjener nåralle er sortert fra rikest til fattigst, blir derimot 200.000 kroner.

    — Skattelistene er kanskje det beste eksempelet på utvalg hvor detfinnes ekstreme utslag. Noen få skattytere tjener svært mye i forholdtil «røkla», eller har en skyhøy formue. Dette fører til urealistisk høyegjennomsnittstall for noen tilfeldig utvalgte postnummer.

    Kilde: Stavanger Aftenblad, 16.10.2003

    www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

    19

    Mål for variabilitet

    — Empirisk varians (DEF 1.1):• s2 = 1n−1

    ∑ni=1(xi − x̄)

    2

    • Gjennomsnittlig kvadratavvik til gjennomsnittet.

    — Empirisk standardavvik (DEF 1.1):• s =

    √s2

    • Samme måleenhet som originalobservasjonene.

    — Inter-kvartil rekkevidde(IQR): Q3-Q1• Q1=verdien som 25% av data er mindre enn• Q3=verdien som 25% av data er større enn

    www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007