beskrivande statistik och presentation - naturvardsverket.se · beskrivande statistik och...

16
SWEDISH ENVIRONMENTAL PROTECTION AGENCY ANSVARIG : HANDBOKSANSVARIG M ILJÖÖVERVAKNINGSENHETEN E-POST : HANDBOKSANSVARIG@NATURVARDSVERKET.SE Beskrivande statistik och presentation Stora datamängder måste sammanfattas och reduceras för att få en läsbar form. Denna text behandlar olika metoder för att redovisa, dvs. sammanfatta och presentera numeriska data. Kortfattat beskrivs centralmåtten median och medelvärde samt spridningsmått. Tips ges för presentation i text, tabeller, diagram och kartor. Alla dessa metoder används allmänt när man vill presentera insamlade datamaterial på ett begripligt sätt för tänkta läsare. Vad man dessutom ofta märker när man arbetar med sammanställning av data för presentation, är att man hittar nya vägar att analysera sina data och även oväntade anomalier eller felaktigheter i materialet. De metoder för presentation av statistiken som beskrivs nedan, kan och bör användas även som arbetsredskap när man i rent analyssyfte penetrerar sina data. Skillnaden är att man vid presentation i skrift även måste tänka på läsbarhet och mer ”estetiska värden”. Överblick och en första analys I all statistisk redovisning är det lämpligt att göra en snabb analys av sina data. Det kan vara till en god hjälp att ha en redovisningsplan, ”tabellplan”, att utgå ifrån redan då data börjar droppa in, dvs. innan alla uppgifter finns registrerade. Redovisningsplanen som görs vid planeringen av undersökningen ska visa t.ex. vilka sammanfattande värden som man anser är särskilt viktiga samt vilka variabler som man antar kan bli intressanta att redovisa grupperat, ihop med andra variabler, ihop med bakgrundsinformation som geografiska data eller dylikt. Naturligtvis kan denna tidiga plan även omfatta olika diagram eller kartor. När man ställs inför en ny, obekant och stor datamängd kan det i första början kännas svårt att veta hur man ska ta sig an detta material. Det är då man kan märka att en enkel analys i form av sorteringar av datamaterialet exempelvis i grupper och i storleksordning, samt enkla sambandsanalyser i punktdiagram och korstabeller etc, kan ge förvånansvärt mycket. Även beräkningar av centralmått, spridningar och samband är enkla att få fram. Mängder av siffror bör sorteras Det är mycket lämpligt att på ett tidigt stadium i en pågående undersökning göra klart för sig i vilken form resultaten ska presenteras. Den analys man gör av insamlade data kan göras mer eller mindre ”läsvänlig”. Till vissa intressenter kan stora tabeller med fördel överlämnas som råtabeller eller punktdiagram etc, exempelvis på diskett, CD-rom eller som epostbilaga. Det man ämnar presentera på papper kräver däremot genomarbetning. Man får resonera sig fram till om uppgifterna ska ges i löpande text, med enstaka siffror, i tabeller eller i form av diagram, kartor eller bild. Det är dessutom viktigt att fel och osäkerheter i undersökningen beskrivs och diskuteras, t.ex. i form av en kvalitetsdeklaration. En checklista Urvalet av vilka uppgifter som ska presenteras beror på målgrupp. Tänk alltså på läsaren när du planerar din redovisning! Nedanstående tips kan kännas självklara men kan fungera som checklista: Viktigt i sig - siffror . Vissa data är intressanta att presentera i sig, det kan vara viktiga resultat eller siffror som kan fungera som intresseväckare. Ofta är det medelvärden eller totaler som bör få denna roll. Störst - minst . Att peka ut de högsta och lägsta värdena brukar vara ett bra tips om man vill väcka intresse för sina data. Tio i topp/botten listor är en väletablerad och framgångsrik variant av ovanstående.

Upload: votu

Post on 12-Apr-2019

223 views

Category:

Documents


0 download

TRANSCRIPT

SWEDISH ENVIRONMENTAL PROTECTION AGENCY

ANSVARIG : HANDBOKSANSVARIG

M ILJÖÖVERVAKNINGSENHETEN

E-POST : [email protected]

Beskrivande statistik och presentationStora datamängder måste sammanfattas och reducerasför att få en läsbar form. Denna text behandlar olikametoder för att redovisa, dvs. sammanfatta ochpresentera numeriska data. Kortfattat beskrivscentralmåtten median och medelvärde samtspridningsmått. Tips ges för presentation i text,tabeller, diagram och kartor.

Alla dessa metoder används allmänt när man villpresentera insamlade datamaterial på ett begripligtsätt för tänkta läsare. Vad man dessutom ofta märkernär man arbetar med sammanställning av data förpresentation, är att man hittar nya vägar att analyserasina data och även oväntade anomalier ellerfelaktigheter i materialet. De metoder för presentationav statistiken som beskrivs nedan, kan och böranvändas även som arbetsredskap när man i rentanalyssyfte penetrerar sina data. Skillnaden är att manvid presentation i skrift även måste tänka på läsbarhetoch mer ”estetiska värden”.

Överblick och en första analys

I all statistisk redovisning är det lämpligt att göra ensnabb analys av sina data. Det kan vara till en godhjälp att ha en redovisningsplan, ”tabellplan”, att utgåifrån redan då data börjar droppa in, dvs. innan allauppgifter finns registrerade.

Redovisningsplanen som görs vid planeringen avundersökningen ska visa t.ex. vilka sammanfattandevärden som man anser är särskilt viktiga samt vilkavariabler som man antar kan bli intressanta attredovisa grupperat, ihop med andra variabler, ihopmed bakgrundsinformation som geografiska data ellerdylikt. Naturligtvis kan denna tidiga plan även omfattaolika diagram eller kartor. När man ställs inför en ny,obekant och stor datamängd kan det i första börjankännas svårt att veta hur man ska ta sig an dettamaterial. Det är då man kan märka att en enkel analysi form av sorteringar av datamaterialet exempelvis igrupper och i storleksordning, samt enklasambandsanalyser i punktdiagram och korstabeller

etc, kan ge förvånansvärt mycket. Även beräkningarav centralmått, spridningar och samband är enkla attfå fram.

Mängder av siffror börsorteras

Det är mycket lämpligt att på ett tidigt stadium i enpågående undersökning göra klart för sig i vilken formresultaten ska presenteras. Den analys man gör avinsamlade data kan göras mer eller mindre ”läsvänlig”.

Till vissa intressenter kan stora tabeller med fördelöverlämnas som råtabeller eller punktdiagram etc,exempelvis på diskett, CD-rom eller som epostbilaga.Det man ämnar presentera på papper kräver däremotgenomarbetning. Man får resonera sig fram till omuppgifterna ska ges i löpande text, med enstaka siffror,i tabeller eller i form av diagram, kartor eller bild.

Det är dessutom viktigt att fel och osäkerheter iundersökningen beskrivs och diskuteras, t.ex. i formav en kvalitetsdeklaration.

En checklista

Urvalet av vilka uppgifter som ska presenteras berorpå målgrupp. Tänk alltså på läsaren när du planerardin redovisning! Nedanstående tips kan kännassjälvklara men kan fungera som checklista:

• Viktigt i sig - siffror. Vissa data är intressanta attpresentera i sig, det kan vara viktiga resultat ellersiffror som kan fungera som intresseväckare. Ofta ärdet medelvärden eller totaler som bör få denna roll.

• Störst - minst. Att peka ut de högsta och lägstavärdena brukar vara ett bra tips om man vill väckaintresse för sina data.

• Tio i topp/botten listor är en väletablerad ochframgångsrik variant av ovanstående.

2

• Jämförelser med gränsvärden eller norm-värden. Om mätvärden eller undersökningsre-sultat ska jämföras med några gränsvärden ärdet självklart intressant att i diagrammet ellertabellen märka ut de värden som överskriderdessa gränsvärden.

• Jämförelser i tiden. Om man har återkom-mande undersökningar att redovisa är detnaturligt att ställa samman data i en tidsserie.Det kan ske i tabeller eller i tidsseriediagram.Om trender kan utläsas ur tidsserierna kan deritas in i diagrammet och kommenteras.

• Jämförelser i rummet. Kartor och kartogramär det naturligaste sättet att visa regionalaskillnader.

Centralmått ochspridningsmått

Dessa mått används ofta i presentationer. Detär viktigt att alltid ange vilken typ av centralmått ochspridning som visas med lådagram eller ”lådor medantenner” eftersom det inte finns någon standard fördessa diagramtyper.

Aritmetiska medelvärden ochstandardavvikelse

Det centralmått (kallas även lägesmått) som of-tast används och rekommenderas är det vanligamedelvärdet, som egentligen bör kallas aritmetisktmedelvärde. Det byggs upp av summan av de ob-serverade värdena dividerat med antalet observa-tioner. Om man har medelvärden för flera grupperså kan dessa jämföras, slås samman etc.

Aritmetiskt medelvärde är ett praktiskt mått ge-nom att det enkelt kan bindas till spridningsmåttetstandardavvikelse (ungefärligen genomsnittligaavvikelsen från medelvärdet).

Medelvärden kan naturligtvis även användas vidberäkning av totaler, som ibland är lämpliga redo-visningsmått. Det gäller speciellt för urvals-undersökningar om förhållandet mellan popula-tionens och urvalets storlek är känt. Ett exempel ärden totala belastningen på en recipient om man harmedelhalten av en förorening i avloppsvatten. Dennamedelhalt multiplicerat med ett (ev. skattat) total-flöde under en period ger den totala mängden avföroreningen under den givna perioden.

Median och kvartiler

Ett problem med det aritmetiska medelvärdet (µ)är att det ger stor tyngd åt extremvärden. Därförhar median fått utbredd användning i exempelvisvattenkvalitetsredovisningar. Median innebär enkeltuttryckt att hälften av mätvärdena ligger under dettavärde och hälften över. Det är lättförståeligt och oftamer robust än µ. Det finns olika metoder att visaspridningen förknippad till median: • Variationsvidd, differensen mellan högsta och

lägsta värdet i det statistiska materialet • Kvartilavståndet, differensen mellan tredje

kvartilen (fjärdedelar av datamaterialet)ochförsta kvartilen

• Kvartilavvikelse, kvartilavståndet divideratmed 2

Dessa mått kan grafiskt illustreras i lådagram

Trimmade medelvärden

Ett problem med alla dessa mått som bygger påkvartiler (fjärdedelar av datamaterialet) liksom medpercentiler (100-delar) är att de är svåra att vidare-bearbeta med klassiska statistiska metoder. Avdenna orsak kan man ibland rekommendera medel-värden även för material där enstaka extrema vär-den förekommer. För att få robustare mått bör mani dessa fall överväga att göra en rensning av dessaextrema värden, s.k. uteliggare. Denna rensning dvs.att man tar bort vissa värden måste dock vara välmotiverad.

En användbar metod kan vara att rensa bort engodtyckligt vald andel av låga och höga värden imaterialet (s k uteliggare) och beräkna medelvärdetför resten. Man bör alltid vid rensning av värdennoga avväga om inte de extrema värdena är teckenpå något allvarligt i materialet. De kan ju vara alar-merande händelser lika väl som felmätningar ellertryckfel. Om de är sanna mätvärden bör de själv-fallet inte rensas bort ur materialet!

Symmetriska fördelningar ochskeva

När det statistiska materialet fördelar sig unge-färligen symmetriskt kring medelvärdet, är avstån-det mellan medelvärdet och medianen litet. Om för-delningen liknar en klockformig kurva är denapproximativt normalfördelad. Många av de meto-

3

Exempel 4.1aFrån Markanvändningen i Sverige -tredje utg.tab 5 -länstabell

Ett och samma material kan presenteras på olika sättTabellen visar markanvändningen i hektar per län fördelat på 7 kategorier.

I stapeldiagrammet visas den procentuella fördelningen på markanvändning. Där kan man lättse var i landet de mest jordbruks- och skogsbruksintensiva länen ligger. Likaså kan man lätt seatt Malmöhus län och Gotland har förhållandevis lite inlandsvatten. Observera att länen står isyd-nordlig ordning nerifrån och upp, och inte i den konventionella ordningen med Stockholmslän överst och Norrbotten längst ner.

Även i figuren redovisas markanvändningskategorin Jordbruksmark länsvis. Denna diagramtypär ytterligare ett exempel på mellanting mellan karta och stapeldiagram. Också här är länen imöjligaste mån uppställda från norr till söder. Höjden på respektive länsstapel är proportionellmot länets totala areal. Längden på stapeln visar den proportionella andelen avjordbruksarealen inom länet. Här är alltså längden på staplarna jämförbar med den vänstra,mörka delen av staplarna i stapeldiagrammet.

4

Exempel 4.1bProp 1993/94:111 bil 2 sid182.

Exempel 4.1cMarkanvändning omkring 1990.Procent av total areal. Höjden pårespektive länsstapel är proportio-nell mot länets totala areal

5

der och formler som används vid statistisk analysbygger på antaganden om normalfördelning. I verk-ligheten förekommer det ofta att fördelningen är skevåt ettdera hållet. Transformation av data är ett sättatt komma tillrätta med problemet. Se vidare analys-metoder och modeller.

Tabeller

Dagens standardprogram för tabellframställniggör det enkelt att konstruera tabeller. För den somär intresserad av att grundligare studera tabellerings-principer finns mycket att hämta i läroböcker i de-skriptiv statistik.

Sortering av material till tabeller

När man har ett stort datamaterial, exempelvis iform av siffror i datafiler måste man ordna dessa föratt få en överblick av materialet. När väl materialethar granskats och kompletterats och upptäckta fel-aktigheter rättats till kan man för en första överblickgöra en sammanställning av materialet i några olikatabeller. Det vanligaste är att man börjar med attsortera data i frekvenstabeller.

Har man kvantitativa data kan det vara lämpligtatt först göra en sortering i storleksordning. På såsätt är det lätt att få en överblick av variabiliteten imaterialet.

Om variabeln är kontinuerlig och antar mångavariabelvärden kan man konstruera klasser ellerkategorier som är lämpliga för presentation av ma-terialet. Man sorterar in data i dessa klasser och fårpå så sätt en redovisning över hur många observa-tioner som ingår i varje kategori.

Oftast har man flera variabler i sitt material. Medhjälp av vanliga kalkylprogram för datatabeller kanman studera varje variabel för sig enligt det systemsom beskrivits ovan. Man kan också beräknaprocentvärden, medelvärden etc. Ofta är man dockintresserad av att undersöka hur vissa variabler sam-varierar. Om man studerar två variabler i taget ochdessa variabler är dikotoma eller diskreta (d.v.s. kananta två eller flera alternativa värden) går det attsortera in variabelparen i enkla korstabeller.

Redigering av tabeller

För presentation i publikationer bör man nogavälja sina tabeller. Stora tabeller är svårlästa. Detgäller också flerdimensionella tabeller, d.v.s. dåmånga variabler redovisas samtidigt exempelvis iunderavdelningar. Man bör förenkla sina tabeller,ibland kan det vara bättre med två mindre tabellerän med en stor. Ofta kan en presentation i form avdiagram vara en möjlighet.

Några tumregler

Tänk på läsaren när du redigerar dina tabeller.Tabeller ska ha: • Rubrik • Klara definitioner • Lättförståelig ordning vad gäller kolumner och

rader • Angiven ledd för procentangivelser

Rubriken bör innehålla allt som behövs för attläsaren ska veta vilken information som finns itabellen, och samtidigt vara mycket kort. Detta be-tyder att viss information om definitioner och dyliktlämpligen bör flyttas till en ingress, fotnot eller tillfaktaruta i närheten av tabellen. De enheter somanvänds ska framgå antingen ur rubriken eller angesi tabellhuvudet eller i marginalen.

Avrundning

Kontrollera noggrannheten i siffror. Om manexempelvis redovisar cellvärden i form av tal medmånga decimaler, kan det ge en falsk övertro påsäkerheten i tabellens värden. Dessutom är det oftalättare att läsa en tabell med färre siffror. Det kanofta vara bra att avrunda uppgifterna i tabellerna tilltvå eller tre siffrors noggrannhet. Det innebär t.ex.att 27 486 kg avrundas till 27 000 eller 27 500 kg.Eller till 27 eller 27,5 ton. Om man i samma tabelläven har förhållandevis små värden, kan även dessaavrundas till två eller tre siffror, exempelvis 3,567kg till 3,6 eller 3,57 kg. Konventionella avrundnings-principer, t.ex. att ange alla värden i ton (ev. med endecimal) hade i detta fall betytt att 3,567 kg blev 0(noll). Det beror på omständigheterna vilkenavrundningsmetod som är lämpligast.

6

Avrundningen ska naturligtvis inte ske för tidigt itabellbearbetningarna. Det är lämpligt att göra detallra sist i redigeringsskedet. Annars kan värdefullinformation försvinna inför analysarbetet.

Klassindelning

Om de variabler man ska sammanfatta i en ta-bell är kontinuerliga, måste materialet delas in i klas-ser. I detta läge måste man tänka på att: • ha lagom många klasser • klassgränserna bör kunna upplevas som naturliga • i möjligaste mån använda ”standardiserade”

klassindelningar, för att underlätta jämförelsermed andra dataserier

Även om det inte finns allmänt vedertagnastandarder bör man försöka använda indelningar somgår att jämka ihop med andra publicerade serier.

Ibland kan det vara lämpligt att föra ihop långatidsseriedata till flerårs-perioder. Väderleksstatistikpubliceras av SMHI vanligen uppdelat på 12 tim-

mar, dygn, månad och år. I vissa sammanhang pas-sar kvartal eller halvår bäst, i vissa växtsäsonger.Geografiska data kan förutom de administrativaregionerna och avrinningsområdena indelas ivegetationszoner. Kan man välja sin publicerings-form, bör man tänka på läsarens referensram ochvälja en för dem välkänd klassindelning.

Det kan påpekas att ofta anges klassgränsernaså att ”jämna” värden ges till de nedre klassgränsernaoch således finns i vänsterkolumnen. Normer pådetta område finns inte, det är mest en smaksak hurman gör.

Procenttal i tabeller

Det underlättar för läsaren om man anger på vil-ken ledd en tabells procentvärden är beräknade.Lämpligen visar man det med att ange en 100%-kolumn i högra marginalen resp. med en 100%-radnederst i tabellen. I tabellen högst upp ges virkes-förrådet i skogskubikmetrar fördelat på trädslag och

Exempel 4.2Miljökvalitetsklasser (tillståndsbedömning) för vattendrag och sjöar enl.Bedömningsgrunder för miljökvalitet, sjöar och vattendrag (NV rapport 4913).

Kvalitetsklass Tot-P µg/l Tot-N µg/l TOC mg/l maj-okt maj-okt1 <12 <300 <42 12,5 - 25 300 - 625 4 - 83 25 - 50 625 - 1250 8 - 124 50 - 100 1250 - 5000 12 - 165 >100 >5000 >15

Kvalitetsklass Tot-P µg/l Tot-N µg/l COD mg/l1 -7,5 -300,0 -5,02 7,6-15,0 300,1-450,0 5,1-10,03 15,1-25,0 450,1-750,0 10,1-15,04 25,1-50,0 750,1-1500,0 15,1-20,05 50,1- 1500,1- 20,1-

Det bör klart framgå, både för den som sammanställer tabellen och för läsaren, i vilken klassvarje tänkbart värde hamnar. Om klassgränserna anges som i ovanstående exempel är det intehelt uppenbart att P-värdet 15,0 hamnar i klass 2, medan 15,1 hamnar i klass 3. Klassindelningenblir tydligare om klassgränserna för klass 1 anges med < och klass 5 med > (det är så de ges iNaturvårdsverkets Allmänna råd 90:4). Ett annat sätt är att ange klassgränserna i de trekolumnerna med en decimal överlag .

7

Virkesförrådet fördelat på trädslag 1989-1993

Trädslag Landsdel, milj. m3sk

N Norrland S Norrland Svealand Götaland Hela landet

Tall 285 264 304 247 1 101Gran 175 357 306 416 1 254Björk 80 74 60 75 289Asp 4,2 6,9 13,2 11,7 36Ek 3,6 23,9 28Bok 17,3 17Övr. lövträd 4,1 10,5 16,3 29,2 60Torra+vindf. 14,2 16,4 10,9 9,4 51

Alla 562 730 715 830 2 836

Trädslag Landsdel, %N Norrland S Norrland Svealand Götaland Hela landet

Tall 26 24 28 22 100Gran 14 28 24 33 100Björk 28 26 21 26 100Asp 12 19 37 33 100Ek 13 87 100Bok 100 100Övr. lövträd 7 17 27 49 100Torra+vindf. 28 32 21 18 100

Alla 20 26 25 29 100

Trädslag Landsdel, %

N Norrland S Norrland Svealand Götaland Hela landet

Tall 51 36 43 30 39Gran 31 49 43 50 44Björk 14 10 8 9 10Asp 1 1 2 1 1Ek 0 0 1 3 1Bok 0 0 0 2 1Övr. lövträd 1 1 2 4 2Torra+vindf. 3 2 2 1 2

Alla 100 100 100 100 100

Trädslag Landsdel, %

N Norrland S Norrland Svealand Götaland Hela landet

Tall 10,05 9,31 10,72 8,71 38,82Gran 6,17 12,59 10,79 14,67 44,22Björk 2,82 2,61 2,12 2,64 10,19Asp 0,15 0,24 0,47 0,41 1,27Ek 0,13 0,84 0,97Bok 0,61 0,61Övr. lövträd 0,14 0,37 0,57 1,03 2,12Torra+vindf. 0,50 0,58 0,38 0,33 1,79

Alla 19,82 25,74 25,21 29,27 100,00

Källa: Skogsdata 94, SLU

Exempel 4.3

8

landsdel, den andra tabellen visar att ca 28% avtallförråden växer i Svealand, medan man ur dentredje tabellen kan läsa att virkesförrådet i Svea-lands skogar består till nästan 43% av tall.

Ibland kan det vara meningsfullt att ge cellvärdenai procent av totalen. I den nedersta tabellen kan manse att Svealands tallar står för 11 % av det totalavirkesförrådet i Sverige. En tumregel är att inte kom-binera flera procentfördelningar i samma tabell. Omman sätter in värdena från en av de visade procent-tabellerna i grundtabellen kan tabellen göras tillräck-ligt överskådlig exempelvis om man anger procent-värdena i kursiv stil.

Diagram

Att använda diagram kan vara ett effektivt sättatt lyfta fram det väsentliga ur stora datamaterial, attillustrera komplicerade samband och skapa över-skådlighet. Bra diagram: • drar till sig uppmärksamheten och lockar

därmed till studium. Det förpliktigar till attanvända diagram med förnuft. Man bör inteägna sig åt att med diagram visa självklarhetereller förledas att utnyttja alltför osäkra data.Diagrammen bör vara välmotiverade. De fram-häver betydelsefulla resultat.

• är enkla och lättbegripliga. Diagram ärförträffliga när det gäller att åskådliggöra ten-denser, samband, mönster, likheter och olikheter.Exempel på detta är när man vill visa om någon-ting har ökat eller minskat, om det finns skillna-der mellan olika grupper, vilken grupp som ärstörst eller minst. Däremot kan det vara bättreatt använda tabeller om man vill visa exaktanumeriska värden. Exempelvis är siffror i entabell överlägsna för att visa hur stor en halt ellermängd är.

• kan vara lättare att förstå och minnas änsiffror. Vid konstruktion av diagram, och natur-ligtvis även av kartor, bör man eftersträva atthjälpa läsaren att avslöja fakta och samband somär svåråtkomliga i tabeller. Ett diagram kan varaen bra introduktion till materialet och locka tillvidare studium även i mycket kompliceradesystem av tabellerade data.

• kan vara utrymmesbesparande . Välmotive-rade och välritade diagram och kartor kan oftaersätta långa förklarande texter. Ögat kanuppfatta mycket mer information i form av t.ex.en kurva, än motsvarande datamängd i siffroroch text.

Exempel 4.4Hektardoser av försålda bekämpningsmedel till jordbruket. Ur Naturmiljön i siffror (2000), sid63.

9

Några diagramtyper

Det finns många olka typer av diagram. Här gesen mycket kortfattad beskrivning av de vanligaste.

Stapeldiagram

Används vid diskret eller kvalitativ variabel föratt visa antal, andelar eller andra relationstal för olikavärden på variabeln. Med diskret variabel menarman att värdet kan anta endast vissa värden, exem-pelvis hela tal. Kvalitativa variabler kan vara kate-gorier, exempelvis grupper. Höjden på stapeln angerofta en frekvens (absolut eller relativ), men kanockså vara exempelvis en summa eller ett medel-värde. Dessa diagram kallas även för stolpdiagram(engelska bar charts).

Histogram

När den variabel som ska illustreras är kontinu-erlig och klassindelad kan histogram används isamma slags situationer som stapeldiagrammet,d.v.s. för att visa antal och andelar. Histogram lik-som stapeldiagram ger en ofta lättillgänglig och bravisuell bild av spridningen i materialet. • Grundregel, ha lika breda klasser. Eftersom

variabelvärdena klassindelas får staplarna enbredd och höjden gånger bredden (= ytan) avde staplar som sålunda skapas får representerafrekvensen per klass. Man bör göra samtligaklasser lika breda så att även staplarnas bredderblir lika. I så fall blir höjden proportionell motfrekvensen även i histogrammet såsom i stapel-diagrammet. Ibland kan det vara befogat medolikbreda klasser. Det kan bero på att materialetfrån början är indelat i olikbreda intervall, exem-pelvis definierade kvalitetsklasser. Eller att mansaknar detaljinformation i vissa delar av materia-let. Ett specialfall är då man har årsdata förvissa år, men enbart data för flerårsintervall förvissa tidsperioder. I dessa fall är det viktigt attpåpeka att stapelhöjden inte anger frekvensenutan ger frekvensen/enheten på x-axeln.

• Öppna klasser bör man undvika i diagram,men ibland går det inte. I vissa undersökningarvet man t.ex. bara att delar av datavärdenaligger under en mätteknisk detektionsgräns.Någon riktigt bra metod att visa detta grafisktfinns inte, man får anpassa sig till de möjlighetersom ritprogrammet ger, och göra en anmärkningi kolumnen.

• Antal klasser. Det kan vara svårt att veta hurmånga klasser man ska dela sitt datamaterial i.

DEN REFERERADE FORMELN SKA KLIP-PAS IN /

Det betyder att vid n=100 ska man ha sjuklasser och vid n=1000 tio klasser. Hur klassernakonstruerats får ibland stor betydelse förhistogrammets utseende.

Grupperade och ackumulerade stapel-diagram

Jämförelser av några (få) variabler kan lämpli-gen visas med grupperade eller ackumulerade staplar.Skillnaden är att man i det första fallet ställerkategoriernas staplar bredvid varandra, i det andraställs staplarna på varandra. I det övre diagrammetkan man lätt jämföra de sammanlagda frekvenserna.

Stapeldiagram och histogram kan även vridas90°, och presenteras liggande. Det ger utrymme förförklarande text och är speciellt en fördel om manhar långa texter eller många staplar. Ett exempel ärdiagrammet i exempel 4.1, som visar mark-användningen per län.

Ordningsföljden mellan staplarna

En väl vald ordningsföljd mellan kategorierna gördiagrammet bättre! Om man har en frihet att väljaordningsföljden, och inte är bunden av att ha den ien bestämd ordning exempelvis alfabetisk, numre-rad klassindelning, eller som tidsföljd kan man rang-ordna staplarna. Sådana ”tio-i- topp” diagram kanväcka intresse.

Ett annat sätt att ändra den ”konventionella” ord-ningen på staplarna är exemplet i början av dettaavsnitt där länen ges i syd-nordlig ordning. Nästansom en sverigekarta!

Cirkeldiagram

När man vill visa hur ”ett helt” fördelar sig pågrupper eller i delar är det lämpligt att visa det i formav en cirkel som delats i sektorer i de proportionersom grupperna eller delarna representerar. Det kal-las ibland för paj- eller tårtdiagram.

bmh
DEN REFERERADE FORMELN SKA KLIPPAS IN /

10

Exempel 4.6Andel handelsgödslad areal 1993 och 1997.

Exempel 4.5Utsläpp av dikväveoxid 1996-1998. Utsläppav flyktiga organiska ämnen från olika källor1998. Ur Naturmiljön i siffror (2000), sid 45.

11

Exempel 4.7Miljö och hälsofarliga kemiska produkterfördelat på farlighetsklass, 1997. Ur Naturmiljön isiffror (2000), sid 118.

12

Exempel 4.8Djupbottenfaunans individtäthet i augusti (Vänern och Vättern) och september/oktober (Mäla-ren) 1969-96. Ur Naturmiljön i siffror (2000), sid 153.

Exempel 4.9Fosfat- och nitrathalter i Västerhavet och Östersjön1958-99. Ur Naturmiljön i siffror (2000), sid 160.

Exempel 4.10Rovdjurens utbredning 1999. Björn1999. Ur Naturmiljön i siffror (2000),sid 188.

13

Cirkeldiagrammet är ett alternativ till stapeldia-gram då man vill jämföra andelar. I exemplet visarcirkeln och stapeln samma fördelning.

Frekvenspolygon

Frekvenspolygon kan användas som alternativtill histogram. I detta fall sammanbinds mittpunkte-rna på de översta sidorna av histogrammets staplar.Resultatet blir en kurva. Det bakomliggandehistogrammet tas inte med! Om man har flera klass-indelade fördelningar som man vill jämföra, kan detofta vara enklare att göra det med frekvenspoly-goner inritade i ett diagram, än med flera histogram.

Linjediagram

Tidsutveckling visas vanligen med tidsserier iform av kurvor, s.k. linjediagram. Ibland kan dockstapeldiagram vara ett alternativ. Stapeldiagram fram-häver enskilda tidpunkter, och passar bäst om manska jämföra ett fåtal tidpunkter. De är mindre lämp-liga om man har flera serier i samma diagram. Linje-diagram framhäver utvecklingsmönster och är lämp-liga även då man har flera serier. De ger en klar bildav utvecklingen över tiden. Det ska vara lätt för ögatatt följa var och en av flera kurvor om man vill jäm-föra flera variabler i samma diagram. Flera exempelfinns i kap 5.4. Tidsserieanalys.

Flödesdiagram

Om man vill visa statistik över storleken på olikabestånd och flöden mellan dem använder man sigav flödesdiagram. Exempelvis kan man visa olikatyper av balanser, exempelvis energibalanser, därolika energislag ”flödar” till olika slutanvändare.

Flödesdiagrammet kan ses som en vidareutveck-ling av stapeldiagrammet, eftersom storleken påvariabelvärdena kan visas med bredden på staplareller pilar.

Att visa statistik medhjälp av kartor

Statistiska kartor är det bästa sättet att visa va-riation, skillnader och likheter mellan olika geogra-fiska områden, län, kommuner, avrinningsområden,klimatzoner eller andra. Ett alternativ är att indelakartan i rutnät eller med linjer som sammanbinderpunkter med samma variabelvärden, isolinjer. Ex-empel på olika statistiska kartor ges nedan. Dessaär för enkelhets skull tagna ur Naturmiljön i Sverige,SCB 2000. Många bra kartor finns även i Monitoroch Nationalatlasen. Man kan även vända sig tillexpertis inom området geografiska informationssys-

Exempel 4.11Geografisk fördelning av mängden död ved iskog (m3sk). Ur Naturmiljön i siffror (2000),sid 173.

Exempel 4.12Kommuners förutsättningar att hävdahögklassiga naturbetesmarker. Ur Naturmiljön isiffror (2000), sid 180.

14

Exempel 4.13Bly i mossa 1975-95. Ur Naturmiljön i siffror(2000), sid 138.

Exempel 4.14Mellanskarvens häckning 1980-98. Ur Naturmiljön i siffror (2000), sid 194.

15

tem, GIS, exempelvis redaktionen för Monitor ellerSCB:s program för Regional planering och natur-resurshushållning.

Ytmönsterkartor

Då skillnaden mellan regioner är små, men bety-delsefulla är ytmönsterkartor ofta den lämpligastepresentationsformen. I tabeller och stapeldiagramär det svårt att se mönster om alla värden är nästanlika. Men till kartan kan man ju välja sin klassindel-ning så att de skillnader man vill påvisa verkligenkommer fram.

Kartogram-kartor med diagramoch symboler

Ett kartogram är en underlagskarta, som användsför lokalisering av de geografiska platser eller om-råden för vilka man vill visa variabelvärden.

Ofta ritas variabelvärdena in i kartan i form avbilder, symboler eller små diagram. Mängder kanexempelvis visas i form av olikstora staplar, eller cirk-lar. Andelar kan ges i form av cirkeldiagram etc.

Även flöden kan visas i kartor. Exempelvis kanbredden på linjen ange transportmängden på resp.vägsträcka.

Explorativ grafiskdataanalys

Jämförelse mellan två variabler ipunktdiagram

När man ska undersöka och beskriva stora data-material kan det vara lämpligt att börja med att plottamaterialet efter någon enkel princip. Ofta är obser-vationerna i ett statistiskt material talpar. Det bety-der att man har två variabler som kan tänkas sam-variera. I detta fall kan man pricka in materialet i ettspridningsdiagram (punktdiagram, eng. scatterplot)innan man exempelvis beräknar regressions-koefficienten. Nedan beskrivs två enkla metoder attgranska en variabel i taget.

Stam-bladdiagram

En metod att åskådliggöra stora datamaterial äratt för varje variabel göra separata frekvens-

beräkningar. Det vanliga är att man, sedan man fåtten tabell med frekvensvärden, ritar in dessa värdeni ett histogram. Ett alternativ är att ställa sammandata i ett stam-bladdiagram.

Ett stam-bladdiagram konstrueras genom attman ritar ett lodrätt streck och till vänster om dettaanger exempelvis de heltalssiffror som förekommeri materialet. Detta bildar stammen i diagrammet.Sedan sätter man blad på stammen genom att efterrespektive heltalssiffra ange den decimal-siffra somvar och en av observationerna har.

Stam-bladdiagrammet kännetecknas av attdet är enkelt och robust. Med robust menas häratt stam-bladdiagrammet är okänsligt för eventu-ella felaktigheter i datamaterialet. I motsats tillhistogrammet, som det liknar efter en 90 gradersvridning, är mera av den ursprungliga informationmed i stam-bladdiagrammet.

Lådagram

Lådagram (Boxplot) är en metod att illustreraspridningen i ett material. Det kan återge median,kvartilavståndet och extremvärden. Vanligen bestäm-mer man från ett stam-bladdiagram • det mittersta värdet, medianen som åskådlig-

görs med mittstrecket i lådan • den tredje kvartilen (75:e percentilen) och den

första kvartilen (25.e percentilen). Avståndetmellan dessa är kvartilavståndet och får blilådans höjd

• skevheten belyses genom skillnaden i storlekmellan lådans delar som bildats av de tre måtten,median och tredje resp. första kvartilen.

• eventuella extremvärden kan uppmärksammaspå olika sätt. Ett exempel är den s.k.Tukey´sstandard boxplot, där värden som ligger pålängre avstånd från lådans kant än 1,5 gångerlådans höjd anges med • (punkt). Man kan ävenrita in linjer till det lägsta och det högsta värdet.

Layout av diagram

Datamaterialets karaktär bör bestämma vilkentyp av diagram man ska använda. Därefter kan detvara bra att göra några olika skisser för att få enbild av hur det slutliga diagrammet ska se ut. Dettakan ske med hjälp av de dataprogram som man hartill buds. Den moderna tekniken kan dock fresta enatt visa för mycket på en gång. Man bör akta sig för

16

överlastade diagram, lika väl som för alltför detalj-rika och omfattande tabeller.

Siffror i diagrammet?

Ett cirkeldiagram bör visa vilka sektorer somdominerar, vilka som är små etc. Om man tyckersig behöva ange exakta värden bör man göra det ien tabell. Möjligen kan man ha värden i diagrammetom man vill göra bådadera men inte har plats försåväl figur som tabell. Numera kan ett alternativ varaatt hänvisa den som vill ha de exakta värdena bakomen figur till en internetlänk där varifrån data han häm-tas, se t ex Naturvårdsverkets statistikpublikationMiljötillståndet i skogen 1999.

Stapeldiagram är ofta konstruerade för direkt av-läsning på en skala. Här är det direkt olämpligt medsiffror ovanför staplarna, eftersom proportionerna idiagrammet kan tyckas förändrade, ”ögat lägger tilltrycksvärtan” i siffrorna till staplarna!

Markeringar, mönster ochskrafferingar

Kurvor

Om man har flera linjer i ett diagram använderman oftast olika markeringar för att skilja dem åt.Om en linje utgör en summa (en total) av vad deövriga linjerna visar kan det evntuell vara bra att gedenna en mer markerad , ”tjockare” linje. Om mandessutom skriver de förklarande texterna vid lin-jerna slipper man ifrån en speciell teckeförklaring(legend).

Ytor

Tänk på gråskalan eller svartvitskalan. Mörkanyanser kan bli mycket dominanta. Oftast är det bästatt överlag använda dämpade nyanser ur gråskalan.Dataprogrammen låter oss ofta välja mellan olikatyper av prickar och randningar. Om man har mångaytor bredvid varandra kan helhetsbilden bli rörig ochi vissa fall leda till synvillor. Var observant!

Kartogram

Det ska vara enkla diagram om man har mångapå en karta.

Tredimensionella diagram

När datamaterialet består av tre variabler, somman vill beskriva samtidigt, kan man visa det i an-tingen tvådimensionella eller tredimensionella dia-gram.

Exempel på tvådimensionella diagram i dettasammanhang är stapeldiagram där två av variab-lerna finns i x- resp. y-axeln och den tredje mot-svaras av olika skrafferingar.

Det finns också tredimensionella varianter avsådana diagram. Två variabler beskrivs av axlarna iett bottenplan och den tredje av staplarnas höjd.Varianter av denna diagramtyp är perspektivritadekartor med staplar. Om dessa ritas med omsorg ochstaplarna inte inkräktar på varandra kan de varamycket intresseväckande och ge en bra bild av sam-band. Men alltför ofta är dessa diagram svåra attavläsa, skalorna blir svåra att hitta och staplar kangömma sig bakom varandra. En varning alltså förett lättsinnigt bruk av de tredimensionella dia-grammen! De kräver mycket arbete och urskillningför att bli tillräckligt bra.

Det kan även vara på sin plats att utfärda en var-ning för ”onödig tredje dimension”. Eftersom det meddagens teknik är så enkelt att rita diagram, och pyntadem på olika sätt, vrida på dem och lägga till ettdjup i form av en tredje dimension, är det frestandeatt ibland använda sig av för mycket av dessa fines-ser. När data endast har två dimensioner, ger ex-empelvis en tredimenionell ”tårta” missvisande jäm-förelser.

Avbrutna och stympade skalor

Helst bör man undvika att bryta och stympa ska-lor eftersom det lätt leder till missuppfattningar. Detgäller speciellt den vertikala skalan, y-axeln. Närman ändå anser sig vara tvungen att börja sin kurvavid någon annan punkt än vid 0, bör man markeradetta.

Fördjupade studier

För fördjupning hänvisas till någon lärobok iDeskriptiv statistik eller till standardverk, som Tufte,E, R, The visual display of quantitative information;Tukey, J, Exploratory Data Analysis. På svenskafinns Statistikens bilder - att skapa diagram av Wall-gren et.al., SCB, 1994.