stats4 finland 28.8.2012, veli matti jantunen

39
Stats4Finland-työpaja: Tilastokeskuksen tilastodatan tiedostomuodoista [email protected]

Upload: apps4finland

Post on 28-Nov-2014

1.435 views

Category:

Documents


4 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Stats4 finland 28.8.2012, veli matti jantunen

Stats4Finland-työpaja:

Tilastokeskuksen tilastodatan

tiedostomuodoista

[email protected]

Page 2: Stats4 finland 28.8.2012, veli matti jantunen

2 [email protected]

A statistician is someone who doesn´t know what he´s

talking about -

and makes you feel it´s your fault. unknown

Page 3: Stats4 finland 28.8.2012, veli matti jantunen

Johdatus tilastotiedon esitystapoihin ja kuutiomuotoon

PC-Axis-maailma ja –tiedostot (.px)

hieman yleistietoa

tiedostojen käsittelyvihjeitä

Rakenteisista taulukoista

Excel ja csv

XML

tulevaisuuden jakeluratkaisu?

Perustietoja Tilastokeskuksen

vapaasti saatavien tietojen jakelumuodoista

3 [email protected]

Page 4: Stats4 finland 28.8.2012, veli matti jantunen

Tilastotaulukon esitystavoista

ja kuutiomuodosta

4 [email protected]

Page 5: Stats4 finland 28.8.2012, veli matti jantunen

Tilastot esitetään useimmiten taulukkoina

Taulukoissa esitetään useiden muuttujien (luokitusten)

yhdistelmiä

Vuosittainen väkiluku kunnittain, sukupuolittain ja ikäryhmittäin

tulisi käyttää vain vakioituja, uniikkeja luokituksia

Pelkkä numeerinen tieto ei riitä, vaan tarvitaan (usein runsaasti)

metadataa (tietoa tiedosta) taulukon yhteyteen

Kolme esitysmallia = kolme ajattelutapaa

julkaisutaulukko

peräkkäislista

kuutiomuoto

5 [email protected]

Page 6: Stats4 finland 28.8.2012, veli matti jantunen

[email protected]

Julkaisutaulukko

Mielessä paperijulkaisu

Tavoitteena optimoida tilankäyttö

6

Page 7: Stats4 finland 28.8.2012, veli matti jantunen

[email protected]

Peräkkäislista

Yleisehkö tiedon siirtotapa (tietokantalistaukset)

Tietoyhdistelmät, joille on todellisia havaintoja

7

Page 8: Stats4 finland 28.8.2012, veli matti jantunen

[email protected]

Kuutio matemaatikon silmin

Moniulotteinen taulukko (sääntiö, matriisi) koostuu

1-n ortogonaalisesta dimensiosta

Indeksit nimetään dimensioittain

Taulukon alkiot muodostuvat dimensioiden karteesisen tulon

perusteella eli jokaisen alkion sijainti on määrätty

8

Page 9: Stats4 finland 28.8.2012, veli matti jantunen

[email protected]

Kuutio tilastoihmisen silmin

Kuutio koostuu 1-n muuttujasta (luokituksesta, särmästä)

kaikki muuttujat ovat samanarvoisia

Muuttujat koostuvat puolestaan nimetyistä arvoista (luokat,

nimikkeet)

Puhtaassa kuutiomuodossa

jokainen muuttujien arvojen yhdistelmä on mukana

jokaisen alkion sijainti on määrätty

9

Page 10: Stats4 finland 28.8.2012, veli matti jantunen

[email protected]

Esimerkki: Yritysten toimipaikat -kuutio

Muuttujan arvot

Muuttujat

Alajärvi

Vuosi Toimiala Kunta 2000 2001 2002

A Maa-, riista- ja metsätalous

B Kalatalous

C Mineraalien kaivu

Alahärmä

Alastaro

...

...

...

tietoalkio:

Alastaron kalatalousyritykset vuonna 2002

10

Page 11: Stats4 finland 28.8.2012, veli matti jantunen

PC-Axis-maailma

11 [email protected]

Page 12: Stats4 finland 28.8.2012, veli matti jantunen

PC-Axis-ohjelmaperheestä

PC-Axis: avoin tiedostomuoto

kuutiomuotoisen tilastotaulukon kuvaus metatietoineen tekstitiedostona

1990-luvulta

myös: veloitukseton loppukäyttäjän ohjelma px-taulukon asetteluun,

tilastolaskentaan ja tiedostomuunnoksiin

PX-Web: px-taulukkotietokannan jakelupalvelin

käyttäjälle selkeä ja yksinkertainen (”tilastoihmisiltä tilastoihmisille”)

ylläpitäjälle räätälöinti ja hallinta helppoa

PC-Axis ja PX-Web ovat SCB:n tuotteita

tuotekehitystä ohjaa käyttäjistä koostuva PC-Axis Reference Group

12 [email protected]

Page 13: Stats4 finland 28.8.2012, veli matti jantunen

PX-Web maailmalla

[email protected] 13

Page 14: Stats4 finland 28.8.2012, veli matti jantunen

Tilastokeskuksessa kehitetty asiantuntijoille

tarkoitettu veloitukseton PC-Axis-taulukoiden muokkaustyökalu

px-tiedostojen syntaksitarkistus ja optimointi

px- ja xml-taulukoiden tuottaminen sekalaisista lähteistä

metatietoköyhien taulukoiden rikastus

Kansainvälinen menestys

osa Tilastokeskuksen panosta px-tuoteperheen kehitykseen

osa SCB:n PC-Axis-koulutuspakettia (PC-Axis, PX-Web ja PX-Edit)

osa FAOn CountryStat-pakettia

Koodattu DyalogAPL:llä (www.tryapl.org)

PX-Edit

14 [email protected]

Page 15: Stats4 finland 28.8.2012, veli matti jantunen

15 [email protected]

StatFin

+ StatFin- arkisto

WWW Julkaisutuotanto FastWeb-XML

Julkistus

Web-ajastin: sivuston

ja StatFinin ajastukset

PX-Web

HTML ARBORTEXT

Julkaisun toimittaminen ja metatiedon

lisäys RSS, txt...

Jakeluvarasto

Automaat- tinen

PDF- ja HTML- muunnos

Tilastosovellukset

.px .px

PX-Edit manuaalinen tai eräajokäyttö

syntaksitarkistus metatietorikastus

XML-konversio

.px

PC-Axis-taulukot

.px

PC-Axis- ja XML-julkaisutaulukoiden teko

SuperSTAR

SAS

Excel ja muut

.xml/ CALS

.px

.xls *)

*) määrämuotoinen, rakenteinen .xls, .txt tai .csv

.xml

.xml/CALS

PDF

XML/DB eXist

15

Page 16: Stats4 finland 28.8.2012, veli matti jantunen

PC-Axis-tiedostoista

16 [email protected]

Page 17: Stats4 finland 28.8.2012, veli matti jantunen

PC-Axis-tiedosto (.px)

px-tiedostomuoto on avoin ASCII-standardi kuutiomuotoisen

tilastotaulukon esittämiseen metatietoineen

ihmissilmin ymmärrettävissä

Tiedot esitetään avainsanalausekkeina,

joita on neljä perustyyppiä: TAULUKKOAVAINSANA=…;

MUUTTUJA-AVAINSANA("Muuttuja")=…;

ARVOAVAINSANA("Muuttuja","arvo")=…;

SOLUAVAINSANA("arvo1","arvo2",…)=…;

Lauseke päättyy aina puolipisteeseen (;)

17 [email protected]

Page 19: Stats4 finland 28.8.2012, veli matti jantunen

Avainsanalausekkeista

Avainsanalausekkeiden sisältö suljetaan lainausmerkein (")

paitsi numeeriset ja loogiset (YES/NO) arvot

Pitkä lauseke rivitetään (katkaistaan osiin) lainausmerkein "Tämä on pitkä teksti,"

" joka on katkaistu (huomaa välilyönti)";

Listan alkiot erotetaan pilkuilla VALUES("Sukupuoli")="Yhteensä","Miehet","Naiset";

Monikielisten taulukoiden lisäkielen kielikoodi liitetään

avainsanan perään hakasulkeisiin VALUES[en]("Gender")="Total","Males","Females";

19 [email protected]

Page 20: Stats4 finland 28.8.2012, veli matti jantunen

Rakenteesta

Avainsanojen tallennusjärjestyksen tulee olla PX-Webin

standardin mukainen

Osa avainsanoista on pakollisia (MATRIX, SUBJECT-AREA, …)

Solukohtaisten avainsanojen syntaksi riippuu muuttujien

järjestyksestä

Taulukon muuttujat ovat kahdessa avainsanassa: STUB ja HEADING

Dataosa (DATA= ) on aina viimeinen

Tiedostomuodon käsikirja:

www.stat.fi/tup/pcaxis/lataus_tyokalut.html 20 [email protected]

Page 21: Stats4 finland 28.8.2012, veli matti jantunen

Kuinka monta alkiota on taulukossa?

Lue muuttujat avainsanoista STUB ja HEADING

(tässä järjestyksessä) STUB="Ikä","Vuosi";

HEADING="Sukupuoli","Siviilisääty";

Lue muuttujittain VALUES-avainsanoista arvojen määrä

VALUES("Ikä")="Yhteensä","0","1","2","3","4",… (101)

VALUES("Vuosi")="1990","1991","1992",… (21)

VALUES("Sukupuoli")="Yhteensä","Miehet","Naiset"; (3)

VALUES("Siviilisääty")="Yhteensä","Naimaton",… (8)

101 x 21 x 3 x 8 = 50904 tietoalkiota

21 [email protected]

Page 22: Stats4 finland 28.8.2012, veli matti jantunen

Dataosasta

Dataosan alkioiden jonojärjestys vastaa taulukon muuttujien

arvojen järjestystä

alkioita tulee olla juuri oikea määrä

Alkiot erotetaan toisistaan välilyönnein

Alkio on joko luku, piste- tai viivakoodi

lukujen desimaalierotin on piste, ei tuhaterottimia,

negatiiviset luvut osoitetaan miinusmerkillä

0 1 2.3 -4.567

pistekoodeilla osoitetaan puuttuvaa tms. tietoa,

viivakoodi on ’tarkka nolla’

"." ".." "..." "...." "....." "......" "-" 22 [email protected]

Page 24: Stats4 finland 28.8.2012, veli matti jantunen

Tilastokeskuksesta saatavat px-tiedostot

Lista:

pxweb2.stat.fi/database/StatFin/StatFin_rap.csv

A prikos: kehitteillä oleva avoin data –sivusto

stat.fi/org/lainsaadanto/avoin_data.html

24 [email protected]

Page 25: Stats4 finland 28.8.2012, veli matti jantunen

Rakenteisen taulukon periaatteet

(CSV, xls)

25 [email protected]

Page 26: Stats4 finland 28.8.2012, veli matti jantunen

Vain tarpeelliset taulukkotiedot

Taulukon otsikko on ensimmäisessä solussa (kulmasolussa)

Sarakemuuttujat

muuttujannimet reunasarakkeella allekkain

vastaavat arvotekstit (luokitukset) muuttujariveillä

Rivimuuttujat

muuttujannimet yhdellä rivillä vierekkäin

vastaavat arvotekstit (luokitukset) muuttujasarakkeilla

Data-alkio on aina rivi- ja sarakearvojensa leikkauspisteessä

26 [email protected]

Page 27: Stats4 finland 28.8.2012, veli matti jantunen

Esimerkkitaulukko (hierarkkinen otsikointi)

taulukko-otsikko

sarakemuuttujat

rivimuuttujat

dataosa

Avioliiton solmineet 1975-2001

Vuosi

Kunta Sukupuoli

Koko maa

Alahärmä

Alajärvi

Alastaro

miehet

naiset

yhteensä

miehet

naiset

yhteensä

miehet

naiset

yhteensä

miehet

naiset

yhteensä

1975 …

15-19 20-24 25-29 30-34 …

1352 14793 10367 2503 …

5693 15794 6704 1583 …

7045 30587 17071 4086 …

1 11 9 0 …

5 17 5 1 …

6 28 14 1 …

2 24 15 0 …

19 14 8 1 …

21 38 23 1 …

2 10 14 3 …

4 17 6 1 …

6 27 20 4 …

… … … … …

Kunta

000

004

005

006

Ikä

27 [email protected]

Page 28: Stats4 finland 28.8.2012, veli matti jantunen

Yksimuuttujaisen taulukon perusrakenne

väestö alueittain alue

kunnat data- sarake

28 [email protected]

Page 29: Stats4 finland 28.8.2012, veli matti jantunen

Kaksimuuttujaisten taulukoiden perusrakenteet

väestö alueittain ja vuosittain alue

kunnat data- sarake

vuodet

vuosi väestö alueittain ja vuosittain

vuodet vuosi alue

kunnat datataulukko (matriisi)

29 [email protected]

Page 30: Stats4 finland 28.8.2012, veli matti jantunen

Kolmimuuttujaisten taulukoiden perusrakenteet

väestö alueittain, vuosittain ja ikäryhmittäin alue

kunnat data- sarake

vuodet

vuosi

iät

ikäryhmä3 väestö alueittain, vuosittain ja ikäryhmittäin

iät ikäryhmä3 alue

kunnat datataulukko vuodet

vuosi

väestö alueittain, vuosittain ja ikäryhmittäin vuodet vuosi

alue

kunnat datataulukko

iät ikäryhmä

30 [email protected]

Page 32: Stats4 finland 28.8.2012, veli matti jantunen

Tilastokeskuksesta saatavat csv-tiedostot

Lista:

pxweb2.stat.fi/database/StatFin/StatFin_rap_csv.csv

(päivitetään satunnaisesti)

Lyhyt kuvaus:

www.stat.fi/tup/pcaxis/csv_tiedostokuvaus.pdf

32 [email protected]

Page 33: Stats4 finland 28.8.2012, veli matti jantunen

Tulevaisuus: XML

33 [email protected]

Page 34: Stats4 finland 28.8.2012, veli matti jantunen

Common Structure of Statistical Information (CoSSI)

www.stat.fi/cossi

Tilastotiedon yleinen malli

kuvaa kaikkiin tilastoihin liittyvät tiedot

Mallissa märitellään tietosisällöt ja niiden keskinäinen hierarkia

mallinnuskielenä XML-DTD

Kolme muotoa

XDF isoille taulukoille, dataosa kuin px-tiedostoissa

Cals julkaisutaulukoille (~html-taulukot)

Keys harvamatriiseille

34 [email protected]

Page 35: Stats4 finland 28.8.2012, veli matti jantunen

CoSSI

The point of departure in CoSSI was an (infological) analysis of the

information being considered

The conclusion from the analysis was that although in practice the

definition of statistical information has varied according to a given situation

and application, in reality statistical information has a certain simplifiable

and acceptable universal structure

CoSSI describes the general structure that is not dependent on the

situation of the statistical information presented in differing formats

CoSSI defines the structures of statistical data, metadata

and publications

35 [email protected]

Page 36: Stats4 finland 28.8.2012, veli matti jantunen

36 [email protected] 36

Modules:

Document metadata

Statistical metadata

Processing metadata

Publications

Data

matrices (XDF)

tables (CALS)

sparse matrix (KEYS)

CoSSI (www.stat.fi/cossi)

XML Based Dissemination

Page 37: Stats4 finland 28.8.2012, veli matti jantunen

CoSSI Implementation

Modular DTD system Document Type Definitions

Use of standards

CALS, XDF, Dublin-Core...

Statistical matrix (statinfo_xdf.dtd)

statmeta.dtd, docmeta.dtd, xdf.dtd

Statistical table (statinfo_cals.dtd)

statmeta.dtd, docmeta.dtd, cals.dtd

Publications and documents (publication.dtd)

docmeta.dtd, statmeta.dtd, statinfo_cals.dtd, figure.dtd...

XML One XML-file data and metadata

Multi-lingual documents

37 [email protected]

Page 38: Stats4 finland 28.8.2012, veli matti jantunen

Tilastokeskuksesta saatavat xml/xdf-tiedostot

Lista:

pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv

(päivitetään satunnaisesti)

Kuvaus:

www.stat.fi/org/tut/dthemes/drafts/cossi_pxml_en.html

38 [email protected]

Page 39: Stats4 finland 28.8.2012, veli matti jantunen

39 [email protected]

The sign of a truly educated man is to be deeply moved by statistics George Bernard Shaw