stats4 finland 28.8.2012, veli matti jantunen
DESCRIPTION
TRANSCRIPT
A statistician is someone who doesn´t know what he´s
talking about -
and makes you feel it´s your fault. unknown
Johdatus tilastotiedon esitystapoihin ja kuutiomuotoon
PC-Axis-maailma ja –tiedostot (.px)
hieman yleistietoa
tiedostojen käsittelyvihjeitä
Rakenteisista taulukoista
Excel ja csv
XML
tulevaisuuden jakeluratkaisu?
Perustietoja Tilastokeskuksen
vapaasti saatavien tietojen jakelumuodoista
Tilastot esitetään useimmiten taulukkoina
Taulukoissa esitetään useiden muuttujien (luokitusten)
yhdistelmiä
Vuosittainen väkiluku kunnittain, sukupuolittain ja ikäryhmittäin
tulisi käyttää vain vakioituja, uniikkeja luokituksia
Pelkkä numeerinen tieto ei riitä, vaan tarvitaan (usein runsaasti)
metadataa (tietoa tiedosta) taulukon yhteyteen
Kolme esitysmallia = kolme ajattelutapaa
julkaisutaulukko
peräkkäislista
kuutiomuoto
Peräkkäislista
Yleisehkö tiedon siirtotapa (tietokantalistaukset)
Tietoyhdistelmät, joille on todellisia havaintoja
7
Kuutio matemaatikon silmin
Moniulotteinen taulukko (sääntiö, matriisi) koostuu
1-n ortogonaalisesta dimensiosta
Indeksit nimetään dimensioittain
Taulukon alkiot muodostuvat dimensioiden karteesisen tulon
perusteella eli jokaisen alkion sijainti on määrätty
8
Kuutio tilastoihmisen silmin
Kuutio koostuu 1-n muuttujasta (luokituksesta, särmästä)
kaikki muuttujat ovat samanarvoisia
Muuttujat koostuvat puolestaan nimetyistä arvoista (luokat,
nimikkeet)
Puhtaassa kuutiomuodossa
jokainen muuttujien arvojen yhdistelmä on mukana
jokaisen alkion sijainti on määrätty
9
Esimerkki: Yritysten toimipaikat -kuutio
Muuttujan arvot
Muuttujat
Alajärvi
Vuosi Toimiala Kunta 2000 2001 2002
A Maa-, riista- ja metsätalous
B Kalatalous
C Mineraalien kaivu
Alahärmä
Alastaro
...
...
...
tietoalkio:
Alastaron kalatalousyritykset vuonna 2002
10
PC-Axis-maailma
PC-Axis-ohjelmaperheestä
PC-Axis: avoin tiedostomuoto
kuutiomuotoisen tilastotaulukon kuvaus metatietoineen tekstitiedostona
1990-luvulta
myös: veloitukseton loppukäyttäjän ohjelma px-taulukon asetteluun,
tilastolaskentaan ja tiedostomuunnoksiin
PX-Web: px-taulukkotietokannan jakelupalvelin
käyttäjälle selkeä ja yksinkertainen (”tilastoihmisiltä tilastoihmisille”)
ylläpitäjälle räätälöinti ja hallinta helppoa
PC-Axis ja PX-Web ovat SCB:n tuotteita
tuotekehitystä ohjaa käyttäjistä koostuva PC-Axis Reference Group
PX-Web maailmalla
Tilastokeskuksessa kehitetty asiantuntijoille
tarkoitettu veloitukseton PC-Axis-taulukoiden muokkaustyökalu
px-tiedostojen syntaksitarkistus ja optimointi
px- ja xml-taulukoiden tuottaminen sekalaisista lähteistä
metatietoköyhien taulukoiden rikastus
Kansainvälinen menestys
osa Tilastokeskuksen panosta px-tuoteperheen kehitykseen
osa SCB:n PC-Axis-koulutuspakettia (PC-Axis, PX-Web ja PX-Edit)
osa FAOn CountryStat-pakettia
Koodattu DyalogAPL:llä (www.tryapl.org)
PX-Edit
StatFin
+ StatFin- arkisto
WWW Julkaisutuotanto FastWeb-XML
Julkistus
Web-ajastin: sivuston
ja StatFinin ajastukset
PX-Web
HTML ARBORTEXT
Julkaisun toimittaminen ja metatiedon
lisäys RSS, txt...
Jakeluvarasto
Automaat- tinen
PDF- ja HTML- muunnos
Tilastosovellukset
.px .px
PX-Edit manuaalinen tai eräajokäyttö
syntaksitarkistus metatietorikastus
XML-konversio
.px
PC-Axis-taulukot
.px
PC-Axis- ja XML-julkaisutaulukoiden teko
SuperSTAR
SAS
Excel ja muut
.xml/ CALS
.px
.xls *)
*) määrämuotoinen, rakenteinen .xls, .txt tai .csv
.xml
.xml/CALS
XML/DB eXist
15
PC-Axis-tiedostoista
PC-Axis-tiedosto (.px)
px-tiedostomuoto on avoin ASCII-standardi kuutiomuotoisen
tilastotaulukon esittämiseen metatietoineen
ihmissilmin ymmärrettävissä
Tiedot esitetään avainsanalausekkeina,
joita on neljä perustyyppiä: TAULUKKOAVAINSANA=…;
MUUTTUJA-AVAINSANA("Muuttuja")=…;
ARVOAVAINSANA("Muuttuja","arvo")=…;
SOLUAVAINSANA("arvo1","arvo2",…)=…;
Lauseke päättyy aina puolipisteeseen (;)
Avainsanalausekkeista
Avainsanalausekkeiden sisältö suljetaan lainausmerkein (")
paitsi numeeriset ja loogiset (YES/NO) arvot
Pitkä lauseke rivitetään (katkaistaan osiin) lainausmerkein "Tämä on pitkä teksti,"
" joka on katkaistu (huomaa välilyönti)";
Listan alkiot erotetaan pilkuilla VALUES("Sukupuoli")="Yhteensä","Miehet","Naiset";
Monikielisten taulukoiden lisäkielen kielikoodi liitetään
avainsanan perään hakasulkeisiin VALUES[en]("Gender")="Total","Males","Females";
Rakenteesta
Avainsanojen tallennusjärjestyksen tulee olla PX-Webin
standardin mukainen
Osa avainsanoista on pakollisia (MATRIX, SUBJECT-AREA, …)
Solukohtaisten avainsanojen syntaksi riippuu muuttujien
järjestyksestä
Taulukon muuttujat ovat kahdessa avainsanassa: STUB ja HEADING
Dataosa (DATA= ) on aina viimeinen
Tiedostomuodon käsikirja:
www.stat.fi/tup/pcaxis/lataus_tyokalut.html 20 [email protected]
Kuinka monta alkiota on taulukossa?
Lue muuttujat avainsanoista STUB ja HEADING
(tässä järjestyksessä) STUB="Ikä","Vuosi";
HEADING="Sukupuoli","Siviilisääty";
Lue muuttujittain VALUES-avainsanoista arvojen määrä
VALUES("Ikä")="Yhteensä","0","1","2","3","4",… (101)
VALUES("Vuosi")="1990","1991","1992",… (21)
VALUES("Sukupuoli")="Yhteensä","Miehet","Naiset"; (3)
VALUES("Siviilisääty")="Yhteensä","Naimaton",… (8)
101 x 21 x 3 x 8 = 50904 tietoalkiota
Dataosasta
Dataosan alkioiden jonojärjestys vastaa taulukon muuttujien
arvojen järjestystä
alkioita tulee olla juuri oikea määrä
Alkiot erotetaan toisistaan välilyönnein
Alkio on joko luku, piste- tai viivakoodi
lukujen desimaalierotin on piste, ei tuhaterottimia,
negatiiviset luvut osoitetaan miinusmerkillä
0 1 2.3 -4.567
pistekoodeilla osoitetaan puuttuvaa tms. tietoa,
viivakoodi on ’tarkka nolla’
"." ".." "..." "...." "....." "......" "-" 22 [email protected]
Tilastokeskuksesta saatavat px-tiedostot
Lista:
pxweb2.stat.fi/database/StatFin/StatFin_rap.csv
A prikos: kehitteillä oleva avoin data –sivusto
stat.fi/org/lainsaadanto/avoin_data.html
Vain tarpeelliset taulukkotiedot
Taulukon otsikko on ensimmäisessä solussa (kulmasolussa)
Sarakemuuttujat
muuttujannimet reunasarakkeella allekkain
vastaavat arvotekstit (luokitukset) muuttujariveillä
Rivimuuttujat
muuttujannimet yhdellä rivillä vierekkäin
vastaavat arvotekstit (luokitukset) muuttujasarakkeilla
Data-alkio on aina rivi- ja sarakearvojensa leikkauspisteessä
Esimerkkitaulukko (hierarkkinen otsikointi)
taulukko-otsikko
sarakemuuttujat
rivimuuttujat
dataosa
Avioliiton solmineet 1975-2001
Vuosi
Kunta Sukupuoli
Koko maa
Alahärmä
Alajärvi
Alastaro
…
miehet
naiset
yhteensä
miehet
naiset
yhteensä
miehet
naiset
yhteensä
miehet
naiset
yhteensä
…
1975 …
15-19 20-24 25-29 30-34 …
1352 14793 10367 2503 …
5693 15794 6704 1583 …
7045 30587 17071 4086 …
1 11 9 0 …
5 17 5 1 …
6 28 14 1 …
2 24 15 0 …
19 14 8 1 …
21 38 23 1 …
2 10 14 3 …
4 17 6 1 …
6 27 20 4 …
… … … … …
Kunta
000
004
005
006
…
Ikä
Yksimuuttujaisen taulukon perusrakenne
väestö alueittain alue
kunnat data- sarake
Kaksimuuttujaisten taulukoiden perusrakenteet
väestö alueittain ja vuosittain alue
kunnat data- sarake
vuodet
vuosi väestö alueittain ja vuosittain
vuodet vuosi alue
kunnat datataulukko (matriisi)
Kolmimuuttujaisten taulukoiden perusrakenteet
väestö alueittain, vuosittain ja ikäryhmittäin alue
kunnat data- sarake
vuodet
vuosi
iät
ikäryhmä3 väestö alueittain, vuosittain ja ikäryhmittäin
iät ikäryhmä3 alue
kunnat datataulukko vuodet
vuosi
väestö alueittain, vuosittain ja ikäryhmittäin vuodet vuosi
alue
kunnat datataulukko
iät ikäryhmä
Tilastokeskuksesta saatavat csv-tiedostot
Lista:
pxweb2.stat.fi/database/StatFin/StatFin_rap_csv.csv
(päivitetään satunnaisesti)
Lyhyt kuvaus:
www.stat.fi/tup/pcaxis/csv_tiedostokuvaus.pdf
Tulevaisuus: XML
Common Structure of Statistical Information (CoSSI)
www.stat.fi/cossi
Tilastotiedon yleinen malli
kuvaa kaikkiin tilastoihin liittyvät tiedot
Mallissa märitellään tietosisällöt ja niiden keskinäinen hierarkia
mallinnuskielenä XML-DTD
Kolme muotoa
XDF isoille taulukoille, dataosa kuin px-tiedostoissa
Cals julkaisutaulukoille (~html-taulukot)
Keys harvamatriiseille
CoSSI
The point of departure in CoSSI was an (infological) analysis of the
information being considered
The conclusion from the analysis was that although in practice the
definition of statistical information has varied according to a given situation
and application, in reality statistical information has a certain simplifiable
and acceptable universal structure
CoSSI describes the general structure that is not dependent on the
situation of the statistical information presented in differing formats
CoSSI defines the structures of statistical data, metadata
and publications
36 [email protected] 36
Modules:
Document metadata
Statistical metadata
Processing metadata
Publications
Data
matrices (XDF)
tables (CALS)
sparse matrix (KEYS)
CoSSI (www.stat.fi/cossi)
XML Based Dissemination
CoSSI Implementation
Modular DTD system Document Type Definitions
Use of standards
CALS, XDF, Dublin-Core...
Statistical matrix (statinfo_xdf.dtd)
statmeta.dtd, docmeta.dtd, xdf.dtd
Statistical table (statinfo_cals.dtd)
statmeta.dtd, docmeta.dtd, cals.dtd
Publications and documents (publication.dtd)
docmeta.dtd, statmeta.dtd, statinfo_cals.dtd, figure.dtd...
XML One XML-file data and metadata
Multi-lingual documents
Tilastokeskuksesta saatavat xml/xdf-tiedostot
Lista:
pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv
(päivitetään satunnaisesti)
Kuvaus:
www.stat.fi/org/tut/dthemes/drafts/cossi_pxml_en.html
The sign of a truly educated man is to be deeply moved by statistics George Bernard Shaw