Števci prometa in njihova...navdih • poizvedovanje po bd podatkovnih virih, ki imajo časovno...

18
ŠTEVCI PROMETA IN NJIHOVA UPORABA ZA NAMENE STATISTIK ČRT GRAHONJA

Upload: others

Post on 07-Feb-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

  • ŠTEVCI PROMETA IN NJIHOVA UPORABA ZA NAMENE STATISTIK

    ČRT GRAHONJA

  • Navdih

    • Poizvedovanje po BD podatkovnih virih, ki imajo časovno dimenzijo in so dostopni.

    • Večji promet pomeni večje število dobrin in močnejšo ekonomijo.

    • Preliminarni testi s podatki BDP v tekočih cenah in prometnimi podatki.

    • Namen: analiza uporabe podatkov pri hitrih ocenah kratkoročnih ekonomskih kazalnikov

  • Vir prometnih podatkov

    • Podatke o prometu zbirajo na Ministrstvu za infrastrukturo in tudi druge institucije.

    • Urejeni podatki so prosto dostopni z zahtevkom.

    • Zaradi posebnega statusa institucije SURS, lahko pridobimo tudi surove podatke

    Izbrane podatke smo prevzeli v tekstovni obliki: 15-minutni intervali gostote prometa na števnih mestih, zbrani med letoma 2011 in 2018.

  • Lastnosti podatkov

    – Datoteke:• Več kot 630 števcev na mesec,• Skupna velikost okoli 30 GB,• Vsaka datoteka vsebuje

    nestrukturirano glavo z metapodatki,

    • Vsaka datoteka vsebuje celoletne podatke enega števnega mesta v 15-minutnih intervalih -> okoli 34000 vrstic mikropodatkov,

    • Opomba: od leta 2018 naprej zbiramo urne podatke,

    • V datoteki so lahko prisotni manjkajoči podatki (manjkajo vrstice),

    • V datoteki so lahko prisotni manjkajoči podatki (zapolnjeni z ničlami),

    • V datoteki so lahko prisotne napake v formatu (recimo večkratni separator, separator sredi imen spremenljivk, neenako število spremenljivk v glavi in v mikropodatkih…)

    – Spremenljivke:

    Na vsakem pasu merimo 8 kategorij vozil:

    • število motorjev (Motor-MO),

    • število osebnih avtomobilov (Osebni-OA),

    • število avtobusov (BUS),

    • število lahkih tovornih vozil; 3,5 tone in 7 ton (Te.Tov-TT),

    • število tovornih vozil s priključkom (T.s Pr-TP),

    • število vlačilcev (Vlač-TPP)

    V vsakem časovnem intervalu merimo dva pasova:

    o na regionalnih cestah obe smeri,

    o na avtocestah in hitrih cestah pa oba pasova v isto smer.

  • IT in metodološko delo

    Datoteke je bilo potrebno analizirati

    • Datoteke smo združili po števnih mestih.

    • Ugotovili smo, da imamo na voljo podatke 649 števnih mest, vendar le 111 s popolnimi podatki.

    • Izločili smo števna mesta s prevelikim deležem manjkajočih podatkov: – 85% ali manj prisotnih podatkov,

    – najmanj eno celo leto brez podatkov.

    • Na podlagi analize smo se odločili ločiti števna mesta glede na postavitev v dve kategoriji: š. m. na regionalnih in š. m. na avtocestah in hitrih cestah (izločili smo š. m. na priključkih).

    • Postopek ponovimo z vsakimi novimi podatki

    Končno število uporabljenih števnih mest leta 2018: 391 na regionalnih cestah in 42 na avtocestah in hitrih cestah.

  • Programerski izzivi (1)

    • Sestava novega razreda v jeziku Python, z definiranimi funkcijami, ki datoteko in/ali podatke:

    – v nestrukturirani obliki preberejo,

    – metapodatke prenesejo v strukturirano obliko,

    – pripravijo v strukturirano tabelo,

    – poiščejo, preštejejo in izpišejo manjkajoče podatke,

    – združijo po števnih mestih,

    – agregirajo na želeni časovni interval,

    – shranijo v primerni obliki za nadaljnje delo.

    • Funkcije s katerimi izvedemo imputacije na manjkajočih podatkih.

  • Programerski izzivi (2)

    Zaradi prostorskih omejitev in količine podatkov, smo morali pri programiranju uporabiti postopke za delo z masovnimi podatki:

    o Izkoristili smo večjedrne procesorje računalnika za hkratno izvajanje nalog, saj bi sicer postopek trajal predolgo.

    o Podatke vsakega števnega mesta smo shranili posebej, saj take količine podatkov ne moremo združevati v eno samo datoteko v spominu računalnika.

  • Uporabljene metode za vstavljanje manjkajočih podatkov

    • Manjkajoče podatke, ki so ostali v izbranih podatkih, smo imputirali z metodami, ki temeljijo na letnih rasteh sosednjih števnih mest.

    • Imputacije so potekale na agregiranih mesečnih podatkih.

    • Podatke smo poskušali imputirati na štiri načine; najboljši je bil tretji:

    Testi za natančnost so pokazali, da imajo popolnoma imputirana obdobja izjemno manjhen vpliv na pravo vrednost v neki podskupini podatkov števnih mest (ena imputacija izmed 60 vrednosti znaša manj kot 1% spremembo v vrednosti).Končni rezultati:

    – Skupno 2,4% manjkajočih podatkov na 15-minutni ravni (2,3% na reg. In 3,1% na avtocestah),– Skupno 1403 imputiranih mesečnih vrednosti (izmed skupno 31680 mesečnih vrednosti),– Skupno 1,028 faktor povečanja celotnega prometa (1,023 na reg. In 1,04 na avtocestah),– V povprečju 2,25% letno povečanje na reg. In 4,11% letno povečanje na

    𝑖𝑚𝑝3 𝑑𝑘𝑚 ,𝑡𝑔𝑘

    𝑚 ,𝑡 =

    𝑔𝑠𝑘𝑚 ,𝑡

    𝑠𝑘∈𝐾′⊆𝑠 𝑘

    𝑍𝑑∀𝑠∈𝐾′

    𝑔𝑠𝑘𝑚 ,𝑡−𝑙

    𝑠𝑘∈𝐾′⊆𝑠 𝑘

    𝑍𝑑∀𝑠∈𝐾′

    𝑔𝑘𝑚 ,𝑡−𝑙 1 − 𝑑𝑘

    𝑚 ,𝑡 + 𝑑𝑘𝑚 ,𝑡𝑔𝑘

    𝑚 ,𝑡 , 𝑔𝑠𝑘𝑚 ,𝑡−𝑙 ≠ 0

    𝑠𝑘∈𝐾′⊆𝑠 𝑘

    𝑍𝑑∀𝑠∈𝐾′

    𝑔𝑘𝑚 ,𝑡−𝑙 1 − 𝑑𝑘

    𝑚 ,𝑡 + 𝑑𝑘𝑚 ,𝑡𝑔𝑘

    𝑚 ,𝑡 ; 𝑑𝑘𝑚 ,𝑡−𝑙 = 1,

    𝑑𝑘

    𝑚 ,𝑡𝑔𝑘𝑚 ,𝑡 ; 𝑠𝑖𝑐𝑒𝑟.

  • Hitre ocene BDP

    • Mesečno urejene in imputirane podatke smo uporabili za hitro ocenjevanje BDP (ang. nowcasting), pri čemer smo uporabili metodo linearne regresije s PCA.

    • Pri primerjanju napak med ocenami in objavljenimi vrednostmi BDP so rezultati z vključitvijo prometnih podatkov tudi dvakrat bolj natančni kot brez njih!

    • Podobna izboljšanja opazimo tudi ob primerjavi s podobnimi modeli (klima).

    • Izbrani način dela: iz trenutnih podatkov sestavimo različne modele, in za ocenjevanje izberemo tistega, ki ima najboljše mere kakovosti:

    povprečje napak, absolutne napake, relativne napake, RMSE, …

  • Obdobje

    Uradne

    vrednosti

    BDP (v MIO

    €)

    PCA metoda

    Ocene brez

    dodatnih

    regresorjev

    Ocene s

    podatki

    prometa kot

    dodatnimi

    regresorji

    Relativne

    napake

    prvega (v %)

    Relativne

    napake

    drugega (v

    %)

    2017Q1 9395,2

    75% 9355,29 9317,24 0,43 0,83

    80% 9419,89 9336,23 0,26 0,63

    85% 9285,98 9305,57 1,16 0,95

    90% 9133,50 9275,57 2,79 1,27

    zadnja5 9300,72 9308,46 1,01 0,92

    2017Q2 10197, 9

    75% 10137,82 10103,58 0,59 0,92

    80% 10201,66 10118,33 0,04 0,78

    85% 10111,84 10096,06 0,84 1,00

    90% 10130,81 10178,25 0,66 0,19

    zadnja5 10182,24 10248,39 0,15 0,50

    2017Q3 10187,3

    75% 10151,04 10077,05 0,36 1,08

    80% 10164,92 10045,33 0,22 1,39

    85% 10148,31 10002,64 0,38 1,81

    90% 10152,91 10505,86 0,34 3,13

    zadnja5 10273,92 10347,61 0,85 1,57

    2017Q4 10265,5

    75% 10110,47 10224,35 1,51 0,40

    80% 10065,46 10099,57 1,95 1,62

    85% 10346,29 9998,13 0,79 2,61

    90% 10188,31 10232,04 0,75 0,33

    zadnja5 10277,84 10339,28 0,12 0,72

  • Obdobje

    Uradne

    vrednosti

    BDP (v MIO

    €)

    PCA metoda

    Ocene brez

    dodatnih

    regresorjev

    Ocene s

    podatki

    prometa kot

    dodatnimi

    regresorji

    Relativne

    napake

    prvega (v %)

    Relativne

    napake

    drugega (v

    %)

    2018Q1 9844,9

    70% 9951,751 9838,435 1,09 0,07

    75% 9995,569 9890,206 1,53 0,46

    80% 10054,35 9932,494 2,13 0,89

    85% 9803,106 9764,534 0,43 0,82

    90% 9836,619 9690,301 0,08 1,57

    zadnja5 9846,976 9769,479 0,02 0,77

    2018Q2 10594,0

    70% 10573,25 10636,59 0,20 0,40

    75% 10623,95 10724,49 0,28 1,23

    80% 10564,33 10679,17 0,28 0,80

    85% 10481,83 10532,07 1,06 0,59

    90% 10644,9 10670,5 0,48 0,72

    zadnja5 10606,19 10684,29 0,12 0,85

    2018Q3 10637,9

    70% 10514,73 10551,19 1,16 0,82

    75% 10499,07 10550,77 1,31 0,82

    80% 10455,66 10492,85 1,71 1,36

    85% 10516,66 10504,17 1,14 1,26

    90% 10523,41 10508,72 1,08 1,21

    zadnja5 10441,37 10524,92 1,85 1,06

    2018Q4 10692,7

    70% 10602,78 10501,71 0,84 1,79

    75% 10596,33 10425,56 0,90 2,50

    80% 10699,61 10508,01 0,07 1,73

    85% 10534,73 10501,87 1,48 1,79

    90% 10784,11 10763,09 0,86 0,66

    zadnja5 10595,09 10469,11 0,91 2,09

  • Ostale težave in načrti v prihodnosti

    • Problem revizij uradnih ocen in izbira prave časovnice napovednih podatkov

    • Izbira najboljše kombinacije modela za napovedovanje

    • Uporaba drugih vrst in kombinacij modelov:

    – Izbira glavnih komponent z odločitvenimi drevesi, nevronske mreže

    – Izboljšanje samega modela za ocenjevanja BDP (druga izbira metod, dodatne mere kakovosti, izbira ustreznejših mer kakovosti…)

    • Delo na komponentah računa za BDP

    • Delo z rastmi BDP in ustrezno pripravljenimi regresorji

  • Graf napovedi uradne ocene BDP z različnimi podatkovnimi viri

  • Hitre ocene mesečnih indeksov industrijske proizvodnje

    • Nadaljevanje analiz z delom na mesečnih indeksih industrijske proizvodnje.

    • Podatki IND/PNM so uporabljeni pri izračunavanju BDP.

    • Zaradi daljše časovne serije indeksov, smo izboljšali izbiro optimalnega modela.

    • Ocenjevanje manjkajočih komponent za izračun BDP (nowcastingposamezne komponente)

  • Testiranje procesa na podobnih podatkih

    • Zaradi kratke časovne vrste, BDP ni najboljša testna množica.

    • Indeks industrijske proizvodnje (IIP) dobro korelira z BDP

    • Poskusimo izračunati hitro oceno na IIP

  • Rezultati dela na indeksih industrijske proizvodnje (1)

    par(bg = 'blue')

    par(bg = 'blue')

    par(bg = 'blue')

    par(bg = 'blue')

    par(bg = 'blue')

    90

    10

    01

    10

    12

    01

    30

    14

    0

    Original IPI value and estimations using PCA parameter 80

    Quarter

    Va

    lue

    2016M12 2017M02 2017M04 2017M06 2017M08 2017M10 2017M12

    Original

    NePromet

    RegCarg_SEP

    AllCarg

    RegTot_only

    10

    01

    10

    12

    01

    30

    14

    01

    50

    Original IPI value and estimations using PCA parameter 80

    Quarter

    Va

    lue

    2017M12 2018M02 2018M04 2018M06 2018M08 2018M10 2018M12

    Original

    NePromet

    RegCarg_SEP

    AllCarg

    AllTot_only

  • Rezultati dela na indeksih industrijske proizvodnje (2)

    • Tudi ta eksperiment kaže, da prometni podatki izboljšajo ocene!

    • Vsako leto optimalni model izbiramo na podlagi RMSFE!

    • Ocene so manj natančne v primerjavi z BDP, vendar so rezultati dela optimistični!

    RMSFE

    PCA krit. = 80 PCA krit. = 90

    Leto Industrija

    Ind. + promet

    Ind., promet

    Promet Industrij

    a

    Ind. + promet

    Ind., promet

    Promet

    2015 2,70 2,25 2,84 3,48 5,63 4,45 5,97 2,35

    2016 3,27 2,03 3,28 3,61 3,23 3,58 3,11 3,57

    2017 1.84 2.08 2.04 1.93 2.82 2.65 5.08 3.27

    2018 4.11 1.95 2.27 1.89 4.89 2.13 4.99 4.21