analiza prometnih nesreč z uporabo rešitve ibm · analiza prometnih nesreč z uporabo rešitve...
TRANSCRIPT
Analiza prometnih nesreč z uporabo rešitve IBM Watson studio
Katarina Gašperlin,IBM Slovenija d.o.o.; dr. Aleksander Pur, Ministrstvo za notranje
zadeve, Generalna policijska uprava.; mag. Aleš Veršič, Ministrstvo za javno upravo 10.12.2018
11000101 10111110 01101001 01110110
01101101 01110010 01110100 01100101 01110110
3
ODPIRANJE PODATKOV ZA NAMENE PODATKOVNE ANALIZE
How Open Data is used
• The app combines emergency calls with location data.
• The system alerts CPR-trained bystanders through the
PulsePoint Respond mobile app and lets them know the
location of the closest defibrillator to provide assistance.
http://www.transparency.si/projekti/proracuni-obcin/
How Open Data is used
• Visualisation uses open budget data, being available since
the adoption of the Slovenian Public Information Act, in
Dec 2015.
• Provides capabilities of review, analysis and comparison
of budgets between different municipalities or with the
Slovenian average.
• Shows budget item per citizen.
https://www.pulsepoint.org
4
ODPIRANJE PODATKOV ZA NAMENE PODATKOVNE ANALIZE
How Open Data is used
• Daia Intelligent Solutions uses meteorological information
from the nearest weather station to provide clients with
information.
• Daia utilises data mining techniques to integrate
meteorological information from different sources such as
Aemet, Euskalmet and Siar.
http://www.aquadaia.com
https://www.europeandataportal.eu/sites/default/files/slovenia_-_evineyard_0.pdf
“eVineyard provides a software system to help wine producers
produce better grapes with less use of pesticides, by combining IoT
technologies with other (Open) sources and analyses as Software as
a Service.”
https://www.europeandataportal.eu/en/using-data/use-cases
https://www.evineyardapp.com
Demokratizacija podatkov
“Data democratization is the ability for information in a digital format to be accessible to the average end user. The goal of data democratization is to allow non-specialists to be able to gather and analyze data without requiring outside help.”
Margaret Rouse, TechTarget.com
Vsaka organizacija mora biti sposobna analizirati podatke s svojega področja dela.
Analiziranje podatkov ni enostavno, vendar je enostavneje z jasnimi vizualizacijami
Analiziranje podatkov ni enostavno, vendar tehnike rudarjenja to poenostavijo
0,0
0,1
0,2
0,3
0,4S
2
4
6
V
10
12
14
J
18
20
22
Z
26
28
30
Policija deluje transparentno – surovi podatki za KD in PN (1995)
FIOStevilkaZadeve$KlasifikacijaNesrece$UpravnaEnotaStoritve$DatumPN$UraPN$VNaselju$Lokacija$VrstaCesteNaselja$SifraCesteNaselja$TekstCesteNaselja$SifraOdsekaUlice$TekstOdsekaUlice$StacionazaDogo
dka$OpisKraja$VzrokNesrece$TipNesrece$VremenskeOkoliscine$StanjePrometa$StanjeVozisca$VrstaVozisca$GeoKoordinataX$GeoKoordinataY
855454$Z MATERIALNO ŠKODO$RADLJE OB DRAVI$11.01.2017$16$D$NASELJE$NASELJE BREZ ULIÈNEGA SISTEMA$43021$PODVELKA$0$NI ODSEKOV$11$ŽELEZNIŠKI
PREHOD$OSTALO$OSTALO$JASNO$NORMALEN$OSTALO$OSTALO$160774$525706
855542$Z LAŽJO TELESNO POŠKODBO$ŽALEC$02.01.2017$20$N$CESTA$REGIONALNA CESTA II. REDA$00447$MEDLOG-ŽALEC-ŠEMP.-TRZIN$00367$ŽALEC-ŠEMPETER$2000$CESTA$NEPRAVILNA
STRAN / SMER VOŽNJE$ÈELNO TRÈENJE$JASNO$NORMALEN$SUHO$ZGLAJEN ASFALT / BETON$123376$511818
Prometne nesreče številka prometne nesreče - to je enoznačna številka zadeve pod katero policija vodi posamezno prometno
nesrečo
klasifikacija nesreče glede na posledice (PRPO) (Izračuna se avtomatično glede na najhujšo posledico pri
udeležencih v prometni nesreči)
upravna enota, na območju katere se je zgodila prometna nesreča (LOOB)
datum nesreče (format: dd/mm/llll)
ura nesreče (format: hh)
indikator ali se je nesreča zgodila v naselju (1) ali izven (0)
kategorija ceste na kateri je prišlo do nesreče (LOVC)
oznaka ceste ali šifra naselja kjer je prišlo do nesreče
oznaka odseka ceste ali šifra ulice, kjer je prišlo do nesreče
tekst ceste ali naselja, kjer je prišlo do nesreče
tekst odseka ali ulice, kjer je prišlo do nesreče
točna stacionaža ali hišna številka, kjer je prišlo do nesreče
opis prizorišča nesreče (PRKD)
glavni vzrok nesreče (PRVZ)
tip nesreče (PRTN)
vremenske okoliščine v času nesreče (PRVR)
stanje prometa v času nesreče (PRSP)
stanje vozišča v času nesreče (PRPV)
stanje površine vozišča v času nesreče (PRSV)
Geo Koordinata X (Gauß-Krüger-jev koordinatni sistem)
Geo Koordinata Y (Gauß-Krüger-jev koordinatni sistem)
Osebe v PN številka zadeve, povezovalni parameter na bazo prometnih nesreč
kot kaj nastopa oseba v prometni nesreči ( 1 = povzročitelj, 0 = udeleženec)
starost osebe (LL)
spol (1 = M, 2 = Ž)
upravna enota stalnega prebivališča (LOOB)
državljanstvo osebe (pozor: lahko vsebuje podatke brez vodilnih ničel) (LODZ)
poškodba osebe (PRPO)
vrsta udeleženca v prometu (PRVU)
ali je oseba uporabljala varnostni pas ali čelado (polje se interpretira v
odvisnosti od vrste udeleženca) (Da/Ne)
vozniški staž osebe za kategorijo, ki jo potrebuje glede na vrsto udeleženca v
prometu (LL)
vozniški staž osebe za kategorijo, ki jo potrebuje glede na vrsto udeleženca v
prometu (MM)
vrednost alkotesta za osebo, če je bil opravljen (n.nn)
vrednost strokovnega pregleda za osebo, če je bil odrejen in so rezultati že
znani (n.nn)
Policija deluje transparentno – surovi podatki za KD in PN (1995)
Policija deluje transparentno - objave
Več kot 5000 sporočil za javnost od 2001
Kronika od leta 2001
Ukradena vozila od leta 2000
IBM Watson Studio
Moderna integrirana rešitev za razvoj in vpeljavo podatkovne znanosti v organizacije
Omogoča sodelovanje različnih profilov uporabnikov
Vsebuje široko paleto orodij za gradnjo modelov za različne tipe uporabnikov:
• Odprtokodna orodja
• IBM-ova orodja
na voljo tako v javnem kot privatnem oblaku
Podatkovni
inženir Podatkovni
znanstvenik
Poslovni
analitik Razvijalec
aplikacij
Skrbnik
podatkov
Jupyter beležnice Zeppelin beležnice RStudio
IBM SPSS Modeler IBM Decision
Optimization IBM Watson
Explorer
IBM Cognos
Analytics
Dashboards
H20 Flow
IBM Watson Studio
Podpira široko paleto ogrodij za strojno in globoko učenje
Omogoča vpeljavo modelov v procese organizacije:
• Ad-hoc analize
• Nadzor in upravljanje z modeli
• Izvajanje v serijah ali točkovanje v realnem času
• Integracija za aplikacijami preko REST API
Na voljo tako v javnem kot privatnem oblaku
Dostop do
podatkov
Transformacija
podatkov
Gradnja
modelov
Evaluacija
Uvedba in
upravljanje
modelov
Komuniciranje
rezultatov
Razumevanje
poslovnega
problema in
domene
Raziskovanje
in
razumevanje
podatkov
Čiščenje
podatkov
UVEDBA
ANALIZA
ZBIRANJE
UPRAVLJANJE
12 12
Strojno učenje Globoko učenje
13
Analiza podatkov o prometnih nesrečah
Cilj analize
Uporabiti tehnike strojnega učenja za napovedovanje resnosti izida prometne nesreče glede na dane
okoliščine
Resnost izida: brez poškodbe, lažja poškodba, huda poškodba, smrt
Priprava podatkov
Statistični podatki slovenske Policije (https://www.policija.si)
Uporabili smo podatke med letoma 2008 in 2017
Združevanje podatkov o prometnih nesrečah s podatki o udeležencih v teh nesrečah
Priprava novih značilk iz obstoječih podatkov o prometnih nesrečah:
• Prometna konica
• Del dneva
• Del tedna
• Število udeležencev
• Število povzročiteljev
• ...
Podatke smo pripravili v IBM SPSS Modeler, grafičnem orodju rešitve IBM Watson Studio
Analiza podatkov o prometnih nesrečah
Modeliranje
Uporabili smo dva algoritma strojnega učenja:
• XGBoost
• Random Forest
Rezultati
Modeliranje smo izvedli v odprtokodnem orodju Jupyter Notebook s programskim jezikom Python, ki je na voljo v
sklopu IBM Watson Studio
Napovedni razred XGBoost Tree Random Trees
Brez poškodbe 88.976 69.372
Poškodba 33.889 56.484
Smrt 60.817 92.199
Napovedni razred XGBoost Tree Random Trees
Brez poškodbe 87.300 91.111
Brez poškodbe-UZ 89.753 77.957
Lažja telesna poškodba 6.563 44.780
Huda telesna poškodba 30.996 21.491
Smrt 60.668 81.046
Nadaljnje delo
Izboljšanje obstoječega napovednega modela:
Obogatitev podatkov z dodatnimi značilkami
Vključevanje dodatnih zunanjih podatkov:
• Kvaliteta ceste
• Natančnejši vremenski podatki (npr. iz portala The Weather Company)
Podatki o prometnih nesrečah omogočajo izvedbo drugih najrazličnejših analiz:
Identifikacija vročih točk na cestnih odsekih - nadaljna morebitna povezava z aplikacijami zavarovalnic za
opozarjanje voznikov na previdnost
Identifikacija povezovalnih pravil, s katerimi iščemo skrite povezave med podatki (vzrok, posledica) in
ostalimi dejavniki - za sprejemanje novih preventivnih ukrepov
Analiza dejavnikov, ki vplivajo na prometne nesreče
Segmentacija prometnih nesreč in povzročiteljev prometnih nesreč
V prihodnosti uporaba podatkov s senzorjev, ki so/bodo nameščeni v vozilih
16
Hvala za pozornost!
Vprašanja?
Pripombe?
Predlogi?