programski jezik r u vizualizaciji i analizi prostornih podataka
TRANSCRIPT
Programski jezik R u vizualizaciji i analizi
prostornih podataka
S730
priručnik za polaznike © 2015 Srce
Ovu inačicu priručnika izradio je autorski tim Srca u sastavu:
Autorica: dr. sc. Andreja Radović
Recenzentica: mr. sc. Melita Perčec Tadić
Urednica: Irena Jandrić
Sveučilište u Zagrebu
Sveučilišni računski centar
Josipa Marohnića 5, 10000 Zagreb
ISBN 978-953-7138-76-9 (meki uvez) ISBN 978-953-7138-77-6 (PDF)
Verzija priručnika: S730-20160713
Ovo djelo dano je na korištenje pod licencom Creative Commons Imenovanje-Nekomercijalno-Dijeli pod istim uvjetima 4.0 međunarodna. Licenca je dostupna na stranici: http://creativecommons.org/licenses/by-nc-sa/4.0/.
Sadržaj
Uvod ........................................................................................................................... 1
1. Prostorni podaci ................................................................................................... 3
1.1. Vrste dvodimenzionalnih GIS-podataka ...................................................................................... 3 1.1.1. Vektorski prikaz prostornih podataka ................................................................................ 6 1.1.2. Rasterski prikaz prostornih podataka ................................................................................ 7
1.2. Geopozicioniranje i lokalne koordinate - projekcije ..................................................................... 7 1.2.1. 2D geografske koordinate ................................................................................................. 8 1.2.2. 3D koordinatni sustavi - 3D geodetske (geografske) koordinate ...................................... 9 1.2.3. Prelazak iz trodimenzionalnog (3D) na dvodimenzionalni (2D) sustav ............................ 9 1.2.4. Referentne površine .......................................................................................................... 9 1.2.5. 2D Kartezijev koordinatni sustav ..................................................................................... 11 1.2.6. 2D polarni koordinatni sustav .......................................................................................... 11 1.2.7. Osnovno o projekcijama..................................................................................................12
1.3. Prostorni podaci u specijaliziranom GIS programu – SAGA GIS ..............................................15
2. Prostorni podaci u sustavu R ........................................................................... 17
2.1. Struktura prostornih podataka u sustavu R ...............................................................................17
2.1.1. CRAN – Spatial ............................................................................................................18
2.2. Vizualizacija prostornih podataka u sustavu R .........................................................................29
3. Uvod u analizu prostornih podataka ................................................................ 31
3.1. Proces analize prostornih podataka ..........................................................................................31 3.1.1. Prostorni uzorak ..............................................................................................................32
3.2. Specifičnosti analitike u prostoru...............................................................................................36 3.2.1. Slučajnost ........................................................................................................................37 3.2.2. Zavisnost – nezavisnost opservacija (opažanja) ............................................................37 3.2.3. Prostorna heterogenost...................................................................................................37 3.2.4. Prostorna autokorelacija .................................................................................................38 3.2.5. Specifičnosti geometrije na sferi .....................................................................................42 3.2.6. Ekološka zabluda i problem promjenjivih jedinica površine (MAUP) ..............................42
4. Uključivanje informacije o međusobnim odnosima opservacija u analizu ... 43
4.1. Prostorni odnosi - topologija ......................................................................................................43
4.2. Uključivanje međusobne ovisnosti među opservacijama u analizu ..........................................44 4.2.1. Međusobna povezanost diskretnih prostornih pojava .....................................................44
4.3. Mjere opće povezanosti podataka ............................................................................................51 4.3.1. Izračun opće mjere međusobne povezanosti prostornih podataka. ...............................51 4.3.2. Tipovi prostorne autokorelacije .......................................................................................53 4.3.3. Testiranje statističke značajnosti izračunatih indeksa prostorne povezanosti ................57 4.3.4. Getis Ord G statistika ......................................................................................................61 4.3.1. Mjere lokalne prostorne autokorelacije (povezanosti) ....................................................61
5. Točkasti procesi ................................................................................................. 63
5.1. Tipovi točkastih procesa ............................................................................................................63
5.2. Analiza točkastih procesa .........................................................................................................63 5.2.1. Opisne statistike točkastog procesa ...............................................................................64 5.2.2. Disperzija i organizacija točaka u točkastom procesu ....................................................65
5.2.3. Intenzitet točkastog procesa ...........................................................................................65
5.3. Procjena postojanja prostorne ovisnosti među događajima .....................................................70 5.3.1. Modeliranje točkastih procesa ........................................................................................70 5.3.2. Hipoteza o potpunoj prostornoj slučajnosti (engl. Complete Spatial Randomnes - CSR)70
5.3.3. 2 test ..............................................................................................................................71 5.3.4. Metoda najbližih susjeda .................................................................................................72
6. Analitika kontinuiranih procesa i geostatistika ............................................... 77
6.1. Mehanički (deterministički) modeli ............................................................................................78
6.2. Modeli temeljeni na ekspertnom znanju ....................................................................................78
6.3. Statistički (vjerojatnosni) modeli ................................................................................................78 6.3.1. Regresijski modeli ...........................................................................................................78 6.3.2. Geostatistika u sustavu R ...............................................................................................89 6.3.3. Paket gstat ......................................................................................................................89
7. Prostorno vremenski podaci u sustavu R ....................................................... 95
7.1. Paket spacetime ........................................................................................................................95 7.1.1. Zapisivanje prostorno-vremenskih informacija u paketu spacetime ...............................95
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
1
Uvod
U tečaju Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
obrađuju se osnove rada s prostornim podacima u sustavu R. Tečaj je namijenjen
polaznicima bez, ali i s iskustvom u radu s prostornim podacima.
Kako bi polaznici mogli aktivno pratiti i sudjelovati u izvođenju ovog tečaja, potrebno je
imati sljedeće predznanje:
1. Poznavanje programskog jezika R, a specifično:
traženje pomoći unutar sustava R
poznavanje osnovnih struktura podataka u sustavu R
korištenje funkcija u sustavu R
poznavanje rada s grafičkim sustavima (osnovna i trellis grafika)
rad s bojama
rukovanje (manipulacija) tekstom
znanje rada s formatima datuma.
2. Poznavanje statističkih koncepata, minimalno:
osnove matrične algebre
osnove vjerojatnosti
uzorkovanje
mjerne skale
slučajne varijable i distribucije vjerojatnosti
intervali pouzdanosti i testiranje hipoteza
vrste modela
korelacijski i regresijski modeli
testiranje pretpostavki za primjenu izabranog modela
razumijevanje grafičkih prikaza statističkih koncepata i rezultata analize
3. Opća znanja:
pasivno poznavanje engleskog jezika radi mogućnosti praćenja
dokumentacije unutar sustava R
barem minimalno iskustvo u programiranju je prednost
poznavanje osnova rada s računalom i operacijskim sustavom MS
Windows
U ovom su priručniku naredbe pisane fontom s jednakim razmacima među slovima
(engl. monospace) (na primjer, naredba install.packages()).
Sintaksa naredbi pisana je plavim monospace slovima, sa sivom pozadinom te sivim
komentarima za dijelove koje program ne izvodi:
>library(help = "base") #pomoć za paket base
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
2
U nekim slučajevima u ovaj dokument stavljen je i ispis koji proizvede naredba na
konzoli. Ispis na konzoli također je pisan sivim ukošenim slovima.
Tipke na tipkovnici pisane su monospace/Courier New slovima u uglatim zagradama
(na primjer, [Enter]).
Važni pojmovi su prilikom prvog spominjanja pisani podebljano.
Tijekom tečaja paralelno ćemo koristiti termine varijabla i atribut.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
3
1. Prostorni podaci
Prostorni podaci su svi podaci koji su direktno ili indirektno povezani s određenim
položajem u prostoru ili geografskim područjem. Prostorni objekt predstavlja apstraktan
prikaz pojave iz stvarnog okruženja povezan s određenim položajem ili geografskim
područjem. Geografska informacija sadrži podatak o geografskim objektima, njihovom
obliku, lokaciji te međusobnim odnosima (topologiji). Najopćenitije iskazano, prostorni
podaci su podaci s koordinatama, ali i podaci kojima se opisuje samo relativan
međusobni položaj (kao, na primjer, međusobni odnos kolonija bakterija na podlozi). U
osnovi ih možemo podijeliti na prostorne informacije koje predstavljaju diskretne pojave
u prirodi i one kojima opisujemo kontinuirane pojave. U daljnjem tekstu i vježbama u
ovom tečaju prostornim podacima ćemo smatrati podatke s neke zemljopisne lokacije.
Budući da prostorni podaci nastaju u cijelom nizu različitih disciplina i područja, postoji i
čitav spektar različitih tipova prostornih podataka, struktura i scenarija.
Geografski, georeferencirani podaci u svojoj biti uključuju dvije komponente:
1. prostornu komponentu – (geometrijsku ili grafičku) koja opisuje prostornu distribuciju prostornog fenomena te predstavlja pojednostavljenu, digitalnu informaciju o nekom području
2. atributnu komponentu koja opisuje svojstva objekta ili pojave.
1.1. Vrste dvodimenzionalnih GIS-podataka
Pokušaji klasificiranja tipova prostornih podataka uglavnom su ili pregrubi ili predetaljni.
Prema Cressie (1993.) možemo ih podijeliti na:
1. obrasce točaka – točkaste procese (engl. point pattern)
2. poligonske objekte (engl. areal data, lattice data)
3. geostatističke (kontinuirane) pojave.
Uobičajeno je prostorne podatke i njihove atribute pohranjivati i upravljati njima u okviru
Geografskog informacijskog sustava (GIS). Prema zajedničkim standardima Open
Geospatial Consortium – OGC (http://www.opengeospatial.org/) i International
Organisation for Standardisation - ISO, definiran je veći broj osnovnih
dvodimenzionalnih GIS objekata (engl. simple features). To su:
Geometry – geometrija
Point, MultiPoint – točkasti objekti
LineString, MultiLineString – linijski objekti
Polygon, MultiPolygon, Triangle – poligonski objekti
CircularString – kružni prsten
Curve, MultiCurve, CompoundCurve – tipovi krivulja
CurvePolygon – zaobljeni poligoni
Surface, MultiSurface, PolyhedralSurface – površine
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
4
TIN (engl. Triangulated Irregular Networks - TIN) – triangularizirane nepravilne mreže
GeometryCollection – kolekcije geometrija.
Ove osnovne GIS-strukture organizirane su hijerarhijski. Primijetite da je definiranje
koordinatnog sustava (engl. Spatial Reference System) jedinstveno za sve vrste
geometrija.
Sustav R omogućuje učitavanje osnovnih vektorskih GIS-objekata kako ih definira
Open Geospatial Consortium – OGC: http://www.opengeospatial.org/.
Za sve vektorske objekte vrijedi da se mogu izrađivati u samom sustavu unosom
formata Well-Known Binary (WKB) ili Well-Known Text (WKT) uporabom
funkcionalnosti paketa Rgeos funkcije readWKT(). Paket Rgeos je sučelje na
biblioteku GEOS (http://trac.osgeo.org/geos/) koja je pak C++ veza prema Java
Topology Suite - JTS (http://tsusiatsoftware.net/jts/main.html). JTS pruža potpunu,
dosljednu, robustnu provedbu temeljnih algoritama za obradu linearne geometrije na 2-
dimenzionalnoj kartezijevoj ravnini. GEOS je dostupan pod Lesser General Public
Licence (http://www.gnu.org/licenses/old-licenses/lgpl-2.1.html).
>moj_poligon <- readWKT("POLYGON((1 0,0 1,1 2,2 1,1 0))")
Kako smo već spomenuli u ovom tečaju, najveći broj korisnika ipak ne izrađuje
prostorne objekte unutar sustava R, već najčešće u GIS-u pripremljene prostorne
objekte unosi u sustav R radi analize i vizualizacije. Važno je naglasiti da veći broj
kontribuiranih paketa koje ćemo koristiti koristi funkcionalnosti paketa Rgeos (veze
prema biblioteci GEOS (engl. Geometry Engine Open Source) – biblioteka otvorenog
kôda, napisana u programskom jeziku Java (http://trac.osgeo.org/geos/) koji podržava
sve ključne operacije na OGC geometrijama, topološke upite, ali i vezu prema bazama
prostornih podataka.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
5
Podaci u GIS-u predstavljaju stvarne objekte i pojave (kao što su ceste, uporaba
zemljišta, visina, stabla, putevi, udari munja itd.). Mogu predstavljati i lokacije neke
pojave ili izmjerenog fenomena, npr. lokacije pojava munja ili zabilježeno kretanje neke
životinje. Realni objekti mogu se podijeliti u dvije apstrakcije: diskretni objekti (kao što
su stabla, kuće) i kontinuirane površine (kao što su količina oborina ili nadmorska
visina). Tradicionalno, postoje dvije osnovne metode koje se koriste za pohranu
podataka u GIS-sustavima kao rezultat potrebe pohrane informacija za obje glavne
vrste pojava u prirodi: vektorska prezentacija razvijena prvenstveno radi diskretnih
pojava te rasterska prezentacija (površine) (engl. grid) radi prikaza kontinuiranih pojava
u prirodi.
Osnovni modeli prikaza objekata u prostoru:
Vektorski prikaz Rasterski prikaz
Točke
Linije
Površine (poligoni)
Oba modela prikaza podataka samo su pojednostavljeni prikaz realnog svijeta.
Napomena:
Važno je razumjeti radi čega je određeni prikaz bolji za pojedine prirodne pojave.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
6
1.1.1. Vektorski prikaz prostornih podataka
Unutar vektorskog GIS-a, elementi realnog svijeta prikazuju se putem tri osnovna tipa
geometrija koji se sastoje od jednog ili više međusobno povezanih verteksa. Ovisno o
suštini pojave u prirodi koju želimo prikazati prostornim objektom, objekti se dijele na
one bez dimenzija (predstavljene točkom), jednodimenzionalne (predstavljane linijama)
te dvodimenzionalne površine (predstavljene poligonima). Vektorskom elementu
pridruženi su određeni atributi koji ga opisuju.
Prednosti vektorskog prikaza podataka:
1. podaci se prikazuju u originalnoj rezoluciji i obliku, bez gubitka informacija
2. grafički prikaz jako podsjeća na tradicionalni izgled geografske karte
3. za jedan prostorni objekt moguće je čuvati velik broj informacija
4. definiranje topologije je efikasno.
Nedostaci vektorskog prikaza:
1. potrebno je znatno više memorije za čuvanje informacije
2. analize se teško provode
3. teško je prikazati kontinuirane pojave u prirodi
4. upravljanje objektima nije jednostavno
5. struktura je vrlo kompleksna.
Jedna od važnih funkcionalnosti sustava R je njegova mogućnost učitavanja već
postojećih vektorskih geografskih podataka.
Formati vektorskih podataka izvan sustava R
ESRI Shapefile ili jednostavnije shapefile je popularni vektorski format prostornih
podataka za GIS softver. ESRI ga je razvio kao otvorenu specifikaciju za
interoperabilnost podataka između različitih softverskih proizvoda. Shapefile
prvenstveno opisuje geometriju osnovnih prostornih objekata kao što su točka, linija i
poligon. Svaki od navedenih objekata sadrži neke od atributa koji ga opisuju bilo da se
radi o rednom broju, duljini, površini ili nekom drugom svojstvu koje je vezano za
objekt. Interoperabilnost (međudjelovanje) podrazumijeva mogućnost kombiniranja
skupova prostornih podataka i međudjelovanje usluga bez ponavljajuće manualne
intervencije, tako da je rezultat dosljedan i da je dobivena dodana vrijednost skupa
podataka i usluga.
Format Shapefile, koji je izvorno osmislila kompanija ESRI, danas je neformalni
standard (nikad odobren od strane OGC) za vektorsku prezentaciju okoline i ne postoji
programski paket koji barata prostornim podacima, a da ne može učitati ovaj format.
Struktura ESRI shapefile-datoteke (shp, kolokvijalno shapefile, shape) je u biti skup od
nekoliko datoteka jednakog imena, ali različitih ekstenzija (formata) od kojih su sljedeće
tri obavezne i pohranjuju:
ime.shp – informacije o geometriji odnosno oblicima prostornih objekata
ime.dbf – bazu podataka o prostornim objektima
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
7
ime.shx – skup indeksa prostornih objekata.
Postoji još cijeli niz opcionalnih formata datoteka u shapefileu koji pomažu u snalaženju
s podacima, njihovoj uporabi i upravljanju, no mi ćemo od njih spomenuti samo onaj
koji nosi informacije o prostornom koordinatnom sustavu:
ime.prj - projekcijski format, koordinatni sustav i projekcijski parametri.
Tijekom ovog tečaja, osim ESRI shapefile-datoteka, od vektorskih podataka ćemo se
susresti s KML (Keyhole Markup Language) formatom za prikaz objekata na Google
Earthu.
1.1.2. Rasterski prikaz prostornih podataka
Površine, mreže ili rasteri (engl. rasters, grids) sastoje se od matrice ćelija (piksela)
organiziranih u retke i stupce (mrežu) gdje svaka ćelija nosi informaciju o vrijednosti
atributa na toj lokaciji. Jedan raster može nositi informaciju samo o jednom atributu, na
primjer, temperaturi zraka ili nadmorskoj visini. Zbog svoje pune strukture, vrlo su
pogodni za prikaz kontinuiranih varijabli, ali i diskretnih elemenata prostora kao što je
vrsta zemljišnog pokrova i slično.
Prednosti rasterskog načina prikaza podataka su:
1. geografski položaj svake ćelije je određen
2. struktura podataka je vrlo jednostavna
3. izvođenje analiza je vrlo jednostavna
4. metode preklapanja i spajanja su efikasne i jednostavne
5. akumuliranje informacija putem skeniranja je jednostavno.
Mane rasterskog načina prikaza su:
1. loša rezolucija
2. teško je prikazati linearne strukture
3. teško je čuvati veći broj atributa za istu prostornu jedinicu.
Formati „stranih“ rasterskih podataka
Generalno, rasterski formati su u svojoj strukturi jednostavniji od vektorskih podataka.
Ipak, broj različitih rasterskih formata znatno je veći; gotovo svaki program za GIS
izradio je i svoj format za rastere. Iz tog razloga nećemo ovom prilikom davati njihov
pregled. Gotovo svi poznati rasterski formati mogu se unijeti u sustav R putem
konverzijskih biblioteka formiranih u R-pakete. O njima će biti riječi nešto kasnije.
1.2. Geopozicioniranje i lokalne koordinate - projekcije
Razvijeno je nekoliko sustava koordinata kako bi se uspješno odredio položaj nekog
objekta u dvodimenzionalnom (2D) ili trodimenzionalnom (3D) prostoru. Za
pozicioniranje u dvodimenzionalnom prostoru koriste se 2D Kartezijeve (x,y) ili 2D
polarne koordinate (,d).
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
8
1.2.1. 2D geografske koordinate
Kako bismo jednoznačno definirali položaj neke točke na zemaljskoj kugli bilo je
potrebno razviti sustav za geo-referenciranje. To je napravljeno na način da je na
Zemlju kao nebesko tijelo superponirana zamišljena mreža linija, meridijana (engl.
longitude, lon) i paralela (engl. latitude, lat).
Geografska širina (f) i duljina (l) predstavljaju 2D geografski koordinatne sustav. Izvor: http://kartoweb.itc.nl/geometrics/coordinate%20systems/coordsys.html
Sustav koordinata (lat, lon) ja najčešće korišteni sustav za pozicioniranje na Zemlji i za
svaku je lokaciju moguće jednoznačno odrediti zemljopisnu širinu i duljinu putem
satelita koji kruže u zemljinoj orbiti. Aktivni su američki globalni sustav pozicioniranja
(engl. Global Positioning System, GPS) Navstar i ruski sustava Glonass. Uskoro bi
Europska Unija trebala pustiti u pogon svoj sustav Galileo. Na uspostavi sličnih sustava
rade i Indija i Kina.
Najčešće se u prostornoj analizi koriste geodetske koordinate na elipsoidu. Geografska
dužina (lon, λ) je kut od ravnine početnog meridijana do ravnine meridijana zadane
točke. Geografska širina (lat, ) je kut od ravnine ekvatora do ravnine paralele zadane
točke (okomito na elipsoid). Važno je imati na umu da se kutovi (koordinate) mijenjaju
ako su mjereni na nekom drugom elipsoidu (datumu).
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
9
Pored opisanih geodetskih (geografskih koordinata) postoje još dvije vrste koordinata:
1. astronomske, na geoidu
2. geocentričke, na elipsoidu s tom razlikom što se kut ' ne određuje okomicom na elipsoid kao kod geodetskog sustava nego okomicom kroz središte elipsoida.
1.2.2. 3D koordinatni sustavi - 3D geodetske (geografske) koordinate
3D geografske koordinate dobiju se na način da se unese još jedna vrijednost,
elipsoidna visina (h). Elipsoidna visina točke je okomita udaljenost od željene točke do
elipsoida. Mjeri se u jedinicama duljine. 3D geografske koordinate koriste se za
određivanje točke (objekta) od površine Zemlje.
Prema izvoru: http://itc.nl
1.2.3. Prelazak iz trodimenzionalnog (3D) na dvodimenzionalni (2D) sustav
Zemlja je okrugla, trodimenzionalna, dok su karte koje radimo dvodimenzionalni prikaz
na ravnini (2D Kartezijev sustav). Prebacivanje informacije o lokaciji nekog objekta s
trodimenzionalnog tijela na dvodimenzionalnu kartu zahtijeva projekciju, a ponekad i
transformaciju koordinata. Projekcije su u svojoj biti zahtjevni matematički izračuni koji
geografske koordinate (φ , λ) mjerene na referentnom elipsoidu, prebacuju (projiciraju)
u dvodimenzionalni Kartezijev koordinatni sustav ili dodatno transformiraju koordinate u
novi 3D sustav (ako je lokalno najbolji elipsoid različit od elipsoida na kojem su φ, λ
izmjereni) pa tek onda projiciraju na ravninu.
1.2.4. Referentne površine
Postoje dvije referentne površine kojima pokušavamo opisati izgled površine Zemlje.
Jedna se naziva geoid, a druga elipsoid. Geoid je ekvipotencijalna površina Zemlje na
srednjoj vrijednosti razine mora. Postoji nekoliko realizacija lokalniih procjena srednje
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
10
razine mora u svijetu, te se ove razlike nazivaju lokalni vertikalni datumi ili visinski
datumi. Elipsoid (još zvan i sferoid) predstavlja relativno jednostavnu matematičku
aproksimaciju oblika površine Zemlje. Elipsoidi se koriste kao referentne točke za
mjerenje kutova φ , λ. Koordinate mjerene na elipsoidu kasnije želimo prebaciti na
dvodimenzionalnu kartu. Postoje brojni elipsoidi kojima se opisuje Zemlja: neki od
najpoznatijih su WGS84 i GRS80, ali i nekoliko stotina elipsoida koji svojim
matematičkim obilježjima najbolje opisuju neko manje područje na Zemlji – horizontalni
datumi.
Proces prezentacije Zemlje na dvodimenzionalnoj karti. Izrađeno prema izvoru: http://www.itc.nl/.
Geoid je površina Zemlje (oceana) bez utjecaja vjetrova i plima.
Elipsoid (sferoid) je aproksimacija oblika Zemlje geometrijskim tijelom, uglavnom
elipsoidnog oblika.
World Geodetic System (WGS) je standardni elipsoid kojim se opisuje izgled Zemlje
(EPSG kôd 4326), a centar mu je smješten u centru mase Zemlje gore definiranog
geoida. Ovo je referentni sustav koji koristi globalni sustav pozicioniranja (GPS).
Odnos Zemlje, globalnih elipsoida te lokalnog elipsoida. Prema izvoru: http://www.itc.nl/.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
11
1.2.5. 2D Kartezijev koordinatni sustav
Dvodimenzionalni Kartezijev sustav je sustav ispresjecajućih okomitih linija koji sadrži dvije osnovne osi, vodoravna (X-os, još zvana pomak prema istoku (engl. easting ) i okomita (Y-os, još zvana pomak prema sjeveru (engl. northing). Sjecište osi X i Y naziva se ishodište (engl. origin). Svaka točka jednoznačno je određena koordinatama x i y kako je prikazano na slici.
Ilustracija 2D Kartezijevog koordinatnog sustava. Prema izvoru: http://www.itc.nl/
1.2.6. 2D polarni koordinatni sustav
Drugi način jednoznačnog određivanja položaja točke u dvodimenzionalnom
koordinatnom sustavu su polarne koordinate (, d). Udaljenost od ishodišta
koordinatnog sustava do točke označavamo s d, a je kut između inicijalnog
smjeraosi Y i duljine koja spaja ishodište s točkom. Inicijalni smjer osi Y moguće je
proizvoljno odrediti, ali uglavnom se koriste inicijalni smjerovi kao što je pravi sjever ili
magnetni sjever.
Napomena:
Objasnite na slikama način mjerenja koordinata. Objasnite razliku sferoida i geoida.
Kroz primjere objasnite kada je osim projekcije potrebno napraviti i transformaciju
koordinata.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
12
1.2.7. Osnovno o projekcijama
Projekcije se dijele na razne načine, na primjer prema vrsti projiciranja ili parametrima
koje projekcija čuva. Projiciranje je moguće napraviti na način da se sačuvaju površine,
udaljenosti među objektima, oblik, ali nikako sve u jednoj vrsti projekcije. Kako je
razumijevanje prikupljanja koordinata i njihovog projiciranja u lokalne sustave posebno
znanstveno područje, ovom prilikom dajemo samo konkretne podatke koje biste kao
korisnik trebali imati na umu kako biste sa svojim prostornim podacima mogli upravljati
na odgovarajući način.
Ovisno o svrsi karte koja se priprema, kreirano je više stotina različitih projekcija
geografskih koordinata koje sve možemo generalno svrstati u kategorije s obzirom na:
a) klasu
b) točku presjecišta
c) aspekt (projekcijskoj površini)
d) očuvanim prostornim odnosima.
Projekcije prema klasi
Tri su klase projekcija:
1. cilindrična
2. konična
3. azimutna
gdje su projekcijske ravnine redom cilindar, konus i ravnina.
a) cilindrična b) konična c) azimutna
Klase kartografskih projekcija (sve redom tangentne – vidi dalje). Izvor: http://www.itc.nl/.
Projekcije prema točki presjecišta
Ako bilo koja od ove tri klase dotiče referentnu površinu u samo jednoj točki (tangenti)
tada projekcije nazivamo i tangene projekcije, za razliku od projekcija koje u presjecištu
s tijelom imaju ravninu.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
13
Kartografske projekcije koje u presjecištu čine plohu. Prema izvoru: http://www.itc.nl/.
Projekcije prema aspektu
Projekcije se, također, mogu opisati prema smjeru projekcijske ravnine s obzirom na
globus. To nazivamo aspektom karte.
Postoje tri moguća aspekta:
1. normalni
2. poprečni (transverzalni)
3. kosi.
poprečna cilindrična poprečna konična
Ako promatramo očuvanje prostornih odnosa, projekcije možemo svrstati u tri osnovne
klase:
1. cilindrične
2. konične
3. azimutne.
Dodatno, s obzirom na prostorne odnose koje pojedina projekcija čuva, postojeće
projekcije dijelimo na one koje čuvaju:
1. površine – ekvivalentne (engl. equal area ili equivalent)
2. udaljenosti (engl. equidistant)
3. oblike i kutove za manja područja - konformne (engl. conformal).
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
14
Projekcije se kreiraju na način da se odabere parametar kojeg želimo sačuvati, a
parametri projekcije se određuju kako bi najbolje odgovarali dijelu svijeta za koji se
projekcija kreira te za specifične potrebe kartiranja. Pojedinačna projekcija može imati
neko od ovih svojstava, ali nikako više od jednog.
Također su pojedine projekcije prikladnije za karte manjeg, a druge za karte krupnijeg
mjerila.
Prijelaz između koordinatnih sustava transformacijom koordinata. Prema izvoru: http://www.itc.nl/.
Projekcijski sustavi u Republici Hrvatskoj
Tijekom vremena, za različite prostorne obuhvate te potrebe različitih projekata na
području Hrvatske koristio se (ili se još uvijek koristi) veći broj različitih koordinatnih
sustava i projekcija čiji se popis i parametri mogu pronaći, između ostalog, na
stranicama Državne geodetske uprave
(http://listovi.dgu.hr/nippmetadata/coordinatereferencesystem_engl.html). Velik broj
prostornih informacija pripremljen je u prošlosti u nekom drugom koordinatnom
sustavu, tada službeno važećem na području Republike Hrvatske. Koordinatni sustavi
koji su se u prošlosti koristili na našim prostorima još uvijek nisu u potpunosti
zamijenjeni sada važećim, tj. sve informacije nisu projicirane / transformirane u važeće
sustave. Iz tog je razloga važno znati prepoznati ih te na pravilan način unijeti potrebne
geo podatke u neki od specijaliziranih GIS programa, a u našem slučaju u sustav R.
Parametri povijesnih projekcijskih sustava na području Balkana mogu se pronaći na
sljedećoj poveznici (http://spatial-
analyst.net/wiki/index.php?title=MGI_/_Balkans_coordinate_systems).
Tijekom tečaja detaljno ćemo se upoznati s najvažnijim repozitorijima informacija o
korištenim koordinatnim sustavima u svijetu.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
15
1.3. Prostorni podaci u specijaliziranom GIS programu – SAGA GIS
Zajednički ćemo se upoznati s izgledom sučelja jednog od mnogobrojnih programa
specijaliziranih za pregled i analitiku geo podataka System for Automated Geoscientific
Analyses SAGA GIS (http://www.saga-gis.org/en/index.html). Zajednički ćemo naučiti
prikazati ranije pripremeljene geografske podatke i njihove atribute te pripremiti
jednostavne kartografske prikaze.
PITANJA ZA PONAVLJANJE:
1. Koji su tradicionalni načini predstavljanja geografski referenciranih podataka?
2. Što predstavlja skraćenica OGC?
3. Objasnite svojim riječima što je to:
a. Geoid
b. Sferoid
c. Datum
d. Projekcija koordinata
e. Transformacija koordinata
4. Koje projekcijske sustave, koji se koriste ili su se koristili na području Republike
Hrvatske, poznajete?
5. U kojem koordinatnom sustavu možete očitati koordinate s programa Google
Earth?
6. Koja projekcija čuva sve prostorne odnose?
7. Svojim riječima opišite razliku između projekcije i transformacije koordinata.
8. Radi čega su nam potrebne projekcije?
9. Zašto postoji tako velik broj različitih koordinatnih sustava (projekcija)?
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
16
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
17
2. Prostorni podaci u sustavu R
U sklopu GIS-a, nad i s prostornim podacima mogu se obavljati ove radnje:
čuvanje i ponovna uporaba
vizualizacija
rukovanje (manipulacija, npr. prebacivanje u drugi format i pohrana)
analiza i modeliranje (analiza atributa iz baze podataka / analiza svojstava koja proizlaze iz geometrija objekata).
Kako se sve navedene radnje mogu obavljati i u sustavu R, to ga čini alatom koji može
preuzeti funkcije standardnih GIS-alata, posebno u operacijama preklapanja (engl.
overlay) i grupiranja (engl. aggregate). Ipak, R kao analitički sustav svoju najveću
prednost ima u analitici, pa tako i analitici prostorno referenciranih podataka.
2.1. Struktura prostornih podataka u sustavu R
U jeziku S, a time i u jeziku R, ne postoji uređena tipična klasa za reprezentaciju
prostornih podataka. Kako fleksibilnost S/R-jezika omogućuje jednostavno stvaranje
novih klasa (sustav objekata S3 i S4), metoda i paketa, tako je došlo i do razvoja
dodataka s novorazvijenim prostornim klasama i metodama. Tako su, vjerojatno
najvažniji paket sp razvili Roger Bivand (http://www.nhh.no/Default.aspx?ID=697) i
Edzer Pebesma (http://ifgi.uni-muenster.de/~epebe_01/). Sve je započelo kada je
grupa programera 2003. godine pokrenula razvoj skupa klasa i metoda za manipulaciju
prostornim podacima (točkama, linijama, poligonima i gridovima) što je popraćeno
kasnije i temeljnom knjigom „Applied Spatial Data Analysis with R“ (ASDAR Bivand
et.al. 2008) (http://www.asdar-book.org/) i pomoglo konvergiranju zainteresirane
zajednice koja je 2011. godine imala preko 2000 pretplatnika na dopisnu listu r-sig-geo.
Paket gstat jedan je od prvih adaptiranih za kreirane klase prostornih objekata u
sustavu R. Koristi se uglavnom za dvodimenzionalne podatke, ali je napravljen i za
modeliranje 2D+T, prostorno-vremenskih podataka.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
18
2.1.1. CRAN – Spatial
Generalno, pakete unutar područja "Spatial" (CRAN Task View Spatial) mogli bismo podijeliti u tri osnovne grupe:
1. paketi za vizualizaciju prostornih podataka:
o rasterVis
o plotKML
o plotGoogleMaps
2. paketi za analizu prostornih podataka:
o spatial, spatstat – točkasti procesi (engl. point pattern)
o geoR – geostatističke analize, vjerojatnosni (engl. likelihood) pristup, ali i Bayes metode
o gstat – geostatističke 2D i 3D analize
o Rgeos – operacije na geometrijama i veza prema bazi prostornih podataka PostGIS
o circular -cirkularna – direkcionalna statistika
o RandomFields – analitika kontinuiranih procesa
o Dcluster – detekcija prostornih grupiranja (klastera) bolesti
o raster – analitika na velikim rasterskim podacima
o geosphere, fossil – analiza udaljenosti na sferi
o remotesensing – obrada/analiza snimaka dobivenih daljinskim istraživanjima, itd.
3. paketi koji služe kao veza prema vanjskim programima za geografske informacijske sustave (GIS) i bazama podataka:
o rgdal – veza prema Geospatial Data Abstraction Library (GDAL)
o maptools – veza prema vanjskim strukturama i formatima prostornih podataka kao što je shapefile
o spgrass6 – veza prema GRASS GIS
o RSAGA – veza prema SAGA GIS
o RPyGeo – veza prema ArcGis (Python)
o Spsextante – veza prema Sextante GIS
o RODBC – veza prema bazama podataka (Access, PostgreSQL...), itd.
Paket sp
Ovaj paket osigurava klase i metode za rad s prostornim podacima u jeziku S. Paket
ne nudi analitiku, ali omogućuje da se uneseni podaci ne trebaju restrukturirati za
analizu. Strukture objekata koje su razvijene unutar paketa sp su vrste S4. Za ove
objekte razvijene su generičke metode, i to za:
točke – osnovni elementi svakog prostornog objekta koji mogu imati dvije ili tri dimenzije. Za kreiranje prostornog objekta vrste SpatialPoints dovoljan je
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
19
samo skup koordinata. Ako ovu vrstu objekta spojimo s odgovarajućim setom podataka, dobivamo klasu objekta SpatialPointsDataFrame. Pogledajte pažljivo sliku u nastavku teksta.
linije – objekti koji su u svojoj strukturi kolekcije uređenih (poredanih) točaka
poligone – nadogradnja linijskih objekata, u smislu kolekcije točaka, ali na način da su početna i krajnja točka istovjetne
površine, mreže (engl. raster, grid) – osnovni parametri koji određuju neki prostorni raster su:
o mrežna topologija (engl. grid topology – SpatialGrid) za koju je potrebno definirati koordinate donjeg lijevog kuta (cellcentre.offset), veličinu jedne ćelije, tj. rezoluciju (cellsize) te broj ćelija (cells.dim). Za već postojeće površine ovi se podaci mogu vidjeti uporabom
funkcije gridparameters().
o SpatialGridDataFrame je struktura SpatialGrid kojoj je na adekvatan način spojena klasa DataFrame – površina s atributima.
U svojoj osnovi svi se prostorni objekti, kako ih definira paket sp mogu svesti na
osnovu: Spatial*DataFrames, što znači prostornu, geometrijsku komponentu, i njima
pripadajuće vrijednosti atributa, kako smo ranije definirali prostorne objekte. Spajanje
grafičke komponente s adekvatnim podacima u setu podataka radi se putem
jedinstvenog identifikatora koji se mora pojaviti u oba objekta.
Napomena:
Korisnici obično ne izrađuju ove objekte od samog početka već učitavaju prostorne
podatke pripremljene u nekom programskom paketu za GIS, dok sustav R najčešće
koriste za vizualizaciju, analizu, simulacije, modeliranje te na kraju za pohranjivanje u
druge formate.
Struktura vektorskih objekata kako ih definira paket sp
Na slici su prikazani dijelovi od kojih se sastoji vektorski točkasti prostorni objekt.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
20
Struktura linijskih i poligonskih vektorskih objekata kako ih definira paket sp:
Struktura rasterskih objekata kako ih definira paket sp
Na slici su prikazani dijelovi od kojih se sastoji rasterski prostorni objekti kako ih
definira paket sp:
Topologija mreže (grida) je ključni konstituent rasterskog prikaza podataka koji daje
koordinate donjeg lijevog ugla, veličine ćelije i broj ćelija u svakoj dimenziji.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
21
Postoje dvije osnovne klase objekata kreiranih za regularne podatke na mreži:
prostorni pikseli (SpatiaPixels) i prostorne mreže (SpatialGrid). Prostorni pikseli uvelike
liče točkama koje su pravilno raspoređene na mreži.
Dodajući prostornoj komponenti (SpatialPixels ili SpatialGrid) dodatne podatke
(data.frame) dobijemo objekt kreiran za pohranu za svaku ćeliju u punoj mreži.
SpatialGridDataFrame (SGDF) ne čuva koordinate budući da podaci popunjavaju cijeli
prostor, ali mora čuvati informaciju o tome na kojoj lokaciji podatak nedostaje (NA
vrijednost).
Neke od korisnih funkcija za manipulaciju prostornim objektima unutar paketa sp su:
operator [ selektira retke (pojedine prostorne objekte) i/ili stupce tj. atribute
operator [[ selektira stupce iz odsječka s podacima (DF iz S*DF objekta)
operator [[<- dodjeljuje novu vrijednost u atributnoj tabeli S*DF.
Biblioteka PROJ.4
PROJ.4 je biblioteka za obavljanje pretvorbi među kartografskim projekcijama. Temelji
se na radu Geralda Evendena s United States Geological Survey (USGS,
http://www.usgs.gov/), ali je sada projekt OSGeo Fondacije. Funkcionalnosti ove
biblioteke integrirane su u pakete maptools, rgdal, raster i drugih te se na taj način
koriste u sustavu R.
Način rada s geografski referenciranim podacima ćemo predstaviti na setu podataka
naziva meuse koji dolazi u paketu sp (http://cran.at.r-
project.org/web/packages/gstat/vignettes/gstat.pdf).
PRIMJER:
Otvorite u RStudiju program: S730_upoznavanje_klase_metode_sp.R.
>library(sp)
>data(meuse)
>str(meuse)
'data.frame': 155 obs. of 12 variables:
$ cadmium: num 11.7 8.6 6.5 2.6 2.8 3 3.2 2.8 2.4 1.6 ...
$ copper : num 85 81 68 81 48 61 31 29 37 24 ...
$ lead : num 299 277 199 116 117 137 132 150 133 80 ...
$ zinc : num 1022 1141 640 257 269 ...
$ elev : num 7.91 6.98 7.8 7.66 7.48 ...
$ dist : num 0.00136 0.01222 0.10303 0.19009 0.27709 ...
$ om : num 13.6 14 13 8 8.7 7.8 9.2 9.5 10.6 6.3 ...
$ ffreq : Factor w/ 3 levels "1","2","3": 1 1 1 1 1 1 1 1 1 1 ...
$ soil : Factor w/ 3 levels "1","2","3": 1 1 1 2 2 2 2 1 1 2 ...
$ lime : Factor w/ 2 levels "0","1": 2 2 2 1 1 1 1 1 1 1 ...
$ landuse: Factor w/ 15 levels "Aa","Ab","Ag",..: 4 4 4 11 4 11 4 2 2 15 ...
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
22
$ dist.m : num 50 30 150 270 380 470 240 120 240 420 ...
>head(meuse, n=2) # pregled prva 2 podataka u setu
>tail(meuse) # pregled posljednjih 6 podataka u setu
>class(meuse)
[1] "data.frame"
>summary(meuse$copper)
Podaci meuse su u strukturi set podataka tj. R klasa data.frame. Pogledajte imena
varijabli u setu. Prepoznat ćete dva stupca (varijable) koji nose informaciju o lokaciji –
lokalno projicirane geografske koordinate x i y. Da bismo programu definirali u kojim se
varijablama našeg seta podataka nalaze koordinate, moramo pozvati funkciju
coordinates().
>coordinates(meuse) <- ~ x+y #~ je oznaku za formulu
Upravo ste kreirali svoj prvi prostorni objekt u sustavu R. Pogledajmo njegovu
strukturu.
>str(meuse)
Formal class 'SpatialPointsDataFrame' [package "sp"] with 5 slots
..@ data :'data.frame': 155 obs. of 12 variables:
.. ..$ cadmium: num [1:155] 11.7 8.6 6.5 2.6 2.8 3 3.2 2.8 2.4 1.6 ...
.. ..$ copper : num [1:155] 85 81 68 81 48 61 31 29 37 24 ...
.. ..$ lead : num [1:155] 299 277 199 116 117 137 132 150 133 80 ...
.. ..$ zinc : num [1:155] 1022 1141 640 257 269 ...
.. ..$ elev : num [1:155] 7.91 6.98 7.8 7.66 7.48 ...
.. ..$ dist : num [1:155] 0.00136 0.01222 0.10303 0.19009 0.27709 ...
.. ..$ om : num [1:155] 13.6 14 13 8 8.7 7.8 9.2 9.5 10.6 6.3 ...
.. ..$ ffreq : Factor w/ 3 levels "1","2","3": 1 1 1 1 1 1 1 1 1 1 ...
.. ..$ soil : Factor w/ 3 levels "1","2","3": 1 1 1 2 2 2 2 1 1 2 ...
.. ..$ lime : Factor w/ 2 levels "0","1": 2 2 2 1 1 1 1 1 1 1 ...
.. ..$ landuse: Factor w/ 15 levels "Aa","Ab","Ag",..: 4 4 4 11 4 11 4 2 2 15 ...
.. ..$ dist.m : num [1:155] 50 30 150 270 380 470 240 120 240 420 ...
..@ coords.nrs : int [1:2] 1 2
..@ coords : num [1:155, 1:2] 181072 181025 181165 181298 181307 ...
.. ..- attr(*, "dimnames")=List of 2
.. .. ..$ : chr [1:155] "1" "2" "3" "4" ...
.. .. ..$ : chr [1:2] "x" "y"
..@ bbox : num [1:2, 1:2] 178605 329714 181390 333611
.. ..- attr(*, "dimnames")=List of 2
.. .. ..$ : chr [1:2] "x" "y"
.. .. ..$ : chr [1:2] "min" "max"
..@ proj4string:Formal class 'CRS' [package "sp"] with 1 slots
.. .. ..@ projargs: chr NA
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
23
Napomena:
Primijetite da se koordinate definiraju oznakom formule ~. Također, primijetite razlike u
strukturi podataka po implementaciji metode coordinates() na set podataka.
Primijetite da varijable x i y više ne postoje u isječku SPDF@data.
Klasa podataka s kojom se sada prvi puta srećemo je SpatialPointsDataFrame.
Kao što smo već spomenuli, tipično je za klase da unutar sebe imaju definirane isječke
(engl. slot) koji se koriste za čuvanje specifičnih informacija za tu klasu objekta. Klase
objekata SpatialPointsDataFrame imaju pet isječaka:
@data - Ovaj isječak sadrži set podataka (engl. data frame) s kakvim smo se do sada već više puta sreli tijekom tečaja.
@coords.nrs Ovo je informacija o rednom broju varijabli u setu podataka koje su definirane kao koordinate.
@coords Vrijednosti koordinata.
@bbox Prostorni obuhvat SPDF.
@proj4string Informacija o projekciji podataka – formalna klasa CRS preuzeta iz paketa
sp. CRS() je funkcija koja je sučelje na PROJ.4 biblioteku projekcijskih
sustava. Klasa je definirana kao NA vrijednost unutar paketa sp. Ako je unutar našeg sustava dostupna GDAL biblioteka tj. paket rgdal, tada je moguće povezivanje prostornih podataka s koordinatnim referentnim sustavima. Argumenti se moraju dati u nekim od određenih formata kao što su formati PROJ.4, ESRI ili EPSG (specifikacije na http://www.spatialreference.org/).
Sve gore navedeno za klasu objekata SpatialPointsDataFrame vrijedi i za linijske i
poligonske objekte (SpatialLinesDataFrame i SpatialPointsDataFrame).
Ako meuse podacima želimo pridružiti parametre lokalne projekcije, moramo znati kako
su izrađeni ili pronaći informaciju o projekcijskim sustavima koji se koriste u tom
području – u ovom slučaju to je Nizozemski RHD sustav i parametri u formatu PROJ.4
su sljedeći:
+proj=stere +lat_0=52.15616055555555 +lon_0=5.38763888888889
+k=0.999908+x_0=155000 +y_0=463000 +ellps=bessel +units=m
+no_defs +towgs84=565.2369,50.0087,465.658,
-0.406857330322398,0.350732676542563,-1.8703473836068, 4.0812
Napomena:
Nakon znaka + ne smije biti praznina prije vrijednosti parametra. Važno je razumjeti
funkcioniranje parametra towgs84.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
24
Pridruživanje vrijednosti parametara projekcije prostornim podacima možemo napraviti
uporabom funkcije proj4string()na neki od ovih načina:
određivanjem parametara putem formata PROJ.4 proj4string(SPDF) <- CRS("parametri_proj4format")
određivanjem parametara putem EPSG (ili ESRI) kôda proj4string(SPDF) <- CRS("+init=epsg:epsg_kod")
preuzimanjem informacije o koordinatnom sustavu nekog drugog objekta u sustavu. proj4string(SPDF) <- proj4string(SPDF2)
U slučaju našeg SpatialPointsDataFrame projekcija meuse je Nizozemski RHD sustav:
>proj4string(meuse)<- CRS("+proj=stere +lat_0=52.15616055555555 +lon_0=5.38763888888889 +k=0.999908 +x_0=155000 +y_0=463000 +ellps=bessel +units=m +no_defs +towgs84=565.2369,50.0087,465.658, -0.406857330322398,0.350732676542563,-1.8703473836068, 4.0812")
ili ako znamo EPSG kôd ove projekcije:
>proj4string(meuse) <- CRS("+init=epsg:28992")
Europska naftna grupa za istraživanje (European Petroleum Survey Group - EPSG)
osnovana je 1986. godine. Sastoji se od specijalista geodeta i kartografa iz naftnih
kompanija sa sjedištem u Europi. Tvrtka održava relacijsku bazu podataka o
geodetskim parametrima na web-adresi http://www.epsg-registry.org/ ili
http://spatialreference.org/ref/epsg/.
Sada smo napravili svoj prvi prostorni objekt unutar sustava R. Ipak, postoji velik broj
već ranije pripremljenih prostornih objekata, najčešće pripremljenih u nekom
specijaliziranom programu za geografske informacijske sustave (GIS) i važno je znati
kako upravljati takvim formatima unutar sustava R.
Sve što smo ranije radili sa setovima podataka (DataFrame), moguće je napraviti i
sada. Na primjer:
>summary(meuse@data$copper)
Isto možemo napraviti i s drugim dijelovima objekta, na primjer s koordinatama:
>summary(meuse@coords)
x y
Min. :178605 Min. :329714
1st Qu.:179371 1st Qu.:330762
Median :179991 Median :331633
Mean :180005 Mean :331635
3rd Qu.:180630 3rd Qu.:332463
Max. :181390 Max. :333611
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
25
>meuse@bbox
min max
x 178605 181390
y 329714 333611
>mean(meuse@bbox[1,])
[1] 179997.5
>mean(meuse@bbox[2,])
[1] 331662.5
Napomena:
Kako u isječku (engl. slot) koji je definiran samom klasom objekta ne možemo mijenjati
naziv, označava se znakom @. Svi ostali dijelovi objekata, kojima korisnik može
mijenjati nazive označavaju se oznakom $. Tako u ovom slučaju imamo
SPDF@data$ime_varijable.
PITANJA ZA PONAVLJANJE:
1. Objasnite na koji način biste unutar sustava R unijeli neki od prostornih objekata prema specifikaciji OGC?
2. Koji paket možemo smatrati najznačajnijim paketom u sustavu R kada govorimo o prostorno referenciranim podacima?
3. Opišite strukturu klasa objekata kako ih definira paket sp.
4. Na koliko načina paket sp može pohranjivati regularne podatke?
5. Opišite što radi funkcija proj4string.
6. Kojom metodom objekt klase data.frame pretvaramo u prostorni objekt?
7. Postoji li mogućnost povezivanja sustava R s bazama podataka?
VJEŽBA: Upoznavanje sa strukturom podataka u paketu sp
Otvorite u RStudiju program naziva S730_preklapanja_agregacije_sp.R. Samostalno
riješite zadatke iz programa S730_zadaci_rad_s_prostornim_podacima.R.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
26
Paket rgdal
GDAL - Geospatial Data Abstraction Library u doslovnom se prijevodu naziva
"Biblioteka za apstrakciju prostornih podataka". U bîti, GDAL je konverzijska biblioteka
(biblioteka prevoditelj) za rasterske prostorne podatke. Izdao ju je OSGeo u licenci
Open Source1. Kao biblioteka, GDAL predstavlja jedan apstraktni model podataka za
pozivanje aplikacija za sve podržane formate. Unutar podatkovnog paketa GDAL nalazi
se i biblioteka OGR koja sadrži slične sposobnosti za vektorske podatke. Više
podataka i detaljniji opis same biblioteke možete potražiti na web-adresi
http://www.gdal.org/index.html. GDAL koristi klase sp. Ako vektorske prostorne
podatke učitavamo putem dijela paketa OGR, automatski se, ako postoje, učitavaju i
informacije o koordinatnom referentnom sustavu (CRS). Implementacija ovih biblioteka
u sustav R napravljena je putem paketa rgdal, a sastoji se od dijela za manipulaciju
vektorskim podacima i dijela za rastere.
Dio paketa rgdal kojim se barata vektorskim podacima naziva se OGR. Ovaj dio
sadržava funkcionalnosti biblioteke OGR tj. učitavanje i pisanje vektorskih podataka
kao što su ESRI shapefile i KML za Google Earth.
OGR je biblioteka pisana u C++ jeziku, otvorenog je kôda i pruža alate za čitanje i
pisanje datoteka različitih vektorskih formata uključujući ESRI shapefile, KML za
Google Earth (GE), S-57, SDTS, PostGIS, Oracle Spatial i MapInfo sredine / MIF i Tab
formata. Dio paketa rgdal posjeduje funkcije za čitanje – pisanje rastera/površina (engl.
grids, rasters) između mapa GDAL i objekata R: readGDAL(), writeGDAL(). Putem
ovog dijela paketa rgdal moguće je u sustav R učitati vrlo velik broj raznolikih formata
površina (rastera), ali i dijelova višekanalnih snimaka, kao i samo određenog
prostornog dijela velikih datoteka, što uvelike olakšava rad.
Napomena:
Korisna funkcionalnost paketa rgdal je učitavanje samo dijela podataka iz neke
datoteke. Također, jedna od često korištenih metoda je metoda spTransform() koja
omogućuje prostorne transformacije, tj. prijelaze iz jednog u drugi referentni koordinatni
sustav (CRS).
PRIMJER:
Prikaz SpatialPointsDataFrame (SPDF) klase objekata meuse na Google Earthu –
format KML izrađen paketom rgdal.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
27
Korisnici su razvili i druge pakete za vizualizaciju putem programa GE (koji NIJE open
source!). Dva takva paketa, vrlo korisna pri prezentaciji rezultata analiza prostornih
podataka su i novi paketi plotGoogleMaps ili paket plotKML. Primjer na slici koja slijedi
je napravljen funkcijom plotKML() iz paketa plotKML i otvoren na GE-u. Slika
prikazuje dvije KML datoteke, jedna tipa poligon (crvene linije čije granice predstavljaju
granice pojedinog tipa staništa na istraživanoj plohi). Boja točaka prikazuje vrijednost
kvalitativne varijable tipa staništa na točki na kojoj se radi mjerenje, u ovom slučaju,
radi se o istraživanju zajednica ptica.
PRIMJER:
Prikaz korisničkog SpatialPointsDataFrame (SPDF) na Google Earthu – format KML napravljen paketom plotKML.
Paket maptools
Ova biblioteka ima sljedeće funkcionalnosti: read.shape(), readShapePoints(),
readShapeLines(), readShapePoly(), za učitavanje ESRI shapefile formata.
Također vrijedi i suprotni smjer: writeShapePoints(), writeShapeLines(),
writeShapePoly() , za pisanje ESRI shapefileova. Paket omogućava i snimanje
vektorskog formata kml putem funkcija kmlLine(). Kako su imena funkcija vrlo
intuitivna, nećemo objašnjavati pojedinačno njihove specifičnosti.
Paket maptools vektorske objekte smatra sp objektima te uz uporabu biblioteke gpclib,
koja provjerava topologije, omogućuje različite operacije njihova spajanja ili
presijecanja.
Paket maptools ima mogućnost učitavanja i rasterskih podataka. Na primjer, ESRI
rastere (datoteke .asc) moguće je učitati funkcijom readAsciiGrid(). Jednako kao i
kod vektorskih podataka, informacija o koordinatnom sustavu neće biti učitana. Pisanje
rasterskih formata moguće je napraviti putem writeAsciiGrid(). Paket maptools
također omogućuje snimanje prostorno referenciranih rastera funkcijom
kmlOverlay() u formatu PNG, kojom se mogu prikazati rasterski podaci na Google
Earthu.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
28
Napomena:
Paket maptools prilikom učitavanja shapefile datoteke u R-u ne može učitati i
informaciju o referentnom koordinatnom sustavu (CRS) već ga je potrebno naknadno
definirati na samom objektu u sustavu R.
Velik dio metoda za transfer prostornih podataka među različitim programima moguće
je napraviti putem već spomenute biblioteke GDAL tako da se funkcionalnosti maptools
biblioteke mogu zamijeniti odgovarajućim funkcijama paketa rgdal, na primjer, funkcije
za pisanje datoteka ERSI shp writeShapeLines(), writeShapeLines() i
writeShapePoly() iz biblioteke maptools mogu biti zamijenjene funkcijom
writeOGR() iz biblioteke GDAL (paket rgdal).
PRIMJER:
Učitajte u RStudio program naziva S730_maptools_rgdal.R.
Tipičan proces analize prostornih podataka u sustavu R mogao bi se opisati sljedećim
koracima:
pripremanje prostornih podataka u nekom GIS programu – ovaj korak nije nužan
unos pripremljenih podataka u sustav R
provedba analize
prezentacija prostornih rezultata uporabom grafike sustava R
pohranjivanje rezultata u formatima kompatibilnim GIS-programima
uporaba rezultata za daljnje GIS-analize ili kao tematska podloga.
Kako je sustav R slobodan i otvoren (engl. open source) tako vrlo često dijeli određene
komponente, u ovom tekstu uglavnom nazivane biblioteke, koje koriste i drugi otvoreni
programi, kao što su GDAL, OGR, PROJ.4 itd.
Strukturu prostornih podataka, kako ih definira paket raster, nećemo detaljno opisivati u
ovome dokumentu. Radi vrlo velike popularnosti, kroz primjer ćemo se upoznati s
radom u ovome paketu.
PRIMJER:
Učitajte program naziva S730_raster.R.
ZADACI ZA SAMOSTALAN RAD:
Učitajte program naziva S730_zadaci_raster.R i samostalno riješite zadatke.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
29
2.2. Vizualizacija prostornih podataka u sustavu R
Prednosti sustava R u segmentu vizualizacije geografski referenciranih podataka:
1. ako izrađujemo velik broj grafova
o izrada sličnih grafičkih prikaza na većem broju stranica
o kombiniranje većeg broja grafičkih prikaza
2. izrada neinteraktivnih prikaza
3. kontrola velikog broja detalja na grafici
4. veliki izbor grafičkih formata za pohranu
5. prijenos na različite platforme te potencijal daljnjeg razvoja.
Nedostaci sustava R u vizualizaciji prostorno referenciranih podataka su:
1. nemogućnost interaktivnog zumiranja, pomicanja karata (funkcije pan i slične funkcije), ali to je područje koje se trenutno vrlo brzo razvija
2. veliki broj grafičkih parametara koje je moguće podesiti, pa je ponekad teško pronaći koji parametar kontrolira pojedino svojstvo
3. nekompatibilnost grafičkih sustava (osnovni (graphics), lattice, ggplot).
Pored važnosti vizualizacije u prikazu konačnih rezultata istraživanja, vizualizacija
podataka je i neizostavan dio procesa analize prostornih podataka. Ona ponekad
otkriva procese i veze među opservacijama i time sugerira daljnji tijek analize. Tako se
vizualnom inspekcijom podataka mogu pronaći:
1. regionalni trendovi
2. prostorna ovisnost (autokorelacija) – ako se slične vrijednosti češće pojavljuju na međusobno bliskim lokacijama
3. prostorni uzorak u podacima i detekcija klastera.
PRIMJER: Integracija podataka iz različitih izvora i vizualizacija u sustavu R.
U RStudio učitajte program naziva S730_integracija_vizualizacija.R. U sklopu ovog programa upoznat ćete se s novim funkcijama u sustavu R koje se radi preglednosti neće spomenuti u ovome dokumentu i vidjeti praktičnu primjenu petlje for.
Napomena:
Tijekom postepenog provođenja programa objasnite svaku funkcionalnost koja se prvi
puta spominje kao što su funkcije read.xlsx() iz paketa xlsx te funkciju gsub() i
slično. Kako su imena funkcija intuitivna, ako se poznaje engleski jezik, polaznici će vrlo brzo pamtiti velik broj funkcionalnosti kada vide praktičnu primjenu.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
30
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
31
3. Uvod u analizu prostornih podataka
Analiza prostornih podataka uključuje bilo koju formalnu tehniku koja proučava objekte
analizirajući njihova topološka, geometrijska ili geografska obilježja. Generalno ime za
grupu znanstvenih disciplina koje se bave pronalaženjem rješenja za analizu prostorno
(i vremenski) referenciranih mjerenja nazivamo prostorno-vremenska analiza
podataka.
Intuitivno je jasno da je lokacija nekog fenomena važna u velikom broju struka i
znanstvenih područja. Primjer prve analize podataka koja je uključivala lokaciju pojave
od interesa, poznati je primjer izbijanja zaraze kolerom u Londonu, na području Soho-
a, 1854. godine. Dr. John Snow je, označivši na karti 600 adresa zaraženih sa smrtnim
ishodom te pumpe s kojih su zaraženi uzimali vodu za piće, ukazao na kontaminirani
izvor vode te na taj način zaustavio do tada nerazumljivo jako izbijanje bolesti.
Kolokvijalno se može reći da se prostorno vremenska analitika podataka sastoji od
dvije glavne grane:
1. geoinformacijske znanosti
2. prostorno-vremenske statistike.
Ipak, moguće je pronaći i mnogo znatno drugačijih podjela, na primjer:
1. analiza podataka dobivenih daljinskim istraživanjima
2. analiza točkastih procesa u prostoru (engl. point pattern analysis)
3. lattice / areal statistika – analiza vezana uz poligonske objekte
4. interpolacija i geostatistika – analitika kontinuiranih polja
5. geomorfometrija – specijalizirane kvantitativne analize topografije.
3.1. Proces analize prostornih podataka
Kao i u drugim granama statistike, proces analize može se opisati na sljedeći način:
1. postavljanje pitanja
2. razumijevanje podataka
3. izbor metode
4. izračun statistika
5. interpretacija statistika
6. značajnost statistika
7. propitivanje rezultata.
Način prikupljanja podataka (na prostornoj i vremenskoj skali) od izuzetne je važnosti u
davanju odgovora na praktičan ili znanstveni problem. Uzorak treba dizajnirati tako da
omogući dobivanje maksimale količine informacija o stvarnosti iz njezina malog dijela,
minimizirajući trošak i trud. Prostorno uzorkovanje odnosi se na dizajn uzorkovanja
gdje je izbor mjesta uzorkovanja dio dizajna. Vremenska komponenta prikupljanja
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
32
informacija u prostoru (prostorno – vremenskoj rezoluciji prikupljanja podataka i shemi
prikupljanja) također je jedan od ključnih aspekata prepoznavanja procesa u prirodi.
Nakon što imamo uzorak iz populacije analiza se može svesti na:
1. Deskriptivnu statističku analizu – numeričko sumiranje i vizualizacija.
Opisivanje i vizualizacija prostornih podataka uključuje: jednostavno kartiranje
podataka (točaka, linija, regija i površina (engl. grids, rasters), klasificiranje,
gustoću, nagibe i slično te kompleksne oblike poput vizualizacije međusobnih
veza. Kao i u klasičnoj statistici, deskriptivnu statistiku prostornih podataka
možemo razdijeliti na:
a. mjere prostorne centralne tendencije
b. mjere prostorne disperzije.
Metode koje koristimo ovise o vrsti prostornih podataka s kojima radimo (točke,
poligoni ili kontinuirana polja) kao i o vrsti varijable: kvalitativna ili numerička.
2. Inferencijalnu statističku analizu – statističko zaključivanje o populaciji na
temelju uzorka, pokušaj razumijevanja procesa te eventualnog predviđanja
temeljenog na našem razumijevanju pojave. Znači, nama je potreban model
(konceptualna ili matematička reprezentacija) iz kojeg zaključujemo o procesu.
Metode koje koristimo ovise o tipu prostornih podataka s kojima radimo (točke,
poligoni ili kontinuirana polja) kao i o tome analiziramo li jednu ili više varijabli.
Iako postoje mogućnosti provođenje analize na tri dimenzije prostora (nadogradnja u z
osi – visina ili dubina), analiza prostornih podataka uglavnom se radi na dvije
dimenzije. Vrlo se često treća dimenzija koristi kao prikaz dinamičkih pojava tj. za
prostorno vremenske podatke. U okviru ovog tečaja naš fokus će biti na
dvodimenzionalnim podacima (iako ćemo dati pregled načina pohrane prostorno
vremenskih podataka u sustavu R).
Tijekom godina, prostorna statistika izrasla je u samostalnu granu statistike s izrazito
dinamičnim razvojem metoda i algoritama. Jedna od najvažnijih karakteristika u
prostornoj statistici je nevjerojatna raznolikost metoda čemu je razlog što je paralelno
započela razvoj iz različitih disciplina. Metode analize prostornih podataka široko su
primjenjive: od analize položaja dijelova čipova, do analize i predviđanja položaja
galaksija u svemiru. Vrlo velik broj različitih područja primjene u kombinaciji s velikim
brojem mogućih oblika prostorno kodiranih podataka doveo je do nekoliko pristupa
podacima na fundamentalno drugačije načine.
3.1.1. Prostorni uzorak
Kako u klasičnoj, tako i u prostornoj statistici naši zaključci se donose temeljem uzorka
kojeg posjedujemo. U slučaju prostorne statistike zovemo ga prostorni uzorak. Jednako
kao i s klasičnim podacima kvaliteta našeg zaključivanja uvelike ovisi o
karakteristikama uzorka koji posjedujemo. Pojam prostornog uzorka se odnosi na
dizajn u kojem je izbor lokacije uzorkovanja dio dizajna eksperimenta. Uzorak se uzima
iz populacije što je pri prostornom uzorku cjelokupno geografsko područje od interesa.
Kako je uzorkovanje uvijek skupo i vremenski zahtjevno, cilj je svakog uzorkovanja, pa
tako i prostornog, dobivanje maksimalne informacije uz minimalan trošak. Pitanja koja
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
33
bi nas mogla zanimati, a za čije odgovore nam neophodno treba prostorni uzorak su
primjerice:
1. Davanje izjave koja opisuje prostor u cjelini - prosječna potrošnja po stanovniku;
količina biomase na području od interesa.
2. Kartiranje varijable od interesa - procjena varijable od interesa na cjelokupnom
području iz ograničenog broja mjerenja na točkama; varijabilnost procjene
promatranog parametra na području, vjerojatnost probijanja neke granične
vrijednosti, davanje prosjeka za neki proizvoljni dio unutar područja i slično.
3. Definiranje prostorne strukture - smjera, raspona, jačine međusobne ovisnosti.
4. Praćenje parametra kroz vrijeme.
Za rješavanje različitih pitanja potrebno je izabrati i različite prostorne uzorke.
Primjerice, ako dolazimo na područje o kojem nemamo nikakva saznanja, važno je
kreirati takav uzorak da zahvatimo cijeli raspon vrijednosti, ali i različite međusobne
udaljenosti lokacija kako bismo što kvalitetnije mogli kreirati
variogram/semivariogram (grafički prikaz koji ćemo objasniti kasnije u tekstu). Drugi
primjer bi bio kada želimo unaprijediti kvalitetu već kreiranih karata - u tom slučaju
naš bi uzorak trebao biti razmješten na način da su lokacije postavljene na mjesta
gdje se u prethodnom kartiranju pokazala najveća pogreška.
Proces prostornog uzorkovanja može se podijeliti na:
1. Definiranje istraživačkog pitanja – bez jasno definiranog istraživačkog pitanja
nemoguće je kreirati dobru shemu uzorkovanja. Istraživačko pitanje trebalo bi
biti maksimalno precizno. Istraživačka pitanja mogu biti:
a) generalna (primjerice: Koja je najčešća sorta duhana koja se sadi u
Međimurskoj županiji?)
b) prostorno eksplicitna (primjerice: Gdje se sade pojedine sorte duhana u
Međimurskoj županiji? Postoji li prostorna ovisnost prosječnog uroda
duhana po hektaru?).
Ključno je osigurati da svaka jedinka iz definirane populacije ima jednaku
šansu izbora u uzorak kako bi zaključivanje bilo korektno.
2. Definiranje ciljane populacije, varijable od interesa i traženog parametra
a) Definiranje populacije o kojoj donosimo zaključke - koja je precizna
populacija o kojoj želimo donositi zaključke? Ponekad je za ovo
potrebno definirati jasna pravila uključivanja/isključivanja iz uzorka. Ako
je naša populacija kontinuirana (svojstva tla, gustoća populacije i slično)
važno je odrediti način kreiranja diskretnih jedinki iz kontinuiranog
procesa (u geostatistici se ovaj koncept naziva i veličina podrške (engl.
support size). Definiranje jedinice uzorkovanja još je jedan važan
koncept u procesu planiranja prostornog uzorkovanja.
b) Definiranje varijable od interesa - prilikom kreiranja uzorka ponekad je
potrebno imati na umu da možemo u isto vrijeme imati nekoliko varijabli
o kojima želimo donositi zaključke. Primjeri su:
Zanimaju li nas karakteristike tla na 20-30 cm dubine ili na dubini
od 30-50 cm?
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
34
Je li tlo kontaminirano iznad dopuštene zakonske granice?
Koja je prosječna dob djece u domaćinstvu?
c) Definiranje parametra od interesa – koja je statistička mjera kojom
želimo sumirati ciljanu varijablu? Primjeri su:
Koja je prosječna veličina čestica tla na istraživanom području?
Koliki je raspon cijena kvadratnog metra nekretnina u Hrvatskoj?
3. Određivanje kojom ćemo mjerom procijeniti kvalitetu rezultata – neka od mjera
kojom ćemo prikazati kvalitetu našeg zaključivanja o populaciji temeljem
uzorka (primjerice interval pouzdanosti, stopa pogreške klasifikacije i slično).
4. Definiranje područja uzorkovanja – ovaj koncept se odnosi na definiranje svih
mogućih jedinica uzorkovanja jer ponekad uzorkovanje nekog dijela populacije
nije moguće. S ovim treba biti vrlo pažljiv budući da isključenje nekog dijela
populacije čini uzorak nereprezentativnim. Primjer bi bio odluka da se
uzorkovanje polja duhana provodi na četiri reprezentativna seoska naselja u
županiji, pri čemu moramo imati argumente da ova izabrana naselja uistinu
reprezentiraju cjelokupnu populaciju od interesa (naselja u županiji).
5. Definiranje sheme uzorkovanja.
6. Određivanje veličine uzorka – tj. broja jedinica (individua) koji ćemo
uzorkovati; ovaj način nam omogućuje i informaciju o proporciji populacije koja
će ući u uzorak. Primjer: Ako imamo područje od interesa od 100ha =
1.000.000 m2, a kao jedinicu uzorkovanja smo odredili područje od 10 x 10 m,
naša je cjelokupna populacija 106/102 = 104 mogućih jedinica uzorkovanja.
Ako napravimo uzorak veličine 50 jedinica, naš uzorak je obuhvatio 0.5%
populacije (50/104 = 0.005).
7. Određivanje plana uzorkovanja – unutar ovog koncepta razlikuju se dva
načina:
a) uzorkovanje prema dizajnu (engl. design-based)
b) uzorkovanje prema modelu (engl. model based).
8. Provođenje uzorkovanja.
Uzorkovanje prema dizajnu – bez stratifikacije
Najjednostavniji slučajni prostorni uzorak, pandan klasičnom potpuno slučajnom uzorku je potpuno slučajni prostorni uzorak. Njegove su karakteristike da:
sadrži opservacije (lokacije) na različitim udaljenostima
nije optimalan za kartiranje budući da može ostaviti velike praznine među lokacijama koje su ušle u uzorak
daje precizne procjene parametara populacije
logistički je vrlo težak i skup.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
35
Sistematski uzorak – na pravilnoj mreži (gridu):
pokriva područje ravnomjerno
slučajnost proizlazi iz slučajne početne točke mreže (lokacija na mreži), a
ostale točke se biraju na unaprijed određen sistematski način
logistički jednostavan za lociranje, ali nedostaju veće udaljenosti među
uzorcima
Kombinirani:
slučajno izabrani blokovi
unutar izabranog bloka izabire se potpuno slučajni ili sistematski uzorak
logistički skup dolazak do blokova, a jeftinije i jednostavnije uzorkovanje
unutar blokova.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
36
Uzorkovanje prema dizajnu – sa stratifikacijom
Vrlo često već posjedujemo neka znanja o populaciji (prostoru), npr. znamo da se ne
radi o homogenoj cjelini u odnosu na varijablu od interesa, već je populacija podijeljena
na stratume (disjunktne – nepreklapajuće subpopulacije). Tada se zaključci donose za
stratume unutar naše populacije. Primjer stratuma bili bi različiti stanišni tipovi na
nekom području, a varijabla od interesa količina proizvedene biomase. U ovome
slučaju prostorni uzorak i dalje može biti izabran kao:
a) potpuno slučajni uzorak, pri čemu se bilježi varijabla koja identificira područja
(stratume)
b) stratificirani uzorak, u skladu sa stratifikacijom populacije; postotak uzorka koji
će se uzeti iz pojedinog stratuma trebao bi biti proporcionalan:
1. veličini stratuma
2. varijabilnosti unutar pojedinog stratuma što zahtijeva naše apriorno
znanje (procjenu) varijabilnosti svojstva od interesa unutar pojedinih
stratuma
3. važnosti dobivanja kvalitetnih informacija o stratumu.
PITANJA ZA PONAVLJANJE:
1. Iz kojeg razloga biste se mogli odlučiti za uzorkovanje subpopulacije
umjesto cjelokupne populacije od interesa?
2. Je li statistički opravdano uzorkovanje jedino sela u dubrovačkoj županiji
koja su lagano dostupna cestom?
PRIMJER:
Otvorite u RStudiju program pod nazivom S730_prostorno_uzorkovanje.R.
Napomena:
Ovaj program nije obavezno izvesti, no ako polaznici brzo usvajaju gradivo, vrlo je
korisno upoznati se s funkcijom spsample() koja je pandan funkciji sample()
obrađenoj u tečaju S720.
3.2. Specifičnosti analitike u prostoru
Postoje brojne razlike u pristupu analizi prostorno referenciranih podataka u odnosu na
klasičnu statističku analizu, ali su ipak neke osnovne pretpostavke u oba slučaja
jednako važne. Spomenut ćemo samo neke od koncepata koji se ne smiju izgubiti iz
vida prilikom bilo koje analize, a to su koncept nepristranog uzorka i zavisnost /
nezavisnost opservacija (opažanja).
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
37
3.2.1. Slučajnost
Jedna od osnovnih zadaća statistike kao discipline je opisivanje i donošenje zaključaka
o populaciji temeljem izabranog uzorka (za koji je izuzetno važno znati kako je
dobiven). Da bi zaključivanje o populaciji na temelju uzorka bilo valjano, uzorak mora
biti izabran iz populacije na slučajan način. Ova pretpostavka vrijedi i u analitici
geografski referenciranih podataka. Uzorak koji nije slučajan je pristran i zaključivanje
temeljem ovakvog uzorka bit će pogrešno i u klasičnoj i u prostornoj statistici.
3.2.2. Zavisnost – nezavisnost opservacija (opažanja)
Svi klasični statistički testovi pretpostavljaju da su opservacije u skupu podataka
međusobno nezavisne i izbor jedne opservacije u uzorak ne smije ovisiti o ulasku neke
druge opservacije u uzorak. Ako se ova pretpostavka ne poštuje, smanjuje se broj
stupnjeva slobode (vidi priručnik tečaja S720). Ako metodu najmanjih kvadrata (engl.
Ordinary Least Square – OLS) primijenimo na autokoreliranim podacima, posljedice
prilikom donošenja zaključaka o populaciji su sljedeće:
1. Smanjuje se preciznost procijenjenih parametara (povećava se vjerojatnost
odbacivanja nulte hipoteze (H0) kada ona vrijedi – pogreška ili pogreška tipa
1).
2. Selekcija značajnih varijabli koje trebaju ući u model bit će pomaknuta prema
jače autokoreliranim varijablama, ponekad zvano i crveni pomak (engl. red
shift).
3. Prediktori koji djeluju na grubljoj rezoluciji češće su značajni od prediktora koji
djeluju na finijoj rezoluciji.
4. Selekcija modela koja se temelji na Akaike informacijskom kriteriju AIC dovest
će do izbora kompleksnijih modela, tj. modela s većim brojem prediktora (uočite
da se selekcija modela može bazirati na nekim drugim informacijskim
kriterijima).
Prije no što se počnete baviti analitikom geografski referenciranih podataka važno je
početi razumijevati koncepte koji ove podatke razlikuju od klasičnih skupova podataka
s kojima ste se susretali. Radi kratkoće ovog tečaja spomenut ćemo samo neke,
najvažnije.
3.2.3. Prostorna heterogenost
Pojam prostorne heterogenosti, u suprotnosti sa prostornom stacionarnošću, odnosi se
na varijabilnost (nestabilnost) promatranog parametra na prostornim jedinicama. Da
bismo karakterizirali takvu heterogenost (varijabilnost), koristimo metodu geografski
ponderirane regresije kojom procjenjujemo vrijednost parametra temeljem vrijednosti
parametra u susjedstvu. Susjedstvo se određuje na optimalan način metodom
unakrsne validacije (engl. cross validation).
Stacionarnost prostornog procesa označava konstantnost parametra na cjelokupnom
području od interesa R. Za proces se kaže da je striktno stacionaran ako za bilo koji
broj lokacija n > 1, te za bilo koji skup izabranih lokacija {s1, ... ,sn} R i za bilo koju
udaljenost h parova lokacija (si, sj), distribucija Y((s1), ...(sn)) jednaka je distribuciji
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
38
Y((s1+h), ... (sn+h)). Jednostavnije rečeno: stacionarnost pretpostavlja konstantnost
sredine i varijance varijable od interesa na području uzorkovanja.
3.2.4. Prostorna autokorelacija
Specifičnosti analize geografski referenciranih podataka leže u činjenici da je osnovno
svojstvo o nezavisnosti opservacija u uzorku prekršeno te vrijedi tzv. Toblerov prvi
zakon geografije da su sve pojave ovisne o svima drugima, ali da su one međusobno
bliže međusobno sličnije. Ako doista bliske pojave u prostoru jesu i sličnije – kažemo
da su one međusobno prostorno autokorelirane. Postoji veći broj definicija
autokorelacije i njezino određivanje svakako se smatra najvažnijim dijelom analize
prostornih podataka. Mnogi autori smatraju da je autokorelaciju jednostavnije opisati
njezinom negacijom: ako ne postoji veza između parova varijabli Xi i Xj (pogledati
poglavlje 7.3.3.1) za niti jedan par lokacija (i,j) na području istraživanja R, tada se može
reći da ne postoji autokorelacija među Xi, Xj; nedostatak prostorne autokorelacije na
kartiranom uzorku ne odstupa znatno od karte gdje je svaka vrijednost Xi dodijeljena
slučajno i s jednakom vjerojatnošću svakoj (i, j) lokaciji na karti.
Pojam autokorelacije (prostorne autokorelacije) označava stupanj u kojem skup
prostornih značajki i njima pridružene vrijednosti varijabli od interesa (atributa) imaju
tendenciju grupiranja u prostoru. Ovim ćemo se konceptom detaljno baviti u okviru
ovog tečaja. Vrsta analize koju ćemo primijeniti da bismo ovaj koncept kvantificirali
uglavnom ovisi o vrsti prostornih podataka s kojom ulazimo u analizu (pravilni rasteri,
točke ili poligoni), ali i o skali mjerenja varijabli (atributa) čija nas povezanost zanima
(kontinuirane varijable nasuprot nominalnih). Svaka kombinacija tipa prostornih
informacija – atributa zahtijeva nešto drugačiji pristup u određivanju mjera prostorne
povezanosti iako je ideja jednaka: ispituje se povezanost između područja ili točaka na
različitim udaljenostima (razinama odvajanja), koncept sličan analizi vremenskih serija.
Imajući međusobno isključive (disjunktne - nepreklapajuće) prostorne jedinice, ako
postojanje / odsustvo ili stupanj nekog svojstva utječe na pojavnost tog svojstva u
susjednim prostornim jedinicama, taj fenomen nazivamo prostorna autokorelacija.
Autokorelacije može biti pozitivna, ali i negativna i govori o stupnju povezanosti dvije ili
više (prostornih) varijabli. Ova rečenica može zbuniti nekog tko se prvi puta susreće s
prostornim podacima čije se vrijednosti na određenoj lokaciji smatraju autonomnim
slučajnim procesom. Time se odnos između mjerenja na dvije lokacije u biti smatra
odnosom dviju nezavisnih varijabli. Za one koji žele razumjeti ove pretpostavke,
potrebno je upoznati se s teorijom slučajnih polja (pogledati poglavlje 7.3.3.1). Postoje
analitičari prostornih podataka koji se s ovom teorijom ne slažu. Uporaba pretpostavki
ove teorije na praktičnim podacima pokazala se izuzetno korisnom. Međutim postoje i
definicije koje su intuitivno prihvatljivije, primjerice: Prostorna ovisnost je mjera kojom
opisujemo stupanj ovisnosti izmjerene vrijednosti varijable i vrijednosti iste varijable na
bliskoj lokaciji (Fotheringham et al, 2002). Važno je imati na umu da prostorna
autokorelacija nije isključivo vezana uz geografski prostor, iako ćemo se mi služiti ovim
izrazom upravo u ovome kontekstu.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
39
Autokorelacija izvan konteksta geografski referenciranih podataka
Pojam autokorelacije potječe iz analitike vremenskih serija i odnosi se na korelaciju
opservacija u univarijatnoj statistici. Kao i općenito u konceptu korelacije, dokazana
koreliranost ne znači uzročnost (kauzalnost) veze.
Postoji više razloga postojanja autokorelacije između opservacija, a generalno vrijedi
ova podjela:
1. kreirana autokorelacija
2. stvarna autokorelacija.
Različiti autori ove dvije grupe nazivaju različitim imenima, ali bitno je razumijevanje i
razlozi postojanja.
Kreirana autokorelacija podataka
Ovaj oblik međusobne povezanosti opservacija je artefakt loše postavljenog
eksperimenta. Vrlo se često nalazi u podacima koji nisu na slučajan način izabrani u
uzorak.
Stvarna autokorelacija podataka
Stvarna autokorelacija podataka najprije je opisana na podacima vremenskih serija.
Drugi način podjele uzroka nastanka prostorne autokorelacije u podacima je na:
1. vanjske, egzogene uzroke
Egzogeni procesi pojavljuju se bez obzira na varijablu od interesa. Primjeri za
ove procese su geološke barijere, količina oborina, smjer vjetrova, poplave,
požari i drugi oblici katastrofa.
Primjer ovakvog procesa je i prostorni raspored stabala određene vrste u
šumskom ekosustavu gdje su egzogeni procesi klima i šumsko tlo te potencijal
za akumulaciju vode doveli do generalne distribucije vrste stabala.
2. endogene uzroke
Endogeni procesi su oni koji su karakteristika neke populacije od interesa, tj.
varijable koju modeliramo, primjerice, mogućnost disperzije vrste ili kompeticija
među vrstama.
U primjeru s distribucijom vrste stabala, klasteriranje stabala u šumi uzrokovano
je endogenim procesom, tj. ograničenim dometom sjemena od stabla.
Generalno se može reći da endogeni procesi djeluju na finijoj rezoluciji (engl. scale) od
egzogenih, ali to nije nužno uvijek tako. Uz to, vrlo često se ne može odrediti koji
procesi su doveli do nekog prostornog rasporeda, budući da je prostorni raspored
nastao djelovanjem većeg broja procesa.
Ovaj pojam vrlo se često koristi prilikom opisa podataka u prirodnim znanostima,
primjerice ekologiji.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
40
Autokorelacija – koncept i formulacija
Ako uzorak čini skup od n parova vrijednosti {xi, yi} varijabli x i y, mjera korelacije
između njih je omjer njihove kovarijance (način na koji zajednički variraju) s umnoškom
kvadratnih korijena varijance svake varijable. To je zapravo način standardiziranja
kovarijance prosječnom disperzijom svake varijable, kako bi se osiguralo da je
koeficijent korelacije r, u rasponu [-1,1]. Uočite da r nema jedinice mjerenja. Koeficijent
korelacije r se prikazuje formulom:
𝑟 =∑ (𝑥𝑖 − �̅�)(𝑦𝑖 − �̅�)𝑛
𝑖=1
√∑ (𝑥𝑖 − �̅�)𝑛𝑖=1
2 √∑ (𝑦𝑖 − �̅�)𝑛𝑖=1
2
Pretpostavimo sada da umjesto skupa parova vrijednosti {xi, yi} imamo skup od n
vrijednosti, {xt}, koje predstavljaju mjerenja izmjerena u različitim vremenskim
razdobljima, t = 1,2,3,4, ... n, na primjer, dnevne razine oborina u pojedinom mjestu ili
završne dnevne cijene neke dionice ili robe. Sljedeća slika prikazuje tipičnu vremensku
seriju cijena dionica: plava crta je zaključna cijena dionica na kraju svakog dana
trgovanja, a crvene i crne linije označavaju vremensku seriju s pomakom od 7 i 14
dana unaprijed (ili unatrag) : {xt, xt + 7, xt + 14, xt + 21, ...} i {xt, xt + 14 , xt + 28, xt + 42,
...}.
U uzorcima s dnevnim količinama oborine ili dnevnim cijenama robe često možemo
primijetiti neki oblik pravilnosti tijekom vremena. Na primjer, može se pokazati da dani s
oborinama obično slijede u nizu, dok dani bez oborina često slijede iza dana sličnih
karakteristika. Ovo bi bio primjer vrlo jake pozitivne korelacije između količine oborina u
uzastopnim danima, odnosno u danima koji su međusobno u razmaku od jednog dana.
Skup "dan 1" vrijednosti možemo smatrati jednom serijom, {xt, 1}, t= 1,2,3 ... n-1, a
skup "dan 2" vrijednosti kao drugu seriju {xt, 2}, t = 2,3 ... n, te izračunati koeficijent
korelacije za ove dvije serije na analogni način kako je izračunat koeficijent korelacije r
(vidi gornju formulu).
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
41
Svaka serija ima pripadnu srednju vrijednost:
�̅�.1 =1
𝑛−1∑ 𝑥𝑡
𝑛−1𝑡=1 i �̅�.2 =
1
𝑛−1∑ 𝑥𝑡
𝑛−1𝑡=2
Uz ove dvije sredine korelacijski koeficijent r izračunava se po formuli:
𝑟.1 =∑ (𝑥𝑡 − �̅�.1)(𝑥𝑡+1 − �̅�.2)𝑛−1
𝑡=1
√∑ (𝑥𝑡 − �̅�.1)2𝑛−1𝑡=1 √∑ (𝑥𝑡+1 − �̅�.2)2𝑛−1
𝑡=1
Ako je n relativno velik, tada su vrijednosti 1 / (n-1) vrlo blizu vrijednosti
1 / n, a vrijednosti dvije srednje vrijednosti i standardne devijacije će biti gotovo iste,
tako da se gornji izraz može pojednostaviti:
𝑟.1 =∑ (𝑥𝑡 − �̅�)(𝑥𝑡+1 − �̅�)𝑛−1
𝑡=1
∑ (𝑥𝑡 − �̅�)2𝑛𝑡=1
Ovaj izraz poznat je kao serijski korelacijski koeficijent za pomak od 1 vremenskog
intervala (koraka). Koeficijent se može generalizirati za različite vremenske korake 2, 3,
... na način:
𝑟.𝑘 =∑ (𝑥𝑡 − �̅�)(𝑥𝑡+𝑘 − �̅�)𝑛−𝑘
𝑡=1
∑ (𝑥𝑡 − �̅�)2𝑛𝑡=1
Koeficijent autokorelacije, koji opisuje ovaj pojam, pojavljuje se u literaturi od 1950-ih
godina. Brojnik izraza predstavlja kovarijancu za vremenski pomak k dok je nazivnik
kovarijanca s vremenskim pomakom 0. U analizama vremenskih serija vremenski
pomak je uvijek konstantan. Skup koeficijenata korelacije r za različite pomake k: {r,k}
može se prikazati i grafički kako bi se vidjela struktura korelacije u ovisnosti o
vremenskom pomaku. Taj je grafički prikaz poznat pod nazivom korelogram.
Za slučajni niz vrijednosti r.k može se pokazati da ima normalnu distribuciju N(0,1 / n).
Ako postoji kratkoročna korelacija, kao u našem primjeru s kišom, r.k će biti vrlo visok
(blizu +1), a kada veličina pomaka premaši vremenski raspon unutar kojeg korelacija
postoji r.k će se smanjiti na otprilike 0. Moguće je, naravno, da ukupni uzorak oborina
pokazuje stalan rast tijekom vremena. U tom slučaju korelogram neće težiti nuli na
očekivani način. Tada za seriju možemo reći da je nestacionarna te je prije samog
provođenja analize potrebno iz podataka ukloniti trend (na izvornim točkama podataka
oduzima se vrijednost trenda u odnosu na vremenske pomake 1,2,3).
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
42
Ovi komentari primjenjuju se na serije s jednom dimenzijom - vremenom. Proširenje
ovog koncepta na prostorne podatke svodi se na generalizaciju prethodne ideje (o
postojanju jedne dimenzije na kojoj se prati autokorelacija u vremenu uz jednake
vremenske intervale), tj. na višedimenzionalnu autokorelaciju (podataka u prostoru),
gdje razmaci između opservacija nisu u jednakim intervalima.
3.2.5. Specifičnosti geometrije na sferi
Poznavanje lokacije omogućuje određivanje udaljenosti i smjera između objekata.
Udaljenost i smjer između objekata vrlo je jednostavno izračunati (paket gdistance).
Kako je Zemlju najlakše opisati sferom (o detaljima smo više rekli u temi o lokalnim
koordinatama) važno je imati na umu da, ako radimo izračune udaljenosti i smjera u
geografskim koordinatama, uporaba klasične, Euklidske matematike, nije
odgovarajuća. Ona će biti dovoljno precizna jedino za male udaljenosti jer spaja
objekte najkraćom linijom kroz unutrašnjost sfere. Za veće udaljenosti potrebno je
koristiti matematičke metode velikog kruga (engl. great circle distance) koje računaju
udaljenost između objekata na površini sfere. Paketi koji omogućavaju izračune na
sferi su paketi geosphere i fossil.
Moguće je izračunati i prave udaljenosti između objekata u prostoru poznavajući
putove kojima se mogu kretati, a time i procijeniti potrebno vrijeme puta (cestovne
mreže). Ove analize se uglavnom provode uz pomoć tzv. reprezentativnih točaka
objekta kao što su središnja točka linije, centroid poligona i slično. Za velike prostorne
objekte analiza putem reprezentativnih točaka može biti zavaravajuća.
3.2.6. Ekološka zabluda i problem promjenjivih jedinica površine (MAUP)
Ako je neka pojava prikazana u obliku točaka, tj. posjedujemo informaciju o točnim
koordinatama (primjerice koordinate pojavnosti nekog oblika kriminala, pojava munja,
centroidi naselja ili lokacije restorana), načini agregiranja značajno utječu na konačne
rezultate analize.
Ekološka zabluda, pri čemu se ne govori o ekološkim podacima, pojava je krivog
zaključivanja o svojstvu pojedinog događaja na temelju agregiranih podataka. Ovaj
problem prepoznat je u većem broju znanstvenih disciplina kao što su ekonomija,
geografija, političke znanosti i sociologija. Navedene discipline u velikoj se mjeri
temelje na vrijednostima mjerenim na jedinkama, ali agregiranim prema geografskim
regijama. Većina socioekonomskih istraživanja provodi se na individualnoj razini. Ipak,
iz različitih razloga, podaci se agregiraju na različite načine. Zaključci o jedinkama
temeljeni na agregiranim regionalnim podacima dovode, naravno, do krivih zaključaka.
Problem ekološke zablude uvelike je povezan i s drugim fenomenom kojeg moramo biti
svjesni prilikom analize geografski referenciranih podataka. Radi se o problemu
promjenjivih jedinica površine (engl. Modifiable Area Unit Problem - MAUP).
Jednostavno rečeno, MAUP nam ukazuje na to da ćemo crtanjem granica na drugačiji
način i agregiranjem podataka prema tim granicama dobiti i različite rezultate analize.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
43
4. Uključivanje informacije o međusobnim odnosima opservacija u analizu
Informacija o koordinatama nekog proučavanog fenomena u prostoru u analizu se
može uvesti:
1. kao eksplicitna informacija o geografskoj koordinati
2. uključivanjem rezultata zasebne analize o međusobnim prostornim odnosima
(topologiji definiranoj susjedima).
4.1. Prostorni odnosi - topologija
Prostorna topologija – skup odnosa koji mogu imati prostorni objekti jedan prema
drugomu i razumijevanje procesa koji se mogu dogoditi kada se dva ili više objekata
nađu zajedno u prostoru (engl. co-location).
Sedam je glavnih prostornih odnosa:
1. objekti su identični
2. objekti se dodiruju – jedna zajednička
točka
3. objekti se preklapaju – veći broj
zajedničkih točaka
4. jedan objekt sadržava drugi (nema dodira
granica)
5. objekti ne dijele ništa zajedničko
6. objekti se prekrivaju (A prekriva B, objekti
se dodiruju na granici)
7. objekti se križaju tj. sadrže barem jednu
zajedničku točku.
Testiranje topoloških odnosa u prostoru je standardna metoda opisa prostornih odnosa
objekata u prostoru (dvije geometrije na dvije dimenzije prostora). Model koji testira ove
odnose nosi naziv Dimensionally Extended Nine-Intersection Model (DE-9IM)
(http://suite.opengeo.org/opengeo-docs/dataadmin/pgAdvanced/de9im.html).
Unutar sustava R možemo propitivati kolokaciju dva objekta unutar više paketa, ali u
svojoj osnovi oni svi koriste funkcionalnost biblioteke GEOS, paketa rgeos. Paket rgeos
(engl. Geometry Open Source GEOS) je biblioteka koja omogućuje rad s bazama
prostornih podataka kao što je PostGIS i radi sve uobičajene operacije na
geometrijama. Analiza kojom propitujemo istovremeno postojanje većeg broja objekata
na istoj lokaciji (engl. co-location) radi se metodama preklapanja (engl. overlay). Ovaj
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
44
oblik analize moguće je raditi na svim međusobnim kombinacijama vektorskih i
rasterskih objekata.
PRIMJER:
u Rstudiju otvorite program naziva S730_rgeos_primjeri.R.
4.2. Uključivanje međusobne ovisnosti među opservacijama u analizu
Da bi informacija o povezanosti u prostoru mogla biti uključena u neki oblik analize
prostorno referenciranih podataka, razvijene su različite metode ovisno o tipu
prostornih podataka s kojima ulazimo u analizu:
1. točkastim procesima
2. poligonskim podacima
3. točkastim mjerenjima kontinuiranih pojava.
Metode koje su razvijene s ciljem mjerenja međusobne povezanosti prostornih
podataka u ovisnosti o tipu prostornih podataka poznate su pod nazivom matrice
prostornih težina. One su posebno bitne pri analizama diskretnih prostornih objekata.
Matrice težina generalno mjere ili sličnosti među prostornim objektima, kao primjerice
matrice susjedstva, ili različitost (matrice temeljene na udaljenostima između prostornih
objekata).
Unutar analitike prostorno referenciranih podataka za kontinuirane procese postoje tri
glavna načina određivanja prostorne povezanosti između opservacija u Gaussovom
procesu i to su:
1. korelogram (ranije smo ga upoznali)
2. kovariogram
3. semivariogram (kolokvijalno zvan i variogram).
Iako se u različitim analizama koristi samo jedna funkcija (korelacija, kovarijanca ili
semivarijanca) sve su tri funkcije linearno povezane.
U dijelu koji se bavi specifičnostima analitike kontinuiranih procesa i interpolacijama
upoznat ćemo se detaljnije s funkcijom variogram.
4.2.1. Međusobna povezanost diskretnih prostornih pojava
Matrice prostornih težina – W
Za velik broj analiza potrebna nam je informacija o relativnim vezama između parova
objekata. Ona se smatra općim potencijalom interakcije između pojedinih parova
objekata. Prvi korak u određivanju međusobne povezanosti među objektima u prostoru
(engl. connectivity) je jasno definiranje susjedstva svakog objekta iz čega se izvodi
matrica prostornih težina (engl. spatial weights matrix).
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
45
Matrica prostornih težina je snažan objašnjavajući faktor kod fenomena kao što je
jačina socijalnih interakcija, brzina širenja zaraznih bolesti, priljev migranata i dr.
Općenito rečeno, prostorne težine su brojevi koji odražavaju vrijeme, dostupnost ili
druge troškove između objekata u prostoru.
Postoji nekoliko načina izračuna matrice prostornih težina (W), a izbor izračuna
uglavnom ovisi o tipu podataka i trebao bi reflektirati izvornu povezanost procesa koji
modeliramo. Tako postoje:
Težine određene ne temelju susjedstva (engl. Contiguity Based Weights)
Prvi korak u kreiranju matrice prostornih težina je određivanje susjeda prostornom objektu koje je različito u odnosu na tip prostornog objekta tj. model kojim neki prostorni objekt prezentiramo.
Definiranje susjedstva na regularnoj mreži
Na regularnoj mreži, susjedstvo se određuje na tri osnovna načina:
Rook Bishoop Queen (King)
Koncept definiranja susjedstva vrlo je koristan kada radimo s regularnim podacima
(mreža, grid), podacima koje je jednostavno matematički sumirati. Kada se prostorni
podaci sastoje od nepravilnih poligonskih jedinica, što je slučaj kod većine prostornih
podataka (primjerice administrativne jedinice, države, naselja) koncept definiranja
susjeda postaje znatno kompleksniji.
Definiranje susjedstva na nepravilnim poligonima
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
46
Određivanje susjedstva na nepravilnim poligonima može se napraviti jednako gore
navedenim načinima za podatke na regularnoj mreži, tako ponovno imamo:
Rook – poligoni koji dijele zajedničku granicu s više zajedničkih točaka.
Problemi ovakvog definiranja susjednih poligona pri kreiranju matrice prostornih
težina su područja bez susjeda pa se postavlja pitanje treba li se težina staviti
na 0 ili na nepostojeću vrijednost. Ova odluka u velikoj će mjeri utjecati na
numeričku vrijednost izračunate prostorne povezanosti (autokorelacije) na
podacima. U ovome slučaju poligoni 039 i 067 neće biti prepoznati kao susjedi.
Queen – susjedi definirani kao objekti koji imaju barem jednu zajedničku točku –
verteks. U ovome slučaju poligoni 039 i 067 smatraju se susjednim poligonima.
Susjedstva mogu biti prvog, ali i viših redova.
Određivanje susjedstva za točke
Određivanje susjedstva na točkastim objektima može se napraviti putem direktne
udaljenosti do prvog ili n-tog susjeda, ali i nekim od grafičkih metoda raspodjele
ukupnog prostora nekoj od prostornih točaka, primjer:
Voronoi ili Dirichlet dijagram – način raspodjele prostora oko centra. Ovako
kreirane granice su arbitrarne i njihova duljina ovisi o korištenom algoritmu.
Kada imamo određeno susjedstvo (binarne indikatore veze prostornih objekata)
kreiramo prostorne težine – kvantificiramo matricu W. Da bismo to napravili, možemo
koristiti neku od velikog broja mogućnosti, kao što su primjerice duljina zajedničkih
granica, inverzna udaljenost, dostupnost te mnoge druge.
Težine na temelju međusobne udaljenosti (engl. Distance Based Weights)
Drugi način određivanja prostornih težina je određivanje temeljem međusobnih
udaljenosti prostornih objekata:
k najbližih susjeda (engl. k nearest neighbor; K-NN algoritam) – najbližih k
objekata bez obzira na njihovu udaljenost dobivaju vrijednost 1, inače 0. Ovaj
oblik matrice vrlo se često koristi na nepravilnim poligonskim objektima
koristeći reprezentativne točke, na primjer, centroide, kao predstavnike
poligona.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
47
Radijalno definirana zona djelovanja – svi objekti unutar određenog pojasa
dobivaju vrijednost 1, inače 0 (engl. sphere of influence).
Inverzna udaljenost – svi prostorni objekti djeluju na sve, ali njihov utjecaj
opada kvadratom međusobne udaljenosti.
Zona indiferencije – metoda koja kombinira zonu djelovanja i inverznu
udaljenost.
Opće težine – korisnički definirane prema poznavanju procesa koji se
modelira.
Cliff-Ord težine – težine koje kombiniraju duljinu zajedničkih granica i
međusobnu udaljenost objekata.
Wij =[dij]-a [bij]b
dij – udaljenost između i, j
bij – zajednička granica koju dijele i, j unutar zadanog opsega
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
48
Matrica inverzne udaljenosti – Wij =1/dija gdje se a određuje proizvoljno, ali
najčešće a=2 (kvadrat udaljenosti) čime se definira gravitacijski model.
Socijalno – ekonomske težine
Wij= 1 za sve i, j unutar nekog bloka, na primjer, države – hijerarhijski model.
Wij= 1/|ri-rj| - gdje je r ukupna stopa zaposlenosti.
Struktura kovarijance kojom unosimo informacije o međuovisnosti prostornih objekata
uvelike ovisi o odabranoj matrici prostornih težina, ali i o odabranom prostornom
procesu. Postoji vrlo malo smjernica na koji način izabrati "ispravnu" matricu prostornih
težina za pojedine aplikacije. U pravilu se dobiveni rezultati validiraju na neki od načina
kao što su unakrsna validacija (engl. cross validation), testiranje kvalitete podudaranja
(engl. goodness of fit) te se loš odabir ovim putem eliminira.
Od definiranja povezanosti (susjedstva) do prostornih težina
Iz gore prikazanih definicija susjedstva dobiva se matrica prostornih težina na način:
Na slikama gore je prikazan jedan hipotetski slučaj, poligonski prikazani prostorni
objekti (područje) te prikaz veza susjedstva u području
1. Matrica prostornih težina prvog reda - najjednostavniji oblik matrice - radi se
na način da mjesta koja su definirana kao susjedi dobivaju vrijednost 1,
inače 0.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
49
2. Matrice prostornih težina viših redova – opisuju susjede prvog i višeg reda -
kao rezultat daju graf prezentacije površine povezanosti kao što je primjer
na slici.
Susjedstva viših redova u sustavu R određuju se uporabom funkcije nblag() iz
paketa spdep.
Ovisno koji oblik definiranja susjedstva odaberemo, dobit ćemo različitu strukturu
kovarijance. Pokazalo se da za mnoge prostorne statistike standardizacija prostornih
težina pruža točnije rezultate. Moguće je izraditi nekoliko varijanti standardiziranih
matrica (oznake dane kako ih kodira paket spdep):
1. osnovna, binarna matrica – kôd B
2. standardizirana unutar retka – ukupan zbroj u retku je broj susjedstva – kôd W
3. globalno standardizirana matrica – kôd C
4. matrica slična standardiziranoj matrici C, ali standardizirana brojem susjeda –
kôd U
5. matrica standardizirana varijancom – kôd S
6. matrica koja dijeli težine s minimumom ((maksimuma suma
redaka),(maksimuma suma stupaca)) – kôd „minmax“.
Izrada matrica prostornih težina za vektorske, poligonske podatke u sustavu R
Unutar sustava R postoji mogućnost izrade svih oblika matrica prostornih težina. Za to
su nam potrebne biblioteke McSpatial, spdep te ade4 i funkcije nb2neig(),
neig2nb(), dnearneigh(), cell2nb() i druge, ovisno o izboru matrice koju
radimo. Ako kreiramo susjedstva viših redova za to će nam biti potrebna funkcija
nblag(). Također, moguće je matrice prostornih težina pripremiti i u nekom od
specijaliziranih programa kao što je open source program GeoDA
(http://geodacenter.asu.edu/) te rezultat učitati u program R funkcijom read.gal()
paketa spdep.
Područja koja dijele barem jednu zajedničku točku smatraju se susjednim područjima.
Unutar sustava R, ovaj oblik susjeda (Queen - King) može se izračunati funkcijom
poly2nb() na ranije učitanoj shapefile datoteci poligonskog tipa.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
50
Primjeri:
Izrada matrica prostornih težina u sustavu R.
Otvorite program pod nazivom S730_matrice_susjedstva.R.
>library(maptools)
>library(rgdal)
>library(spdep)
>getinfo.shape("HRV_adm2.shp") #maptools biblioteka, ispis informacije o strukturi shapefile datoteke (vidi nastavak)
Shapefile type: Polygon, (5), # of Shapes: 560
>opcine <- readOGR(getwd(),"HRV_adm2", verbose = TRUE, stringsAsFactors=FALSE) #učitavanje shapefile-a bibliotekom "rgdal"
>str(opcine)
>head(opcine@data)[1:7]
ID_0 ISO NAME_0 ID_1 NAME_1 ID_2 NAME_2
0 57 HRV Croatia 8 Krapinsko-Zagorska 180 Krapinske Toplice
1 57 HRV Croatia 8 Krapinsko-Zagorska 181 Kumrovec
2 57 HRV Croatia 8 Krapinsko-Zagorska 182 Lobor
3 57 HRV Croatia 8 Krapinsko-Zagorska 183 Mace
4 57 HRV Croatia 8 Krapinsko-Zagorska 184 Marija Bistrica
5 57 HRV Croatia 8 Krapinsko-Zagorska 185 Mihovljan
>opcine_queen<-poly2nb(opcine)
Neighbour list object:
Number of regions: 560
Number of nonzero links: 2756
Percentage nonzero weights: 0.8788265
Average number of links: 4.921429
12 regions with no links:
85 88 300 308 309 311 325 326 327 411 522 529
Link number distribution:
0 1 2 3 4 5 6 7 8 9 10 11 12 13 15 16
12 19 28 70 112 111 100 53 30 12 6 3 1 1 1 1
19 least connected regions:
24 82 86 96 97 132 295 312 317 385 394 407 420 478 479 518 519 520 528 with 1
link
1 most connected region:
106 with 16 links
>opcine_susjedi_višeg_reda <- nblag(opcine_queen, maxlag=4) #susjedstva višeg reda
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
51
Napomena:
Obratite pažnju na moguće definiranje parametra snap unutar funkcije poly2nb() pri
određivanju susjedstva. Ako radimo Rook susjedstvo, barem dvije točke moraju biti
unutar definirane snap udaljenosti. Definiranje parametra snap može biti vrlo korisno
kada želimo definirati susjedstvo čak i kad postoji neka manja prepreka – cesta, kanal
ili slično.
4.3. Mjere opće povezanosti podataka
Najčešći elementi različitih prostornih modela su dvije matrice:
1. matrica koja prezentira povezanost među lokacijama
2. matrica vrijednosti atributa na lokacijama.
Sve mjere međusobne povezanosti prostornih podataka u biti su neki oblici općeg
unakrsnog produkta dvaju matrica (elementi matrice unakrsnog produkta dobivaju se
množenjem elemenata na odgovarajućim pozicijama dvaju pojedinačnih matrica):
Γ = ∑ ∑ 𝑊𝑖𝑗𝐶𝑖𝑗
𝑗𝑖
gdje je W = (Wij) - matrica prostornih težina koje treba izračunati – dobivamo je iz
matrice susjedstva procesom standardizacije. Funkcija je neka od mjera susjedstva
originalnih podataka.
C = (Cij) - matrica udaljenosti između izmjerenih vrijednosti na parovima lokacija i, j,
definirana nekom od mjera udaljenosti (npr., Euklidskom, sferičnom, Manhattan ili
slično).
Sve mjere autokorelacije (engl. joint-count statistika, Moran I i ostali indeksi o kojima
ćemo govoriti u nastavku) neki su oblici unakrsnog produkta ovih dvaju matrica.
4.3.1. Izračun opće mjere međusobne povezanosti prostornih
podataka.
Zamislimo slučaj gdje imamo lokacije, položaj prostornih objekata, na kojima smo
izvršili mjerenja. Područje (lokacije) je prikazano na slici:
Vrijednosti varijable od interesa (X) mjerene na gornjim lokacijama.
Na našem primjeru, srednja vrijednost mean(X)=5, suma kvadriranih devijacija (xi-
mean(X)) 2 = (xi-5)2= 60.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
52
Združene lokacije s pripadajućim vrijednostima varijable zovemo mapa ili karta:
W matrica određena je kao rešetka 9 x 9 gdje su redci i stupci označeni oznakom
položaja (slika gore). Kada su dvije ćelije susjedne u izvornim podacima, u matricu W
na odgovarajuću poziciju unosimo vrijednost 1, a kada nisu unosimo vrijednost 0.
Primjer:
Na mapi koja područja ćelija a susjedna je ćelijama b i d ako susjedstvo definiramo kao
Rook susjedstvo.
Sljedeći korak prije utvrđivanja unakrsnog produkta je kreiranje matrice C, koja je iste
dimenzije kao matrica W, a elementi su joj neka mjera udaljenosti vrijednosti
zabilježenih na lokacijama. Da bismo to napravili moramo za svaku lokaciju, primjerice
lokaciju a, vrijednost varijable na lokaciji a oduzeti od svih drugih vrijednosti (b, c, d, e,
f, g, h). Na slici dolje prikazan je primjer za Euklidsku udaljenost (xi - xj)2.
Matrica C ovdje je zadana kao kvadrat Euklidske udaljenosti:
Primjer računanja udaljenosti vrijednosti vrijednosti varijable na lokacijama:
(a,a): (a-a)2=0; (a,b): (a-b)2=(9-6)2=9; (a,c): (9-3)2=36, itd.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
53
Da bismo izračunali unakrsni produkt matrica (engl. cross product) odgovarajući
elementi matrica se pomnože i dobivene vrijednosti zbroje:
Konačni rezultat je skalar , u ovome slučaju vrijednost 120, koji nema nikakvo
značenje jer ne znamo kontekst. Ovo je samo jedna realizacija mape (konstelacija) od
mogućih n! (n faktorijela: 1*2*…*n), tj. drugačija randomizacija istih izmjerenih
vrijednosti iste varijable po lokacijama daje novu mapu. Značajnost dobivene
vrijednosti određuje se randomizacijskim testovima, gdje se slučajnim permutacijama
mijenjaju položaji vrijednosti na karti te ponovno izračunava generalni unakrsni produkt
. U prikazanom slučaju, vrijednost 120 vrlo je vjerojatna vrijednost. Postoji niz općih
mjera prostorne autokorelacije koji su izvedene iz općeg unakrsnog produkta.
Najvažniji su Moran I indeks, Gearyjev C i variogram. U manjoj mjeri to je i indeks
povezanosti binarnih podataka (engl. joint-count).
4.3.2. Tipovi prostorne autokorelacije
Prostornu autokorelaciju možemo računati globalno (na cijelom području) i lokalno (na
dijelovima područja).
Mjere globalne prostorne autokorelacije (povezanosti)
Globalna statistika otkriva i mjeri prostorni uzorak na cijelom području od interesa pri
čemu ne otkriva u kojem se dijelu značajni uzorak događa. Dobivena jedinstvena
globalna statistika odnosi se na cjelokupan set podataka (mapu). Predstavnici mjera
globalne prostorne autokorelacije podataka su indeksi Moran I i Geary C.
Indeks Moran I
Indeks Moran I mjeri ukupni stupanj prostorne autokorelacije varijable(i) na dvo i
trodimenzionalnom prostoru. Varijabla za koju računamo ovaj indeks mora biti mjerena
barem na intervalnoj skali. Indeks po svojoj strukturi sličan Pearsonovom koeficijentu
korelacije pri čemu uzima u obzir prostornu matricu težina. Vrijednosti indeksa su
(analogno Pearson koeficijentu korelacije) u rasponu od -1 do +1 gdje -1 označava
snažnu negativnu autokorelaciju, 0 potpuno slučajni raspored vrijednosti po lokacijama,
a +1 snažnu prostornu autokorelaciju (klasteriranje sličnih vrijednosti u prostoru).
Ako međusobno bliski prostorni objekti imaju sličnu vrijednost mjerene varijable, Moran
I će biti pozitivan; suprotno, ako susjedni objekti u prostoru imaju različite vrijednosti
(regularan raspored) I poprima negativnu vrijednost. Ako ne postoji veza između
susjednih lokacija tad je očekivanje E(I) = -1/(n-1).
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
54
Ako broj mjerenja teži beskonačnosti, očekivanje od I E(I) →0. Indeks Moran I je
asimptotski normalno distribuiran kada je
𝐼+
1
𝑛−1
√𝑉𝑎𝑟(𝐼)~𝑁(0,1)
𝐼 =𝑛
∑ ∑ 𝑊𝑖𝑗𝑗=𝑛𝑗=1
𝐼=𝑛𝑖=1
∙∑ ∑ 𝑊𝑖𝑗(𝑥𝑖 − �̅�)(𝑥𝑗 − �̅�)
𝑗=𝑛𝑗=1
𝐼=𝑛𝑖=1
∑ (𝑥1 − �̅�)2𝑖=𝑛𝑖=1
Gdje je:
N broj opservacija (točaka ili poligona)
mean(X) srednja vrijednost varijable X
xi vrijednost varijable X na lokaciji i
xj vrijednost varijable X na lokaciji j
wij element matrice prostornih težina za kombinaciju lokacija i i j
Izračun indeksa Moran I – nastavak primjera iz poglavlja 4.3.1
W – binarna matrica prostornih težina (dobivena iz matrice susjedstva) iz prethodnog
primjera. Uočite da suma težina iznosi 24.
Prema konvenciji, lokacija nije susjed samoj sebi.
Matrica C ima elemente cij definirana kao (xi-mean(X))(xj-mean(X)) tj. umnožak
odstupanja vrijednosti xi na lokaciji i i xj na lokaciji j od sredine mean(X).
Mean(X), tj. srednja vrijednost u našem primjeru iznosi 5, pa izračun vrijednosti u
lokaciji (a,a) glasi (9-5)2=16, vrijednost u lokaciji (a,b) glasi (9-5)*(6-5)=4 itd. Vrijednosti
matrice za sve lokacije su:
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
55
Za računanje indeksa Moran I (I):
1. prvo se računa unakrsni produkt matrica W i C
2. Elementi matrice dobivene unakrsnim produktom se zbroje (= 80) te podijele
sumom kvadriranih devijacija varijable X (= 60).
Dakle, u našem primjeru, vrijednost indeksa Moran I = 9/24 * 80/60 = tj. I = 0,5.
Napomena:
Kako indeks Moran I u sebi zahtijeva uporabu matrice prostornih težina, jasno je da
ćemo, u ovisnosti o izboru načina izrade matrice prostornih težina W, dobiti i različite
vrijednosti indeksa Moran I za isti skup podataka.
Interpretacija indeksa Moran
Grafički prikaz i interpretacija prostorne autokorelacije na rasteru:
a) visoka pozitivna autokoreliranost
b) nema autokorelacije i
c) negativna autokorelacija.
a) b) c)
Ispitivanje značajnosti indeksa Moran I spada u područje inferencijalne statistike
(statističkog zaključivanja) jer je rezultate analize poželjno interpretirati u kontekstu
nulte hipoteze o nepostojanju prostorne povezanosti u vrijednostima varijable.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
56
Moran se može tumačiti kao korelacija između varijabli X, i lag_X koja se dobije
prostornim pomakom (engl. lag) iz varijable X pri čemu se lag formira kao prosjek svih
vrijednosti varijable X u susjedstvu. Kreira se grafikon točaka (engl. scatterplot) parova
vrijednosti varijabli X i lag_X te povlači regresijski pravac kroz točke. Nagib tog pravca
je vrijednost Moran I indeksa. Pogledajte primjer Moran I indeksa za gustoću
stanovništva u Puerto Ricu.
Problem kod računanja Moran I indeksa svakako su područja koja ne graniče niti s jednim susjedom, kao što su otoci.
Postoje i drugi testovi koji pokazuju ukupnu prostornu povezanost.
Moran I vs Pearson produkt moment korelacijski koeficijent
Prisjetimo se korelacijskog koeficijenta koji mjeri linearnu vezu dvaju numeričkih varijabli, Pearson korelacijskog koeficijenta. Moran I mjeri vezu sam jedne varijable sa samom sobom na prostornom pomaku (lag).
Pearson korelacijski koeficijent:
n
)x(x
n
)y(y
)/nx)(xy1(y
n
1i
2
i
n
1i
2
i
n
1i
ii
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
57
Moran I index:
n
1i
2
i
n
1i
n
1j
ij
n
1i
n
1j
jiij
)x(x)w(
)x)(xx(xwN
=
n
)x(x
n
)x(x
w/)x)(xx(xw
n
1i
2
i
n
1i
2
i
n
1i
n
1i
n
1j
ij
n
1j
jiij
Primijetite sličnost brojnika u oba izraza ukoliko Yi je u biti Xi na susjednom poligonu.
Indeks Geary C
Drugi indeks kojim se mjeri generalna međusobna povezanost prostornih podataka je
indeks Geary C. Ovaj indeks linearno je vezan za vrijednosti Moran I indeksa. Računa
se na temelju parova vrijednosti varijable X po lokacijama na karti. Vrijednost indeksa
je između 0 – 2 (vrlo rijetko i veća) gdje vrijednost 1 označava strukturu bez prostorne
autokorelacije.
𝐶 =(𝑛−1) ∑ ∑ 𝑊𝑖𝑗(𝑥𝑖−𝑥𝑗)2𝑗=𝑛
𝑗=1𝑖=𝑛𝑖=1
2(∑ ∑ 𝑊𝑖𝑗) ∑ (𝑥𝑖−𝑥)2𝑖=𝑛𝑖=1
𝑗=𝑛𝑗=1
𝑖=𝑛𝑖=1
4.3.3. Testiranje statističke značajnosti izračunatih indeksa prostorne povezanosti
Testiranje statističke značajnosti opisanih indeksa provodi se ili klasičnim
(distribucijskim pristupom) ili randomizacijskim (permutacijskim) testovima.
Prilikom analize prostornog rasporeda zabilježenih vrijednosti možemo pretpostaviti da
su zabilježene vrijednosti atributa na području:
1. na slučajan način raspoređene između prostornih objekata – pretpostavka
slučajnosti (randomizacija, engl. non free sampling, ne dopušta ponavljenje u
uzorku)
2. da su zabilježene vrijednosti atributa samo jedne od bezbroj mogućih vrijednosti
te da je svaka pojedina vrijednost međusobno neovisna o drugim zabilježenim
vrijednostima – pretpostavka normaliteta (engl. free sampling, dopušta
ponavljenje u uzorku).
U ovisnosti o ovim pretpostavkama utječu na način na koji se računa varijanca
Moran I indeksa (ali i drugih indeksa opće povezanosti podataka kao što je Geary
indeks), SD (I). Za indeks koji promatramo možemo izračunati varijance za obje
pretpostavljene hipoteze te se može pokazati da je očekivana vrijednost dobivenih
Moran I indeksa : E(I) = -1/(n-1)
Uočite da je za veliki n E(I) tehnički jednako 0.
EN(I) = ER(I) = -1/ (n-1)
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
58
Variajnca za obje pretpostavke:
𝑉𝐴𝑅𝑁(𝐼) =(𝑛2𝑆1 − 𝑛𝑆2 + 3𝑊2)
𝑊2(𝑛2 − 1)− [𝐸𝑁(𝐼)]2
𝑉𝐴𝑅𝑅(𝐼) =𝑛[(𝑛2 − 3𝑛 + 3)𝑆1 − 𝑛𝑆2 + 3𝑊2]
(𝑛 − 1)(𝑛 − 2)(𝑛 − 3)𝑊2−
𝑘[(𝑛2 − 𝑛)𝑆1 − 𝑛𝑆2 + 3𝑊2]
(𝑛 − 1)(𝑛 − 2)(𝑛 − 3)𝑊2− [𝐸𝑅(𝐼)]2
Kada imamo izračunate varijance, možemo izražunati aproksimativni standardni z skor,
z-statistika koja se računa kao z = I- E(I) / SD(I).
Uz izračunati z skor, u ovisnosti o unaprijed određenoj pogrešci testiranja α donosimo
zaključak o značajnosti našeg indeksa.
H0: ne postoji prostorna autokorelacija; Moran I = 0
Ha: prostorna povezanost postoji:
Moran I 0 dvosmjerni test uz unaprijed definiranu (npr. = 0.05)
Moran I > 0 jednosmjerni test uz unaprijed definiranu
(npr. = 0.01 (tj. 1%))
Testiranje značajnosti indeksa Moran I
PROSTORNO DISPERGIRAN SLUČAJNI GRUPIRANI UZORAK
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
59
Pemutacijski testovi su numerički pristup testiranju značajnosti neke statistike, u ovom
slučaju Moran I indeksa. Radimo ih radi poboljšanja rezultata dobivenih
aproksimativnim normalnim testovima (upravo opisanom). Najprije želimo dobiti uvid u
distribuciju uzoraka indeksa ukoliko vrijedi hipoteza o potpuno slučajnom prostornom
rasporedu vrijednosti. Odredimo broj permutacija, replikacija eksperimenta u kojem
ćemo prostornim objektima nasumice rasporediti zabilježene vrijednosti varijable. Za
svaku permutaciju (raspored) izračunamo vrijednost Moran I indeksa. Naš izračunati
Moran I indeks na uzorku tada usporedimo s dobivenom distribusijom (engl. sampling
distribution). Dobivena P vrijednost ovisi o broju permutacija te se iz tog razloga još
naziva i pseudo P vrijednost.
Ananalogno interpretaciji p aproksimativnih vrijednosti, pseudo-p vrijednost se
interpretira na način:
Pseudo p-vrijednost < α =0.05 → H0 odbacujemo, uzorak previše ekstreman.
Prostorna povezanost podataka s atributima na nominalnoj skali (engl. join-count statistics)
Zamislite regularnu mrežu lokacija koje u potpunosti prekrivaju uzorkovanu regiju i
svaka lokacija ima dodijeljenu neku vrijednost varijable (atributa). Vrijednosti varijable
na svakoj lokaciji mogu biti binarne (prisustvo = 1 / odsustvo = 0; živ = 1 / mrtav = 0) ili
mogu biti mjerene na nominalnoj skali s npr. k klasa. Ono što nas zanima je
vjerojatnost zabilježenog prostornog rasporeda vrijednosti varijable ako vrijedi nulta
hipoteza o slučajnom rasporedu vrijednosti po lokacijama područja. Radi se prostorni
ekvivalent jednog vremenskog koraka iz analize vremenskih serija, pomak od jedne
lokacije (ćelija na gridu). Metoda računa broj binarnih kombinacija 1-1, 0-0, 1-0 i 0-1 te
ga uspoređuje s očekivanim brojem parova ako vrijedi nulta hipoteza o slučajnom
rasporedu. Za ovu metodu treba imati na umu da je rubni efekt vrlo značajan budući da
na graničnim lokacijama nije moguće izbrojati sve veze.
Testna statistika za join-count statistiku je Z statistika:
Z= E (Zabilježeni) – E (Očekivani) / SD(Očekivani).
Primjer:
Zamislimo dolje prikazane prostorne rasporede neke neke binarne varijable:
Pozitivna autokorelacija
Rook slučaj susjeda Queen slučaj susjeda
Jbb=27 Jbb=47
Jww=27 Jww=47
Jbw=6 Jbw=16
UKUPNO=60 UKUPNO=110
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
60
Bez autokorelacije
Rook slučaj susjeda Queen slučaj susjeda
Jbb=6 Jbb=14
Jww=19 Jww=40
Jbw=35 Jbw=56
UKUPNO=60 UKUPNO=110
Negativna autokorelacija
Rook slučaj susjeda Queen slučaj susjeda
Jbb=0 Jbb=25
Jww=0 Jww=25
Jbw=60 Jbw=60
UKUPNO=60 UKUPNO=110
Testna statistika: Z= E (Zabilježeni) – E (Očekivani) / SD(Očekivanii).)
Očekivanje = slučajan uzorak koji dobijemo bacanjem novčića za svaku ćeliju.
𝐸(𝑠𝐵𝐵) = √𝑘𝑝𝐵2 + 2𝑚𝑝𝐵
3 − (𝑘 + 2𝑚)𝑝𝐵4
𝐸(𝑠𝑊𝑊) = √𝑘𝑝𝑊2 + 2𝑚𝑝𝑊
3 − (𝑘 + 2𝑚)𝑝𝑊4
𝐸(𝑠𝐵𝑊) = √2(𝑘 + 𝑚)𝑝𝐵𝑝𝑊 − 4(𝑘 + 2𝑚)𝑝𝐵2𝑝𝑊
2
Gdje je:
k – totalan broj veza (susjedstva);
pB – očekivana proporcija crnih (ili nule) ukoliko vrijede hipoteza o slučajnosti;
pw – očekivana proporcija bijelih (ili jedinice);
m – dobije se iz izraza:
𝑚 =1
2∑ 𝑘𝑖(𝑘𝑖 − 1)
𝑛
𝑖=1
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
61
Formule za izračun vjerojatnosti (ova opaska se odnosi gotovo za sve indekse
prostorne povezanosti podataka). Rezultati testova ovise o pretpostavkama o
uzorkovanju pri čemu razlikujemo:
1) Slobodno (normalno) uzorkovanje – analogno uzorkovanju s vraćanjem. Nakon
što je prostorni objekt izabran u uzorak, vraća se te ga je moguće izabrati
ponovno u uzorak.
2) Randomizirano uzorkovanje (neslobodno) – analogno uzorkovanju bez
vraćanja. Svaki prostorni objekt može biti samo jednom izvučen u uzorak
budući nakon izbora nije bio vraćen.
Za svaki opisani slučaj, formule se razlikuju. Gore su navedene formule za kompleksniji
(slobodni) slučaj koji je znatno češći u realnim situacijama.
4.3.4. Getis Ord G statistika
Ova analiza zvana i analizom žarišta (engl. hot spot), računa G statistiku za svaki
pojedini element u skupu podataka. Rezultat je z-vrijednost koja nam govori o tome
nalazi li se element unutar klastera malih ili velikih vrijednosti. Statistika uspoređuje
vrijednost svakog podatka s lokalnom statistikom njegova susjedstva i cjelokupnim
skupom podataka. Ako je lokalna suma znatno različita od očekivane lokalne sume i ta
razlika nije rezultat slučajnosti, tada i G statistika rezultira visokom z-vrijednošću.
Jednako kao i druge mjere povezanosti, osim uporabe normalne distribucije značajnost
se može testirati i randomizacijskim testovima.
Interpretacija G statistike – za svaki element skupa podataka, G vraća jednu z-
vrijednost: Za statistički značajne pozitivne z vrijednosti, veća vrijednost z znači jače
klasteriranje visokih vrijednosti u skupu (engl. hot spot). Obrnuto, statistički značajne
negativne z-vrijednosti indiciraju znatno klasteriranje negativnih vrijednosti u skupu
(engl. cold spot). Ova statistička mjera najboje funkcionira uz binarni način definiranja
susjedstva.
4.3.5. Mjere lokalne prostorne autokorelacije (povezanosti)
Lokalna statistika identificira varijacije na istraživanome području fokusirajući se na
blisko susjedstvo. Određuju se lokalne strukture prostorne asocijacije te se omogućuje
dekomponiranje globalne statistike (Moran I) na lokalne indikatore (LISA). LISA ima
dva osnovna cilja:
a) može se interpretirati kao pronalaženje lokalnih otoka nestacionarnih svojstva
b) služi za određivanje značajnosti pojedine opservacije u globalnoj strukturi te
detekciju prostorno netipičnih vrijednosti (engl. outlier).
Određivanje stupnja autokorelacije na različitim tipovima podataka u sustavu R
Ovisno o tome računamo li ukupnu povezanost na vektorskim ili rasterskim podacima,
unutar sustava R koristit ćemo različite pakete. Za rastere, indeks Moran je moguće
izračunati funkcijom Moran() u paketu raster. Za poligonske teme trebamo koristiti
funkcije paketa spdep. Isti paket sadržava i funkcije za izračun lokalne i globalne G
statistike.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
62
PITANJA ZA PONAVLJANJE:
1. Izrecite svojim riječima Prvi zakon geografije, Toblerov zakon.
2. Objasnite svojim riječima pojam autokorelacije varijable.
3. Objasnite svojim riječima pojam prostorne autokorelacije.
4. Kako biste definirali nultu hipotezu koju testira Moran I statistika?
5. Kako biste definirali nultu hipotezu koju testira globalna G statistika?
6. Pojasnite razliku između interpretacije Moran I globalnog indeksa i globalne Getis Ord statistike.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
63
5. Točkasti procesi
5.1. Tipovi točkastih procesa
Točkasti proces je slučajna kolekcija točaka unutar nekog prostora ili vremena; mi
ćemo se baviti točkastim procesima samo u prostoru. U većini aplikacija, svaka točka
predstavlja lokaciju događaja (primjeri: financijska transakcija, udar groma, potres).
Točkasti procesi vrlo su važni u velikom broju znanstvenih disciplina kao što su
epidemiologija, ekologija, astronomija, meteorologija i mnoge druge.
Kada pristupamo analizi točkastih procesa važno je znati koju informaciju naše
koordinate sadrže. O tome ovise i naša istraživačka pitanja i pristup analizi.
Točkaste procese možemo svrstati u dvije osnovne grupe:
1. Točke unutar procesa međusobno ne razlikujemo jer nose informaciju jedino o
lokaciji događaja - ako imamo samo lokacije događaja zanima nas jesu li one
strukturirane ili slučajno razbacane u prostoru. Ovaj je slučaj najčešći, tj.
zabilježene su lokacije nekog događaja (primjerice lokacije pojave određene
bolesti) i to nazivamo mapirani proces (engl. mapped pattern). Ovakav tip
informacija moramo razlikovati od pravog uzorka jer imamo samo događaje, no
nemamo lokacije gdje se događaj nije pojavio, odnosno nismo uzorkovali
cjelokupnu populaciju već imamo zabilježen samo pozitivan događaj.
2. Lokacije događaja s izmjerenim vrijednostima (primjer: imamo lokacije stabala,
ali uz lokaciju imamo izmjereno i neko svojstvo, primjerice, broj transakcija u
trgovini ili visinu stabala na plohi. Ako uz lokaciju imamo i vrijednost svojstva,
možemo odgovoriti na pitanje jesu li slične vrijednosti zabilježenog svojstva
prostorno agregirane, dispergirane ili slučajno smještene (primjer: nalaze li se
deblja stabla međusobno bliže, međusobno dalje ili su slučajno raspoređena na
području). Poseban slučaj točkastog procesa je proces s kvalitativnim
vrijednostima tj. vrijednosti su određene kategorije (primjeri: imamo kartirana
sva stabla na određenom dijelu šume uz informaciju o vrsti svakog pojedinog
stabla ili sve trgovine s informacijom o kompaniji kojoj pripadaju).
5.2. Analiza točkastih procesa
Ono što nas u konačnici analize bilo kojeg točkastog procesa zanima je objašnjenje
detektiranog rasporeda točaka – postoji li neki pozadinski proces koji je doveo upravo
do ovakvog rasporeda događaja.
Kako smo spomenuli, točkasti procesi, uz informaciju o lokaciji, mogu nositi i
informaciju o nekom drugom svojstvu.
Za potrebe ovog tečaja fokusirat ćemo se isključivo na lokacije točaka u procesu.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
64
5.2.1. Opisne statistike točkastog procesa
Podjela koja slijedi samo je jedna u nizu podjela analitičkih tehnika kojima se istražuju
svojstva nekog točkastog procesa u prostoru. Različiti autori na različit način pristupaju
analizi točkastih procesa. Ovdje dajemo samo dio metoda koje se koriste,
sistematizirane prema učestalosti korištenja:
1. Centralna tendencija lokacija (centografske)
a) Središnja lokacija (prosjek x koordinata i prosjek y koordinata)
b) Medijan lokacija (medijan x koordinata i medijan y koordinata)
c) Centar gravitacije – točka iz koje je najkraća linija kojom dolazimo do svake točke u procesu
2. Standardna devijacija udaljenosti (engl. Standard Distance Deviation) je
standardna devijacija udaljenosti svake pojedine točke od središnje lokacije. To
je prostorni ekvivalent standardnoj devijaciji i daje uvid o devijaciji i varijanci u
prostornom rasporedu točkastog procesa, ali nam ne govori ništa o
direkcionalnoj razlici u raspršenju točaka u prostoru te se radi toga uvodi mjera
elipse standardne devijacije (engl. Standard Deviational Elipse). Osnovni
koncept za kreiranje elipse standardne devijacije se može opisati kako slijedi:
a) Pronalaženje smjera (kuta) maksimalne disperzije točkastog procesa te
provlačenje osi pod tim kutom (os maksimalnog raspršenja – os 1)
b) Izračunavanje standardne devijacije točaka u procesu za provučenu duž
provučene osi kako bismo odredili njezinu duljinu
c) Izračunavanje standardne devijacije točaka u procesu za os okomitu na
ranije kreiranu (os minimalnog raspršenja – os 2), čime se jednoznačno
odredila elipsa standardne devijacije točkastog procesa.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
65
5.2.2. Disperzija i organizacija točaka u točkastom procesu
Pitanje koja nas također zanima prilikom analize točkastih procesa je relativan obrazac
- razmještaj točaka u procesu. Ovo se još naziva i drugi moment, kojim se opisuje
raspršenje točkastog procesa i treći moment, kojim se prati simetrija točkastog
procesa.
Generalno, postoje tri tipa distribucija točaka u prostoru:
1. Agregiran - mnoge točke su koncentrirane blizu jedna drugoj dok veliki dio
područja ne sadržava niti jednu točku
2. Slučajan - svaka točka se jednako vjerojatno može pojaviti na bilo kojoj lokaciji i
nije uvjetovana položajem niti jedne druge točke
3. Regularan - svaka točka dolazi maksimalno udaljena od ostalih.
Na slici su prikazana tri točkasta prostorna procesa:
1. podaci o lokacijama kriminala zabilježeni u Baltimoru
2. točke izvučene iz uniformne distribucije na istom geografskom području
3. pravilan prostorni raspored točaka na području.
Jedan od najčešćih ciljeva analize točkastih procesa je odrediti postoji li tendencija
agregiranja događaja na sistematičan način, tj. suprotno od slučajnog rasporeda.
Zanima nas prikazuje li proces agregiranje (engl. clustering) ili regularnost te na kojoj
se rezoluciji ovi procesi događaju.
5.2.3. Intenzitet točkastog procesa
Intenzitet točkastog procesa još se naziva i prvi moment i osnovna je sumarna mjera
točkastog procesa. Računa se kao omjer točaka (događaja) i površine na kojoj su
točke zabilježene i označava se s λ. Da bismo mogli izračunati λ moramo imati granicu
područja koja je u velikoj mjeri proizvoljna i tako može biti:
1. granica grada, države
2. pravokutna površina (engl. bounding box) koja je određena minimalnom
pravokutnom površinom koja obuhvaća sve točke
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
66
3. najmanji mogući poligon koji uključuje sve točke – metoda konveksne ljuske
(engl. convex hull).
Ovisno o granicama koje smo odredili dobit će se različite vrijednosti intenziteta
točkastog procesa. Ako je intenzitet konstantan na području, proces nazivamo
homogeni točkasti proces za razliku od nehomogenih procesa koji pokazuju neki oblik
prostornog trenda ili nekonstantnog intenziteta, ali bez interakcija među lokacijama u
procesu. Intenzitet nehomogenog točkastog procesa sada je određen funkcijom λ, a ne
više konstantom kao što je bio slučaj u homogenom Poissonovom procesu.
Nehomogeni točkasti procesi su generalizacija Poissonovog točkastog procesa i tu
primjerice spadaju Cox i Markov točkasti proces.
Procjena intenzitet točkastog procesa na definiranim površinama - metoda kvadrata (engl. quadrat method)
Procjena variranja intenziteta točkastog procesa radi se metodom brojanja točaka u
zadanim regijama (brojanje točaka u kvadratima):
1. podijelimo područje na subregije jednake veličine (najčešće su to kvadrati, ali
ne nužno)
2. izbrojimo frekvenciju događaja u svakome kvadratu
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
67
3. izračunamo intenzitet događaja u svakome kvadratu (λ=n/A) gdje je n broj
događaja, a A je površina kvadrata - subregije (donja slika) ako obojimo
kvadrate prema izračunatom intenzitetu, dobivamo i vizualni doživljaj intenziteta
točkastog procesa.
Procjena intenziteta prostornog točkastog procesa kernel funkcijom
Kernel (k) je matematička funkcija koja računa intenzitet točkastog procesa (gustoću
točaka - događaja) unutar unaprijed određenog radijusa (engl. bandwidth) ili širine
kernela. Procjena kernelom izvodi se pomicanjem te funkcije zadanog radijusa te
posjetom svake točke na području od interesa R. Kernel se koristi za ponderiranje
unutar podpodručja oko točke s za koju se procjena radi. Sumiranjem procjena svih
funkcija u pomaku dobije se glatka površina.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
68
Postoji velik broj različitih oblika funkcije kernel (k), primjerice: trokutasti; kvadratni
(polinomijalni); Gaussov te mnogi drugi.
𝑘 = 1 − |𝑑𝑖
𝜏2|
TROKUTASTI
𝑘 =3
𝜋(1 −
ℎ𝑖2
𝜏2)
KVADRATNI
𝑘 =1
√2𝜋𝑒
ℎ𝑖2
2𝜏2 GAUSSOV (NORMALNI)
Oznake:
k – kernel funkcija
– radijus ili širina kernela (engl. bandwidth)
hi = s - si, i = 1, …n; hi je udaljenost proizvoljne s točke na području R i točke si
(događaja si).
Intenzitet točkastog procesa na zadanoj lokaciji s procijenjen je formulom
�̂�𝜏(𝑠) = ∑1
𝜏2𝑘(
𝑠 − 𝑠1
𝜏)
𝑛
𝑖=1
gdje su s sve lokacije na području od interesa R; s1 – sn su događaji zabilježeni na
području R, a širina kernela.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
69
Konačna procjena intenziteta dobiva se sumiranjem svih kernela unutar zadanog
radijusa.
Također, ne postoji generalno pravilo na koji način odabrati širinu (radijus) za izračun
kernel funkcije, već proces odabira ovisi o:
a) poznavanju prostornog fenomena
b) kvantitativnoj usporedbi srednje kvadratne pogreške (engl. Mean Squared
Error) za različite vrijednosti .
Generalno vrijedi pravilo da mali producira mapu s vidljivijim lokalnim varijabilnostima
dok veći radijus stvara zaglađene mape.
Pogledajte primjer za izbor optimalne vrijednosti radijusa (engl. bandwidth) za skup
podataka o kriminalitetu iz Baltimora, određen metodom srednje kvadratne pogreške:
Kako bismo ilustrirali razlike u izračunatim intenzitetima istog točkastog procesa u
ovisnosti o izabranom radijusu pogledajte sljedeću sliku:
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
70
Unutar sustava R procjenu kernela možemo napraviti korištenjem dvaju kontribuiranih
paketa sIplanc (kvadratni kernel) i spatstat (Gauss kernel) te funkcijom density() iz
paketa stats koji nudi veći izbor različitih kernel opcija. Ako želimo napraviti
deskriptivnu statistiku (centografsku) točkastog procesa, kao što su navedene elipse
standardne devijacije i druge odgovarajuće statistike, potrebne funkcije unutar sustava
R, mogu se naći u paketu aspace.
5.3. Procjena postojanja prostorne ovisnosti među događajima
5.3.1. Modeliranje točkastih procesa
Obuhvaća statističke testove kojima testiramo hipotezu o potpuno slučajnom rasporedu
u prostoru kao što su primjerice usporedba distribucija udaljenosti do najbližeg susjeda
željenog točkastog procesa i udaljenosti do najbližih susjeda pri generiranom potpuno
slučajnom točkastom procesu, 2 test ili K funkcija (detaljnije dalje u tekstu).
Najjednostavniji test koji vrlo često želimo provesti na točkastom procesu testira je li
proces potpuno slučajan u prostoru, tj. vrijedi li nulta hipoteza o potpunoj prostornoj
slučajnosti (engl. Complete Spatial Randomness - CSR). Proces koji zadovoljava ovu
hipotezu zovemo još i homogeni Poissonov proces. Pod ovom hipotezom postojanje
jedne točke u procesu niti na koji način ne utječe na vjerojatnost pojave neke druge
točke u procesu. Generalizacija ovog procesa koji omogućuje varijabilan intenzitet na
području naziva se nehomogeni Poissonov proces.
5.3.2. Hipoteza o potpunoj prostornoj slučajnosti (engl. Complete Spatial Randomnes - CSR)
Hipoteza o potpunoj prostornoj slučajnosti, CSR hipoteza, pretpostavlja da točke prate
homogeni Poissonov proces na području, tj. da je gustoća točaka konstantna
(homogena) na cijelome području.
U suprotnosti od homogenog točkastog procesa, procesi koji ne prate Poissonovu
distribuciju smatraju se nehomogenim točkastim procesima - za slučajni uzorak
(podregiju), distribucija frekvencija broja točaka prati Poissonovu distribuciju.
Pogledajmo primjer tri različita točkasta procesa svaki s 20 događaja (n=20) na istom
prostornom obuhvatu:
Proces 1 Proces 2 Proces 3
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
71
Ako prebrojimo događaje u svakom kvadratu procese bismo mogli predstaviti ovakvom
tablicom:
5.3.3. 2 test
Statistički testovi o značajnosti prostorne strukture u podacima uspoređuju prostorni
raspored našeg točkastog procesa s potpuno slučajnim točkastim procesom (nultom
hipotezom o potpunoj prostornoj slučajnosti) – broj događaja zabilježenih u proizvoljno
velikim kvadratima:
H0: događaji su prostorno potpuno slučajni
H1: događaji su prostorno agregirani ili dispergirani.
Kako bismo testirali hipotezu H0:
a) Računamo, kao i kod bilo kojeg testiranja hipoteze, test - statistiku. Ovdje je to
2 statistika, koja se ravna po teorijskoj 2 distribuciji s n-1 stupnjeva slobode.
b) Računa se vjerojatnost P slučajnog premašivanja dobivene test statistike uz
pretpostavku istinitosti H0; ako je P < 0.05, H0 se odbacuje.
Slabosti su metode 2:
1. Pronalaženje optimalne veličine kvadrata - površine (ako su kvadrati premaleni,
sadrže premalen broj točaka i obrnuto)
2. Ne mjeri prostornu strukturu već disperziju točaka (jer uzima u obzir samo
informaciju o broju točaka, a ne i njihov prostorni raspored)
3. Rezultat je jedan broj za cijelu distribuciju, bez detektiranja lokalnih
(regionalnih) varijacija.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
72
Ako je točkasti proces homogen, njegov intenzitet λ jednak je na cjelokupnom području
i računa se kao omjer ukupnog broja točaka n / površina cjelokupnog područja.
2 test koji se koristi za analizu točkastog procesa u metodi kvadrata, u sustavu R
izvodi se funkcijom quadrat.test() iz paketa spatstat.
5.3.4. Metoda najbližih susjeda
Analiza najbližih susjeda može se napraviti uz pomoć G ili F funkcije (K funkcija je
transformirana F funkcija).
Analiza najbližih susjeda - G funkcija
G funkcija mjeri distribuciju udaljenosti di od proizvoljnog događaja do njemu najbližeg
susjeda u skupu svih događaja S. Njome kompariramo naš empirijski točkasti proces s
teorijskim (potpuno slučajnim, CSR) modelom.
�̂�(𝑟) =∑ 𝐼𝑖
𝑛𝑖=𝑙
𝑛
𝐼𝑖 = {10
𝑢𝑘𝑜𝑙𝑖𝑘𝑜 𝑑𝑖 ∈ {𝑑𝑖 ∶ 𝑑𝑖 ≤ 𝑟, ∀𝑖}
𝑖𝑛𝑎č𝑒
𝑔𝑑𝑗𝑒 𝑗𝑒 𝑑𝑖 = 𝑚𝑖𝑛𝑗{𝑑𝑖𝑗, ∀𝑗 ≠ 𝑖 ∈ 𝑆}, 𝑖 = 1, . . . , 𝑛.
Definirana funkcija G predstavlja broj događaja u skupu S koji se nalaze unutar neke
određene udaljenosti r, normalizirano ukupnim brojem događaja n na cjelokupnom
području (točkastom procesu).
Ako vrijedi hipoteza o potpunoj prostornoj slučajnosti, vrijednost G funkcije postaje:
𝒢(𝑟) = 1 − 𝑒𝜆𝜋𝑟2
Interpretacija izgleda G funkcije
Za proces koji je prostorno agregiran, međusobne udaljenosti događaja manje su no
što bi bile ako vrijedi hipoteza o potpunoj prostornoj slučajnosti događaja, CSR.
Obrnuto, za regularan prostorni raspored, međusobne udaljenosti događaja veće su od
onih pod nultom hipotezom.
Primjer:
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
73
Testiranje značajnosti odstupanja našeg točkastog procesa od potpuno slučajnog
procesa (bilo prema grupiranju ili regularnosti) može se napraviti simuliranjem
"područja povjerenja" (engl. confidence envelope). Proces simulacije se provodi u
sljedećim koracima:
1. simuliramo velik broj prostornih procesa (primjerice 1000)
2. izračunamo G funkciju za svaki proces
3. rangiramo dobivene G(r) vrijednosti
4. izlučimo 5-tu i 95-tu G(r) vrijednost
5. nacrtamo izlučenih 1000 vrijednosti kao 95% intervale pouzdanosti.
Analiza najbližih susjeda - F funkcija
Funkcija F mjeri distribuciju svih udaljenosti od jedne proizvoljne točke k (k = 1,…, m)
do najbližeg događaja u točkastom prostornom procesu (j = 1,…, n)). Za svaku
određenu udaljenost r izračunamo proporciju broja slučajnih točaka koje su imale
manju udaljenost do najbližeg događaja u točkastom procesu S od vrijednosti r.
ℱ̂(𝑟) =∑ 𝐼𝑘
𝑚𝑘=1
𝑚
𝐼𝑘 = {10
𝑢𝑘𝑜𝑙𝑖𝑘𝑜 𝑑𝑘 ∈ {𝑑𝑘 ∶ 𝑑𝑘 ≤ 𝑟, ∀𝑘}
𝑖𝑛𝑎č𝑒
𝑑𝑘 = 𝑚𝑖𝑛𝑗{𝑑𝑘𝑗, ∀𝑗 ∈ 𝑆}, 𝑘 = 1, . . . , 𝑚, 𝑗 = 1, . . . , 𝑛.
Ako vrijedi nulta hipoteza o potpunom prostorno slučajnom rasporedu tada funkcija ima
oblik:
ℱ(𝑟) = 1 − 𝑒𝜆𝜋𝑟2
Proces izračuna F funkcije:
1. slučajnim izborom odredimo određeni broj novih lokacija (m) unutar područja od
interesa
2. za svaku odabranu lokaciju k odredimo najkraću udaljenost do točkastog
procesa kojeg testiramo
3. izračunamo funkciju F.
Kao i u slučaju G funkcije, našu empirijsku funkciju crtamo nasuprot teorijske F funkcije
pod CSR hipotezom.
Interpretacija izgleda F funkcije
Ako je točkasti proces:
a) agregiran – F funkcija na početku raste polako, a okomitije na većim
udaljenostima
b) slučajan – F funkcija raste pravocrtno
c) regularan (pravilan) – F funkcija raste vrlo oštro na početku.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
74
Za tri točkasta procesa koja pratimo, F funkcija prikazana je na sljedećim slikama:
Analiza najbližih susjeda - K i L funkcije
Funkcija F s kojom smo se upoznali koristi jedino vrijednost najbližeg susjeda. Funkcija
K (Ripley 1976) koristi informacije većeg broja točaka i time omogućuje procjenu
prostorne ovisnosti na širem rasponu rezolucija. Funkcija se temelji na svim
udaljenostima događaja na cjelokupnom području, ali pretpostavlja izotropiju
(homogenost) točaka na cjelokupnom području.
K funkcija je definirana kao:
𝐾(ℎ) =1
𝜆𝐸
gdje je λ = intenzitet događaja (broj događaja n / A, površina), E= broj događaja unutar
odabranog radijusa h.
Proces kreiranja (procjene) funkcije K je sljedeći:
1. oko svakog događaja konstruiramo krug radijusa (h)
2. izbrojimo događaje (j) koji se nalaze unutar kruga
3. povećamo vrijednost radijusa h za vrlo malu veličinu i ponovimo izračun
(procjena nekom kernel funkcijom).
Funkcija K može se nacrtati za različite vrijednosti h.
Interpretacija funkcije K
Pod pretpostavkom potpune prostorne slučajnosti vrijedi:
K(h) = Χ2 - gustoća događaja slučajno je raspoređena kroz sve radijuse
K(h) < Χ2 - točkasti proces je regularan
K(h) > Χ2 točkasti proces je agregiran (grupiran).
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
75
Uspoređujemo K(h) s Χ2 uz pomoć L funkcije (standardizirana K funkcija), tj.
transformiramo K funkciju kako bismo je mogli lakše interpretirati – L funkcija.
Analiza točkastog procesa iz ovog tečaja samo je jedan u nizu pristupa analizi
točkastih procesa. Ako nas zanima centar distribucije procesa, tražimo centroid. Ako
nas zanima ukupan prostorni obuhvat procesa, tražimo najmanju površinu koja
obuhvaća sve točke u prostoru (engl. convex hull) (funkcija chull() iz paketa
grDevices ili funkcija gConvexHull() iz paketa rgeos). Ako nas zanima postojanje
grupiranja događaja na prostorno-vremenskoj skali, radimo prostorno-vremenske
agregacije i dr. Također, interesantan je i međusoban odnos dvaju prostornih točkastih
procesa gdje, primjerice, dva procesa mogu označavati lokalitete dvaju vrsta drveća pri
čemu nas zanima utječe li raspored jednog točkastog procesa na prostorni raspored
drugog. Analize točkastih procesa u sustavu R možemo raditi uz pomoć različitih
kontribuiranih paketa: npr. splancs, spatstat. Paket dbmss specijaliziran za
karakterizaciju strukture točkastih objekata. Spomenuti paketi rade s drugačijim
formatima objekata.
PRIMJER:
Unutar programa RStudio otvorite skriptu naziva S730_ppp.R.
ZADACI ZA SAMOSTALAN RAD:
Otvorite skriptu naziva S730_zadaci_ppp.R.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
76
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
77
6. Analitika kontinuiranih procesa i geostatistika
Geostatistika pripada metodama prostorne statistike; uključuje proces zaključivanja o
vrijednosti nekog atributa u prostoru na temelju uzorka - skupa točaka na kojima je
vrijednost varijable (atributa) poznata. Geostatistika obuhvaća skup metoda razvijenih
za analizu kontinuiranih procesa. Budući da su podaci s kojima radimo nesavršeni, i
modeli su samo aproksimacija realnog svijeta pa su sve statistike unutar geostatistike
kao grane praćene informacijom o stupnju nesigurnosti procjena dobivenih modelom.
Teorija koja je započela razvoj geostatistike (grane prostorne statistike) i koja,
pretpostavljajući vezu između opservacija, procjenjuje vrijednosti kontinuirane varijable,
je teorija slučajnih polja. Generalno možemo reći da geostatistika pokušava iz uzorka:
1. procijeniti proces koji je doveo do zabilježene strukture
2. interpolirati (procijeniti) vrijednosti varijable na cjelokupnom području, na
lokacijama gdje mjerenja nisu napravljena.
Postoji ogroman broj dostupnih metoda interpolacije - neki autori izbrojali su više od 40
jedinstvenih tehnika. Mnoge od njih međusobno su na neki način povezane i mogu se
smatrati specijalnim slučajevima neke generalne metode. U nastavku dajemo jednu od
podjela interpolacijskih tehnika temeljem količine ekspertnog znanja o procesu koji se
modelira:
Mehanički modeli – primjer – trend površine – regresija na koordinatama
Statistički (vjerojatnosni) modeli
Modeli temeljeni na ekspertnom znanju.
Prvi korak u procesu analize je provjera vrijednosti varijable na
međusobnu zavisnost (autokorelaciju)
stacionarnost
distribuciju vrijednosti.
Ako se vrijednosti varijable pokažu potpuno prostorno (ili vremenski) nezavisnima
nema smisla analizirati ih metodama geostatistike budući da ove metode koriste
upravo svojstvo međusobne ovisnosti kako bi procijenile vrijednost na lokaciji za koju
nemamo informaciju. Najvažniji dio unutar modeliranja prostorne zavisnosti
kontinuiranih procesa je variogramska/semivariogramska analiza. Budući da metode
kriginga pretpostavljaju da vrijednosti varijable na promatranom području prate
normalnu distribuciju, poželjna je prema potrebi transformacija varijable iako se u
novije vrijeme razvijaju metode za kriging podataka koje ne zadovoljavaju uvjet
normaliteta. Mnoge metode za rad s ovakvim podacima spadaju u domenu sve više
korištene Bayesove statistike.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
78
6.1. Mehanički (deterministički) modeli
U ovoj klasi modela koriste se empirijski ili proizvoljni parametri. Pogreška se za ove
modele ne može procijeniti budući da ne postoje striktne pretpostavke o variranju
obilježja. Najčešći predstavnici ove klase modela su:
Thiessienovi poligoni
Interpolacija težina inverzne udaljenosti (engl. Inverse Distance Weight – IDW)
Regresija na koordinatama – trend površine ili interpolacija pomične površine
Prirodni susjedi
Splinovi, itd.
6.2. Modeli temeljeni na ekspertnom znanju
Ovu grupu modela ćemo samo spomenuti, a njihova se podjela temelji na stupnju
utjecaja eksperta na rezultat, gdje je klasični primjer ručno crtanje karata.
6.3. Statistički (vjerojatnosni) modeli
U ovoj grupi modela parametri modela se procjenjuju objektivno, oslanjajući se na
teoriju vjerojatnosti. Procjene modela (kriterija i regresijskih koeficijenata) prate i njima
pridružene standardne greške koje ovise o pogrešci modela. Nedostaci ove grupe
modela su ti da uzorak mora zadovoljiti stroge pretpostavke. Ovi se modeli dalje dijele
na četiri podgrupe modela pri čemu su podcrtane metode kojih smo se u ovom tečaju
dotakli, radi njihove specifičnosti ili reprezentativnosti:
Regresijski modeli – korelacije s varijablama okoliša
Bayesovi modeli
Kriging – univerzalni, obični (engl. ordinary), jednostavan (univarijatni i
multivarijatni poznat kao ko-kriging)
Hibridni modeli – kombinacija ovih grupa (na primjer, regresijski kriging).
6.3.1. Regresijski modeli
Uobičajeni regresijski model koristi metodu najmanjih kvadrata za „optimalno“
provlačenje pravca kroz podatke, a naziva se još i Ordinary Least Squares – OLS
metoda. OLS metoda nije optimalna za analizu geografski referenciranih podataka
budući da ignorira moguću korelaciju između opservacija. Bolja metoda je metoda
generaliziranih najmanjih kvadrata (engl. Generalised Least Squares – GLS).
Dodatno postoji veći broj tehnika koje pokušavaju uključiti u model kompleksnost
georeferenciranih podataka i mogu se grubo podijeliti u tri grupe:
1. geografski ponderirana regresija (engl. Geographically Weighted Regression -
GWR) – metoda koja uvodi prostornu varijabilnost u parametru od interesa
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
79
2. druga grupa analizira obrazac i stupanj do kojeg uzorkovani podaci prostorno
koreliraju (ili autokoreliraju) i koristi ove informacije kako bi se izgradio
regresijski model koji prepoznaje ovu strukturu i uključuje ju u svoje dizajn
3. treći pristup primjenjuje jednostavne filtre ili diferencira podatke za uklanjanje
prostorne varijacije, a zatim modelira filtrirane podatke.
Kao što smo spomenuli, geografski referencirani podaci ne mogu se smatrati
međusobno nezavisnima što je jedna od osnovnih pretpostavki za provođenje metoda
linearne regresije čije se metode procjene temelje na metodi najmanjih kvadrata (engl.
ordinary least square - OLS). Podsjetimo se osnovnih pretpostavki koje moramo
testirati prilikom izrade linearnog modela :
a) homoskedastičnost varijance pogreške modela
b) nekoreliranost pogreška modela
c) normalitet pogreške modela.
Dakle, heteroskedastičnost varijance pogreške ili autokoreliranost pogreške modela ne
dozvoljavaju klasične regresijske testove, što znači da je statističko zaključivanje u tom
slučaju krivo.
Primjeri podataka gdje nam je potrebna metoda generaliziranih kvadrata bili bi podaci
mjereni na istim objektima kroz vrijeme (vremenske serije), ili ukoliko su prikupljeni
unutar klastera (uzeti iz istog razreda, obitelji, četvrti i slično). U ovim je slučajevima
korištenje metode najmanjih kvadrata problematično, dovodi do nepouzdanih procjena
parametara modela te do krivih zaključaka.
Rezime:
Regresijska analiza je pojam za skup tehnika koje modeliraju proces linearne ovisnosti
jedne zavisne (kriterijske) varijable Y o jednoj ili skupu nezavisnih (prediktorskih)
varijabli Xi. Metode kriginga eksplicitno uzimaju u obzir strukturu prostornih podataka,
tj. međusobnu ovisnost vrijednosti na bliskim lokacijama.
Jednostavna regresijska analiza i analiza trenda (engl. Surface Trend Analysis)
Osnovna regresijska metoda koja se provodi na prostornim podacima je analiza trenda
(engl. trend surface analysis) metoda koja koristi klasičnu regresijsku analizu (OLS), ali
kao nezavisne (prediktorske) varijable koristi koordinate na kojima su mjerenja
napravljena, dok zavisna (kriterijska) varijabla (Y) može biti npr. temperatura, ph,
količina oborina. Na taj način se mogu primijetiti eventualni trendovi u podacima u
ovisnosti o geografskom položaju (sjever-jug, istok-zapad). Matematička formulacija
regionalnog trenda zove se još i prilagodba polinoma (engl. Polinomial Trend Surface).
Ovu funkciju moguće je derivirati više puta pa se tako površina provlači kvalitetnije kroz
podatke. Postoje i druge metode modeliranja površine, ali o njima nećemo ovom
prilikom. Polinomijalni trend površine je matematički model regionalnog trenda tj.
vrijednost atributa na svakoj pojedinoj točki promatranog područja ovisi o njezinim 2D
koordinatama – z=f(x,y) gdje je z vrijednost atributa, a x i y projicirane koordinate u
dvodimenzionalnom prostoru. Ako se funkcija izračuna na pravilnoj mreži (engl. grid)
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
80
rezultat zovemo površina trenda (engl. trend surface). Funkciju je moguće derivirati
barem dva puta što daje nagib i zakrivljenost.
Kao i s ostalim varijablama u linearnim modelima i geografske koordinate u modelu
mogu biti unesene i u kvadratnom obliku ili potencijama viših redova. Rezultat kreiranja
polinomijalnog trenda prvog reda je ploha, drugog reda kupola ili depresija, a polinoma
viših redova je savijena struktura u ovisnosti o broju prijelomnih točaka.
Nedostaci ove metode: u uobičajenoj linearnoj regresiji (engl. ordinary least squares -
OLS) svaka točka na jednak način doprinosi procjeni (Ŷ) kriterija (Y). Slaganje modela i
podataka (engl. goodness of fit) mjeri se razidualnom sumom kvadrata („malo je
dobro“) ili koeficijentom determinacije R2 („veliko je dobro“) i grafičkim metodama.
Koeficijent determinacije je kvadrirani koeficijent multiple korelacije R=r(Y, Ŷ). Uočite da
je R2 funkcija kvadriranih pogrešaka (rezuduala) modela, a dobiva se formulom:
𝑅2 = 1 −∑ ℰ𝑖
2
∑(𝑦𝑖 − �̅�)2, 𝑅2 ∈ [0,1]
gdje je pogreška modela.
Grafička procjena modela izvodi se na temelju dobivenih procjena Ŷ = (ŷi) kriterija Y =
(yi) i raziduala = (i) modela (engl. fitted vs residuals), crtanjem grafikona reziduala
protiv procijenjenih vrijednosti. Ako grafikon reziduala protiv procijenjenih vrijednosti
kriterija nije u obliku horizontalne pruge nego ima oblik tuljca suočavamo se s
problemom heterogenosti (heteroskedastičnosti - engl. heteroscedasticity) reziduala.
Tada treba napraviti neku od transformacija za stabilizaciju varijance reziduala. Ako je
navedeni grafikon oblika parabole, potreban je kvadratni ili polinomni model (površina
višeg reda).
Grafička provjera normaliteta raziduala izvodi se QQ grafom (engl. quantile-quantile
plot) – uspoređuju se teorijski kvantili normalne distribucije s izračunatim, uzlazno
sortiranim rezidualima.
Kao što smo rekli, OLS nije optimalna metoda za regresijsku analizu koreliranih
podataka. Ako smo ustanovili da u našim podacima postoji značajna autokorelacija
(nekim od globalnih testova za autokorelaciju, kao što je Moran I) postoji nekoliko
načina na koji je moguće nastaviti regresijsku analizu ovakvih podataka:
1. Ako je autokorelacija mala, mnogi autori je ignoriraju i nastavljaju s klasičnom
regresijskom analizom. U ovom slučaju moramo biti svjesni činjenice da će
značajnost procijenjenih parametara kao i intervali pouzdanosti parametara biti
netočni.
2. Uvodi se pretpostavka o nepostojanju konstantnih regresijskih koeficijenata na
cjelokupnom skupu podataka tj. dozvoljava se da koeficijenti variraju s
lokacijom. Ova metoda uključuje fitanje serije regresijskih površina kroz podatke
na način da one načine kontinuiranu površinu predikcija. Jedna od najpoznatijih
metoda unutar ove skupine je geografski ponderirana regresija i bit će detaljnije
objašnjena u nastavku.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
81
3. Dodajemo dodatni element u regresijski model koji eksplicitno uključuje
informaciju u primijećenom obrascu prostorne povezanosti i to su:
a) prostorni autoregresivni modeli
b) modeli temeljeni na Bayesovom teoremu.
Geografski ponderirana regresija (engl. Geografically Weighted Regression - GWR)
Geografski ponderirana regresija (GWR) je tehnika statističkog zaključivanja o
geografski referenciranim podacima. Osnovna je ideja u analizi geografski ponderirane
regresije istražiti varira li, i na koji način, odnos između zavisne varijable i neke od
nezavisnih varijabli na cjelokupnom geografskom području od interesa, tj. metodom
provjeravamo postoji li nestacionarnost u varijabli od interesa. Prisjetimo se jednog od
osnovnih uvjeta za provođenje OLS regresijske analize: jedan model mora na jednako
kvalitetan način predviđati vrijednosti na nemjerenoj lokaciji (tj. pogreška modela mora
biti jednaka na cijelom rasponu vrijednosti zavisne varijable). Ovaj uvjet vrlo često ne
može biti zadovoljen prilikom analize geografski referenciranih podataka, pa se iz tog
razloga provodi geografski ponderirana regresija.
Pojam geografski ponderirane regresije definirali su Fotheringham, Charlton and
Brunsdon (1997, 2002) kako bi opisali cijelu obitelj regresijskih modela u kojima se
dozvoljava da koeficijenti linearnog modela variraju geografski. Geografski ponderirana
regresija koristi koordinate svake točke uzorka. Ako su prostorni objekti u analizi
poligoni, koriste se koordinate centroida kao ciljna točka za kreiranje regresijskog
modela. Za neke modele moguće je kao ciljnu točku definirati čvor (engl. nod) grida
umjesto koordinate točke u podacima. Model ima oblik:
𝑦 = 𝑋𝛽(𝑡) + 𝜀
Koeficijent β(t) određen je analizom onih prostornih točaka koje su definirane kao
mjera udaljenosti ostalih točaka od točke za koju procjenu radimo. Definiranje blizine-
udaljenosti između dvije točke na kojima imamo mjerenje može se napraviti na dva
načina:
a) kao prava geografska udaljenost između točaka unutar definiranog prozora
b) putem definiranja susjedstva.
Ako fiksiramo broj susjeda koje tražimo, tada će i prozor za koji radimo model varirati u
svojoj veličini u ovisnosti kako su točke na kojem području raspoređene. Susjedstvo je
u pravilu kružno, određenog radijusa r oko svake točke i u ovoj metodi se ne može
modelirati anizotropni proces. Unutar metode je moguće odrediti imaju li točke unutar
radijusa jednak značaj za procjenu vrijednosti na točki ili se određuje neka funkcija koja
određuje na koji način se penalizira sve veća udaljenost točke od točke na kojoj se radi
procjena. Osnovna je ideja u ovoj metodi da mjerenja koja se nalaze bliže lokaciji za
koju radimo procjenu dobivaju veću težinu (ponder) od mjerenja napravljenih dalje od
lokacije koju procjenjujemo.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
82
Postoje dva osnovna načina dodjela težine (pondera), tj. izračuna prostornih težina u
GWR:
a) tzv. metoda fiksnog kernela i – za cjelokupno područje koristi jednaku širinu
kernela
b) metoda adaptivnog kernela – dopušta različite širine, ali s unaprijed
definiranim brojem susjeda koji se koriste za procjenu.
c) uobičajeni način traženja optimalnog fiksnog kernela je određivanje kriterija po
kojem ćemo odrediti optimum. Za raspon vrijednosti kriterija izračunamo
geografski ponderiran model te potom odredimo koji je model najbolji na
temelju nekog od sljedećih pokazatelja:
Akaike informacijskog kriterija (engl. Akaike Information Criterion – AIC
poprečne validacije (engl. crossvalidation) – CV
Bayesovog informacijskog kriterija ili sličnih statistika.
Model s najmanjim pokazateljem izabire se kao najbolji.
Metoda fiksnog kernela provodi se na način da se za pokretni prozor (engl. moving
window), metodom najmanjih kvadrata, traži optimalan model za podskup opservacija
obuhvaćenih prozorom. Ako u skupu podataka imamo n izmjerenih vrijednosti, metoda
stvara n regresijskih modela, svaki puta dajući najveću težinu (ponder) točki koja je u
centru. U ovakvim funkcijama vrlo je važan parametar h – širina kernela, koja definira
na koji način se ponaša shema ponderiranja. Kada imamo definiranu funkciju kernel i
širinu h, moguće je za svaku točku kreirati dijagonalnu matricu težina (vrijednostima na
dijagonali matrice, svi ostali elementi izvan dijagonale = 0). Regresijski koeficijent β(t)
za tu točku može se odrediti klasičnom OLS regresijskom metodom, pri čemu za svaku
točku imamo postavljenu jednadžbu te riješimo jednadžbe za svaku pojedinu točku u
sustavu.
Uspoređivanjem procjena parametara modela dobivamo informaciju o varijaciji
parametara u prostoru (nestacionarnosti). Osnovni problem u ovoj metodi je izbor
optimalnog „prozora“, tj. traženje njegove optimalne širine.
Postoji veći broj kontribuiranih paketa (primjerice Gwmodel) s kojima možemo napraviti
geografski ponderiranu regresiju unutar sustava R - u našem primjeru koristit ćemo
funkcionalnosti paketa spgwr.
PRIMJER:
Otvorite u RStudiju skriptu pod nazivom S730_gwr_primjeri.R.
ZADACI ZA ZAMOSTALAN RAD:
Samostalno riješite zadatke postavljene u skripti S730_zadaci_gwr.R.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
83
Prostorni autoregresivni i Bayesovi modeli
Veliki broj tehnika iz ove skupine potječe iz analitike vremenskih serija i razvijane su od
sredine 1950-ih godina u disciplini poznatoj kao prostorna statistika. Različiti prostorni
autoregresivni modeli (engl. Simultaneous Spatial Autoregressive – SAR) su razvijeni
posljednjih 25 godina, osobito u granama kao što su ekonometrija, geografija,
medicinska statistika, ali i ekologija, geologija, epidemiologija i mnoge druge. Odabir
adekvatne metode uglavnom ovisi o tipu podataka koje modeliramo, ali i specifičnim
preferencijama osoba iz različitih znanstvenih disciplina koji primjenjuju te metode u
svom radu. Velik broj metoda specijaliziran je za donošenje zaključaka na temelju
rijetkih podataka (engl. sparse). Metode su implementirane u velikom broju
kontribuiranih paketa unutar R-Spatial dijela R projekta (https://cran.r-
project.org/web/views/Spatial.html), ali i integraciji R sustava s drugim programskim
paketima kao što je WinBUGS koji analitiku temelji na Bayesovim principima. Neki od
paketa u kojima je moguće pronaći najveći broj tehnika su primjerice spdep, sphet i
McSpatial.
U osnovi, autoregresivni model se sastoji od varijable od interesa y koja je kreirana s prostornim pomakom (engl. lag).
𝑦 = 𝜌𝑊𝑦 + 𝜀
Ovaj oblik je sličan jednostavnoj regresiji gdje je prvi element predefiniran n x n
matricom W prostornih težina, koja se aplicira na varijablu y, zajedno s parametrom
prostornog pomaka ρ, koji se obično mora procijeniti iz podataka (uzorka). Anselin
(2008, stranica 257) opisuje autoregresivne modele, tj. modele prostornog pomaka (lag
modele) kao formalni prikaz ravnoteže ishoda procesa društvene i prostorne
interakcije. U svojoj osnovi, model prostornog pomaka izražava ideju da vrijednost
varijable na određenom položaju ovisi od vrijednosti iste varijable mjerene u susjednim
mjestima. Matrica prostornih težina u modelu gotovo je uvijek standardizirana po
retcima (suma svakog retka iznosi 1). Razlika u matrici W ovih modela i uvjetnih
prostornih modela (engl. Conditional Autoregressive Models – CAR) leži u činjenici da
matrica W nije nužno simetrična, o čemu će kasnije biti riječi.
Ako u ovakav oblik modela dodamo neku prediktorsku varijablu, dobijemo drugu grupu
modela – mješoviti prostorni autoregresivni model (engl. Mixed Regressive Spatial
Autregressive model - MRSA).
Sljedeći oblik modela je oblik gdje postoji autokorelacija u varijabli koju modeliramo, ali
jednostavan autoregresivni model nema normalno distribuciju pogreške modela
(reziduala) koji i dalje pokazuju značajnu autokorelaciju; model možemo prikazati na
ovaj način:
y = XB + ε gdje je ε = λWε + u
pri čemu je model klasičan linearan model, ali uz pretpostavku da pogreška modela
prati prostornu strukturu (autokorelacija - λWε). Pogreška modela se može samostalno
izraziti kao:
ε = (l − λW)−1u
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
84
Kako vrijedi
𝜀 = 𝑦 − 𝑋𝐵
imamo sljedeće
𝑦 = 𝑋𝐵 + 𝜆𝑊(𝑦 − 𝑋𝐵) + 𝑢
Ili
𝑦 = 𝑋𝐵 + 𝜆𝑊𝑦 − 𝜆𝑊𝑋𝐵 + 𝑢
pa imamo model koji modelira zavisnu varijablu y kao kombinaciju generalnog modela
(komponenta linearnog trenda - Xβ) uz dodatak komponente čiste prostorne
autokorelacije (λWy) plus komponenta s negativnim predznakom trenda u susjedstvu
(λWXβ) i slučajna pogreška (u). Neki autori ovaj oblik modela nazivaju Lagged
Predictor Model. Uspoređujući ovaj model s ranije opisanim MRSA modelom
𝑦 = 𝑋𝐵 + 𝜌𝑊𝑦 + 𝜀
vidimo razliku u definiranju pogreške modela kao oblika mješovitog autoregresivnog
modela s dodatnom prostornom komponentom - trend susjedstva (λWXβ). Ovaj oblik
modela moguće je i dalje generalizirati.
S obzirom na kompleksnost raznolikih procesa u geografskom prostoru mnogi autori
predlažu metode vođene podacima (engl. Data Driven Methods) gdje se u cikličkom
iterativnom procesu model specificira, testira, ali i prema potrebi nadograđuje i
redefinira.
Uvjetni autoregresivni i Bayesovi modeli
Nešto drugačiji konceptualni pristup, koji u praksi može proizvesti slične rezultate,
poznat je kao uvjetno autoregresijski model (CAR). Osnovna ideja ovih modela je
procjena pojave vrijednosti y uz uvjet zabilježenih vrijednosti u susjedstvu
𝐸(𝑦𝑖 |𝑎𝑙𝑙 𝑦𝑗≠𝑖) = 𝜇𝑖 + 𝜌 ∑ 𝑊𝑖𝑗(𝑦𝑖
𝑗≠𝑖
− 𝜇𝑗)
gdje je μi očekivana vrijednost varijable na lokaciji i, a ρ je prostorni autokorelacijski
parametar koji opisuje lokalni efekt susjedstva (pozitivan ili negativan). Izraz sumiranja
je zbroj ponderiranih centriranih vrijednosti na svim drugim lokacijama j ( i). Ova
pretpostavka može i ne mora biti razumna za određeni problem u prostoru koji se
promatra.
U standardnom modelu CAR prostorne težine se često izračunavaju koristeći neki oblik
funkcije koja penalizira udaljenost od točke za koju se procjena radi (engl. decay
function). Raspon ove funkcije može biti neograničen ili se može postaviti na vrijednost
iznad koje težine iznose 0, tj. opservacije ne utječu jedna na drugu. Ovaj raspon može
biti određen apriornim znanjem o problemu ili se može objektivno procijeniti
semivariogramom ili korelogramom.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
85
Veliki broj kondicionalnih (CAR) i Bayesovih modela može se pronaći u WinBUGS
paketu koji je veza sustava R s GeoBUGS programom dizajniranim za Bayesovu
analizu. Ona se značajno razlikuje od klasičnog (frekvencijskog) pristupa. Bayesov
pristup koristi računalno zahtjevne tehnike (Markov Chain Monte Carlo ili MCMC
simulacija Gibbs uzorkovanje) za određivanje parametara modela i njihovih intervala
pouzdanosti.
GLS regresija - metoda generaliziranih najmanjih kvadrata – GLS
Metodu generaliziranih kvadrata (GLS) opisao je Aitken još 1935. godine. Jednadžba
za GLS jednaka je jednadžbi za metodu najmanjih kvadrata OLS: y=Xβ+ε s razlikom
da GLS dozvoljava heterogenost varijance reziduala uz različite oblike korelacije (i
autokorelacije) u podacima i rezidualima. Metoda ipak zahtijeva konstantnost matrice
varijanci-kovarijanci kroz vrijeme.
PRIMJER:
Provlačenje ravnine kroz podatke - trend površine prvog reda. Učitajte program
S730_trend_analiza_ols_gls.R.
>load("tcp.RData") #učitavanje podataka pripremljenjih u .Rdata formatu
>ls() #pregled svih R objekata unutar radnog prostora
>str(tcp) #upoznavanje sa strukturom podataka
'data.frame': 147 obs. of 4 variables:
$ UTM_E : num 702638 701659 703488 703421 703358 ...
$ UTM_N : num 326959 326772 322133 322508 322846 ...
$ clay35: num 78 80 66 61 53 57 70 72 70 62 ...
$ pH35 : num 4.8 4.4 4.2 4.54 4.4 ...
>ts1 <- lm(clay35 ~ UTM_E + UTM_N, data=tcp) #fitanje OLS koristeći koordinate projicirane u UTM projekciji
>summary(ts1) #sumarni rezultat linearnog modela
Call:
lm(formula = clay35 ~ UTM_E + UTM_N, data = tcp)
Residuals:
Min 1Q Median 3Q Max
-31.6006 -5.1064 -0.3632 3.6067 20.4666
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.503e+02 5.186e+01 -4.826 3.52e-06 ***
UTM_E 6.513e-04 5.970e-05 10.908 < 2e-16 ***
UTM_N -4.504e-04 9.238e-05 -4.875 2.84e-06 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 9.107 on 144 degrees of freedom
Multiple R-squared: 0.5059, Adjusted R-squared: 0.499
F-statistic: 73.72 on 2 and 144 DF, p-value: < 2.2e-16
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
86
>summary(residuals(ts1)) #sumarna statistika reziduala modela
Min. 1st Qu. Median Mean 3rd Qu. Max.
-31.6000 -5.1060 -0.3632 0.0000 3.6070 20.4700
>tmp <- data.frame(e=tcp$UTM_E, n=tcp$UTM_N, residuals=residuals(ts1))
> print(bubble(tmp, zcol = "residuals", main = "Reziduali trend površine prvog reda", sub = "Glina %, 30-50 cm sloj", xlab = "UTM E", ylab = "UTM N", pch = 1))
Statistički interpolacijski modeli – hibridni model
Kao posljednju grupu modela navodimo metodu regresijskog kriginga koja se sastoji od
regresijskog dijela te dijela kriginga neobjašnjenih reziduala modela zbog čega se
svrstava u hibridne modele.
Variogramska analiza i kriging
Kriging je dugi niz godina bio sinonim za geostatističke interpolacije. Tehnika je prvi put
objavljena 1951. godine i koristila se za potrebe prognoziranja mineralnih sirovina.
Metode kriginga rade predikciju vrijednosti regionalizirane varijable na neuzorkovanom
mjestu kao linearnu kombinaciju n vrijednosti regionalizirane varijable zi (pri čemu je i
indeks lokacije). Metode kriginga postavljaju sustav od n+1 linearnih jednadžbi s n+1
nepoznanica. Francuski matematičar Matheron uspio je postaviti sustav formula koje
su u biti stvorile granu linearne geostatistike. Novost koju je Matheron uveo u analizu
prostornih podataka je variogram koji je i danas ključna funkcija za iskazivanje
prostorne ovisnosti među opservacijama – prostornu autokorelaciju.
Osnova za provođenje kriginga je modeliranje variograma iz eksperimentalnog
variograma, iz variograma dobivenog iz uzorka.
Variogram / semivariogram
Semivariogram je još jedna značajna funkcija koja indicira prostornu povezanost
opservacija mjerenih na mjestima uzorkovanja. Obično je predstavljena grafičkim
prikazom koji pokazuje varijancu među parovima opservacija s euklidskim
udaljenostima između parova opservacija, ali nije nužno da se kao udaljenost uzme
Euklidska udaljenost. Drugačije rečeno, semivariogram je grafički prikaz koji pokazuje
semivarijancu kao funkciju udaljenosti između objekata u skupu. Prvi puta se ova
funkcija spominje 1962. godine kada je Matheron (Matheron 1962, The theory of
regionalised variables) postavio teoriju za modeliranje stohastičkih površina uporabom
prostornog uzorka.
Analiza prostornog točkastog uzorka po prvi puta je rađena na način grafičkog prikaza
takozvane semivarijance – razlike između zabilježenih vrijednosti varijable između svih
kombinacija parova točaka u uzorku
𝛾(ℎ) =1
2𝐸[(𝑧(𝑠𝑖) − 𝑧(𝑠𝑖 + ℎ))2]
gdje je z(si) vrijednost mjerene varijable na nekoj lokaciji si, z(si+h) je izmjerena
vrijednost varijable na lokaciji na udaljenosti (h) si+h.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
87
Ako je broj opservacija u uzorku predstavljen s vrijednosti n, tada postoji n (n-1)/2 parova mjerenja na kojima se semivarijanca može izračunati. Grafički prikaz koji na osi x prikazuje vrijednost međusobne udaljenosti između točaka, a na osi y izračunate vrijednosti semivarijance zove se tzv. variogramski oblak (engl. variogram cloud) (slika dolje, b) koji nije pogodan za interpretaciju u slučaju velikog broja parova točaka. Iz tog razloga vrijednosti se usrednjavaju unutar standardne udaljenosti koju nazivamo pomak (engl. lag). Grafički prikaz takvih, usrednjenih, vrijednosti naziva se eksperimentalni variogram ili variogram uzorka. Očekivani izgled variograma je da na manjim udaljenostima varijanca između mjerenih vrijednosti bude manja, dalje s porastom udaljenosti raste te se stabilizira na vrijednosti praga (engl. sill), što se postiže na nekoj udaljenosti (doseg, engl. range) nakon koje ne postoji međusobna veza između parova opservacija. Dakle, nakon te udaljenosti opservacije su nezavisne.
Kada imamo eksperimentalni variogram, kroz njega provlačimo optimalnu funkciju koja
najbolje odgovara podacima (slika gore). U tom slučaju, eksperimentalni
(semi)variogrami mogu se matematički aproksimirati teorijskim modelima.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
88
Unutar gstat paketa postoji cijeli niz funkcija za provlačenje optimalne funkcije kroz
eksperimentalni variogram. Ako želimo vidjeti koje sve funkcije postoje u paketu,
trebamo koristiti funkciju show.vgms().
Funkcije se razlikuju prema tome sadržavaju li odstupanje u ishodištu (engl. nugget) te
po načinu ponašanja krivulje u blizini ishodišta. Formule po kojima se ponašaju ove
funkcije mogu se pronaći u mnogim tekstovima, na primjer Isaaks i Srivastava (1989).
Unutar paketa gstat postoji skup autoriziranih funkcija, koje automatski optimalno
opisuju podatke. To su linearna, sferična, eksponencijalna, kružna (cirkularna),
Gaussova, Besselova, funkcija potencije i slično. Paket gstat optimizira funkciju na
način da veći značaj daje onoj informaciji koja je dobivena na temelju većeg broja
parova točaka u određenom prostornom pomaku te onima na manjim udaljenostima.
Optimizacija se radi iterativno te je u kombinaciji s davanjem različitih težina nazivamo
iterativna reponderirana procjena najmanjim kvadratima.
Osnovni je cilj variogramske analize izrada variograma koji na najbolji mogući način
procjenjuje strukturu autokorelacije stohastičkog procesa. Tipičan variogram može se
opisati s tri parametra:
1. Nugget efekt – reprezentira varijacije na malim udaljenostima ili pogrešku
mjerenja. Procjenjuje se uz pomoć empirijskog variograma za pomak (lag) nula.
2. Doseg (engl. range) je udaljenost na kojoj variogram doseže plato, udaljenost
na kojoj mjerenje više nisu međusobno korelirana.
3. Prag (engl. sill) je varijanca u slučajnom polju kada zanemarimo prostornu
strukturu. To je plato kojeg variogram postiže na vrijednosti dosega.
distance
se
miv
ari
an
ce
0
1
2
3
vgm(1,"Nug",0)
0.0 1.0 2.0 3.0
vgm(1,"Exp",1) vgm(1,"Sph",1)
0.0 1.0 2.0 3.0
vgm(1,"Gau",1) vgm(1,"Exc",1)
vgm(1,"Mat",1) vgm(1,"Ste",1) vgm(1,"Cir",1) vgm(1,"Lin",0)
0
1
2
3
vgm(1,"Bes",1)
0
1
2
3vgm(1,"Pen",1) vgm(1,"Per",1) vgm(1,"Wav",1) vgm(1,"Hol",1) vgm(1,"Log",1)
0.0 1.0 2.0 3.0
vgm(1,"Pow",1)
0
1
2
3
vgm(1,"Spl",1)
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
89
Na slici je ukratko prikazan način provedbe interpolacije kontinuirane varijable na
primjeru meteoroloških postaja na području Republike Hrvatske:
6.3.2. Geostatistika u sustavu R
Postoji velik broj metoda i pristupa u procesu interpolacije točkastih vrijednosti na
raster (mreža, grid). Unutar sustava R postoji veći broj paketa koji se bave
geostatističkim analizama i interpolacijama. To su specijalizirani paketi (akima, loess,
spatial, gstat, GeoR, ali i mnogi drugi) koji nude ogroman broj tehnika. Tijekom ovog
tečaja detaljnije ćemo se upoznati samo s jednim, paketom gstat.
6.3.3. Paket gstat
Paket je implementacija samostalnog programa gstat za geostatističke analize u
sustavu R. Uglavnom je razvijan na sveučilištu u Utrechtu (Nizozemska) od 1992. do
2007., dok je razvoj nakon 2007. nastavljen na Institutu za geoinformatiku Sveučilišta u
Münsteru (Njemačka). Cilj je bio izrada alata za modeliranje, predikcije i simulacije
geostatističkih podataka u jednoj, dvije ili tri dimenzije. Ista grupa danas razvija
strukture podataka i analitičke metode za prostorno-vremenske setove podataka –
analitika u četiri dimenzije (paketi sp i spacetime). Za svoje metode gstat je definirao
sp strukture podataka. Osim ovog, postoji i niz drugih paketa za analitiku prostornih
podataka i u određenoj se mjeri preklapaju s gstat. Primjer su paketi geoR i raster s
vlastitom klasom za prostorne podatke geodata i raster te paket spatial za analize
točkastih procesa (engl. point pattern).
Napomena:
Ako će polaznici pokazati želju za razumijevanjem teorije slučajnih polja, tada se može
ići u objašnjavanje teorije slučajnih polja koja slijedi, a u suprotnom se može i
preskočiti.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
90
Teorija slučajnih polja – teorija regionaliziranih varijabli
Kratak opis teorija slučajnih polja (engl. random field theory): Webster & Oliver 2001.
Geostatistics for environmental scientists, Chichester atc. John Wiley & Sons, Ltd.
Ova teorija omogućila je razvoj geostatističkih metoda kao što je kriging. Teorija
pretpostavlja da su zabilježene vrijednosti varijable na nekom prostoru rezultat
prostorno povezanog procesa o kojem možemo donositi zaključke na temelju uzorka
kojeg imamo. Ono čega moramo biti svjesni u ovoj teoriji je činjenica da ne postoji
način da ove pretpostavke provjerimo. Mnogi u ovoj činjenici vide velik problem teorije
koja se u praksi pokazala izuzetno korisnom.
Ključne ideje teorije: izmjerene vrijednosti atributa su jedna od mnogih mogućih
realizacija slučajnog procesa, zvanog i vjerojatnosni (stohastički, slučajni) proces. Taj je
slučajni proces prostorno autokoreliran što u biti znači da su atributne vrijednosti
(vrijednosti varijable) u nekoj mjeri povezane. Na svakoj prostornoj točki xi (lokaciji)
zabilježena vrijednost varijable Z samo je jedna realizacija slučajne varijable Z(x).
Znači, mi imamo samo jednu realnost (uzorak) koji je jedna realizacija procesa koji je
mogao proizvesti mnogo realizacija (μ, σ2). Svaka točka ima svoj vlastiti slučajni
proces, ali sve točke imaju jednak oblik slučajnosti. Ipak, može postojati prostorna
ovisnost među točkama, koje u tome slučaju nisu nezavisne. Kao zaključak, one
zajedno čine slučajni proces na cijelom polju R.
Zaključak: izmjerene vrijednosti uzorka rezultat su nekog slučajnog procesa, ali s
određenim restrikcijama, posebice o prostornoj ovisnosti. Skup vrijednosti koje slučajna
varijabla Z u prostoru može imati zovemo prostorno polje, a varijablu Z
regionaliziranom varijablom koja ima karakteristiku dvostruke beskonačnosti:
1. beskonačan broj mogućih točaka
2. beskonačan broj vrijednosti koje može imati na pojedinoj lokaciji.
Vizualizacija: Na donjoj slici nalaze se 4 jednako vjerojatne realizacije slučajnog polja
na mreži točaka dimenzija 256 x 256.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
91
Problem je što bismo željeli odrediti proces na temelju jedne točke. Da bi se zaobišao
ovaj problem uvode se određene pretpostavke poznate pod nazivom stacionarnost.
Stacionarnost prvog reda slučajnog procesa
Pretpostavljamo da je očekivana vrijednost na svakoj točki polja jednaka.
�̂�(𝑥1, 𝑥2) = 𝐸[{𝑍(𝑥𝑖) − 𝜇} ∙ {𝑍(𝑥2) − 𝜇}]
Napomena:
Primijetite da u gornjoj jednadžbi srednja vrijednost ne ovisi o lokaciji.
Uzimajući u obzir stacionarnost prvog reda u mogućnosti smo procijeniti očekivanu
vrijednost iz uzorka i njegovog prostornog rasporeda.
Problemi kod stacionarnosti prvog reda su da ona često nije zadovoljena na:
1. na različitim stratumima (regijama)
2. kod postojanja regionalnog trenda.
Kod oba ova slučaja nestacionarnog procesa, mora se primijeniti:
a) modeliranje po stratumima ili
b) uklanjanje regionalnog trenda prije modeliranja ili
c) modeliranje na malim područjima ili
d) modeliranje razlike u varijabli, a ne varijablu kao takvu.
Do sada smo procijenili sredinu neregionalizirane varijable, ali moramo uključiti i
činjenicu da su bliske opservacije međusobno sličnije. Kao i bilo koje druge varijable,
slučajne varijable koje čine regionaliziranu varijablu mogu kovarirati. Imamo jednu
realizaciju po točki, ali svaka točka je drugačija realizacija, tako da u određenome
smislu imamo različite varijable koje samim time imaju kovarijancu. Za razumijevanje
je ključno da se pod određenim pretpostavkama može smatrati da dobivena
kovarijanca ovisi jedino o međusobnoj udaljenosti između točaka te eventualno o
smjeru, o čemu će kasnije biti riječi.
U klasičnoj statistici kovarijanca je definirana na sljedeći način:
�̂�(𝑧1, 𝑧2)=1
𝑛∑ (𝑧1𝑖
− 𝑧1̅) ∙ (𝑧2𝑖− 𝑧2̅)𝑛
𝑖=1
Prostorna varijanta kovarijance:
�̂�(𝑥1, 𝑥2) = 𝐸[{𝑍(𝑥1) − 𝜇(𝑥1)} ∙ {𝑍(𝑥2) − 𝜇(𝑥2)}]
Radi pretpostavke o stacionarnosti prvog reda je očekivana vrijednost jednaka:
�̂�(𝑥1, 𝑥2) = 𝐸[{𝑍(𝑥𝑖) − 𝜇} ∙ {𝑍(𝑥2) − 𝜇}]
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
92
Stacionarnost na jednoj točki – stacionarnost drugog reda
Problem je u sljedećem: kovarijanca u jednoj točki je njezina varijanca.
𝜎2 = 𝐸[{𝑍(𝑥𝑖) − 𝜇}2]
Ovo nije moguće procijeniti iz jednog uzorka (jedne realizacije od mnogo mogućih).
Rješenje je u pretpostavci da varijanca na svim točkama ima jednaku konačnu
vrijednost.
Uz navedenu pretpostavku procjenjujemo a priori varijancu procesa (na primjer,
kovarijancu na točki) spajanjem svih slučajnih varijabli.
Stacionarnost drugog reda na cijelom polju
Problem: Definicija kovarijance dana je između svih točaka u polju. Ne postoji način da
procijenimo kovarijancu na temelju samo jednog para točaka po paru varijabli. Ovaj
problem rješava se pretpostavkom da kovarijanca između točaka ovisi jedino o njihovoj
međusobnoj udaljenosti, a ne njihovoj apsolutnoj lokaciji. Tek sada možemo procijeniti
njihovu kovarijancu iz velikog broja parova točaka koje su odvojene približno jednakom
udaljenošću i smjerom (vektor h).
Autokovarijanca: izraz "auto" jer se radi o istoj regionaliziranoj varijabli na udaljenosti
h:
𝐶[𝑍(𝑥), 𝑍(𝑥 + ℎ)] = 𝐸[{𝑍(𝑥) − 𝜇} ∙ {𝑍(𝑥 + ℎ) − 𝜇}]
= 𝐸[{𝑍(𝑥)} ∙ {𝑍(𝑥 + ℎ)} − 𝜇2]
≡ 𝐶(ℎ)
Autokorelacija: Autokovarijanca normalizirana ukupnom varijancom, što je kovarijanca
na točki.
𝜌(ℎ) =𝐶(ℎ)
𝐶(0)
Semivarijanca: odstupanje kovarijance na određenoj udaljenosti od ukupne varijance:
𝛾(ℎ) = 𝐶(0) − 𝐶(ℎ)
Problem kod stacionarnosti drugog reda:
Pretpostavlja se da je kovarijanca konačna vrijednost, što ponekad nije zadovoljeno
kako povećavamo područje.
Rješenja ovog problema su:
modelirati razlike u vrijednostima, a ne vrijednosti same varijable
raditi modele za manja područja
modelirati semivarijancu, a ne kovarijancu.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
93
Ugrađena hipoteza:
Zamijenimo srednju vrijednost regionalizirane varijable Z(x) sa srednjim vrijednostima
razlika, koje su jednake na cijelome području slučajnog polja, barem na malim
separacijama vektorom h. Tada je očekivana vrijednost 0:
𝐸[𝑍(𝑥) − 𝑍(𝑥 + ℎ)] = 0
Ako zamijenimo kovarijancu vrijednosti s varijancom razlika:
𝑉𝑎𝑟[𝑍(𝑥) − 𝑍(𝑥 + ℎ)] = 𝐸[{𝑍(𝑥) − 𝑍(𝑥 + ℎ)}2] = 2𝛾(ℎ)
Prethodna jednadžba uključuje jedino razlike vrijednosti na određenoj separaciji, a ne
same vrijednosti, tako da potrebna pretpostavka konačne varijance mora biti
zadovoljena jedino za razlike, a ne i za samu varijablu, što je znatno blaža
pretpostavka. Ovo nazivamo ugrađenom hipotezom (engl. intrinsic hypothesis).
Kako je semivarijanca na separaciji h sada zadana kao funkcija procijenjene
kovarijance na području to znači da ona modelira prostorno povezanu komponentu
regionalizirane varijable. Ako eksperimentalni variogram matematički opišemo, tj.
napravimo njegov model, u mogućnosti smo modelirati slučajan proces na bilo kojoj
udaljenosti.
Empirijski variogram računamo prema formuli:
�̅�(ℎ) =1
2𝑚(ℎ)∑ [𝑧(𝑥𝑖) − 𝑧(𝑥𝑖 + ℎ)]2
𝑚(ℎ)
𝑖=1
a znamo da je teorijski variogram:
𝛾(ℎ) = 0.5 ∙ 𝐸[{𝑍(𝑥) − 𝑍(𝑥 + ℎ)}2]
Prijelaz s eksperimentalnog na teorijski variogram: procjenjuju se parametri modela iz
uzorka (eksperimentalni variogram). Da bi bili u mogućnosti fitati tzv. autorizirani
matematički model, trebaju vrijediti sljedeće pretpostavke:
1. varijance regionaliziranih varijabli monotono rastu s udaljenošću
2. varijance dosežu konstantan, asimptotski prag (engl. sill)
3. ne postoji negativno odstupanje (engl. nugget).
Ove pretpostavke na variogram omogućuju postojanje rješenja u sustavu jednadžbi
kriginga.
PRIMJER:
Otvorite u RStudiju program naziva S730_regresijski_kriging.R.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
94
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
95
7. Prostorno vremenski podaci u sustavu R
Unutar sustava R postoji veći broj paketa koji se razvijaju radi kreiranja klasa i metoda
za pohranu, vizualizaciju i analizu prostorno – vremenski referenciranih podataka. Neki
od njih su paketi spacetime i SpatioTemporal. Ovdje dajemo vrlo kratak uvid u
specifičnosti rada s ovim tipom podataka kroz paket spacetime.
7.1. Paket spacetime
Unutar ovog paketa razvijaju se klase i metode za optimalnu pohranu prostorno-
vremenski referenciranih podataka koje uključuju prostorno-vremenske regularne
površine, iregularne podatke i putanje (trajektorije) te adekvatne funkcije za grafički
prikaz i animacije vremenskih serija, metode za prostorno-vremensku selekciju
podataka, prostorno-vremenska agregiranja i slično. Ovaj paket koristi strukturu
podataka paketa sp za prostornu komponentu i strukturu paketa xts za vremenski dio.
Vrlo često su se prostorno-vremenski podaci analizirali na način da se posebno
analizira prostorna, a posebno vremenska komponenta podataka. Ovaj paket razvija
metode analize integralnim pristupom segmentima u istom procesu. Specifičnost je
ovog tipa podataka da su prikupljeni i u prostornoj i u vremenskoj komponenti, ali
rijetko u obje na istom nivou kvalitete (prostornoj i vremenskoj rezoluciji).
Prostorno-vremenski referencirani podaci uglavnom se pohranjuju u različitim oblicima
tabličnih prikaza ili relacijskih baza podataka (Acess, PostgreSQL, postGIS i dr.), ili u
strukturama sličnim .xlm datotekama (razgranata struktura).
7.1.1. Zapisivanje prostorno-vremenskih informacija u paketu spacetime
Radi jednostavnosti, prostorno-vremenski podaci najčešće dolaze zapisani unutar
jedinstvene tablice koja može biti u jednom od tri formata:
a) Vremenski širok format – različite kolone u tablici predstavljaju različit trenutak
(vremensku komponentu)
b) Prostorno širok format – različite kolone predstavljaju različite lokacije mjerenja
ili područja ili
c) Dugi format – jedan redak u tablici predstavlja jedinstvenu kombinaciju prostora
i vremena.
Ovisno o tipu prostorno – vremenski referenciranih podataka trenutno su razvijeni
sljedeći formati za pohranu:
pune površine STF (engl. spatio-temporal full grids) – služe za pohranu
objekata koji nemaju nedostajućih vrijednosti (NA). Informacije se čuvaju za bilo
koji tip prostornog objekta (točka, linija, poligon, ćelija), pri čemu riječ površina
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
96
(engl. grid) označava prostorno-vremenski raspored, a ne tip objekata koji se
prikazuje (na primjer, točka mjerenja).
Rahle (rijetke) površine STS (engl. sparse grid) – prostorno - vremenski
raspored je identičan, ali se čuvaju isključivo podaci koji imaju vrijednosti,
odnosno nisu NA.
Nepravilni rasporedi STI (engl. irregular layout) – svaka opservacija posjeduje
svoju oznaku prostora i vremena. Mjerene točke u prostoru i vremenu ne
posjeduju vidljivo pravilo.
Trajektorije STT (engl. trajectory) - objekti u pokretu, jednostavne putanje – na
ovaj način pohranjuju se informacije o objektima bez vremenskog trajanja,
objektima određenog vremena trajanja koji se ne kreću, i objektima u pokretu.
Primijetite na slici da se prilikom referenciranja prvo indeksira prostorna komponenta,
pa zatim vremenska. Unutar paketa su razvijene metode za učitavanje i izlaz,
vizualizaciju, prijelaz iz jedne klase u drugu (engl. coercion), selekciju i vizualizaciju
prostorno vremenskih podataka.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
97
Na slici dolje su prikazane klase objekata u paketu spacetime te su naznačeni njihovi
mogući međusobni prijelazi.
PRIMJER:
Otvorite program naziva S730_spacetime_primjeri.R uz pomoć kojega ćemo se
upoznati s klasama razvijenim za rad s prostorno-vremenskim podacima unutar paketa
spacetime.
Otvorite program naziva S730_spacetime_metode.R uz pomoć kojega ćemo se
upoznati s metodama razvijenim za rad s prostorno-vremenskim podacima unutar
paketa spacetime.
ZADACI ZA SAMOSTALAN RAD:
Otvorite skriptu naziva S730_zadaci_spacetime.R i samostalno riješite zadatke.
PRIMJER:
Učitajte program pod nazivom S730_R_access.R. Prolaskom kroz program sudionici
će se upoznati s načinom povezivanja sustava R i baze podataka Access, s kreiranjem
prostorno-vremenski referenciranih podataka te napraviti vizualizaciju na Google
Earthu.
Učitajte program pod nazivom S730_R_Postgres_PostGIS.R. Prolaskom kroz
program sudionici će se upoznati s načinom povezivanja sustava R i baze prostornih
podataka Postgres / PostGIS baze prostornih podataka.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
98
PITANJA ZA PONAVLJANJE:
1. Navedite primjere kada je osim prostorne komponente važno čuvati i
informaciju o vremenu. Navedite promjere iz prirodnih, društvenih i tehničkih
znanosti.
2. Navedite klase podataka kako ih definira paket spacetime.
3. Objasnite razliku između vremenski širokog formata i prostorno širokog formata.
Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)
99
Bilješke: