programski jezik r u vizualizaciji i analizi prostornih ... · programski jezik r u vizualizaciji i...

103
Programski jezik R u vizualizaciji i analizi prostornih podataka S730 priručnik za polaznike © 2015 Srce

Upload: others

Post on 06-Sep-2019

13 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi

prostornih podataka

S730

priručnik za polaznike © 2015 Srce

Page 2: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Ovu inačicu priručnika izradio je autorski tim Srca u sastavu:

Autorica: dr. sc. Andreja Radović

Recenzentica: mr. sc. Melita Perčec Tadić

Urednica: Irena Jandrić

Sveučilište u Zagrebu

Sveučilišni računski centar

Josipa Marohnića 5, 10000 Zagreb

[email protected]

ISBN 978-953-7138-76-9 (meki uvez) ISBN 978-953-7138-77-6 (PDF)

Verzija priručnika: S730-20160713

Ovo djelo dano je na korištenje pod licencom Creative Commons Imenovanje-Nekomercijalno-Dijeli pod istim uvjetima 4.0 međunarodna. Licenca je dostupna na stranici: http://creativecommons.org/licenses/by-nc-sa/4.0/.

Page 3: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Sadržaj

Uvod ........................................................................................................................... 1

1. Prostorni podaci ................................................................................................... 3

1.1. Vrste dvodimenzionalnih GIS-podataka ...................................................................................... 3 1.1.1. Vektorski prikaz prostornih podataka ................................................................................ 6 1.1.2. Rasterski prikaz prostornih podataka ................................................................................ 7

1.2. Geopozicioniranje i lokalne koordinate - projekcije ..................................................................... 7 1.2.1. 2D geografske koordinate ................................................................................................. 8 1.2.2. 3D koordinatni sustavi - 3D geodetske (geografske) koordinate ...................................... 9 1.2.3. Prelazak iz trodimenzionalnog (3D) na dvodimenzionalni (2D) sustav ............................ 9 1.2.4. Referentne površine .......................................................................................................... 9 1.2.5. 2D Kartezijev koordinatni sustav ..................................................................................... 11 1.2.6. 2D polarni koordinatni sustav .......................................................................................... 11 1.2.7. Osnovno o projekcijama..................................................................................................12

1.3. Prostorni podaci u specijaliziranom GIS programu – SAGA GIS ..............................................15

2. Prostorni podaci u sustavu R ........................................................................... 17

2.1. Struktura prostornih podataka u sustavu R ...............................................................................17

2.1.1. CRAN – Spatial ............................................................................................................18

2.2. Vizualizacija prostornih podataka u sustavu R .........................................................................29

3. Uvod u analizu prostornih podataka ................................................................ 31

3.1. Proces analize prostornih podataka ..........................................................................................31 3.1.1. Prostorni uzorak ..............................................................................................................32

3.2. Specifičnosti analitike u prostoru...............................................................................................36 3.2.1. Slučajnost ........................................................................................................................37 3.2.2. Zavisnost – nezavisnost opservacija (opažanja) ............................................................37 3.2.3. Prostorna heterogenost...................................................................................................37 3.2.4. Prostorna autokorelacija .................................................................................................38 3.2.5. Specifičnosti geometrije na sferi .....................................................................................42 3.2.6. Ekološka zabluda i problem promjenjivih jedinica površine (MAUP) ..............................42

4. Uključivanje informacije o međusobnim odnosima opservacija u analizu ... 43

4.1. Prostorni odnosi - topologija ......................................................................................................43

4.2. Uključivanje međusobne ovisnosti među opservacijama u analizu ..........................................44 4.2.1. Međusobna povezanost diskretnih prostornih pojava .....................................................44

4.3. Mjere opće povezanosti podataka ............................................................................................51 4.3.1. Izračun opće mjere međusobne povezanosti prostornih podataka. ...............................51 4.3.2. Tipovi prostorne autokorelacije .......................................................................................53 4.3.3. Testiranje statističke značajnosti izračunatih indeksa prostorne povezanosti ................57 4.3.4. Getis Ord G statistika ......................................................................................................61 4.3.1. Mjere lokalne prostorne autokorelacije (povezanosti) ....................................................61

5. Točkasti procesi ................................................................................................. 63

5.1. Tipovi točkastih procesa ............................................................................................................63

5.2. Analiza točkastih procesa .........................................................................................................63 5.2.1. Opisne statistike točkastog procesa ...............................................................................64 5.2.2. Disperzija i organizacija točaka u točkastom procesu ....................................................65

Page 4: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

5.2.3. Intenzitet točkastog procesa ...........................................................................................65

5.3. Procjena postojanja prostorne ovisnosti među događajima .....................................................70 5.3.1. Modeliranje točkastih procesa ........................................................................................70 5.3.2. Hipoteza o potpunoj prostornoj slučajnosti (engl. Complete Spatial Randomnes - CSR)70

5.3.3. 2 test ..............................................................................................................................71 5.3.4. Metoda najbližih susjeda .................................................................................................72

6. Analitika kontinuiranih procesa i geostatistika ............................................... 77

6.1. Mehanički (deterministički) modeli ............................................................................................78

6.2. Modeli temeljeni na ekspertnom znanju ....................................................................................78

6.3. Statistički (vjerojatnosni) modeli ................................................................................................78 6.3.1. Regresijski modeli ...........................................................................................................78 6.3.2. Geostatistika u sustavu R ...............................................................................................89 6.3.3. Paket gstat ......................................................................................................................89

7. Prostorno vremenski podaci u sustavu R ....................................................... 95

7.1. Paket spacetime ........................................................................................................................95 7.1.1. Zapisivanje prostorno-vremenskih informacija u paketu spacetime ...............................95

Page 5: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

1

Uvod

U tečaju Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

obrađuju se osnove rada s prostornim podacima u sustavu R. Tečaj je namijenjen

polaznicima bez, ali i s iskustvom u radu s prostornim podacima.

Kako bi polaznici mogli aktivno pratiti i sudjelovati u izvođenju ovog tečaja, potrebno je

imati sljedeće predznanje:

1. Poznavanje programskog jezika R, a specifično:

traženje pomoći unutar sustava R

poznavanje osnovnih struktura podataka u sustavu R

korištenje funkcija u sustavu R

poznavanje rada s grafičkim sustavima (osnovna i trellis grafika)

rad s bojama

rukovanje (manipulacija) tekstom

znanje rada s formatima datuma.

2. Poznavanje statističkih koncepata, minimalno:

osnove matrične algebre

osnove vjerojatnosti

uzorkovanje

mjerne skale

slučajne varijable i distribucije vjerojatnosti

intervali pouzdanosti i testiranje hipoteza

vrste modela

korelacijski i regresijski modeli

testiranje pretpostavki za primjenu izabranog modela

razumijevanje grafičkih prikaza statističkih koncepata i rezultata analize

3. Opća znanja:

pasivno poznavanje engleskog jezika radi mogućnosti praćenja

dokumentacije unutar sustava R

barem minimalno iskustvo u programiranju je prednost

poznavanje osnova rada s računalom i operacijskim sustavom MS

Windows

U ovom su priručniku naredbe pisane fontom s jednakim razmacima među slovima

(engl. monospace) (na primjer, naredba install.packages()).

Sintaksa naredbi pisana je plavim monospace slovima, sa sivom pozadinom te sivim

komentarima za dijelove koje program ne izvodi:

>library(help = "base") #pomoć za paket base

Page 6: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

2

U nekim slučajevima u ovaj dokument stavljen je i ispis koji proizvede naredba na

konzoli. Ispis na konzoli također je pisan sivim ukošenim slovima.

Tipke na tipkovnici pisane su monospace/Courier New slovima u uglatim zagradama

(na primjer, [Enter]).

Važni pojmovi su prilikom prvog spominjanja pisani podebljano.

Tijekom tečaja paralelno ćemo koristiti termine varijabla i atribut.

Page 7: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

3

1. Prostorni podaci

Prostorni podaci su svi podaci koji su direktno ili indirektno povezani s određenim

položajem u prostoru ili geografskim područjem. Prostorni objekt predstavlja apstraktan

prikaz pojave iz stvarnog okruženja povezan s određenim položajem ili geografskim

područjem. Geografska informacija sadrži podatak o geografskim objektima, njihovom

obliku, lokaciji te međusobnim odnosima (topologiji). Najopćenitije iskazano, prostorni

podaci su podaci s koordinatama, ali i podaci kojima se opisuje samo relativan

međusobni položaj (kao, na primjer, međusobni odnos kolonija bakterija na podlozi). U

osnovi ih možemo podijeliti na prostorne informacije koje predstavljaju diskretne pojave

u prirodi i one kojima opisujemo kontinuirane pojave. U daljnjem tekstu i vježbama u

ovom tečaju prostornim podacima ćemo smatrati podatke s neke zemljopisne lokacije.

Budući da prostorni podaci nastaju u cijelom nizu različitih disciplina i područja, postoji i

čitav spektar različitih tipova prostornih podataka, struktura i scenarija.

Geografski, georeferencirani podaci u svojoj biti uključuju dvije komponente:

1. prostornu komponentu – (geometrijsku ili grafičku) koja opisuje prostornu distribuciju prostornog fenomena te predstavlja pojednostavljenu, digitalnu informaciju o nekom području

2. atributnu komponentu koja opisuje svojstva objekta ili pojave.

1.1. Vrste dvodimenzionalnih GIS-podataka

Pokušaji klasificiranja tipova prostornih podataka uglavnom su ili pregrubi ili predetaljni.

Prema Cressie (1993.) možemo ih podijeliti na:

1. obrasce točaka – točkaste procese (engl. point pattern)

2. poligonske objekte (engl. areal data, lattice data)

3. geostatističke (kontinuirane) pojave.

Uobičajeno je prostorne podatke i njihove atribute pohranjivati i upravljati njima u okviru

Geografskog informacijskog sustava (GIS). Prema zajedničkim standardima Open

Geospatial Consortium – OGC (http://www.opengeospatial.org/) i International

Organisation for Standardisation - ISO, definiran je veći broj osnovnih

dvodimenzionalnih GIS objekata (engl. simple features). To su:

Geometry – geometrija

Point, MultiPoint – točkasti objekti

LineString, MultiLineString – linijski objekti

Polygon, MultiPolygon, Triangle – poligonski objekti

CircularString – kružni prsten

Curve, MultiCurve, CompoundCurve – tipovi krivulja

CurvePolygon – zaobljeni poligoni

Surface, MultiSurface, PolyhedralSurface – površine

Page 8: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

4

TIN (engl. Triangulated Irregular Networks - TIN) – triangularizirane nepravilne mreže

GeometryCollection – kolekcije geometrija.

Ove osnovne GIS-strukture organizirane su hijerarhijski. Primijetite da je definiranje

koordinatnog sustava (engl. Spatial Reference System) jedinstveno za sve vrste

geometrija.

Sustav R omogućuje učitavanje osnovnih vektorskih GIS-objekata kako ih definira

Open Geospatial Consortium – OGC: http://www.opengeospatial.org/.

Za sve vektorske objekte vrijedi da se mogu izrađivati u samom sustavu unosom

formata Well-Known Binary (WKB) ili Well-Known Text (WKT) uporabom

funkcionalnosti paketa Rgeos funkcije readWKT(). Paket Rgeos je sučelje na

biblioteku GEOS (http://trac.osgeo.org/geos/) koja je pak C++ veza prema Java

Topology Suite - JTS (http://tsusiatsoftware.net/jts/main.html). JTS pruža potpunu,

dosljednu, robustnu provedbu temeljnih algoritama za obradu linearne geometrije na 2-

dimenzionalnoj kartezijevoj ravnini. GEOS je dostupan pod Lesser General Public

Licence (http://www.gnu.org/licenses/old-licenses/lgpl-2.1.html).

>moj_poligon <- readWKT("POLYGON((1 0,0 1,1 2,2 1,1 0))")

Kako smo već spomenuli u ovom tečaju, najveći broj korisnika ipak ne izrađuje

prostorne objekte unutar sustava R, već najčešće u GIS-u pripremljene prostorne

objekte unosi u sustav R radi analize i vizualizacije. Važno je naglasiti da veći broj

kontribuiranih paketa koje ćemo koristiti koristi funkcionalnosti paketa Rgeos (veze

prema biblioteci GEOS (engl. Geometry Engine Open Source) – biblioteka otvorenog

kôda, napisana u programskom jeziku Java (http://trac.osgeo.org/geos/) koji podržava

sve ključne operacije na OGC geometrijama, topološke upite, ali i vezu prema bazama

prostornih podataka.

Page 9: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

5

Podaci u GIS-u predstavljaju stvarne objekte i pojave (kao što su ceste, uporaba

zemljišta, visina, stabla, putevi, udari munja itd.). Mogu predstavljati i lokacije neke

pojave ili izmjerenog fenomena, npr. lokacije pojava munja ili zabilježeno kretanje neke

životinje. Realni objekti mogu se podijeliti u dvije apstrakcije: diskretni objekti (kao što

su stabla, kuće) i kontinuirane površine (kao što su količina oborina ili nadmorska

visina). Tradicionalno, postoje dvije osnovne metode koje se koriste za pohranu

podataka u GIS-sustavima kao rezultat potrebe pohrane informacija za obje glavne

vrste pojava u prirodi: vektorska prezentacija razvijena prvenstveno radi diskretnih

pojava te rasterska prezentacija (površine) (engl. grid) radi prikaza kontinuiranih pojava

u prirodi.

Osnovni modeli prikaza objekata u prostoru:

Vektorski prikaz Rasterski prikaz

Točke

Linije

Površine (poligoni)

Oba modela prikaza podataka samo su pojednostavljeni prikaz realnog svijeta.

Napomena:

Važno je razumjeti radi čega je određeni prikaz bolji za pojedine prirodne pojave.

Page 10: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

6

1.1.1. Vektorski prikaz prostornih podataka

Unutar vektorskog GIS-a, elementi realnog svijeta prikazuju se putem tri osnovna tipa

geometrija koji se sastoje od jednog ili više međusobno povezanih verteksa. Ovisno o

suštini pojave u prirodi koju želimo prikazati prostornim objektom, objekti se dijele na

one bez dimenzija (predstavljene točkom), jednodimenzionalne (predstavljane linijama)

te dvodimenzionalne površine (predstavljene poligonima). Vektorskom elementu

pridruženi su određeni atributi koji ga opisuju.

Prednosti vektorskog prikaza podataka:

1. podaci se prikazuju u originalnoj rezoluciji i obliku, bez gubitka informacija

2. grafički prikaz jako podsjeća na tradicionalni izgled geografske karte

3. za jedan prostorni objekt moguće je čuvati velik broj informacija

4. definiranje topologije je efikasno.

Nedostaci vektorskog prikaza:

1. potrebno je znatno više memorije za čuvanje informacije

2. analize se teško provode

3. teško je prikazati kontinuirane pojave u prirodi

4. upravljanje objektima nije jednostavno

5. struktura je vrlo kompleksna.

Jedna od važnih funkcionalnosti sustava R je njegova mogućnost učitavanja već

postojećih vektorskih geografskih podataka.

Formati vektorskih podataka izvan sustava R

ESRI Shapefile ili jednostavnije shapefile je popularni vektorski format prostornih

podataka za GIS softver. ESRI ga je razvio kao otvorenu specifikaciju za

interoperabilnost podataka između različitih softverskih proizvoda. Shapefile

prvenstveno opisuje geometriju osnovnih prostornih objekata kao što su točka, linija i

poligon. Svaki od navedenih objekata sadrži neke od atributa koji ga opisuju bilo da se

radi o rednom broju, duljini, površini ili nekom drugom svojstvu koje je vezano za

objekt. Interoperabilnost (međudjelovanje) podrazumijeva mogućnost kombiniranja

skupova prostornih podataka i međudjelovanje usluga bez ponavljajuće manualne

intervencije, tako da je rezultat dosljedan i da je dobivena dodana vrijednost skupa

podataka i usluga.

Format Shapefile, koji je izvorno osmislila kompanija ESRI, danas je neformalni

standard (nikad odobren od strane OGC) za vektorsku prezentaciju okoline i ne postoji

programski paket koji barata prostornim podacima, a da ne može učitati ovaj format.

Struktura ESRI shapefile-datoteke (shp, kolokvijalno shapefile, shape) je u biti skup od

nekoliko datoteka jednakog imena, ali različitih ekstenzija (formata) od kojih su sljedeće

tri obavezne i pohranjuju:

ime.shp – informacije o geometriji odnosno oblicima prostornih objekata

ime.dbf – bazu podataka o prostornim objektima

Page 11: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

7

ime.shx – skup indeksa prostornih objekata.

Postoji još cijeli niz opcionalnih formata datoteka u shapefileu koji pomažu u snalaženju

s podacima, njihovoj uporabi i upravljanju, no mi ćemo od njih spomenuti samo onaj

koji nosi informacije o prostornom koordinatnom sustavu:

ime.prj - projekcijski format, koordinatni sustav i projekcijski parametri.

Tijekom ovog tečaja, osim ESRI shapefile-datoteka, od vektorskih podataka ćemo se

susresti s KML (Keyhole Markup Language) formatom za prikaz objekata na Google

Earthu.

1.1.2. Rasterski prikaz prostornih podataka

Površine, mreže ili rasteri (engl. rasters, grids) sastoje se od matrice ćelija (piksela)

organiziranih u retke i stupce (mrežu) gdje svaka ćelija nosi informaciju o vrijednosti

atributa na toj lokaciji. Jedan raster može nositi informaciju samo o jednom atributu, na

primjer, temperaturi zraka ili nadmorskoj visini. Zbog svoje pune strukture, vrlo su

pogodni za prikaz kontinuiranih varijabli, ali i diskretnih elemenata prostora kao što je

vrsta zemljišnog pokrova i slično.

Prednosti rasterskog načina prikaza podataka su:

1. geografski položaj svake ćelije je određen

2. struktura podataka je vrlo jednostavna

3. izvođenje analiza je vrlo jednostavna

4. metode preklapanja i spajanja su efikasne i jednostavne

5. akumuliranje informacija putem skeniranja je jednostavno.

Mane rasterskog načina prikaza su:

1. loša rezolucija

2. teško je prikazati linearne strukture

3. teško je čuvati veći broj atributa za istu prostornu jedinicu.

Formati „stranih“ rasterskih podataka

Generalno, rasterski formati su u svojoj strukturi jednostavniji od vektorskih podataka.

Ipak, broj različitih rasterskih formata znatno je veći; gotovo svaki program za GIS

izradio je i svoj format za rastere. Iz tog razloga nećemo ovom prilikom davati njihov

pregled. Gotovo svi poznati rasterski formati mogu se unijeti u sustav R putem

konverzijskih biblioteka formiranih u R-pakete. O njima će biti riječi nešto kasnije.

1.2. Geopozicioniranje i lokalne koordinate - projekcije

Razvijeno je nekoliko sustava koordinata kako bi se uspješno odredio položaj nekog

objekta u dvodimenzionalnom (2D) ili trodimenzionalnom (3D) prostoru. Za

pozicioniranje u dvodimenzionalnom prostoru koriste se 2D Kartezijeve (x,y) ili 2D

polarne koordinate (,d).

Page 12: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

8

1.2.1. 2D geografske koordinate

Kako bismo jednoznačno definirali položaj neke točke na zemaljskoj kugli bilo je

potrebno razviti sustav za geo-referenciranje. To je napravljeno na način da je na

Zemlju kao nebesko tijelo superponirana zamišljena mreža linija, meridijana (engl.

longitude, lon) i paralela (engl. latitude, lat).

Geografska širina (f) i duljina (l) predstavljaju 2D geografski koordinatne sustav. Izvor: http://kartoweb.itc.nl/geometrics/coordinate%20systems/coordsys.html

Sustav koordinata (lat, lon) ja najčešće korišteni sustav za pozicioniranje na Zemlji i za

svaku je lokaciju moguće jednoznačno odrediti zemljopisnu širinu i duljinu putem

satelita koji kruže u zemljinoj orbiti. Aktivni su američki globalni sustav pozicioniranja

(engl. Global Positioning System, GPS) Navstar i ruski sustava Glonass. Uskoro bi

Europska Unija trebala pustiti u pogon svoj sustav Galileo. Na uspostavi sličnih sustava

rade i Indija i Kina.

Najčešće se u prostornoj analizi koriste geodetske koordinate na elipsoidu. Geografska

dužina (lon, λ) je kut od ravnine početnog meridijana do ravnine meridijana zadane

točke. Geografska širina (lat, ) je kut od ravnine ekvatora do ravnine paralele zadane

točke (okomito na elipsoid). Važno je imati na umu da se kutovi (koordinate) mijenjaju

ako su mjereni na nekom drugom elipsoidu (datumu).

Page 13: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

9

Pored opisanih geodetskih (geografskih koordinata) postoje još dvije vrste koordinata:

1. astronomske, na geoidu

2. geocentričke, na elipsoidu s tom razlikom što se kut ' ne određuje okomicom na elipsoid kao kod geodetskog sustava nego okomicom kroz središte elipsoida.

1.2.2. 3D koordinatni sustavi - 3D geodetske (geografske) koordinate

3D geografske koordinate dobiju se na način da se unese još jedna vrijednost,

elipsoidna visina (h). Elipsoidna visina točke je okomita udaljenost od željene točke do

elipsoida. Mjeri se u jedinicama duljine. 3D geografske koordinate koriste se za

određivanje točke (objekta) od površine Zemlje.

Prema izvoru: http://itc.nl

1.2.3. Prelazak iz trodimenzionalnog (3D) na dvodimenzionalni (2D) sustav

Zemlja je okrugla, trodimenzionalna, dok su karte koje radimo dvodimenzionalni prikaz

na ravnini (2D Kartezijev sustav). Prebacivanje informacije o lokaciji nekog objekta s

trodimenzionalnog tijela na dvodimenzionalnu kartu zahtijeva projekciju, a ponekad i

transformaciju koordinata. Projekcije su u svojoj biti zahtjevni matematički izračuni koji

geografske koordinate (φ , λ) mjerene na referentnom elipsoidu, prebacuju (projiciraju)

u dvodimenzionalni Kartezijev koordinatni sustav ili dodatno transformiraju koordinate u

novi 3D sustav (ako je lokalno najbolji elipsoid različit od elipsoida na kojem su φ, λ

izmjereni) pa tek onda projiciraju na ravninu.

1.2.4. Referentne površine

Postoje dvije referentne površine kojima pokušavamo opisati izgled površine Zemlje.

Jedna se naziva geoid, a druga elipsoid. Geoid je ekvipotencijalna površina Zemlje na

srednjoj vrijednosti razine mora. Postoji nekoliko realizacija lokalniih procjena srednje

Page 14: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

10

razine mora u svijetu, te se ove razlike nazivaju lokalni vertikalni datumi ili visinski

datumi. Elipsoid (još zvan i sferoid) predstavlja relativno jednostavnu matematičku

aproksimaciju oblika površine Zemlje. Elipsoidi se koriste kao referentne točke za

mjerenje kutova φ , λ. Koordinate mjerene na elipsoidu kasnije želimo prebaciti na

dvodimenzionalnu kartu. Postoje brojni elipsoidi kojima se opisuje Zemlja: neki od

najpoznatijih su WGS84 i GRS80, ali i nekoliko stotina elipsoida koji svojim

matematičkim obilježjima najbolje opisuju neko manje područje na Zemlji – horizontalni

datumi.

Proces prezentacije Zemlje na dvodimenzionalnoj karti. Izrađeno prema izvoru: http://www.itc.nl/.

Geoid je površina Zemlje (oceana) bez utjecaja vjetrova i plima.

Elipsoid (sferoid) je aproksimacija oblika Zemlje geometrijskim tijelom, uglavnom

elipsoidnog oblika.

World Geodetic System (WGS) je standardni elipsoid kojim se opisuje izgled Zemlje

(EPSG kôd 4326), a centar mu je smješten u centru mase Zemlje gore definiranog

geoida. Ovo je referentni sustav koji koristi globalni sustav pozicioniranja (GPS).

Odnos Zemlje, globalnih elipsoida te lokalnog elipsoida. Prema izvoru: http://www.itc.nl/.

Page 15: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

11

1.2.5. 2D Kartezijev koordinatni sustav

Dvodimenzionalni Kartezijev sustav je sustav ispresjecajućih okomitih linija koji sadrži dvije osnovne osi, vodoravna (X-os, još zvana pomak prema istoku (engl. easting ) i okomita (Y-os, još zvana pomak prema sjeveru (engl. northing). Sjecište osi X i Y naziva se ishodište (engl. origin). Svaka točka jednoznačno je određena koordinatama x i y kako je prikazano na slici.

Ilustracija 2D Kartezijevog koordinatnog sustava. Prema izvoru: http://www.itc.nl/

1.2.6. 2D polarni koordinatni sustav

Drugi način jednoznačnog određivanja položaja točke u dvodimenzionalnom

koordinatnom sustavu su polarne koordinate (, d). Udaljenost od ishodišta

koordinatnog sustava do točke označavamo s d, a je kut između inicijalnog

smjeraosi Y i duljine koja spaja ishodište s točkom. Inicijalni smjer osi Y moguće je

proizvoljno odrediti, ali uglavnom se koriste inicijalni smjerovi kao što je pravi sjever ili

magnetni sjever.

Napomena:

Objasnite na slikama način mjerenja koordinata. Objasnite razliku sferoida i geoida.

Kroz primjere objasnite kada je osim projekcije potrebno napraviti i transformaciju

koordinata.

Page 16: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

12

1.2.7. Osnovno o projekcijama

Projekcije se dijele na razne načine, na primjer prema vrsti projiciranja ili parametrima

koje projekcija čuva. Projiciranje je moguće napraviti na način da se sačuvaju površine,

udaljenosti među objektima, oblik, ali nikako sve u jednoj vrsti projekcije. Kako je

razumijevanje prikupljanja koordinata i njihovog projiciranja u lokalne sustave posebno

znanstveno područje, ovom prilikom dajemo samo konkretne podatke koje biste kao

korisnik trebali imati na umu kako biste sa svojim prostornim podacima mogli upravljati

na odgovarajući način.

Ovisno o svrsi karte koja se priprema, kreirano je više stotina različitih projekcija

geografskih koordinata koje sve možemo generalno svrstati u kategorije s obzirom na:

a) klasu

b) točku presjecišta

c) aspekt (projekcijskoj površini)

d) očuvanim prostornim odnosima.

Projekcije prema klasi

Tri su klase projekcija:

1. cilindrična

2. konična

3. azimutna

gdje su projekcijske ravnine redom cilindar, konus i ravnina.

a) cilindrična b) konična c) azimutna

Klase kartografskih projekcija (sve redom tangentne – vidi dalje). Izvor: http://www.itc.nl/.

Projekcije prema točki presjecišta

Ako bilo koja od ove tri klase dotiče referentnu površinu u samo jednoj točki (tangenti)

tada projekcije nazivamo i tangene projekcije, za razliku od projekcija koje u presjecištu

s tijelom imaju ravninu.

Page 17: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

13

Kartografske projekcije koje u presjecištu čine plohu. Prema izvoru: http://www.itc.nl/.

Projekcije prema aspektu

Projekcije se, također, mogu opisati prema smjeru projekcijske ravnine s obzirom na

globus. To nazivamo aspektom karte.

Postoje tri moguća aspekta:

1. normalni

2. poprečni (transverzalni)

3. kosi.

poprečna cilindrična poprečna konična

Ako promatramo očuvanje prostornih odnosa, projekcije možemo svrstati u tri osnovne

klase:

1. cilindrične

2. konične

3. azimutne.

Dodatno, s obzirom na prostorne odnose koje pojedina projekcija čuva, postojeće

projekcije dijelimo na one koje čuvaju:

1. površine – ekvivalentne (engl. equal area ili equivalent)

2. udaljenosti (engl. equidistant)

3. oblike i kutove za manja područja - konformne (engl. conformal).

Page 18: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

14

Projekcije se kreiraju na način da se odabere parametar kojeg želimo sačuvati, a

parametri projekcije se određuju kako bi najbolje odgovarali dijelu svijeta za koji se

projekcija kreira te za specifične potrebe kartiranja. Pojedinačna projekcija može imati

neko od ovih svojstava, ali nikako više od jednog.

Također su pojedine projekcije prikladnije za karte manjeg, a druge za karte krupnijeg

mjerila.

Prijelaz između koordinatnih sustava transformacijom koordinata. Prema izvoru: http://www.itc.nl/.

Projekcijski sustavi u Republici Hrvatskoj

Tijekom vremena, za različite prostorne obuhvate te potrebe različitih projekata na

području Hrvatske koristio se (ili se još uvijek koristi) veći broj različitih koordinatnih

sustava i projekcija čiji se popis i parametri mogu pronaći, između ostalog, na

stranicama Državne geodetske uprave

(http://listovi.dgu.hr/nippmetadata/coordinatereferencesystem_engl.html). Velik broj

prostornih informacija pripremljen je u prošlosti u nekom drugom koordinatnom

sustavu, tada službeno važećem na području Republike Hrvatske. Koordinatni sustavi

koji su se u prošlosti koristili na našim prostorima još uvijek nisu u potpunosti

zamijenjeni sada važećim, tj. sve informacije nisu projicirane / transformirane u važeće

sustave. Iz tog je razloga važno znati prepoznati ih te na pravilan način unijeti potrebne

geo podatke u neki od specijaliziranih GIS programa, a u našem slučaju u sustav R.

Parametri povijesnih projekcijskih sustava na području Balkana mogu se pronaći na

sljedećoj poveznici (http://spatial-

analyst.net/wiki/index.php?title=MGI_/_Balkans_coordinate_systems).

Tijekom tečaja detaljno ćemo se upoznati s najvažnijim repozitorijima informacija o

korištenim koordinatnim sustavima u svijetu.

Page 19: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

15

1.3. Prostorni podaci u specijaliziranom GIS programu – SAGA GIS

Zajednički ćemo se upoznati s izgledom sučelja jednog od mnogobrojnih programa

specijaliziranih za pregled i analitiku geo podataka System for Automated Geoscientific

Analyses SAGA GIS (http://www.saga-gis.org/en/index.html). Zajednički ćemo naučiti

prikazati ranije pripremeljene geografske podatke i njihove atribute te pripremiti

jednostavne kartografske prikaze.

PITANJA ZA PONAVLJANJE:

1. Koji su tradicionalni načini predstavljanja geografski referenciranih podataka?

2. Što predstavlja skraćenica OGC?

3. Objasnite svojim riječima što je to:

a. Geoid

b. Sferoid

c. Datum

d. Projekcija koordinata

e. Transformacija koordinata

4. Koje projekcijske sustave, koji se koriste ili su se koristili na području Republike

Hrvatske, poznajete?

5. U kojem koordinatnom sustavu možete očitati koordinate s programa Google

Earth?

6. Koja projekcija čuva sve prostorne odnose?

7. Svojim riječima opišite razliku između projekcije i transformacije koordinata.

8. Radi čega su nam potrebne projekcije?

9. Zašto postoji tako velik broj različitih koordinatnih sustava (projekcija)?

Page 20: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

16

Page 21: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

17

2. Prostorni podaci u sustavu R

U sklopu GIS-a, nad i s prostornim podacima mogu se obavljati ove radnje:

čuvanje i ponovna uporaba

vizualizacija

rukovanje (manipulacija, npr. prebacivanje u drugi format i pohrana)

analiza i modeliranje (analiza atributa iz baze podataka / analiza svojstava koja proizlaze iz geometrija objekata).

Kako se sve navedene radnje mogu obavljati i u sustavu R, to ga čini alatom koji može

preuzeti funkcije standardnih GIS-alata, posebno u operacijama preklapanja (engl.

overlay) i grupiranja (engl. aggregate). Ipak, R kao analitički sustav svoju najveću

prednost ima u analitici, pa tako i analitici prostorno referenciranih podataka.

2.1. Struktura prostornih podataka u sustavu R

U jeziku S, a time i u jeziku R, ne postoji uređena tipična klasa za reprezentaciju

prostornih podataka. Kako fleksibilnost S/R-jezika omogućuje jednostavno stvaranje

novih klasa (sustav objekata S3 i S4), metoda i paketa, tako je došlo i do razvoja

dodataka s novorazvijenim prostornim klasama i metodama. Tako su, vjerojatno

najvažniji paket sp razvili Roger Bivand (http://www.nhh.no/Default.aspx?ID=697) i

Edzer Pebesma (http://ifgi.uni-muenster.de/~epebe_01/). Sve je započelo kada je

grupa programera 2003. godine pokrenula razvoj skupa klasa i metoda za manipulaciju

prostornim podacima (točkama, linijama, poligonima i gridovima) što je popraćeno

kasnije i temeljnom knjigom „Applied Spatial Data Analysis with R“ (ASDAR Bivand

et.al. 2008) (http://www.asdar-book.org/) i pomoglo konvergiranju zainteresirane

zajednice koja je 2011. godine imala preko 2000 pretplatnika na dopisnu listu r-sig-geo.

Paket gstat jedan je od prvih adaptiranih za kreirane klase prostornih objekata u

sustavu R. Koristi se uglavnom za dvodimenzionalne podatke, ali je napravljen i za

modeliranje 2D+T, prostorno-vremenskih podataka.

Page 22: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

18

2.1.1. CRAN – Spatial

Generalno, pakete unutar područja "Spatial" (CRAN Task View Spatial) mogli bismo podijeliti u tri osnovne grupe:

1. paketi za vizualizaciju prostornih podataka:

o rasterVis

o plotKML

o plotGoogleMaps

2. paketi za analizu prostornih podataka:

o spatial, spatstat – točkasti procesi (engl. point pattern)

o geoR – geostatističke analize, vjerojatnosni (engl. likelihood) pristup, ali i Bayes metode

o gstat – geostatističke 2D i 3D analize

o Rgeos – operacije na geometrijama i veza prema bazi prostornih podataka PostGIS

o circular -cirkularna – direkcionalna statistika

o RandomFields – analitika kontinuiranih procesa

o Dcluster – detekcija prostornih grupiranja (klastera) bolesti

o raster – analitika na velikim rasterskim podacima

o geosphere, fossil – analiza udaljenosti na sferi

o remotesensing – obrada/analiza snimaka dobivenih daljinskim istraživanjima, itd.

3. paketi koji služe kao veza prema vanjskim programima za geografske informacijske sustave (GIS) i bazama podataka:

o rgdal – veza prema Geospatial Data Abstraction Library (GDAL)

o maptools – veza prema vanjskim strukturama i formatima prostornih podataka kao što je shapefile

o spgrass6 – veza prema GRASS GIS

o RSAGA – veza prema SAGA GIS

o RPyGeo – veza prema ArcGis (Python)

o Spsextante – veza prema Sextante GIS

o RODBC – veza prema bazama podataka (Access, PostgreSQL...), itd.

Paket sp

Ovaj paket osigurava klase i metode za rad s prostornim podacima u jeziku S. Paket

ne nudi analitiku, ali omogućuje da se uneseni podaci ne trebaju restrukturirati za

analizu. Strukture objekata koje su razvijene unutar paketa sp su vrste S4. Za ove

objekte razvijene su generičke metode, i to za:

točke – osnovni elementi svakog prostornog objekta koji mogu imati dvije ili tri dimenzije. Za kreiranje prostornog objekta vrste SpatialPoints dovoljan je

Page 23: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

19

samo skup koordinata. Ako ovu vrstu objekta spojimo s odgovarajućim setom podataka, dobivamo klasu objekta SpatialPointsDataFrame. Pogledajte pažljivo sliku u nastavku teksta.

linije – objekti koji su u svojoj strukturi kolekcije uređenih (poredanih) točaka

poligone – nadogradnja linijskih objekata, u smislu kolekcije točaka, ali na način da su početna i krajnja točka istovjetne

površine, mreže (engl. raster, grid) – osnovni parametri koji određuju neki prostorni raster su:

o mrežna topologija (engl. grid topology – SpatialGrid) za koju je potrebno definirati koordinate donjeg lijevog kuta (cellcentre.offset), veličinu jedne ćelije, tj. rezoluciju (cellsize) te broj ćelija (cells.dim). Za već postojeće površine ovi se podaci mogu vidjeti uporabom

funkcije gridparameters().

o SpatialGridDataFrame je struktura SpatialGrid kojoj je na adekvatan način spojena klasa DataFrame – površina s atributima.

U svojoj osnovi svi se prostorni objekti, kako ih definira paket sp mogu svesti na

osnovu: Spatial*DataFrames, što znači prostornu, geometrijsku komponentu, i njima

pripadajuće vrijednosti atributa, kako smo ranije definirali prostorne objekte. Spajanje

grafičke komponente s adekvatnim podacima u setu podataka radi se putem

jedinstvenog identifikatora koji se mora pojaviti u oba objekta.

Napomena:

Korisnici obično ne izrađuju ove objekte od samog početka već učitavaju prostorne

podatke pripremljene u nekom programskom paketu za GIS, dok sustav R najčešće

koriste za vizualizaciju, analizu, simulacije, modeliranje te na kraju za pohranjivanje u

druge formate.

Struktura vektorskih objekata kako ih definira paket sp

Na slici su prikazani dijelovi od kojih se sastoji vektorski točkasti prostorni objekt.

Page 24: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

20

Struktura linijskih i poligonskih vektorskih objekata kako ih definira paket sp:

Struktura rasterskih objekata kako ih definira paket sp

Na slici su prikazani dijelovi od kojih se sastoji rasterski prostorni objekti kako ih

definira paket sp:

Topologija mreže (grida) je ključni konstituent rasterskog prikaza podataka koji daje

koordinate donjeg lijevog ugla, veličine ćelije i broj ćelija u svakoj dimenziji.

Page 25: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

21

Postoje dvije osnovne klase objekata kreiranih za regularne podatke na mreži:

prostorni pikseli (SpatiaPixels) i prostorne mreže (SpatialGrid). Prostorni pikseli uvelike

liče točkama koje su pravilno raspoređene na mreži.

Dodajući prostornoj komponenti (SpatialPixels ili SpatialGrid) dodatne podatke

(data.frame) dobijemo objekt kreiran za pohranu za svaku ćeliju u punoj mreži.

SpatialGridDataFrame (SGDF) ne čuva koordinate budući da podaci popunjavaju cijeli

prostor, ali mora čuvati informaciju o tome na kojoj lokaciji podatak nedostaje (NA

vrijednost).

Neke od korisnih funkcija za manipulaciju prostornim objektima unutar paketa sp su:

operator [ selektira retke (pojedine prostorne objekte) i/ili stupce tj. atribute

operator [[ selektira stupce iz odsječka s podacima (DF iz S*DF objekta)

operator [[<- dodjeljuje novu vrijednost u atributnoj tabeli S*DF.

Biblioteka PROJ.4

PROJ.4 je biblioteka za obavljanje pretvorbi među kartografskim projekcijama. Temelji

se na radu Geralda Evendena s United States Geological Survey (USGS,

http://www.usgs.gov/), ali je sada projekt OSGeo Fondacije. Funkcionalnosti ove

biblioteke integrirane su u pakete maptools, rgdal, raster i drugih te se na taj način

koriste u sustavu R.

Način rada s geografski referenciranim podacima ćemo predstaviti na setu podataka

naziva meuse koji dolazi u paketu sp (http://cran.at.r-

project.org/web/packages/gstat/vignettes/gstat.pdf).

PRIMJER:

Otvorite u RStudiju program: S730_upoznavanje_klase_metode_sp.R.

>library(sp)

>data(meuse)

>str(meuse)

'data.frame': 155 obs. of 12 variables:

$ cadmium: num 11.7 8.6 6.5 2.6 2.8 3 3.2 2.8 2.4 1.6 ...

$ copper : num 85 81 68 81 48 61 31 29 37 24 ...

$ lead : num 299 277 199 116 117 137 132 150 133 80 ...

$ zinc : num 1022 1141 640 257 269 ...

$ elev : num 7.91 6.98 7.8 7.66 7.48 ...

$ dist : num 0.00136 0.01222 0.10303 0.19009 0.27709 ...

$ om : num 13.6 14 13 8 8.7 7.8 9.2 9.5 10.6 6.3 ...

$ ffreq : Factor w/ 3 levels "1","2","3": 1 1 1 1 1 1 1 1 1 1 ...

$ soil : Factor w/ 3 levels "1","2","3": 1 1 1 2 2 2 2 1 1 2 ...

$ lime : Factor w/ 2 levels "0","1": 2 2 2 1 1 1 1 1 1 1 ...

$ landuse: Factor w/ 15 levels "Aa","Ab","Ag",..: 4 4 4 11 4 11 4 2 2 15 ...

Page 26: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

22

$ dist.m : num 50 30 150 270 380 470 240 120 240 420 ...

>head(meuse, n=2) # pregled prva 2 podataka u setu

>tail(meuse) # pregled posljednjih 6 podataka u setu

>class(meuse)

[1] "data.frame"

>summary(meuse$copper)

Podaci meuse su u strukturi set podataka tj. R klasa data.frame. Pogledajte imena

varijabli u setu. Prepoznat ćete dva stupca (varijable) koji nose informaciju o lokaciji –

lokalno projicirane geografske koordinate x i y. Da bismo programu definirali u kojim se

varijablama našeg seta podataka nalaze koordinate, moramo pozvati funkciju

coordinates().

>coordinates(meuse) <- ~ x+y #~ je oznaku za formulu

Upravo ste kreirali svoj prvi prostorni objekt u sustavu R. Pogledajmo njegovu

strukturu.

>str(meuse)

Formal class 'SpatialPointsDataFrame' [package "sp"] with 5 slots

..@ data :'data.frame': 155 obs. of 12 variables:

.. ..$ cadmium: num [1:155] 11.7 8.6 6.5 2.6 2.8 3 3.2 2.8 2.4 1.6 ...

.. ..$ copper : num [1:155] 85 81 68 81 48 61 31 29 37 24 ...

.. ..$ lead : num [1:155] 299 277 199 116 117 137 132 150 133 80 ...

.. ..$ zinc : num [1:155] 1022 1141 640 257 269 ...

.. ..$ elev : num [1:155] 7.91 6.98 7.8 7.66 7.48 ...

.. ..$ dist : num [1:155] 0.00136 0.01222 0.10303 0.19009 0.27709 ...

.. ..$ om : num [1:155] 13.6 14 13 8 8.7 7.8 9.2 9.5 10.6 6.3 ...

.. ..$ ffreq : Factor w/ 3 levels "1","2","3": 1 1 1 1 1 1 1 1 1 1 ...

.. ..$ soil : Factor w/ 3 levels "1","2","3": 1 1 1 2 2 2 2 1 1 2 ...

.. ..$ lime : Factor w/ 2 levels "0","1": 2 2 2 1 1 1 1 1 1 1 ...

.. ..$ landuse: Factor w/ 15 levels "Aa","Ab","Ag",..: 4 4 4 11 4 11 4 2 2 15 ...

.. ..$ dist.m : num [1:155] 50 30 150 270 380 470 240 120 240 420 ...

..@ coords.nrs : int [1:2] 1 2

..@ coords : num [1:155, 1:2] 181072 181025 181165 181298 181307 ...

.. ..- attr(*, "dimnames")=List of 2

.. .. ..$ : chr [1:155] "1" "2" "3" "4" ...

.. .. ..$ : chr [1:2] "x" "y"

..@ bbox : num [1:2, 1:2] 178605 329714 181390 333611

.. ..- attr(*, "dimnames")=List of 2

.. .. ..$ : chr [1:2] "x" "y"

.. .. ..$ : chr [1:2] "min" "max"

..@ proj4string:Formal class 'CRS' [package "sp"] with 1 slots

.. .. ..@ projargs: chr NA

Page 27: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

23

Napomena:

Primijetite da se koordinate definiraju oznakom formule ~. Također, primijetite razlike u

strukturi podataka po implementaciji metode coordinates() na set podataka.

Primijetite da varijable x i y više ne postoje u isječku SPDF@data.

Klasa podataka s kojom se sada prvi puta srećemo je SpatialPointsDataFrame.

Kao što smo već spomenuli, tipično je za klase da unutar sebe imaju definirane isječke

(engl. slot) koji se koriste za čuvanje specifičnih informacija za tu klasu objekta. Klase

objekata SpatialPointsDataFrame imaju pet isječaka:

@data - Ovaj isječak sadrži set podataka (engl. data frame) s kakvim smo se do sada već više puta sreli tijekom tečaja.

@coords.nrs Ovo je informacija o rednom broju varijabli u setu podataka koje su definirane kao koordinate.

@coords Vrijednosti koordinata.

@bbox Prostorni obuhvat SPDF.

@proj4string Informacija o projekciji podataka – formalna klasa CRS preuzeta iz paketa

sp. CRS() je funkcija koja je sučelje na PROJ.4 biblioteku projekcijskih

sustava. Klasa je definirana kao NA vrijednost unutar paketa sp. Ako je unutar našeg sustava dostupna GDAL biblioteka tj. paket rgdal, tada je moguće povezivanje prostornih podataka s koordinatnim referentnim sustavima. Argumenti se moraju dati u nekim od određenih formata kao što su formati PROJ.4, ESRI ili EPSG (specifikacije na http://www.spatialreference.org/).

Sve gore navedeno za klasu objekata SpatialPointsDataFrame vrijedi i za linijske i

poligonske objekte (SpatialLinesDataFrame i SpatialPointsDataFrame).

Ako meuse podacima želimo pridružiti parametre lokalne projekcije, moramo znati kako

su izrađeni ili pronaći informaciju o projekcijskim sustavima koji se koriste u tom

području – u ovom slučaju to je Nizozemski RHD sustav i parametri u formatu PROJ.4

su sljedeći:

+proj=stere +lat_0=52.15616055555555 +lon_0=5.38763888888889

+k=0.999908+x_0=155000 +y_0=463000 +ellps=bessel +units=m

+no_defs +towgs84=565.2369,50.0087,465.658,

-0.406857330322398,0.350732676542563,-1.8703473836068, 4.0812

Napomena:

Nakon znaka + ne smije biti praznina prije vrijednosti parametra. Važno je razumjeti

funkcioniranje parametra towgs84.

Page 28: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

24

Pridruživanje vrijednosti parametara projekcije prostornim podacima možemo napraviti

uporabom funkcije proj4string()na neki od ovih načina:

određivanjem parametara putem formata PROJ.4 proj4string(SPDF) <- CRS("parametri_proj4format")

određivanjem parametara putem EPSG (ili ESRI) kôda proj4string(SPDF) <- CRS("+init=epsg:epsg_kod")

preuzimanjem informacije o koordinatnom sustavu nekog drugog objekta u sustavu. proj4string(SPDF) <- proj4string(SPDF2)

U slučaju našeg SpatialPointsDataFrame projekcija meuse je Nizozemski RHD sustav:

>proj4string(meuse)<- CRS("+proj=stere +lat_0=52.15616055555555 +lon_0=5.38763888888889 +k=0.999908 +x_0=155000 +y_0=463000 +ellps=bessel +units=m +no_defs +towgs84=565.2369,50.0087,465.658, -0.406857330322398,0.350732676542563,-1.8703473836068, 4.0812")

ili ako znamo EPSG kôd ove projekcije:

>proj4string(meuse) <- CRS("+init=epsg:28992")

Europska naftna grupa za istraživanje (European Petroleum Survey Group - EPSG)

osnovana je 1986. godine. Sastoji se od specijalista geodeta i kartografa iz naftnih

kompanija sa sjedištem u Europi. Tvrtka održava relacijsku bazu podataka o

geodetskim parametrima na web-adresi http://www.epsg-registry.org/ ili

http://spatialreference.org/ref/epsg/.

Sada smo napravili svoj prvi prostorni objekt unutar sustava R. Ipak, postoji velik broj

već ranije pripremljenih prostornih objekata, najčešće pripremljenih u nekom

specijaliziranom programu za geografske informacijske sustave (GIS) i važno je znati

kako upravljati takvim formatima unutar sustava R.

Sve što smo ranije radili sa setovima podataka (DataFrame), moguće je napraviti i

sada. Na primjer:

>summary(meuse@data$copper)

Isto možemo napraviti i s drugim dijelovima objekta, na primjer s koordinatama:

>summary(meuse@coords)

x y

Min. :178605 Min. :329714

1st Qu.:179371 1st Qu.:330762

Median :179991 Median :331633

Mean :180005 Mean :331635

3rd Qu.:180630 3rd Qu.:332463

Max. :181390 Max. :333611

Page 29: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

25

>meuse@bbox

min max

x 178605 181390

y 329714 333611

>mean(meuse@bbox[1,])

[1] 179997.5

>mean(meuse@bbox[2,])

[1] 331662.5

Napomena:

Kako u isječku (engl. slot) koji je definiran samom klasom objekta ne možemo mijenjati

naziv, označava se znakom @. Svi ostali dijelovi objekata, kojima korisnik može

mijenjati nazive označavaju se oznakom $. Tako u ovom slučaju imamo

SPDF@data$ime_varijable.

PITANJA ZA PONAVLJANJE:

1. Objasnite na koji način biste unutar sustava R unijeli neki od prostornih objekata prema specifikaciji OGC?

2. Koji paket možemo smatrati najznačajnijim paketom u sustavu R kada govorimo o prostorno referenciranim podacima?

3. Opišite strukturu klasa objekata kako ih definira paket sp.

4. Na koliko načina paket sp može pohranjivati regularne podatke?

5. Opišite što radi funkcija proj4string.

6. Kojom metodom objekt klase data.frame pretvaramo u prostorni objekt?

7. Postoji li mogućnost povezivanja sustava R s bazama podataka?

VJEŽBA: Upoznavanje sa strukturom podataka u paketu sp

Otvorite u RStudiju program naziva S730_preklapanja_agregacije_sp.R. Samostalno

riješite zadatke iz programa S730_zadaci_rad_s_prostornim_podacima.R.

Page 30: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

26

Paket rgdal

GDAL - Geospatial Data Abstraction Library u doslovnom se prijevodu naziva

"Biblioteka za apstrakciju prostornih podataka". U bîti, GDAL je konverzijska biblioteka

(biblioteka prevoditelj) za rasterske prostorne podatke. Izdao ju je OSGeo u licenci

Open Source1. Kao biblioteka, GDAL predstavlja jedan apstraktni model podataka za

pozivanje aplikacija za sve podržane formate. Unutar podatkovnog paketa GDAL nalazi

se i biblioteka OGR koja sadrži slične sposobnosti za vektorske podatke. Više

podataka i detaljniji opis same biblioteke možete potražiti na web-adresi

http://www.gdal.org/index.html. GDAL koristi klase sp. Ako vektorske prostorne

podatke učitavamo putem dijela paketa OGR, automatski se, ako postoje, učitavaju i

informacije o koordinatnom referentnom sustavu (CRS). Implementacija ovih biblioteka

u sustav R napravljena je putem paketa rgdal, a sastoji se od dijela za manipulaciju

vektorskim podacima i dijela za rastere.

Dio paketa rgdal kojim se barata vektorskim podacima naziva se OGR. Ovaj dio

sadržava funkcionalnosti biblioteke OGR tj. učitavanje i pisanje vektorskih podataka

kao što su ESRI shapefile i KML za Google Earth.

OGR je biblioteka pisana u C++ jeziku, otvorenog je kôda i pruža alate za čitanje i

pisanje datoteka različitih vektorskih formata uključujući ESRI shapefile, KML za

Google Earth (GE), S-57, SDTS, PostGIS, Oracle Spatial i MapInfo sredine / MIF i Tab

formata. Dio paketa rgdal posjeduje funkcije za čitanje – pisanje rastera/površina (engl.

grids, rasters) između mapa GDAL i objekata R: readGDAL(), writeGDAL(). Putem

ovog dijela paketa rgdal moguće je u sustav R učitati vrlo velik broj raznolikih formata

površina (rastera), ali i dijelova višekanalnih snimaka, kao i samo određenog

prostornog dijela velikih datoteka, što uvelike olakšava rad.

Napomena:

Korisna funkcionalnost paketa rgdal je učitavanje samo dijela podataka iz neke

datoteke. Također, jedna od često korištenih metoda je metoda spTransform() koja

omogućuje prostorne transformacije, tj. prijelaze iz jednog u drugi referentni koordinatni

sustav (CRS).

PRIMJER:

Prikaz SpatialPointsDataFrame (SPDF) klase objekata meuse na Google Earthu –

format KML izrađen paketom rgdal.

Page 31: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

27

Korisnici su razvili i druge pakete za vizualizaciju putem programa GE (koji NIJE open

source!). Dva takva paketa, vrlo korisna pri prezentaciji rezultata analiza prostornih

podataka su i novi paketi plotGoogleMaps ili paket plotKML. Primjer na slici koja slijedi

je napravljen funkcijom plotKML() iz paketa plotKML i otvoren na GE-u. Slika

prikazuje dvije KML datoteke, jedna tipa poligon (crvene linije čije granice predstavljaju

granice pojedinog tipa staništa na istraživanoj plohi). Boja točaka prikazuje vrijednost

kvalitativne varijable tipa staništa na točki na kojoj se radi mjerenje, u ovom slučaju,

radi se o istraživanju zajednica ptica.

PRIMJER:

Prikaz korisničkog SpatialPointsDataFrame (SPDF) na Google Earthu – format KML napravljen paketom plotKML.

Paket maptools

Ova biblioteka ima sljedeće funkcionalnosti: read.shape(), readShapePoints(),

readShapeLines(), readShapePoly(), za učitavanje ESRI shapefile formata.

Također vrijedi i suprotni smjer: writeShapePoints(), writeShapeLines(),

writeShapePoly() , za pisanje ESRI shapefileova. Paket omogućava i snimanje

vektorskog formata kml putem funkcija kmlLine(). Kako su imena funkcija vrlo

intuitivna, nećemo objašnjavati pojedinačno njihove specifičnosti.

Paket maptools vektorske objekte smatra sp objektima te uz uporabu biblioteke gpclib,

koja provjerava topologije, omogućuje različite operacije njihova spajanja ili

presijecanja.

Paket maptools ima mogućnost učitavanja i rasterskih podataka. Na primjer, ESRI

rastere (datoteke .asc) moguće je učitati funkcijom readAsciiGrid(). Jednako kao i

kod vektorskih podataka, informacija o koordinatnom sustavu neće biti učitana. Pisanje

rasterskih formata moguće je napraviti putem writeAsciiGrid(). Paket maptools

također omogućuje snimanje prostorno referenciranih rastera funkcijom

kmlOverlay() u formatu PNG, kojom se mogu prikazati rasterski podaci na Google

Earthu.

Page 32: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

28

Napomena:

Paket maptools prilikom učitavanja shapefile datoteke u R-u ne može učitati i

informaciju o referentnom koordinatnom sustavu (CRS) već ga je potrebno naknadno

definirati na samom objektu u sustavu R.

Velik dio metoda za transfer prostornih podataka među različitim programima moguće

je napraviti putem već spomenute biblioteke GDAL tako da se funkcionalnosti maptools

biblioteke mogu zamijeniti odgovarajućim funkcijama paketa rgdal, na primjer, funkcije

za pisanje datoteka ERSI shp writeShapeLines(), writeShapeLines() i

writeShapePoly() iz biblioteke maptools mogu biti zamijenjene funkcijom

writeOGR() iz biblioteke GDAL (paket rgdal).

PRIMJER:

Učitajte u RStudio program naziva S730_maptools_rgdal.R.

Tipičan proces analize prostornih podataka u sustavu R mogao bi se opisati sljedećim

koracima:

pripremanje prostornih podataka u nekom GIS programu – ovaj korak nije nužan

unos pripremljenih podataka u sustav R

provedba analize

prezentacija prostornih rezultata uporabom grafike sustava R

pohranjivanje rezultata u formatima kompatibilnim GIS-programima

uporaba rezultata za daljnje GIS-analize ili kao tematska podloga.

Kako je sustav R slobodan i otvoren (engl. open source) tako vrlo često dijeli određene

komponente, u ovom tekstu uglavnom nazivane biblioteke, koje koriste i drugi otvoreni

programi, kao što su GDAL, OGR, PROJ.4 itd.

Strukturu prostornih podataka, kako ih definira paket raster, nećemo detaljno opisivati u

ovome dokumentu. Radi vrlo velike popularnosti, kroz primjer ćemo se upoznati s

radom u ovome paketu.

PRIMJER:

Učitajte program naziva S730_raster.R.

ZADACI ZA SAMOSTALAN RAD:

Učitajte program naziva S730_zadaci_raster.R i samostalno riješite zadatke.

Page 33: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

29

2.2. Vizualizacija prostornih podataka u sustavu R

Prednosti sustava R u segmentu vizualizacije geografski referenciranih podataka:

1. ako izrađujemo velik broj grafova

o izrada sličnih grafičkih prikaza na većem broju stranica

o kombiniranje većeg broja grafičkih prikaza

2. izrada neinteraktivnih prikaza

3. kontrola velikog broja detalja na grafici

4. veliki izbor grafičkih formata za pohranu

5. prijenos na različite platforme te potencijal daljnjeg razvoja.

Nedostaci sustava R u vizualizaciji prostorno referenciranih podataka su:

1. nemogućnost interaktivnog zumiranja, pomicanja karata (funkcije pan i slične funkcije), ali to je područje koje se trenutno vrlo brzo razvija

2. veliki broj grafičkih parametara koje je moguće podesiti, pa je ponekad teško pronaći koji parametar kontrolira pojedino svojstvo

3. nekompatibilnost grafičkih sustava (osnovni (graphics), lattice, ggplot).

Pored važnosti vizualizacije u prikazu konačnih rezultata istraživanja, vizualizacija

podataka je i neizostavan dio procesa analize prostornih podataka. Ona ponekad

otkriva procese i veze među opservacijama i time sugerira daljnji tijek analize. Tako se

vizualnom inspekcijom podataka mogu pronaći:

1. regionalni trendovi

2. prostorna ovisnost (autokorelacija) – ako se slične vrijednosti češće pojavljuju na međusobno bliskim lokacijama

3. prostorni uzorak u podacima i detekcija klastera.

PRIMJER: Integracija podataka iz različitih izvora i vizualizacija u sustavu R.

U RStudio učitajte program naziva S730_integracija_vizualizacija.R. U sklopu ovog programa upoznat ćete se s novim funkcijama u sustavu R koje se radi preglednosti neće spomenuti u ovome dokumentu i vidjeti praktičnu primjenu petlje for.

Napomena:

Tijekom postepenog provođenja programa objasnite svaku funkcionalnost koja se prvi

puta spominje kao što su funkcije read.xlsx() iz paketa xlsx te funkciju gsub() i

slično. Kako su imena funkcija intuitivna, ako se poznaje engleski jezik, polaznici će vrlo brzo pamtiti velik broj funkcionalnosti kada vide praktičnu primjenu.

Page 34: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

30

Page 35: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

31

3. Uvod u analizu prostornih podataka

Analiza prostornih podataka uključuje bilo koju formalnu tehniku koja proučava objekte

analizirajući njihova topološka, geometrijska ili geografska obilježja. Generalno ime za

grupu znanstvenih disciplina koje se bave pronalaženjem rješenja za analizu prostorno

(i vremenski) referenciranih mjerenja nazivamo prostorno-vremenska analiza

podataka.

Intuitivno je jasno da je lokacija nekog fenomena važna u velikom broju struka i

znanstvenih područja. Primjer prve analize podataka koja je uključivala lokaciju pojave

od interesa, poznati je primjer izbijanja zaraze kolerom u Londonu, na području Soho-

a, 1854. godine. Dr. John Snow je, označivši na karti 600 adresa zaraženih sa smrtnim

ishodom te pumpe s kojih su zaraženi uzimali vodu za piće, ukazao na kontaminirani

izvor vode te na taj način zaustavio do tada nerazumljivo jako izbijanje bolesti.

Kolokvijalno se može reći da se prostorno vremenska analitika podataka sastoji od

dvije glavne grane:

1. geoinformacijske znanosti

2. prostorno-vremenske statistike.

Ipak, moguće je pronaći i mnogo znatno drugačijih podjela, na primjer:

1. analiza podataka dobivenih daljinskim istraživanjima

2. analiza točkastih procesa u prostoru (engl. point pattern analysis)

3. lattice / areal statistika – analiza vezana uz poligonske objekte

4. interpolacija i geostatistika – analitika kontinuiranih polja

5. geomorfometrija – specijalizirane kvantitativne analize topografije.

3.1. Proces analize prostornih podataka

Kao i u drugim granama statistike, proces analize može se opisati na sljedeći način:

1. postavljanje pitanja

2. razumijevanje podataka

3. izbor metode

4. izračun statistika

5. interpretacija statistika

6. značajnost statistika

7. propitivanje rezultata.

Način prikupljanja podataka (na prostornoj i vremenskoj skali) od izuzetne je važnosti u

davanju odgovora na praktičan ili znanstveni problem. Uzorak treba dizajnirati tako da

omogući dobivanje maksimale količine informacija o stvarnosti iz njezina malog dijela,

minimizirajući trošak i trud. Prostorno uzorkovanje odnosi se na dizajn uzorkovanja

gdje je izbor mjesta uzorkovanja dio dizajna. Vremenska komponenta prikupljanja

Page 36: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

32

informacija u prostoru (prostorno – vremenskoj rezoluciji prikupljanja podataka i shemi

prikupljanja) također je jedan od ključnih aspekata prepoznavanja procesa u prirodi.

Nakon što imamo uzorak iz populacije analiza se može svesti na:

1. Deskriptivnu statističku analizu – numeričko sumiranje i vizualizacija.

Opisivanje i vizualizacija prostornih podataka uključuje: jednostavno kartiranje

podataka (točaka, linija, regija i površina (engl. grids, rasters), klasificiranje,

gustoću, nagibe i slično te kompleksne oblike poput vizualizacije međusobnih

veza. Kao i u klasičnoj statistici, deskriptivnu statistiku prostornih podataka

možemo razdijeliti na:

a. mjere prostorne centralne tendencije

b. mjere prostorne disperzije.

Metode koje koristimo ovise o vrsti prostornih podataka s kojima radimo (točke,

poligoni ili kontinuirana polja) kao i o vrsti varijable: kvalitativna ili numerička.

2. Inferencijalnu statističku analizu – statističko zaključivanje o populaciji na

temelju uzorka, pokušaj razumijevanja procesa te eventualnog predviđanja

temeljenog na našem razumijevanju pojave. Znači, nama je potreban model

(konceptualna ili matematička reprezentacija) iz kojeg zaključujemo o procesu.

Metode koje koristimo ovise o tipu prostornih podataka s kojima radimo (točke,

poligoni ili kontinuirana polja) kao i o tome analiziramo li jednu ili više varijabli.

Iako postoje mogućnosti provođenje analize na tri dimenzije prostora (nadogradnja u z

osi – visina ili dubina), analiza prostornih podataka uglavnom se radi na dvije

dimenzije. Vrlo se često treća dimenzija koristi kao prikaz dinamičkih pojava tj. za

prostorno vremenske podatke. U okviru ovog tečaja naš fokus će biti na

dvodimenzionalnim podacima (iako ćemo dati pregled načina pohrane prostorno

vremenskih podataka u sustavu R).

Tijekom godina, prostorna statistika izrasla je u samostalnu granu statistike s izrazito

dinamičnim razvojem metoda i algoritama. Jedna od najvažnijih karakteristika u

prostornoj statistici je nevjerojatna raznolikost metoda čemu je razlog što je paralelno

započela razvoj iz različitih disciplina. Metode analize prostornih podataka široko su

primjenjive: od analize položaja dijelova čipova, do analize i predviđanja položaja

galaksija u svemiru. Vrlo velik broj različitih područja primjene u kombinaciji s velikim

brojem mogućih oblika prostorno kodiranih podataka doveo je do nekoliko pristupa

podacima na fundamentalno drugačije načine.

3.1.1. Prostorni uzorak

Kako u klasičnoj, tako i u prostornoj statistici naši zaključci se donose temeljem uzorka

kojeg posjedujemo. U slučaju prostorne statistike zovemo ga prostorni uzorak. Jednako

kao i s klasičnim podacima kvaliteta našeg zaključivanja uvelike ovisi o

karakteristikama uzorka koji posjedujemo. Pojam prostornog uzorka se odnosi na

dizajn u kojem je izbor lokacije uzorkovanja dio dizajna eksperimenta. Uzorak se uzima

iz populacije što je pri prostornom uzorku cjelokupno geografsko područje od interesa.

Kako je uzorkovanje uvijek skupo i vremenski zahtjevno, cilj je svakog uzorkovanja, pa

tako i prostornog, dobivanje maksimalne informacije uz minimalan trošak. Pitanja koja

Page 37: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

33

bi nas mogla zanimati, a za čije odgovore nam neophodno treba prostorni uzorak su

primjerice:

1. Davanje izjave koja opisuje prostor u cjelini - prosječna potrošnja po stanovniku;

količina biomase na području od interesa.

2. Kartiranje varijable od interesa - procjena varijable od interesa na cjelokupnom

području iz ograničenog broja mjerenja na točkama; varijabilnost procjene

promatranog parametra na području, vjerojatnost probijanja neke granične

vrijednosti, davanje prosjeka za neki proizvoljni dio unutar područja i slično.

3. Definiranje prostorne strukture - smjera, raspona, jačine međusobne ovisnosti.

4. Praćenje parametra kroz vrijeme.

Za rješavanje različitih pitanja potrebno je izabrati i različite prostorne uzorke.

Primjerice, ako dolazimo na područje o kojem nemamo nikakva saznanja, važno je

kreirati takav uzorak da zahvatimo cijeli raspon vrijednosti, ali i različite međusobne

udaljenosti lokacija kako bismo što kvalitetnije mogli kreirati

variogram/semivariogram (grafički prikaz koji ćemo objasniti kasnije u tekstu). Drugi

primjer bi bio kada želimo unaprijediti kvalitetu već kreiranih karata - u tom slučaju

naš bi uzorak trebao biti razmješten na način da su lokacije postavljene na mjesta

gdje se u prethodnom kartiranju pokazala najveća pogreška.

Proces prostornog uzorkovanja može se podijeliti na:

1. Definiranje istraživačkog pitanja – bez jasno definiranog istraživačkog pitanja

nemoguće je kreirati dobru shemu uzorkovanja. Istraživačko pitanje trebalo bi

biti maksimalno precizno. Istraživačka pitanja mogu biti:

a) generalna (primjerice: Koja je najčešća sorta duhana koja se sadi u

Međimurskoj županiji?)

b) prostorno eksplicitna (primjerice: Gdje se sade pojedine sorte duhana u

Međimurskoj županiji? Postoji li prostorna ovisnost prosječnog uroda

duhana po hektaru?).

Ključno je osigurati da svaka jedinka iz definirane populacije ima jednaku

šansu izbora u uzorak kako bi zaključivanje bilo korektno.

2. Definiranje ciljane populacije, varijable od interesa i traženog parametra

a) Definiranje populacije o kojoj donosimo zaključke - koja je precizna

populacija o kojoj želimo donositi zaključke? Ponekad je za ovo

potrebno definirati jasna pravila uključivanja/isključivanja iz uzorka. Ako

je naša populacija kontinuirana (svojstva tla, gustoća populacije i slično)

važno je odrediti način kreiranja diskretnih jedinki iz kontinuiranog

procesa (u geostatistici se ovaj koncept naziva i veličina podrške (engl.

support size). Definiranje jedinice uzorkovanja još je jedan važan

koncept u procesu planiranja prostornog uzorkovanja.

b) Definiranje varijable od interesa - prilikom kreiranja uzorka ponekad je

potrebno imati na umu da možemo u isto vrijeme imati nekoliko varijabli

o kojima želimo donositi zaključke. Primjeri su:

Zanimaju li nas karakteristike tla na 20-30 cm dubine ili na dubini

od 30-50 cm?

Page 38: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

34

Je li tlo kontaminirano iznad dopuštene zakonske granice?

Koja je prosječna dob djece u domaćinstvu?

c) Definiranje parametra od interesa – koja je statistička mjera kojom

želimo sumirati ciljanu varijablu? Primjeri su:

Koja je prosječna veličina čestica tla na istraživanom području?

Koliki je raspon cijena kvadratnog metra nekretnina u Hrvatskoj?

3. Određivanje kojom ćemo mjerom procijeniti kvalitetu rezultata – neka od mjera

kojom ćemo prikazati kvalitetu našeg zaključivanja o populaciji temeljem

uzorka (primjerice interval pouzdanosti, stopa pogreške klasifikacije i slično).

4. Definiranje područja uzorkovanja – ovaj koncept se odnosi na definiranje svih

mogućih jedinica uzorkovanja jer ponekad uzorkovanje nekog dijela populacije

nije moguće. S ovim treba biti vrlo pažljiv budući da isključenje nekog dijela

populacije čini uzorak nereprezentativnim. Primjer bi bio odluka da se

uzorkovanje polja duhana provodi na četiri reprezentativna seoska naselja u

županiji, pri čemu moramo imati argumente da ova izabrana naselja uistinu

reprezentiraju cjelokupnu populaciju od interesa (naselja u županiji).

5. Definiranje sheme uzorkovanja.

6. Određivanje veličine uzorka – tj. broja jedinica (individua) koji ćemo

uzorkovati; ovaj način nam omogućuje i informaciju o proporciji populacije koja

će ući u uzorak. Primjer: Ako imamo područje od interesa od 100ha =

1.000.000 m2, a kao jedinicu uzorkovanja smo odredili područje od 10 x 10 m,

naša je cjelokupna populacija 106/102 = 104 mogućih jedinica uzorkovanja.

Ako napravimo uzorak veličine 50 jedinica, naš uzorak je obuhvatio 0.5%

populacije (50/104 = 0.005).

7. Određivanje plana uzorkovanja – unutar ovog koncepta razlikuju se dva

načina:

a) uzorkovanje prema dizajnu (engl. design-based)

b) uzorkovanje prema modelu (engl. model based).

8. Provođenje uzorkovanja.

Uzorkovanje prema dizajnu – bez stratifikacije

Najjednostavniji slučajni prostorni uzorak, pandan klasičnom potpuno slučajnom uzorku je potpuno slučajni prostorni uzorak. Njegove su karakteristike da:

sadrži opservacije (lokacije) na različitim udaljenostima

nije optimalan za kartiranje budući da može ostaviti velike praznine među lokacijama koje su ušle u uzorak

daje precizne procjene parametara populacije

logistički je vrlo težak i skup.

Page 39: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

35

Sistematski uzorak – na pravilnoj mreži (gridu):

pokriva područje ravnomjerno

slučajnost proizlazi iz slučajne početne točke mreže (lokacija na mreži), a

ostale točke se biraju na unaprijed određen sistematski način

logistički jednostavan za lociranje, ali nedostaju veće udaljenosti među

uzorcima

Kombinirani:

slučajno izabrani blokovi

unutar izabranog bloka izabire se potpuno slučajni ili sistematski uzorak

logistički skup dolazak do blokova, a jeftinije i jednostavnije uzorkovanje

unutar blokova.

Page 40: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

36

Uzorkovanje prema dizajnu – sa stratifikacijom

Vrlo često već posjedujemo neka znanja o populaciji (prostoru), npr. znamo da se ne

radi o homogenoj cjelini u odnosu na varijablu od interesa, već je populacija podijeljena

na stratume (disjunktne – nepreklapajuće subpopulacije). Tada se zaključci donose za

stratume unutar naše populacije. Primjer stratuma bili bi različiti stanišni tipovi na

nekom području, a varijabla od interesa količina proizvedene biomase. U ovome

slučaju prostorni uzorak i dalje može biti izabran kao:

a) potpuno slučajni uzorak, pri čemu se bilježi varijabla koja identificira područja

(stratume)

b) stratificirani uzorak, u skladu sa stratifikacijom populacije; postotak uzorka koji

će se uzeti iz pojedinog stratuma trebao bi biti proporcionalan:

1. veličini stratuma

2. varijabilnosti unutar pojedinog stratuma što zahtijeva naše apriorno

znanje (procjenu) varijabilnosti svojstva od interesa unutar pojedinih

stratuma

3. važnosti dobivanja kvalitetnih informacija o stratumu.

PITANJA ZA PONAVLJANJE:

1. Iz kojeg razloga biste se mogli odlučiti za uzorkovanje subpopulacije

umjesto cjelokupne populacije od interesa?

2. Je li statistički opravdano uzorkovanje jedino sela u dubrovačkoj županiji

koja su lagano dostupna cestom?

PRIMJER:

Otvorite u RStudiju program pod nazivom S730_prostorno_uzorkovanje.R.

Napomena:

Ovaj program nije obavezno izvesti, no ako polaznici brzo usvajaju gradivo, vrlo je

korisno upoznati se s funkcijom spsample() koja je pandan funkciji sample()

obrađenoj u tečaju S720.

3.2. Specifičnosti analitike u prostoru

Postoje brojne razlike u pristupu analizi prostorno referenciranih podataka u odnosu na

klasičnu statističku analizu, ali su ipak neke osnovne pretpostavke u oba slučaja

jednako važne. Spomenut ćemo samo neke od koncepata koji se ne smiju izgubiti iz

vida prilikom bilo koje analize, a to su koncept nepristranog uzorka i zavisnost /

nezavisnost opservacija (opažanja).

Page 41: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

37

3.2.1. Slučajnost

Jedna od osnovnih zadaća statistike kao discipline je opisivanje i donošenje zaključaka

o populaciji temeljem izabranog uzorka (za koji je izuzetno važno znati kako je

dobiven). Da bi zaključivanje o populaciji na temelju uzorka bilo valjano, uzorak mora

biti izabran iz populacije na slučajan način. Ova pretpostavka vrijedi i u analitici

geografski referenciranih podataka. Uzorak koji nije slučajan je pristran i zaključivanje

temeljem ovakvog uzorka bit će pogrešno i u klasičnoj i u prostornoj statistici.

3.2.2. Zavisnost – nezavisnost opservacija (opažanja)

Svi klasični statistički testovi pretpostavljaju da su opservacije u skupu podataka

međusobno nezavisne i izbor jedne opservacije u uzorak ne smije ovisiti o ulasku neke

druge opservacije u uzorak. Ako se ova pretpostavka ne poštuje, smanjuje se broj

stupnjeva slobode (vidi priručnik tečaja S720). Ako metodu najmanjih kvadrata (engl.

Ordinary Least Square – OLS) primijenimo na autokoreliranim podacima, posljedice

prilikom donošenja zaključaka o populaciji su sljedeće:

1. Smanjuje se preciznost procijenjenih parametara (povećava se vjerojatnost

odbacivanja nulte hipoteze (H0) kada ona vrijedi – pogreška ili pogreška tipa

1).

2. Selekcija značajnih varijabli koje trebaju ući u model bit će pomaknuta prema

jače autokoreliranim varijablama, ponekad zvano i crveni pomak (engl. red

shift).

3. Prediktori koji djeluju na grubljoj rezoluciji češće su značajni od prediktora koji

djeluju na finijoj rezoluciji.

4. Selekcija modela koja se temelji na Akaike informacijskom kriteriju AIC dovest

će do izbora kompleksnijih modela, tj. modela s većim brojem prediktora (uočite

da se selekcija modela može bazirati na nekim drugim informacijskim

kriterijima).

Prije no što se počnete baviti analitikom geografski referenciranih podataka važno je

početi razumijevati koncepte koji ove podatke razlikuju od klasičnih skupova podataka

s kojima ste se susretali. Radi kratkoće ovog tečaja spomenut ćemo samo neke,

najvažnije.

3.2.3. Prostorna heterogenost

Pojam prostorne heterogenosti, u suprotnosti sa prostornom stacionarnošću, odnosi se

na varijabilnost (nestabilnost) promatranog parametra na prostornim jedinicama. Da

bismo karakterizirali takvu heterogenost (varijabilnost), koristimo metodu geografski

ponderirane regresije kojom procjenjujemo vrijednost parametra temeljem vrijednosti

parametra u susjedstvu. Susjedstvo se određuje na optimalan način metodom

unakrsne validacije (engl. cross validation).

Stacionarnost prostornog procesa označava konstantnost parametra na cjelokupnom

području od interesa R. Za proces se kaže da je striktno stacionaran ako za bilo koji

broj lokacija n > 1, te za bilo koji skup izabranih lokacija {s1, ... ,sn} R i za bilo koju

udaljenost h parova lokacija (si, sj), distribucija Y((s1), ...(sn)) jednaka je distribuciji

Page 42: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

38

Y((s1+h), ... (sn+h)). Jednostavnije rečeno: stacionarnost pretpostavlja konstantnost

sredine i varijance varijable od interesa na području uzorkovanja.

3.2.4. Prostorna autokorelacija

Specifičnosti analize geografski referenciranih podataka leže u činjenici da je osnovno

svojstvo o nezavisnosti opservacija u uzorku prekršeno te vrijedi tzv. Toblerov prvi

zakon geografije da su sve pojave ovisne o svima drugima, ali da su one međusobno

bliže međusobno sličnije. Ako doista bliske pojave u prostoru jesu i sličnije – kažemo

da su one međusobno prostorno autokorelirane. Postoji veći broj definicija

autokorelacije i njezino određivanje svakako se smatra najvažnijim dijelom analize

prostornih podataka. Mnogi autori smatraju da je autokorelaciju jednostavnije opisati

njezinom negacijom: ako ne postoji veza između parova varijabli Xi i Xj (pogledati

poglavlje 7.3.3.1) za niti jedan par lokacija (i,j) na području istraživanja R, tada se može

reći da ne postoji autokorelacija među Xi, Xj; nedostatak prostorne autokorelacije na

kartiranom uzorku ne odstupa znatno od karte gdje je svaka vrijednost Xi dodijeljena

slučajno i s jednakom vjerojatnošću svakoj (i, j) lokaciji na karti.

Pojam autokorelacije (prostorne autokorelacije) označava stupanj u kojem skup

prostornih značajki i njima pridružene vrijednosti varijabli od interesa (atributa) imaju

tendenciju grupiranja u prostoru. Ovim ćemo se konceptom detaljno baviti u okviru

ovog tečaja. Vrsta analize koju ćemo primijeniti da bismo ovaj koncept kvantificirali

uglavnom ovisi o vrsti prostornih podataka s kojom ulazimo u analizu (pravilni rasteri,

točke ili poligoni), ali i o skali mjerenja varijabli (atributa) čija nas povezanost zanima

(kontinuirane varijable nasuprot nominalnih). Svaka kombinacija tipa prostornih

informacija – atributa zahtijeva nešto drugačiji pristup u određivanju mjera prostorne

povezanosti iako je ideja jednaka: ispituje se povezanost između područja ili točaka na

različitim udaljenostima (razinama odvajanja), koncept sličan analizi vremenskih serija.

Imajući međusobno isključive (disjunktne - nepreklapajuće) prostorne jedinice, ako

postojanje / odsustvo ili stupanj nekog svojstva utječe na pojavnost tog svojstva u

susjednim prostornim jedinicama, taj fenomen nazivamo prostorna autokorelacija.

Autokorelacije može biti pozitivna, ali i negativna i govori o stupnju povezanosti dvije ili

više (prostornih) varijabli. Ova rečenica može zbuniti nekog tko se prvi puta susreće s

prostornim podacima čije se vrijednosti na određenoj lokaciji smatraju autonomnim

slučajnim procesom. Time se odnos između mjerenja na dvije lokacije u biti smatra

odnosom dviju nezavisnih varijabli. Za one koji žele razumjeti ove pretpostavke,

potrebno je upoznati se s teorijom slučajnih polja (pogledati poglavlje 7.3.3.1). Postoje

analitičari prostornih podataka koji se s ovom teorijom ne slažu. Uporaba pretpostavki

ove teorije na praktičnim podacima pokazala se izuzetno korisnom. Međutim postoje i

definicije koje su intuitivno prihvatljivije, primjerice: Prostorna ovisnost je mjera kojom

opisujemo stupanj ovisnosti izmjerene vrijednosti varijable i vrijednosti iste varijable na

bliskoj lokaciji (Fotheringham et al, 2002). Važno je imati na umu da prostorna

autokorelacija nije isključivo vezana uz geografski prostor, iako ćemo se mi služiti ovim

izrazom upravo u ovome kontekstu.

Page 43: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

39

Autokorelacija izvan konteksta geografski referenciranih podataka

Pojam autokorelacije potječe iz analitike vremenskih serija i odnosi se na korelaciju

opservacija u univarijatnoj statistici. Kao i općenito u konceptu korelacije, dokazana

koreliranost ne znači uzročnost (kauzalnost) veze.

Postoji više razloga postojanja autokorelacije između opservacija, a generalno vrijedi

ova podjela:

1. kreirana autokorelacija

2. stvarna autokorelacija.

Različiti autori ove dvije grupe nazivaju različitim imenima, ali bitno je razumijevanje i

razlozi postojanja.

Kreirana autokorelacija podataka

Ovaj oblik međusobne povezanosti opservacija je artefakt loše postavljenog

eksperimenta. Vrlo se često nalazi u podacima koji nisu na slučajan način izabrani u

uzorak.

Stvarna autokorelacija podataka

Stvarna autokorelacija podataka najprije je opisana na podacima vremenskih serija.

Drugi način podjele uzroka nastanka prostorne autokorelacije u podacima je na:

1. vanjske, egzogene uzroke

Egzogeni procesi pojavljuju se bez obzira na varijablu od interesa. Primjeri za

ove procese su geološke barijere, količina oborina, smjer vjetrova, poplave,

požari i drugi oblici katastrofa.

Primjer ovakvog procesa je i prostorni raspored stabala određene vrste u

šumskom ekosustavu gdje su egzogeni procesi klima i šumsko tlo te potencijal

za akumulaciju vode doveli do generalne distribucije vrste stabala.

2. endogene uzroke

Endogeni procesi su oni koji su karakteristika neke populacije od interesa, tj.

varijable koju modeliramo, primjerice, mogućnost disperzije vrste ili kompeticija

među vrstama.

U primjeru s distribucijom vrste stabala, klasteriranje stabala u šumi uzrokovano

je endogenim procesom, tj. ograničenim dometom sjemena od stabla.

Generalno se može reći da endogeni procesi djeluju na finijoj rezoluciji (engl. scale) od

egzogenih, ali to nije nužno uvijek tako. Uz to, vrlo često se ne može odrediti koji

procesi su doveli do nekog prostornog rasporeda, budući da je prostorni raspored

nastao djelovanjem većeg broja procesa.

Ovaj pojam vrlo se često koristi prilikom opisa podataka u prirodnim znanostima,

primjerice ekologiji.

Page 44: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

40

Autokorelacija – koncept i formulacija

Ako uzorak čini skup od n parova vrijednosti {xi, yi} varijabli x i y, mjera korelacije

između njih je omjer njihove kovarijance (način na koji zajednički variraju) s umnoškom

kvadratnih korijena varijance svake varijable. To je zapravo način standardiziranja

kovarijance prosječnom disperzijom svake varijable, kako bi se osiguralo da je

koeficijent korelacije r, u rasponu [-1,1]. Uočite da r nema jedinice mjerenja. Koeficijent

korelacije r se prikazuje formulom:

𝑟 =∑ (𝑥𝑖 − �̅�)(𝑦𝑖 − �̅�)𝑛

𝑖=1

√∑ (𝑥𝑖 − �̅�)𝑛𝑖=1

2 √∑ (𝑦𝑖 − �̅�)𝑛𝑖=1

2

Pretpostavimo sada da umjesto skupa parova vrijednosti {xi, yi} imamo skup od n

vrijednosti, {xt}, koje predstavljaju mjerenja izmjerena u različitim vremenskim

razdobljima, t = 1,2,3,4, ... n, na primjer, dnevne razine oborina u pojedinom mjestu ili

završne dnevne cijene neke dionice ili robe. Sljedeća slika prikazuje tipičnu vremensku

seriju cijena dionica: plava crta je zaključna cijena dionica na kraju svakog dana

trgovanja, a crvene i crne linije označavaju vremensku seriju s pomakom od 7 i 14

dana unaprijed (ili unatrag) : {xt, xt + 7, xt + 14, xt + 21, ...} i {xt, xt + 14 , xt + 28, xt + 42,

...}.

U uzorcima s dnevnim količinama oborine ili dnevnim cijenama robe često možemo

primijetiti neki oblik pravilnosti tijekom vremena. Na primjer, može se pokazati da dani s

oborinama obično slijede u nizu, dok dani bez oborina često slijede iza dana sličnih

karakteristika. Ovo bi bio primjer vrlo jake pozitivne korelacije između količine oborina u

uzastopnim danima, odnosno u danima koji su međusobno u razmaku od jednog dana.

Skup "dan 1" vrijednosti možemo smatrati jednom serijom, {xt, 1}, t= 1,2,3 ... n-1, a

skup "dan 2" vrijednosti kao drugu seriju {xt, 2}, t = 2,3 ... n, te izračunati koeficijent

korelacije za ove dvije serije na analogni način kako je izračunat koeficijent korelacije r

(vidi gornju formulu).

Page 45: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

41

Svaka serija ima pripadnu srednju vrijednost:

�̅�.1 =1

𝑛−1∑ 𝑥𝑡

𝑛−1𝑡=1 i �̅�.2 =

1

𝑛−1∑ 𝑥𝑡

𝑛−1𝑡=2

Uz ove dvije sredine korelacijski koeficijent r izračunava se po formuli:

𝑟.1 =∑ (𝑥𝑡 − �̅�.1)(𝑥𝑡+1 − �̅�.2)𝑛−1

𝑡=1

√∑ (𝑥𝑡 − �̅�.1)2𝑛−1𝑡=1 √∑ (𝑥𝑡+1 − �̅�.2)2𝑛−1

𝑡=1

Ako je n relativno velik, tada su vrijednosti 1 / (n-1) vrlo blizu vrijednosti

1 / n, a vrijednosti dvije srednje vrijednosti i standardne devijacije će biti gotovo iste,

tako da se gornji izraz može pojednostaviti:

𝑟.1 =∑ (𝑥𝑡 − �̅�)(𝑥𝑡+1 − �̅�)𝑛−1

𝑡=1

∑ (𝑥𝑡 − �̅�)2𝑛𝑡=1

Ovaj izraz poznat je kao serijski korelacijski koeficijent za pomak od 1 vremenskog

intervala (koraka). Koeficijent se može generalizirati za različite vremenske korake 2, 3,

... na način:

𝑟.𝑘 =∑ (𝑥𝑡 − �̅�)(𝑥𝑡+𝑘 − �̅�)𝑛−𝑘

𝑡=1

∑ (𝑥𝑡 − �̅�)2𝑛𝑡=1

Koeficijent autokorelacije, koji opisuje ovaj pojam, pojavljuje se u literaturi od 1950-ih

godina. Brojnik izraza predstavlja kovarijancu za vremenski pomak k dok je nazivnik

kovarijanca s vremenskim pomakom 0. U analizama vremenskih serija vremenski

pomak je uvijek konstantan. Skup koeficijenata korelacije r za različite pomake k: {r,k}

može se prikazati i grafički kako bi se vidjela struktura korelacije u ovisnosti o

vremenskom pomaku. Taj je grafički prikaz poznat pod nazivom korelogram.

Za slučajni niz vrijednosti r.k može se pokazati da ima normalnu distribuciju N(0,1 / n).

Ako postoji kratkoročna korelacija, kao u našem primjeru s kišom, r.k će biti vrlo visok

(blizu +1), a kada veličina pomaka premaši vremenski raspon unutar kojeg korelacija

postoji r.k će se smanjiti na otprilike 0. Moguće je, naravno, da ukupni uzorak oborina

pokazuje stalan rast tijekom vremena. U tom slučaju korelogram neće težiti nuli na

očekivani način. Tada za seriju možemo reći da je nestacionarna te je prije samog

provođenja analize potrebno iz podataka ukloniti trend (na izvornim točkama podataka

oduzima se vrijednost trenda u odnosu na vremenske pomake 1,2,3).

Page 46: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

42

Ovi komentari primjenjuju se na serije s jednom dimenzijom - vremenom. Proširenje

ovog koncepta na prostorne podatke svodi se na generalizaciju prethodne ideje (o

postojanju jedne dimenzije na kojoj se prati autokorelacija u vremenu uz jednake

vremenske intervale), tj. na višedimenzionalnu autokorelaciju (podataka u prostoru),

gdje razmaci između opservacija nisu u jednakim intervalima.

3.2.5. Specifičnosti geometrije na sferi

Poznavanje lokacije omogućuje određivanje udaljenosti i smjera između objekata.

Udaljenost i smjer između objekata vrlo je jednostavno izračunati (paket gdistance).

Kako je Zemlju najlakše opisati sferom (o detaljima smo više rekli u temi o lokalnim

koordinatama) važno je imati na umu da, ako radimo izračune udaljenosti i smjera u

geografskim koordinatama, uporaba klasične, Euklidske matematike, nije

odgovarajuća. Ona će biti dovoljno precizna jedino za male udaljenosti jer spaja

objekte najkraćom linijom kroz unutrašnjost sfere. Za veće udaljenosti potrebno je

koristiti matematičke metode velikog kruga (engl. great circle distance) koje računaju

udaljenost između objekata na površini sfere. Paketi koji omogućavaju izračune na

sferi su paketi geosphere i fossil.

Moguće je izračunati i prave udaljenosti između objekata u prostoru poznavajući

putove kojima se mogu kretati, a time i procijeniti potrebno vrijeme puta (cestovne

mreže). Ove analize se uglavnom provode uz pomoć tzv. reprezentativnih točaka

objekta kao što su središnja točka linije, centroid poligona i slično. Za velike prostorne

objekte analiza putem reprezentativnih točaka može biti zavaravajuća.

3.2.6. Ekološka zabluda i problem promjenjivih jedinica površine (MAUP)

Ako je neka pojava prikazana u obliku točaka, tj. posjedujemo informaciju o točnim

koordinatama (primjerice koordinate pojavnosti nekog oblika kriminala, pojava munja,

centroidi naselja ili lokacije restorana), načini agregiranja značajno utječu na konačne

rezultate analize.

Ekološka zabluda, pri čemu se ne govori o ekološkim podacima, pojava je krivog

zaključivanja o svojstvu pojedinog događaja na temelju agregiranih podataka. Ovaj

problem prepoznat je u većem broju znanstvenih disciplina kao što su ekonomija,

geografija, političke znanosti i sociologija. Navedene discipline u velikoj se mjeri

temelje na vrijednostima mjerenim na jedinkama, ali agregiranim prema geografskim

regijama. Većina socioekonomskih istraživanja provodi se na individualnoj razini. Ipak,

iz različitih razloga, podaci se agregiraju na različite načine. Zaključci o jedinkama

temeljeni na agregiranim regionalnim podacima dovode, naravno, do krivih zaključaka.

Problem ekološke zablude uvelike je povezan i s drugim fenomenom kojeg moramo biti

svjesni prilikom analize geografski referenciranih podataka. Radi se o problemu

promjenjivih jedinica površine (engl. Modifiable Area Unit Problem - MAUP).

Jednostavno rečeno, MAUP nam ukazuje na to da ćemo crtanjem granica na drugačiji

način i agregiranjem podataka prema tim granicama dobiti i različite rezultate analize.

Page 47: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

43

4. Uključivanje informacije o međusobnim odnosima opservacija u analizu

Informacija o koordinatama nekog proučavanog fenomena u prostoru u analizu se

može uvesti:

1. kao eksplicitna informacija o geografskoj koordinati

2. uključivanjem rezultata zasebne analize o međusobnim prostornim odnosima

(topologiji definiranoj susjedima).

4.1. Prostorni odnosi - topologija

Prostorna topologija – skup odnosa koji mogu imati prostorni objekti jedan prema

drugomu i razumijevanje procesa koji se mogu dogoditi kada se dva ili više objekata

nađu zajedno u prostoru (engl. co-location).

Sedam je glavnih prostornih odnosa:

1. objekti su identični

2. objekti se dodiruju – jedna zajednička

točka

3. objekti se preklapaju – veći broj

zajedničkih točaka

4. jedan objekt sadržava drugi (nema dodira

granica)

5. objekti ne dijele ništa zajedničko

6. objekti se prekrivaju (A prekriva B, objekti

se dodiruju na granici)

7. objekti se križaju tj. sadrže barem jednu

zajedničku točku.

Testiranje topoloških odnosa u prostoru je standardna metoda opisa prostornih odnosa

objekata u prostoru (dvije geometrije na dvije dimenzije prostora). Model koji testira ove

odnose nosi naziv Dimensionally Extended Nine-Intersection Model (DE-9IM)

(http://suite.opengeo.org/opengeo-docs/dataadmin/pgAdvanced/de9im.html).

Unutar sustava R možemo propitivati kolokaciju dva objekta unutar više paketa, ali u

svojoj osnovi oni svi koriste funkcionalnost biblioteke GEOS, paketa rgeos. Paket rgeos

(engl. Geometry Open Source GEOS) je biblioteka koja omogućuje rad s bazama

prostornih podataka kao što je PostGIS i radi sve uobičajene operacije na

geometrijama. Analiza kojom propitujemo istovremeno postojanje većeg broja objekata

na istoj lokaciji (engl. co-location) radi se metodama preklapanja (engl. overlay). Ovaj

Page 48: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

44

oblik analize moguće je raditi na svim međusobnim kombinacijama vektorskih i

rasterskih objekata.

PRIMJER:

u Rstudiju otvorite program naziva S730_rgeos_primjeri.R.

4.2. Uključivanje međusobne ovisnosti među opservacijama u analizu

Da bi informacija o povezanosti u prostoru mogla biti uključena u neki oblik analize

prostorno referenciranih podataka, razvijene su različite metode ovisno o tipu

prostornih podataka s kojima ulazimo u analizu:

1. točkastim procesima

2. poligonskim podacima

3. točkastim mjerenjima kontinuiranih pojava.

Metode koje su razvijene s ciljem mjerenja međusobne povezanosti prostornih

podataka u ovisnosti o tipu prostornih podataka poznate su pod nazivom matrice

prostornih težina. One su posebno bitne pri analizama diskretnih prostornih objekata.

Matrice težina generalno mjere ili sličnosti među prostornim objektima, kao primjerice

matrice susjedstva, ili različitost (matrice temeljene na udaljenostima između prostornih

objekata).

Unutar analitike prostorno referenciranih podataka za kontinuirane procese postoje tri

glavna načina određivanja prostorne povezanosti između opservacija u Gaussovom

procesu i to su:

1. korelogram (ranije smo ga upoznali)

2. kovariogram

3. semivariogram (kolokvijalno zvan i variogram).

Iako se u različitim analizama koristi samo jedna funkcija (korelacija, kovarijanca ili

semivarijanca) sve su tri funkcije linearno povezane.

U dijelu koji se bavi specifičnostima analitike kontinuiranih procesa i interpolacijama

upoznat ćemo se detaljnije s funkcijom variogram.

4.2.1. Međusobna povezanost diskretnih prostornih pojava

Matrice prostornih težina – W

Za velik broj analiza potrebna nam je informacija o relativnim vezama između parova

objekata. Ona se smatra općim potencijalom interakcije između pojedinih parova

objekata. Prvi korak u određivanju međusobne povezanosti među objektima u prostoru

(engl. connectivity) je jasno definiranje susjedstva svakog objekta iz čega se izvodi

matrica prostornih težina (engl. spatial weights matrix).

Page 49: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

45

Matrica prostornih težina je snažan objašnjavajući faktor kod fenomena kao što je

jačina socijalnih interakcija, brzina širenja zaraznih bolesti, priljev migranata i dr.

Općenito rečeno, prostorne težine su brojevi koji odražavaju vrijeme, dostupnost ili

druge troškove između objekata u prostoru.

Postoji nekoliko načina izračuna matrice prostornih težina (W), a izbor izračuna

uglavnom ovisi o tipu podataka i trebao bi reflektirati izvornu povezanost procesa koji

modeliramo. Tako postoje:

Težine određene ne temelju susjedstva (engl. Contiguity Based Weights)

Prvi korak u kreiranju matrice prostornih težina je određivanje susjeda prostornom objektu koje je različito u odnosu na tip prostornog objekta tj. model kojim neki prostorni objekt prezentiramo.

Definiranje susjedstva na regularnoj mreži

Na regularnoj mreži, susjedstvo se određuje na tri osnovna načina:

Rook Bishoop Queen (King)

Koncept definiranja susjedstva vrlo je koristan kada radimo s regularnim podacima

(mreža, grid), podacima koje je jednostavno matematički sumirati. Kada se prostorni

podaci sastoje od nepravilnih poligonskih jedinica, što je slučaj kod većine prostornih

podataka (primjerice administrativne jedinice, države, naselja) koncept definiranja

susjeda postaje znatno kompleksniji.

Definiranje susjedstva na nepravilnim poligonima

Page 50: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

46

Određivanje susjedstva na nepravilnim poligonima može se napraviti jednako gore

navedenim načinima za podatke na regularnoj mreži, tako ponovno imamo:

Rook – poligoni koji dijele zajedničku granicu s više zajedničkih točaka.

Problemi ovakvog definiranja susjednih poligona pri kreiranju matrice prostornih

težina su područja bez susjeda pa se postavlja pitanje treba li se težina staviti

na 0 ili na nepostojeću vrijednost. Ova odluka u velikoj će mjeri utjecati na

numeričku vrijednost izračunate prostorne povezanosti (autokorelacije) na

podacima. U ovome slučaju poligoni 039 i 067 neće biti prepoznati kao susjedi.

Queen – susjedi definirani kao objekti koji imaju barem jednu zajedničku točku –

verteks. U ovome slučaju poligoni 039 i 067 smatraju se susjednim poligonima.

Susjedstva mogu biti prvog, ali i viših redova.

Određivanje susjedstva za točke

Određivanje susjedstva na točkastim objektima može se napraviti putem direktne

udaljenosti do prvog ili n-tog susjeda, ali i nekim od grafičkih metoda raspodjele

ukupnog prostora nekoj od prostornih točaka, primjer:

Voronoi ili Dirichlet dijagram – način raspodjele prostora oko centra. Ovako

kreirane granice su arbitrarne i njihova duljina ovisi o korištenom algoritmu.

Kada imamo određeno susjedstvo (binarne indikatore veze prostornih objekata)

kreiramo prostorne težine – kvantificiramo matricu W. Da bismo to napravili, možemo

koristiti neku od velikog broja mogućnosti, kao što su primjerice duljina zajedničkih

granica, inverzna udaljenost, dostupnost te mnoge druge.

Težine na temelju međusobne udaljenosti (engl. Distance Based Weights)

Drugi način određivanja prostornih težina je određivanje temeljem međusobnih

udaljenosti prostornih objekata:

k najbližih susjeda (engl. k nearest neighbor; K-NN algoritam) – najbližih k

objekata bez obzira na njihovu udaljenost dobivaju vrijednost 1, inače 0. Ovaj

oblik matrice vrlo se često koristi na nepravilnim poligonskim objektima

koristeći reprezentativne točke, na primjer, centroide, kao predstavnike

poligona.

Page 51: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

47

Radijalno definirana zona djelovanja – svi objekti unutar određenog pojasa

dobivaju vrijednost 1, inače 0 (engl. sphere of influence).

Inverzna udaljenost – svi prostorni objekti djeluju na sve, ali njihov utjecaj

opada kvadratom međusobne udaljenosti.

Zona indiferencije – metoda koja kombinira zonu djelovanja i inverznu

udaljenost.

Opće težine – korisnički definirane prema poznavanju procesa koji se

modelira.

Cliff-Ord težine – težine koje kombiniraju duljinu zajedničkih granica i

međusobnu udaljenost objekata.

Wij =[dij]-a [bij]b

dij – udaljenost između i, j

bij – zajednička granica koju dijele i, j unutar zadanog opsega

Page 52: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

48

Matrica inverzne udaljenosti – Wij =1/dija gdje se a određuje proizvoljno, ali

najčešće a=2 (kvadrat udaljenosti) čime se definira gravitacijski model.

Socijalno – ekonomske težine

Wij= 1 za sve i, j unutar nekog bloka, na primjer, države – hijerarhijski model.

Wij= 1/|ri-rj| - gdje je r ukupna stopa zaposlenosti.

Struktura kovarijance kojom unosimo informacije o međuovisnosti prostornih objekata

uvelike ovisi o odabranoj matrici prostornih težina, ali i o odabranom prostornom

procesu. Postoji vrlo malo smjernica na koji način izabrati "ispravnu" matricu prostornih

težina za pojedine aplikacije. U pravilu se dobiveni rezultati validiraju na neki od načina

kao što su unakrsna validacija (engl. cross validation), testiranje kvalitete podudaranja

(engl. goodness of fit) te se loš odabir ovim putem eliminira.

Od definiranja povezanosti (susjedstva) do prostornih težina

Iz gore prikazanih definicija susjedstva dobiva se matrica prostornih težina na način:

Na slikama gore je prikazan jedan hipotetski slučaj, poligonski prikazani prostorni

objekti (područje) te prikaz veza susjedstva u području

1. Matrica prostornih težina prvog reda - najjednostavniji oblik matrice - radi se

na način da mjesta koja su definirana kao susjedi dobivaju vrijednost 1,

inače 0.

Page 53: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

49

2. Matrice prostornih težina viših redova – opisuju susjede prvog i višeg reda -

kao rezultat daju graf prezentacije površine povezanosti kao što je primjer

na slici.

Susjedstva viših redova u sustavu R određuju se uporabom funkcije nblag() iz

paketa spdep.

Ovisno koji oblik definiranja susjedstva odaberemo, dobit ćemo različitu strukturu

kovarijance. Pokazalo se da za mnoge prostorne statistike standardizacija prostornih

težina pruža točnije rezultate. Moguće je izraditi nekoliko varijanti standardiziranih

matrica (oznake dane kako ih kodira paket spdep):

1. osnovna, binarna matrica – kôd B

2. standardizirana unutar retka – ukupan zbroj u retku je broj susjedstva – kôd W

3. globalno standardizirana matrica – kôd C

4. matrica slična standardiziranoj matrici C, ali standardizirana brojem susjeda –

kôd U

5. matrica standardizirana varijancom – kôd S

6. matrica koja dijeli težine s minimumom ((maksimuma suma

redaka),(maksimuma suma stupaca)) – kôd „minmax“.

Izrada matrica prostornih težina za vektorske, poligonske podatke u sustavu R

Unutar sustava R postoji mogućnost izrade svih oblika matrica prostornih težina. Za to

su nam potrebne biblioteke McSpatial, spdep te ade4 i funkcije nb2neig(),

neig2nb(), dnearneigh(), cell2nb() i druge, ovisno o izboru matrice koju

radimo. Ako kreiramo susjedstva viših redova za to će nam biti potrebna funkcija

nblag(). Također, moguće je matrice prostornih težina pripremiti i u nekom od

specijaliziranih programa kao što je open source program GeoDA

(http://geodacenter.asu.edu/) te rezultat učitati u program R funkcijom read.gal()

paketa spdep.

Područja koja dijele barem jednu zajedničku točku smatraju se susjednim područjima.

Unutar sustava R, ovaj oblik susjeda (Queen - King) može se izračunati funkcijom

poly2nb() na ranije učitanoj shapefile datoteci poligonskog tipa.

Page 54: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

50

Primjeri:

Izrada matrica prostornih težina u sustavu R.

Otvorite program pod nazivom S730_matrice_susjedstva.R.

>library(maptools)

>library(rgdal)

>library(spdep)

>getinfo.shape("HRV_adm2.shp") #maptools biblioteka, ispis informacije o strukturi shapefile datoteke (vidi nastavak)

Shapefile type: Polygon, (5), # of Shapes: 560

>opcine <- readOGR(getwd(),"HRV_adm2", verbose = TRUE, stringsAsFactors=FALSE) #učitavanje shapefile-a bibliotekom "rgdal"

>str(opcine)

>head(opcine@data)[1:7]

ID_0 ISO NAME_0 ID_1 NAME_1 ID_2 NAME_2

0 57 HRV Croatia 8 Krapinsko-Zagorska 180 Krapinske Toplice

1 57 HRV Croatia 8 Krapinsko-Zagorska 181 Kumrovec

2 57 HRV Croatia 8 Krapinsko-Zagorska 182 Lobor

3 57 HRV Croatia 8 Krapinsko-Zagorska 183 Mace

4 57 HRV Croatia 8 Krapinsko-Zagorska 184 Marija Bistrica

5 57 HRV Croatia 8 Krapinsko-Zagorska 185 Mihovljan

>opcine_queen<-poly2nb(opcine)

Neighbour list object:

Number of regions: 560

Number of nonzero links: 2756

Percentage nonzero weights: 0.8788265

Average number of links: 4.921429

12 regions with no links:

85 88 300 308 309 311 325 326 327 411 522 529

Link number distribution:

0 1 2 3 4 5 6 7 8 9 10 11 12 13 15 16

12 19 28 70 112 111 100 53 30 12 6 3 1 1 1 1

19 least connected regions:

24 82 86 96 97 132 295 312 317 385 394 407 420 478 479 518 519 520 528 with 1

link

1 most connected region:

106 with 16 links

>opcine_susjedi_višeg_reda <- nblag(opcine_queen, maxlag=4) #susjedstva višeg reda

Page 55: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

51

Napomena:

Obratite pažnju na moguće definiranje parametra snap unutar funkcije poly2nb() pri

određivanju susjedstva. Ako radimo Rook susjedstvo, barem dvije točke moraju biti

unutar definirane snap udaljenosti. Definiranje parametra snap može biti vrlo korisno

kada želimo definirati susjedstvo čak i kad postoji neka manja prepreka – cesta, kanal

ili slično.

4.3. Mjere opće povezanosti podataka

Najčešći elementi različitih prostornih modela su dvije matrice:

1. matrica koja prezentira povezanost među lokacijama

2. matrica vrijednosti atributa na lokacijama.

Sve mjere međusobne povezanosti prostornih podataka u biti su neki oblici općeg

unakrsnog produkta dvaju matrica (elementi matrice unakrsnog produkta dobivaju se

množenjem elemenata na odgovarajućim pozicijama dvaju pojedinačnih matrica):

Γ = ∑ ∑ 𝑊𝑖𝑗𝐶𝑖𝑗

𝑗𝑖

gdje je W = (Wij) - matrica prostornih težina koje treba izračunati – dobivamo je iz

matrice susjedstva procesom standardizacije. Funkcija je neka od mjera susjedstva

originalnih podataka.

C = (Cij) - matrica udaljenosti između izmjerenih vrijednosti na parovima lokacija i, j,

definirana nekom od mjera udaljenosti (npr., Euklidskom, sferičnom, Manhattan ili

slično).

Sve mjere autokorelacije (engl. joint-count statistika, Moran I i ostali indeksi o kojima

ćemo govoriti u nastavku) neki su oblici unakrsnog produkta ovih dvaju matrica.

4.3.1. Izračun opće mjere međusobne povezanosti prostornih

podataka.

Zamislimo slučaj gdje imamo lokacije, položaj prostornih objekata, na kojima smo

izvršili mjerenja. Područje (lokacije) je prikazano na slici:

Vrijednosti varijable od interesa (X) mjerene na gornjim lokacijama.

Na našem primjeru, srednja vrijednost mean(X)=5, suma kvadriranih devijacija (xi-

mean(X)) 2 = (xi-5)2= 60.

Page 56: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

52

Združene lokacije s pripadajućim vrijednostima varijable zovemo mapa ili karta:

W matrica određena je kao rešetka 9 x 9 gdje su redci i stupci označeni oznakom

položaja (slika gore). Kada su dvije ćelije susjedne u izvornim podacima, u matricu W

na odgovarajuću poziciju unosimo vrijednost 1, a kada nisu unosimo vrijednost 0.

Primjer:

Na mapi koja područja ćelija a susjedna je ćelijama b i d ako susjedstvo definiramo kao

Rook susjedstvo.

Sljedeći korak prije utvrđivanja unakrsnog produkta je kreiranje matrice C, koja je iste

dimenzije kao matrica W, a elementi su joj neka mjera udaljenosti vrijednosti

zabilježenih na lokacijama. Da bismo to napravili moramo za svaku lokaciju, primjerice

lokaciju a, vrijednost varijable na lokaciji a oduzeti od svih drugih vrijednosti (b, c, d, e,

f, g, h). Na slici dolje prikazan je primjer za Euklidsku udaljenost (xi - xj)2.

Matrica C ovdje je zadana kao kvadrat Euklidske udaljenosti:

Primjer računanja udaljenosti vrijednosti vrijednosti varijable na lokacijama:

(a,a): (a-a)2=0; (a,b): (a-b)2=(9-6)2=9; (a,c): (9-3)2=36, itd.

Page 57: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

53

Da bismo izračunali unakrsni produkt matrica (engl. cross product) odgovarajući

elementi matrica se pomnože i dobivene vrijednosti zbroje:

Konačni rezultat je skalar , u ovome slučaju vrijednost 120, koji nema nikakvo

značenje jer ne znamo kontekst. Ovo je samo jedna realizacija mape (konstelacija) od

mogućih n! (n faktorijela: 1*2*…*n), tj. drugačija randomizacija istih izmjerenih

vrijednosti iste varijable po lokacijama daje novu mapu. Značajnost dobivene

vrijednosti određuje se randomizacijskim testovima, gdje se slučajnim permutacijama

mijenjaju položaji vrijednosti na karti te ponovno izračunava generalni unakrsni produkt

. U prikazanom slučaju, vrijednost 120 vrlo je vjerojatna vrijednost. Postoji niz općih

mjera prostorne autokorelacije koji su izvedene iz općeg unakrsnog produkta.

Najvažniji su Moran I indeks, Gearyjev C i variogram. U manjoj mjeri to je i indeks

povezanosti binarnih podataka (engl. joint-count).

4.3.2. Tipovi prostorne autokorelacije

Prostornu autokorelaciju možemo računati globalno (na cijelom području) i lokalno (na

dijelovima područja).

Mjere globalne prostorne autokorelacije (povezanosti)

Globalna statistika otkriva i mjeri prostorni uzorak na cijelom području od interesa pri

čemu ne otkriva u kojem se dijelu značajni uzorak događa. Dobivena jedinstvena

globalna statistika odnosi se na cjelokupan set podataka (mapu). Predstavnici mjera

globalne prostorne autokorelacije podataka su indeksi Moran I i Geary C.

Indeks Moran I

Indeks Moran I mjeri ukupni stupanj prostorne autokorelacije varijable(i) na dvo i

trodimenzionalnom prostoru. Varijabla za koju računamo ovaj indeks mora biti mjerena

barem na intervalnoj skali. Indeks po svojoj strukturi sličan Pearsonovom koeficijentu

korelacije pri čemu uzima u obzir prostornu matricu težina. Vrijednosti indeksa su

(analogno Pearson koeficijentu korelacije) u rasponu od -1 do +1 gdje -1 označava

snažnu negativnu autokorelaciju, 0 potpuno slučajni raspored vrijednosti po lokacijama,

a +1 snažnu prostornu autokorelaciju (klasteriranje sličnih vrijednosti u prostoru).

Ako međusobno bliski prostorni objekti imaju sličnu vrijednost mjerene varijable, Moran

I će biti pozitivan; suprotno, ako susjedni objekti u prostoru imaju različite vrijednosti

(regularan raspored) I poprima negativnu vrijednost. Ako ne postoji veza između

susjednih lokacija tad je očekivanje E(I) = -1/(n-1).

Page 58: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

54

Ako broj mjerenja teži beskonačnosti, očekivanje od I E(I) →0. Indeks Moran I je

asimptotski normalno distribuiran kada je

𝐼+

1

𝑛−1

√𝑉𝑎𝑟(𝐼)~𝑁(0,1)

𝐼 =𝑛

∑ ∑ 𝑊𝑖𝑗𝑗=𝑛𝑗=1

𝐼=𝑛𝑖=1

∙∑ ∑ 𝑊𝑖𝑗(𝑥𝑖 − �̅�)(𝑥𝑗 − �̅�)

𝑗=𝑛𝑗=1

𝐼=𝑛𝑖=1

∑ (𝑥1 − �̅�)2𝑖=𝑛𝑖=1

Gdje je:

N broj opservacija (točaka ili poligona)

mean(X) srednja vrijednost varijable X

xi vrijednost varijable X na lokaciji i

xj vrijednost varijable X na lokaciji j

wij element matrice prostornih težina za kombinaciju lokacija i i j

Izračun indeksa Moran I – nastavak primjera iz poglavlja 4.3.1

W – binarna matrica prostornih težina (dobivena iz matrice susjedstva) iz prethodnog

primjera. Uočite da suma težina iznosi 24.

Prema konvenciji, lokacija nije susjed samoj sebi.

Matrica C ima elemente cij definirana kao (xi-mean(X))(xj-mean(X)) tj. umnožak

odstupanja vrijednosti xi na lokaciji i i xj na lokaciji j od sredine mean(X).

Mean(X), tj. srednja vrijednost u našem primjeru iznosi 5, pa izračun vrijednosti u

lokaciji (a,a) glasi (9-5)2=16, vrijednost u lokaciji (a,b) glasi (9-5)*(6-5)=4 itd. Vrijednosti

matrice za sve lokacije su:

Page 59: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

55

Za računanje indeksa Moran I (I):

1. prvo se računa unakrsni produkt matrica W i C

2. Elementi matrice dobivene unakrsnim produktom se zbroje (= 80) te podijele

sumom kvadriranih devijacija varijable X (= 60).

Dakle, u našem primjeru, vrijednost indeksa Moran I = 9/24 * 80/60 = tj. I = 0,5.

Napomena:

Kako indeks Moran I u sebi zahtijeva uporabu matrice prostornih težina, jasno je da

ćemo, u ovisnosti o izboru načina izrade matrice prostornih težina W, dobiti i različite

vrijednosti indeksa Moran I za isti skup podataka.

Interpretacija indeksa Moran

Grafički prikaz i interpretacija prostorne autokorelacije na rasteru:

a) visoka pozitivna autokoreliranost

b) nema autokorelacije i

c) negativna autokorelacija.

a) b) c)

Ispitivanje značajnosti indeksa Moran I spada u područje inferencijalne statistike

(statističkog zaključivanja) jer je rezultate analize poželjno interpretirati u kontekstu

nulte hipoteze o nepostojanju prostorne povezanosti u vrijednostima varijable.

Page 60: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

56

Moran se može tumačiti kao korelacija između varijabli X, i lag_X koja se dobije

prostornim pomakom (engl. lag) iz varijable X pri čemu se lag formira kao prosjek svih

vrijednosti varijable X u susjedstvu. Kreira se grafikon točaka (engl. scatterplot) parova

vrijednosti varijabli X i lag_X te povlači regresijski pravac kroz točke. Nagib tog pravca

je vrijednost Moran I indeksa. Pogledajte primjer Moran I indeksa za gustoću

stanovništva u Puerto Ricu.

Problem kod računanja Moran I indeksa svakako su područja koja ne graniče niti s jednim susjedom, kao što su otoci.

Postoje i drugi testovi koji pokazuju ukupnu prostornu povezanost.

Moran I vs Pearson produkt moment korelacijski koeficijent

Prisjetimo se korelacijskog koeficijenta koji mjeri linearnu vezu dvaju numeričkih varijabli, Pearson korelacijskog koeficijenta. Moran I mjeri vezu sam jedne varijable sa samom sobom na prostornom pomaku (lag).

Pearson korelacijski koeficijent:

n

)x(x

n

)y(y

)/nx)(xy1(y

n

1i

2

i

n

1i

2

i

n

1i

ii

Page 61: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

57

Moran I index:

n

1i

2

i

n

1i

n

1j

ij

n

1i

n

1j

jiij

)x(x)w(

)x)(xx(xwN

=

n

)x(x

n

)x(x

w/)x)(xx(xw

n

1i

2

i

n

1i

2

i

n

1i

n

1i

n

1j

ij

n

1j

jiij

Primijetite sličnost brojnika u oba izraza ukoliko Yi je u biti Xi na susjednom poligonu.

Indeks Geary C

Drugi indeks kojim se mjeri generalna međusobna povezanost prostornih podataka je

indeks Geary C. Ovaj indeks linearno je vezan za vrijednosti Moran I indeksa. Računa

se na temelju parova vrijednosti varijable X po lokacijama na karti. Vrijednost indeksa

je između 0 – 2 (vrlo rijetko i veća) gdje vrijednost 1 označava strukturu bez prostorne

autokorelacije.

𝐶 =(𝑛−1) ∑ ∑ 𝑊𝑖𝑗(𝑥𝑖−𝑥𝑗)2𝑗=𝑛

𝑗=1𝑖=𝑛𝑖=1

2(∑ ∑ 𝑊𝑖𝑗) ∑ (𝑥𝑖−𝑥)2𝑖=𝑛𝑖=1

𝑗=𝑛𝑗=1

𝑖=𝑛𝑖=1

4.3.3. Testiranje statističke značajnosti izračunatih indeksa prostorne povezanosti

Testiranje statističke značajnosti opisanih indeksa provodi se ili klasičnim

(distribucijskim pristupom) ili randomizacijskim (permutacijskim) testovima.

Prilikom analize prostornog rasporeda zabilježenih vrijednosti možemo pretpostaviti da

su zabilježene vrijednosti atributa na području:

1. na slučajan način raspoređene između prostornih objekata – pretpostavka

slučajnosti (randomizacija, engl. non free sampling, ne dopušta ponavljenje u

uzorku)

2. da su zabilježene vrijednosti atributa samo jedne od bezbroj mogućih vrijednosti

te da je svaka pojedina vrijednost međusobno neovisna o drugim zabilježenim

vrijednostima – pretpostavka normaliteta (engl. free sampling, dopušta

ponavljenje u uzorku).

U ovisnosti o ovim pretpostavkama utječu na način na koji se računa varijanca

Moran I indeksa (ali i drugih indeksa opće povezanosti podataka kao što je Geary

indeks), SD (I). Za indeks koji promatramo možemo izračunati varijance za obje

pretpostavljene hipoteze te se može pokazati da je očekivana vrijednost dobivenih

Moran I indeksa : E(I) = -1/(n-1)

Uočite da je za veliki n E(I) tehnički jednako 0.

EN(I) = ER(I) = -1/ (n-1)

Page 62: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

58

Variajnca za obje pretpostavke:

𝑉𝐴𝑅𝑁(𝐼) =(𝑛2𝑆1 − 𝑛𝑆2 + 3𝑊2)

𝑊2(𝑛2 − 1)− [𝐸𝑁(𝐼)]2

𝑉𝐴𝑅𝑅(𝐼) =𝑛[(𝑛2 − 3𝑛 + 3)𝑆1 − 𝑛𝑆2 + 3𝑊2]

(𝑛 − 1)(𝑛 − 2)(𝑛 − 3)𝑊2−

𝑘[(𝑛2 − 𝑛)𝑆1 − 𝑛𝑆2 + 3𝑊2]

(𝑛 − 1)(𝑛 − 2)(𝑛 − 3)𝑊2− [𝐸𝑅(𝐼)]2

Kada imamo izračunate varijance, možemo izražunati aproksimativni standardni z skor,

z-statistika koja se računa kao z = I- E(I) / SD(I).

Uz izračunati z skor, u ovisnosti o unaprijed određenoj pogrešci testiranja α donosimo

zaključak o značajnosti našeg indeksa.

H0: ne postoji prostorna autokorelacija; Moran I = 0

Ha: prostorna povezanost postoji:

Moran I 0 dvosmjerni test uz unaprijed definiranu (npr. = 0.05)

Moran I > 0 jednosmjerni test uz unaprijed definiranu

(npr. = 0.01 (tj. 1%))

Testiranje značajnosti indeksa Moran I

PROSTORNO DISPERGIRAN SLUČAJNI GRUPIRANI UZORAK

Page 63: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

59

Pemutacijski testovi su numerički pristup testiranju značajnosti neke statistike, u ovom

slučaju Moran I indeksa. Radimo ih radi poboljšanja rezultata dobivenih

aproksimativnim normalnim testovima (upravo opisanom). Najprije želimo dobiti uvid u

distribuciju uzoraka indeksa ukoliko vrijedi hipoteza o potpuno slučajnom prostornom

rasporedu vrijednosti. Odredimo broj permutacija, replikacija eksperimenta u kojem

ćemo prostornim objektima nasumice rasporediti zabilježene vrijednosti varijable. Za

svaku permutaciju (raspored) izračunamo vrijednost Moran I indeksa. Naš izračunati

Moran I indeks na uzorku tada usporedimo s dobivenom distribusijom (engl. sampling

distribution). Dobivena P vrijednost ovisi o broju permutacija te se iz tog razloga još

naziva i pseudo P vrijednost.

Ananalogno interpretaciji p aproksimativnih vrijednosti, pseudo-p vrijednost se

interpretira na način:

Pseudo p-vrijednost < α =0.05 → H0 odbacujemo, uzorak previše ekstreman.

Prostorna povezanost podataka s atributima na nominalnoj skali (engl. join-count statistics)

Zamislite regularnu mrežu lokacija koje u potpunosti prekrivaju uzorkovanu regiju i

svaka lokacija ima dodijeljenu neku vrijednost varijable (atributa). Vrijednosti varijable

na svakoj lokaciji mogu biti binarne (prisustvo = 1 / odsustvo = 0; živ = 1 / mrtav = 0) ili

mogu biti mjerene na nominalnoj skali s npr. k klasa. Ono što nas zanima je

vjerojatnost zabilježenog prostornog rasporeda vrijednosti varijable ako vrijedi nulta

hipoteza o slučajnom rasporedu vrijednosti po lokacijama područja. Radi se prostorni

ekvivalent jednog vremenskog koraka iz analize vremenskih serija, pomak od jedne

lokacije (ćelija na gridu). Metoda računa broj binarnih kombinacija 1-1, 0-0, 1-0 i 0-1 te

ga uspoređuje s očekivanim brojem parova ako vrijedi nulta hipoteza o slučajnom

rasporedu. Za ovu metodu treba imati na umu da je rubni efekt vrlo značajan budući da

na graničnim lokacijama nije moguće izbrojati sve veze.

Testna statistika za join-count statistiku je Z statistika:

Z= E (Zabilježeni) – E (Očekivani) / SD(Očekivani).

Primjer:

Zamislimo dolje prikazane prostorne rasporede neke neke binarne varijable:

Pozitivna autokorelacija

Rook slučaj susjeda Queen slučaj susjeda

Jbb=27 Jbb=47

Jww=27 Jww=47

Jbw=6 Jbw=16

UKUPNO=60 UKUPNO=110

Page 64: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

60

Bez autokorelacije

Rook slučaj susjeda Queen slučaj susjeda

Jbb=6 Jbb=14

Jww=19 Jww=40

Jbw=35 Jbw=56

UKUPNO=60 UKUPNO=110

Negativna autokorelacija

Rook slučaj susjeda Queen slučaj susjeda

Jbb=0 Jbb=25

Jww=0 Jww=25

Jbw=60 Jbw=60

UKUPNO=60 UKUPNO=110

Testna statistika: Z= E (Zabilježeni) – E (Očekivani) / SD(Očekivanii).)

Očekivanje = slučajan uzorak koji dobijemo bacanjem novčića za svaku ćeliju.

𝐸(𝑠𝐵𝐵) = √𝑘𝑝𝐵2 + 2𝑚𝑝𝐵

3 − (𝑘 + 2𝑚)𝑝𝐵4

𝐸(𝑠𝑊𝑊) = √𝑘𝑝𝑊2 + 2𝑚𝑝𝑊

3 − (𝑘 + 2𝑚)𝑝𝑊4

𝐸(𝑠𝐵𝑊) = √2(𝑘 + 𝑚)𝑝𝐵𝑝𝑊 − 4(𝑘 + 2𝑚)𝑝𝐵2𝑝𝑊

2

Gdje je:

k – totalan broj veza (susjedstva);

pB – očekivana proporcija crnih (ili nule) ukoliko vrijede hipoteza o slučajnosti;

pw – očekivana proporcija bijelih (ili jedinice);

m – dobije se iz izraza:

𝑚 =1

2∑ 𝑘𝑖(𝑘𝑖 − 1)

𝑛

𝑖=1

Page 65: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

61

Formule za izračun vjerojatnosti (ova opaska se odnosi gotovo za sve indekse

prostorne povezanosti podataka). Rezultati testova ovise o pretpostavkama o

uzorkovanju pri čemu razlikujemo:

1) Slobodno (normalno) uzorkovanje – analogno uzorkovanju s vraćanjem. Nakon

što je prostorni objekt izabran u uzorak, vraća se te ga je moguće izabrati

ponovno u uzorak.

2) Randomizirano uzorkovanje (neslobodno) – analogno uzorkovanju bez

vraćanja. Svaki prostorni objekt može biti samo jednom izvučen u uzorak

budući nakon izbora nije bio vraćen.

Za svaki opisani slučaj, formule se razlikuju. Gore su navedene formule za kompleksniji

(slobodni) slučaj koji je znatno češći u realnim situacijama.

4.3.4. Getis Ord G statistika

Ova analiza zvana i analizom žarišta (engl. hot spot), računa G statistiku za svaki

pojedini element u skupu podataka. Rezultat je z-vrijednost koja nam govori o tome

nalazi li se element unutar klastera malih ili velikih vrijednosti. Statistika uspoređuje

vrijednost svakog podatka s lokalnom statistikom njegova susjedstva i cjelokupnim

skupom podataka. Ako je lokalna suma znatno različita od očekivane lokalne sume i ta

razlika nije rezultat slučajnosti, tada i G statistika rezultira visokom z-vrijednošću.

Jednako kao i druge mjere povezanosti, osim uporabe normalne distribucije značajnost

se može testirati i randomizacijskim testovima.

Interpretacija G statistike – za svaki element skupa podataka, G vraća jednu z-

vrijednost: Za statistički značajne pozitivne z vrijednosti, veća vrijednost z znači jače

klasteriranje visokih vrijednosti u skupu (engl. hot spot). Obrnuto, statistički značajne

negativne z-vrijednosti indiciraju znatno klasteriranje negativnih vrijednosti u skupu

(engl. cold spot). Ova statistička mjera najboje funkcionira uz binarni način definiranja

susjedstva.

4.3.5. Mjere lokalne prostorne autokorelacije (povezanosti)

Lokalna statistika identificira varijacije na istraživanome području fokusirajući se na

blisko susjedstvo. Određuju se lokalne strukture prostorne asocijacije te se omogućuje

dekomponiranje globalne statistike (Moran I) na lokalne indikatore (LISA). LISA ima

dva osnovna cilja:

a) može se interpretirati kao pronalaženje lokalnih otoka nestacionarnih svojstva

b) služi za određivanje značajnosti pojedine opservacije u globalnoj strukturi te

detekciju prostorno netipičnih vrijednosti (engl. outlier).

Određivanje stupnja autokorelacije na različitim tipovima podataka u sustavu R

Ovisno o tome računamo li ukupnu povezanost na vektorskim ili rasterskim podacima,

unutar sustava R koristit ćemo različite pakete. Za rastere, indeks Moran je moguće

izračunati funkcijom Moran() u paketu raster. Za poligonske teme trebamo koristiti

funkcije paketa spdep. Isti paket sadržava i funkcije za izračun lokalne i globalne G

statistike.

Page 66: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

62

PITANJA ZA PONAVLJANJE:

1. Izrecite svojim riječima Prvi zakon geografije, Toblerov zakon.

2. Objasnite svojim riječima pojam autokorelacije varijable.

3. Objasnite svojim riječima pojam prostorne autokorelacije.

4. Kako biste definirali nultu hipotezu koju testira Moran I statistika?

5. Kako biste definirali nultu hipotezu koju testira globalna G statistika?

6. Pojasnite razliku između interpretacije Moran I globalnog indeksa i globalne Getis Ord statistike.

Page 67: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

63

5. Točkasti procesi

5.1. Tipovi točkastih procesa

Točkasti proces je slučajna kolekcija točaka unutar nekog prostora ili vremena; mi

ćemo se baviti točkastim procesima samo u prostoru. U većini aplikacija, svaka točka

predstavlja lokaciju događaja (primjeri: financijska transakcija, udar groma, potres).

Točkasti procesi vrlo su važni u velikom broju znanstvenih disciplina kao što su

epidemiologija, ekologija, astronomija, meteorologija i mnoge druge.

Kada pristupamo analizi točkastih procesa važno je znati koju informaciju naše

koordinate sadrže. O tome ovise i naša istraživačka pitanja i pristup analizi.

Točkaste procese možemo svrstati u dvije osnovne grupe:

1. Točke unutar procesa međusobno ne razlikujemo jer nose informaciju jedino o

lokaciji događaja - ako imamo samo lokacije događaja zanima nas jesu li one

strukturirane ili slučajno razbacane u prostoru. Ovaj je slučaj najčešći, tj.

zabilježene su lokacije nekog događaja (primjerice lokacije pojave određene

bolesti) i to nazivamo mapirani proces (engl. mapped pattern). Ovakav tip

informacija moramo razlikovati od pravog uzorka jer imamo samo događaje, no

nemamo lokacije gdje se događaj nije pojavio, odnosno nismo uzorkovali

cjelokupnu populaciju već imamo zabilježen samo pozitivan događaj.

2. Lokacije događaja s izmjerenim vrijednostima (primjer: imamo lokacije stabala,

ali uz lokaciju imamo izmjereno i neko svojstvo, primjerice, broj transakcija u

trgovini ili visinu stabala na plohi. Ako uz lokaciju imamo i vrijednost svojstva,

možemo odgovoriti na pitanje jesu li slične vrijednosti zabilježenog svojstva

prostorno agregirane, dispergirane ili slučajno smještene (primjer: nalaze li se

deblja stabla međusobno bliže, međusobno dalje ili su slučajno raspoređena na

području). Poseban slučaj točkastog procesa je proces s kvalitativnim

vrijednostima tj. vrijednosti su određene kategorije (primjeri: imamo kartirana

sva stabla na određenom dijelu šume uz informaciju o vrsti svakog pojedinog

stabla ili sve trgovine s informacijom o kompaniji kojoj pripadaju).

5.2. Analiza točkastih procesa

Ono što nas u konačnici analize bilo kojeg točkastog procesa zanima je objašnjenje

detektiranog rasporeda točaka – postoji li neki pozadinski proces koji je doveo upravo

do ovakvog rasporeda događaja.

Kako smo spomenuli, točkasti procesi, uz informaciju o lokaciji, mogu nositi i

informaciju o nekom drugom svojstvu.

Za potrebe ovog tečaja fokusirat ćemo se isključivo na lokacije točaka u procesu.

Page 68: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

64

5.2.1. Opisne statistike točkastog procesa

Podjela koja slijedi samo je jedna u nizu podjela analitičkih tehnika kojima se istražuju

svojstva nekog točkastog procesa u prostoru. Različiti autori na različit način pristupaju

analizi točkastih procesa. Ovdje dajemo samo dio metoda koje se koriste,

sistematizirane prema učestalosti korištenja:

1. Centralna tendencija lokacija (centografske)

a) Središnja lokacija (prosjek x koordinata i prosjek y koordinata)

b) Medijan lokacija (medijan x koordinata i medijan y koordinata)

c) Centar gravitacije – točka iz koje je najkraća linija kojom dolazimo do svake točke u procesu

2. Standardna devijacija udaljenosti (engl. Standard Distance Deviation) je

standardna devijacija udaljenosti svake pojedine točke od središnje lokacije. To

je prostorni ekvivalent standardnoj devijaciji i daje uvid o devijaciji i varijanci u

prostornom rasporedu točkastog procesa, ali nam ne govori ništa o

direkcionalnoj razlici u raspršenju točaka u prostoru te se radi toga uvodi mjera

elipse standardne devijacije (engl. Standard Deviational Elipse). Osnovni

koncept za kreiranje elipse standardne devijacije se može opisati kako slijedi:

a) Pronalaženje smjera (kuta) maksimalne disperzije točkastog procesa te

provlačenje osi pod tim kutom (os maksimalnog raspršenja – os 1)

b) Izračunavanje standardne devijacije točaka u procesu za provučenu duž

provučene osi kako bismo odredili njezinu duljinu

c) Izračunavanje standardne devijacije točaka u procesu za os okomitu na

ranije kreiranu (os minimalnog raspršenja – os 2), čime se jednoznačno

odredila elipsa standardne devijacije točkastog procesa.

Page 69: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

65

5.2.2. Disperzija i organizacija točaka u točkastom procesu

Pitanje koja nas također zanima prilikom analize točkastih procesa je relativan obrazac

- razmještaj točaka u procesu. Ovo se još naziva i drugi moment, kojim se opisuje

raspršenje točkastog procesa i treći moment, kojim se prati simetrija točkastog

procesa.

Generalno, postoje tri tipa distribucija točaka u prostoru:

1. Agregiran - mnoge točke su koncentrirane blizu jedna drugoj dok veliki dio

područja ne sadržava niti jednu točku

2. Slučajan - svaka točka se jednako vjerojatno može pojaviti na bilo kojoj lokaciji i

nije uvjetovana položajem niti jedne druge točke

3. Regularan - svaka točka dolazi maksimalno udaljena od ostalih.

Na slici su prikazana tri točkasta prostorna procesa:

1. podaci o lokacijama kriminala zabilježeni u Baltimoru

2. točke izvučene iz uniformne distribucije na istom geografskom području

3. pravilan prostorni raspored točaka na području.

Jedan od najčešćih ciljeva analize točkastih procesa je odrediti postoji li tendencija

agregiranja događaja na sistematičan način, tj. suprotno od slučajnog rasporeda.

Zanima nas prikazuje li proces agregiranje (engl. clustering) ili regularnost te na kojoj

se rezoluciji ovi procesi događaju.

5.2.3. Intenzitet točkastog procesa

Intenzitet točkastog procesa još se naziva i prvi moment i osnovna je sumarna mjera

točkastog procesa. Računa se kao omjer točaka (događaja) i površine na kojoj su

točke zabilježene i označava se s λ. Da bismo mogli izračunati λ moramo imati granicu

područja koja je u velikoj mjeri proizvoljna i tako može biti:

1. granica grada, države

2. pravokutna površina (engl. bounding box) koja je određena minimalnom

pravokutnom površinom koja obuhvaća sve točke

Page 70: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

66

3. najmanji mogući poligon koji uključuje sve točke – metoda konveksne ljuske

(engl. convex hull).

Ovisno o granicama koje smo odredili dobit će se različite vrijednosti intenziteta

točkastog procesa. Ako je intenzitet konstantan na području, proces nazivamo

homogeni točkasti proces za razliku od nehomogenih procesa koji pokazuju neki oblik

prostornog trenda ili nekonstantnog intenziteta, ali bez interakcija među lokacijama u

procesu. Intenzitet nehomogenog točkastog procesa sada je određen funkcijom λ, a ne

više konstantom kao što je bio slučaj u homogenom Poissonovom procesu.

Nehomogeni točkasti procesi su generalizacija Poissonovog točkastog procesa i tu

primjerice spadaju Cox i Markov točkasti proces.

Procjena intenzitet točkastog procesa na definiranim površinama - metoda kvadrata (engl. quadrat method)

Procjena variranja intenziteta točkastog procesa radi se metodom brojanja točaka u

zadanim regijama (brojanje točaka u kvadratima):

1. podijelimo područje na subregije jednake veličine (najčešće su to kvadrati, ali

ne nužno)

2. izbrojimo frekvenciju događaja u svakome kvadratu

Page 71: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

67

3. izračunamo intenzitet događaja u svakome kvadratu (λ=n/A) gdje je n broj

događaja, a A je površina kvadrata - subregije (donja slika) ako obojimo

kvadrate prema izračunatom intenzitetu, dobivamo i vizualni doživljaj intenziteta

točkastog procesa.

Procjena intenziteta prostornog točkastog procesa kernel funkcijom

Kernel (k) je matematička funkcija koja računa intenzitet točkastog procesa (gustoću

točaka - događaja) unutar unaprijed određenog radijusa (engl. bandwidth) ili širine

kernela. Procjena kernelom izvodi se pomicanjem te funkcije zadanog radijusa te

posjetom svake točke na području od interesa R. Kernel se koristi za ponderiranje

unutar podpodručja oko točke s za koju se procjena radi. Sumiranjem procjena svih

funkcija u pomaku dobije se glatka površina.

Page 72: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

68

Postoji velik broj različitih oblika funkcije kernel (k), primjerice: trokutasti; kvadratni

(polinomijalni); Gaussov te mnogi drugi.

𝑘 = 1 − |𝑑𝑖

𝜏2|

TROKUTASTI

𝑘 =3

𝜋(1 −

ℎ𝑖2

𝜏2)

KVADRATNI

𝑘 =1

√2𝜋𝑒

ℎ𝑖2

2𝜏2 GAUSSOV (NORMALNI)

Oznake:

k – kernel funkcija

– radijus ili širina kernela (engl. bandwidth)

hi = s - si, i = 1, …n; hi je udaljenost proizvoljne s točke na području R i točke si

(događaja si).

Intenzitet točkastog procesa na zadanoj lokaciji s procijenjen je formulom

�̂�𝜏(𝑠) = ∑1

𝜏2𝑘(

𝑠 − 𝑠1

𝜏)

𝑛

𝑖=1

gdje su s sve lokacije na području od interesa R; s1 – sn su događaji zabilježeni na

području R, a širina kernela.

Page 73: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

69

Konačna procjena intenziteta dobiva se sumiranjem svih kernela unutar zadanog

radijusa.

Također, ne postoji generalno pravilo na koji način odabrati širinu (radijus) za izračun

kernel funkcije, već proces odabira ovisi o:

a) poznavanju prostornog fenomena

b) kvantitativnoj usporedbi srednje kvadratne pogreške (engl. Mean Squared

Error) za različite vrijednosti .

Generalno vrijedi pravilo da mali producira mapu s vidljivijim lokalnim varijabilnostima

dok veći radijus stvara zaglađene mape.

Pogledajte primjer za izbor optimalne vrijednosti radijusa (engl. bandwidth) za skup

podataka o kriminalitetu iz Baltimora, određen metodom srednje kvadratne pogreške:

Kako bismo ilustrirali razlike u izračunatim intenzitetima istog točkastog procesa u

ovisnosti o izabranom radijusu pogledajte sljedeću sliku:

Page 74: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

70

Unutar sustava R procjenu kernela možemo napraviti korištenjem dvaju kontribuiranih

paketa sIplanc (kvadratni kernel) i spatstat (Gauss kernel) te funkcijom density() iz

paketa stats koji nudi veći izbor različitih kernel opcija. Ako želimo napraviti

deskriptivnu statistiku (centografsku) točkastog procesa, kao što su navedene elipse

standardne devijacije i druge odgovarajuće statistike, potrebne funkcije unutar sustava

R, mogu se naći u paketu aspace.

5.3. Procjena postojanja prostorne ovisnosti među događajima

5.3.1. Modeliranje točkastih procesa

Obuhvaća statističke testove kojima testiramo hipotezu o potpuno slučajnom rasporedu

u prostoru kao što su primjerice usporedba distribucija udaljenosti do najbližeg susjeda

željenog točkastog procesa i udaljenosti do najbližih susjeda pri generiranom potpuno

slučajnom točkastom procesu, 2 test ili K funkcija (detaljnije dalje u tekstu).

Najjednostavniji test koji vrlo često želimo provesti na točkastom procesu testira je li

proces potpuno slučajan u prostoru, tj. vrijedi li nulta hipoteza o potpunoj prostornoj

slučajnosti (engl. Complete Spatial Randomness - CSR). Proces koji zadovoljava ovu

hipotezu zovemo još i homogeni Poissonov proces. Pod ovom hipotezom postojanje

jedne točke u procesu niti na koji način ne utječe na vjerojatnost pojave neke druge

točke u procesu. Generalizacija ovog procesa koji omogućuje varijabilan intenzitet na

području naziva se nehomogeni Poissonov proces.

5.3.2. Hipoteza o potpunoj prostornoj slučajnosti (engl. Complete Spatial Randomnes - CSR)

Hipoteza o potpunoj prostornoj slučajnosti, CSR hipoteza, pretpostavlja da točke prate

homogeni Poissonov proces na području, tj. da je gustoća točaka konstantna

(homogena) na cijelome području.

U suprotnosti od homogenog točkastog procesa, procesi koji ne prate Poissonovu

distribuciju smatraju se nehomogenim točkastim procesima - za slučajni uzorak

(podregiju), distribucija frekvencija broja točaka prati Poissonovu distribuciju.

Pogledajmo primjer tri različita točkasta procesa svaki s 20 događaja (n=20) na istom

prostornom obuhvatu:

Proces 1 Proces 2 Proces 3

Page 75: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

71

Ako prebrojimo događaje u svakom kvadratu procese bismo mogli predstaviti ovakvom

tablicom:

5.3.3. 2 test

Statistički testovi o značajnosti prostorne strukture u podacima uspoređuju prostorni

raspored našeg točkastog procesa s potpuno slučajnim točkastim procesom (nultom

hipotezom o potpunoj prostornoj slučajnosti) – broj događaja zabilježenih u proizvoljno

velikim kvadratima:

H0: događaji su prostorno potpuno slučajni

H1: događaji su prostorno agregirani ili dispergirani.

Kako bismo testirali hipotezu H0:

a) Računamo, kao i kod bilo kojeg testiranja hipoteze, test - statistiku. Ovdje je to

2 statistika, koja se ravna po teorijskoj 2 distribuciji s n-1 stupnjeva slobode.

b) Računa se vjerojatnost P slučajnog premašivanja dobivene test statistike uz

pretpostavku istinitosti H0; ako je P < 0.05, H0 se odbacuje.

Slabosti su metode 2:

1. Pronalaženje optimalne veličine kvadrata - površine (ako su kvadrati premaleni,

sadrže premalen broj točaka i obrnuto)

2. Ne mjeri prostornu strukturu već disperziju točaka (jer uzima u obzir samo

informaciju o broju točaka, a ne i njihov prostorni raspored)

3. Rezultat je jedan broj za cijelu distribuciju, bez detektiranja lokalnih

(regionalnih) varijacija.

Page 76: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

72

Ako je točkasti proces homogen, njegov intenzitet λ jednak je na cjelokupnom području

i računa se kao omjer ukupnog broja točaka n / površina cjelokupnog područja.

2 test koji se koristi za analizu točkastog procesa u metodi kvadrata, u sustavu R

izvodi se funkcijom quadrat.test() iz paketa spatstat.

5.3.4. Metoda najbližih susjeda

Analiza najbližih susjeda može se napraviti uz pomoć G ili F funkcije (K funkcija je

transformirana F funkcija).

Analiza najbližih susjeda - G funkcija

G funkcija mjeri distribuciju udaljenosti di od proizvoljnog događaja do njemu najbližeg

susjeda u skupu svih događaja S. Njome kompariramo naš empirijski točkasti proces s

teorijskim (potpuno slučajnim, CSR) modelom.

�̂�(𝑟) =∑ 𝐼𝑖

𝑛𝑖=𝑙

𝑛

𝐼𝑖 = {10

𝑢𝑘𝑜𝑙𝑖𝑘𝑜 𝑑𝑖 ∈ {𝑑𝑖 ∶ 𝑑𝑖 ≤ 𝑟, ∀𝑖}

𝑖𝑛𝑎č𝑒

𝑔𝑑𝑗𝑒 𝑗𝑒 𝑑𝑖 = 𝑚𝑖𝑛𝑗{𝑑𝑖𝑗, ∀𝑗 ≠ 𝑖 ∈ 𝑆}, 𝑖 = 1, . . . , 𝑛.

Definirana funkcija G predstavlja broj događaja u skupu S koji se nalaze unutar neke

određene udaljenosti r, normalizirano ukupnim brojem događaja n na cjelokupnom

području (točkastom procesu).

Ako vrijedi hipoteza o potpunoj prostornoj slučajnosti, vrijednost G funkcije postaje:

𝒢(𝑟) = 1 − 𝑒𝜆𝜋𝑟2

Interpretacija izgleda G funkcije

Za proces koji je prostorno agregiran, međusobne udaljenosti događaja manje su no

što bi bile ako vrijedi hipoteza o potpunoj prostornoj slučajnosti događaja, CSR.

Obrnuto, za regularan prostorni raspored, međusobne udaljenosti događaja veće su od

onih pod nultom hipotezom.

Primjer:

Page 77: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

73

Testiranje značajnosti odstupanja našeg točkastog procesa od potpuno slučajnog

procesa (bilo prema grupiranju ili regularnosti) može se napraviti simuliranjem

"područja povjerenja" (engl. confidence envelope). Proces simulacije se provodi u

sljedećim koracima:

1. simuliramo velik broj prostornih procesa (primjerice 1000)

2. izračunamo G funkciju za svaki proces

3. rangiramo dobivene G(r) vrijednosti

4. izlučimo 5-tu i 95-tu G(r) vrijednost

5. nacrtamo izlučenih 1000 vrijednosti kao 95% intervale pouzdanosti.

Analiza najbližih susjeda - F funkcija

Funkcija F mjeri distribuciju svih udaljenosti od jedne proizvoljne točke k (k = 1,…, m)

do najbližeg događaja u točkastom prostornom procesu (j = 1,…, n)). Za svaku

određenu udaljenost r izračunamo proporciju broja slučajnih točaka koje su imale

manju udaljenost do najbližeg događaja u točkastom procesu S od vrijednosti r.

ℱ̂(𝑟) =∑ 𝐼𝑘

𝑚𝑘=1

𝑚

𝐼𝑘 = {10

𝑢𝑘𝑜𝑙𝑖𝑘𝑜 𝑑𝑘 ∈ {𝑑𝑘 ∶ 𝑑𝑘 ≤ 𝑟, ∀𝑘}

𝑖𝑛𝑎č𝑒

𝑑𝑘 = 𝑚𝑖𝑛𝑗{𝑑𝑘𝑗, ∀𝑗 ∈ 𝑆}, 𝑘 = 1, . . . , 𝑚, 𝑗 = 1, . . . , 𝑛.

Ako vrijedi nulta hipoteza o potpunom prostorno slučajnom rasporedu tada funkcija ima

oblik:

ℱ(𝑟) = 1 − 𝑒𝜆𝜋𝑟2

Proces izračuna F funkcije:

1. slučajnim izborom odredimo određeni broj novih lokacija (m) unutar područja od

interesa

2. za svaku odabranu lokaciju k odredimo najkraću udaljenost do točkastog

procesa kojeg testiramo

3. izračunamo funkciju F.

Kao i u slučaju G funkcije, našu empirijsku funkciju crtamo nasuprot teorijske F funkcije

pod CSR hipotezom.

Interpretacija izgleda F funkcije

Ako je točkasti proces:

a) agregiran – F funkcija na početku raste polako, a okomitije na većim

udaljenostima

b) slučajan – F funkcija raste pravocrtno

c) regularan (pravilan) – F funkcija raste vrlo oštro na početku.

Page 78: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

74

Za tri točkasta procesa koja pratimo, F funkcija prikazana je na sljedećim slikama:

Analiza najbližih susjeda - K i L funkcije

Funkcija F s kojom smo se upoznali koristi jedino vrijednost najbližeg susjeda. Funkcija

K (Ripley 1976) koristi informacije većeg broja točaka i time omogućuje procjenu

prostorne ovisnosti na širem rasponu rezolucija. Funkcija se temelji na svim

udaljenostima događaja na cjelokupnom području, ali pretpostavlja izotropiju

(homogenost) točaka na cjelokupnom području.

K funkcija je definirana kao:

𝐾(ℎ) =1

𝜆𝐸

gdje je λ = intenzitet događaja (broj događaja n / A, površina), E= broj događaja unutar

odabranog radijusa h.

Proces kreiranja (procjene) funkcije K je sljedeći:

1. oko svakog događaja konstruiramo krug radijusa (h)

2. izbrojimo događaje (j) koji se nalaze unutar kruga

3. povećamo vrijednost radijusa h za vrlo malu veličinu i ponovimo izračun

(procjena nekom kernel funkcijom).

Funkcija K može se nacrtati za različite vrijednosti h.

Interpretacija funkcije K

Pod pretpostavkom potpune prostorne slučajnosti vrijedi:

K(h) = Χ2 - gustoća događaja slučajno je raspoređena kroz sve radijuse

K(h) < Χ2 - točkasti proces je regularan

K(h) > Χ2 točkasti proces je agregiran (grupiran).

Page 79: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

75

Uspoređujemo K(h) s Χ2 uz pomoć L funkcije (standardizirana K funkcija), tj.

transformiramo K funkciju kako bismo je mogli lakše interpretirati – L funkcija.

Analiza točkastog procesa iz ovog tečaja samo je jedan u nizu pristupa analizi

točkastih procesa. Ako nas zanima centar distribucije procesa, tražimo centroid. Ako

nas zanima ukupan prostorni obuhvat procesa, tražimo najmanju površinu koja

obuhvaća sve točke u prostoru (engl. convex hull) (funkcija chull() iz paketa

grDevices ili funkcija gConvexHull() iz paketa rgeos). Ako nas zanima postojanje

grupiranja događaja na prostorno-vremenskoj skali, radimo prostorno-vremenske

agregacije i dr. Također, interesantan je i međusoban odnos dvaju prostornih točkastih

procesa gdje, primjerice, dva procesa mogu označavati lokalitete dvaju vrsta drveća pri

čemu nas zanima utječe li raspored jednog točkastog procesa na prostorni raspored

drugog. Analize točkastih procesa u sustavu R možemo raditi uz pomoć različitih

kontribuiranih paketa: npr. splancs, spatstat. Paket dbmss specijaliziran za

karakterizaciju strukture točkastih objekata. Spomenuti paketi rade s drugačijim

formatima objekata.

PRIMJER:

Unutar programa RStudio otvorite skriptu naziva S730_ppp.R.

ZADACI ZA SAMOSTALAN RAD:

Otvorite skriptu naziva S730_zadaci_ppp.R.

Page 80: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

76

Page 81: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

77

6. Analitika kontinuiranih procesa i geostatistika

Geostatistika pripada metodama prostorne statistike; uključuje proces zaključivanja o

vrijednosti nekog atributa u prostoru na temelju uzorka - skupa točaka na kojima je

vrijednost varijable (atributa) poznata. Geostatistika obuhvaća skup metoda razvijenih

za analizu kontinuiranih procesa. Budući da su podaci s kojima radimo nesavršeni, i

modeli su samo aproksimacija realnog svijeta pa su sve statistike unutar geostatistike

kao grane praćene informacijom o stupnju nesigurnosti procjena dobivenih modelom.

Teorija koja je započela razvoj geostatistike (grane prostorne statistike) i koja,

pretpostavljajući vezu između opservacija, procjenjuje vrijednosti kontinuirane varijable,

je teorija slučajnih polja. Generalno možemo reći da geostatistika pokušava iz uzorka:

1. procijeniti proces koji je doveo do zabilježene strukture

2. interpolirati (procijeniti) vrijednosti varijable na cjelokupnom području, na

lokacijama gdje mjerenja nisu napravljena.

Postoji ogroman broj dostupnih metoda interpolacije - neki autori izbrojali su više od 40

jedinstvenih tehnika. Mnoge od njih međusobno su na neki način povezane i mogu se

smatrati specijalnim slučajevima neke generalne metode. U nastavku dajemo jednu od

podjela interpolacijskih tehnika temeljem količine ekspertnog znanja o procesu koji se

modelira:

Mehanički modeli – primjer – trend površine – regresija na koordinatama

Statistički (vjerojatnosni) modeli

Modeli temeljeni na ekspertnom znanju.

Prvi korak u procesu analize je provjera vrijednosti varijable na

međusobnu zavisnost (autokorelaciju)

stacionarnost

distribuciju vrijednosti.

Ako se vrijednosti varijable pokažu potpuno prostorno (ili vremenski) nezavisnima

nema smisla analizirati ih metodama geostatistike budući da ove metode koriste

upravo svojstvo međusobne ovisnosti kako bi procijenile vrijednost na lokaciji za koju

nemamo informaciju. Najvažniji dio unutar modeliranja prostorne zavisnosti

kontinuiranih procesa je variogramska/semivariogramska analiza. Budući da metode

kriginga pretpostavljaju da vrijednosti varijable na promatranom području prate

normalnu distribuciju, poželjna je prema potrebi transformacija varijable iako se u

novije vrijeme razvijaju metode za kriging podataka koje ne zadovoljavaju uvjet

normaliteta. Mnoge metode za rad s ovakvim podacima spadaju u domenu sve više

korištene Bayesove statistike.

Page 82: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

78

6.1. Mehanički (deterministički) modeli

U ovoj klasi modela koriste se empirijski ili proizvoljni parametri. Pogreška se za ove

modele ne može procijeniti budući da ne postoje striktne pretpostavke o variranju

obilježja. Najčešći predstavnici ove klase modela su:

Thiessienovi poligoni

Interpolacija težina inverzne udaljenosti (engl. Inverse Distance Weight – IDW)

Regresija na koordinatama – trend površine ili interpolacija pomične površine

Prirodni susjedi

Splinovi, itd.

6.2. Modeli temeljeni na ekspertnom znanju

Ovu grupu modela ćemo samo spomenuti, a njihova se podjela temelji na stupnju

utjecaja eksperta na rezultat, gdje je klasični primjer ručno crtanje karata.

6.3. Statistički (vjerojatnosni) modeli

U ovoj grupi modela parametri modela se procjenjuju objektivno, oslanjajući se na

teoriju vjerojatnosti. Procjene modela (kriterija i regresijskih koeficijenata) prate i njima

pridružene standardne greške koje ovise o pogrešci modela. Nedostaci ove grupe

modela su ti da uzorak mora zadovoljiti stroge pretpostavke. Ovi se modeli dalje dijele

na četiri podgrupe modela pri čemu su podcrtane metode kojih smo se u ovom tečaju

dotakli, radi njihove specifičnosti ili reprezentativnosti:

Regresijski modeli – korelacije s varijablama okoliša

Bayesovi modeli

Kriging – univerzalni, obični (engl. ordinary), jednostavan (univarijatni i

multivarijatni poznat kao ko-kriging)

Hibridni modeli – kombinacija ovih grupa (na primjer, regresijski kriging).

6.3.1. Regresijski modeli

Uobičajeni regresijski model koristi metodu najmanjih kvadrata za „optimalno“

provlačenje pravca kroz podatke, a naziva se još i Ordinary Least Squares – OLS

metoda. OLS metoda nije optimalna za analizu geografski referenciranih podataka

budući da ignorira moguću korelaciju između opservacija. Bolja metoda je metoda

generaliziranih najmanjih kvadrata (engl. Generalised Least Squares – GLS).

Dodatno postoji veći broj tehnika koje pokušavaju uključiti u model kompleksnost

georeferenciranih podataka i mogu se grubo podijeliti u tri grupe:

1. geografski ponderirana regresija (engl. Geographically Weighted Regression -

GWR) – metoda koja uvodi prostornu varijabilnost u parametru od interesa

Page 83: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

79

2. druga grupa analizira obrazac i stupanj do kojeg uzorkovani podaci prostorno

koreliraju (ili autokoreliraju) i koristi ove informacije kako bi se izgradio

regresijski model koji prepoznaje ovu strukturu i uključuje ju u svoje dizajn

3. treći pristup primjenjuje jednostavne filtre ili diferencira podatke za uklanjanje

prostorne varijacije, a zatim modelira filtrirane podatke.

Kao što smo spomenuli, geografski referencirani podaci ne mogu se smatrati

međusobno nezavisnima što je jedna od osnovnih pretpostavki za provođenje metoda

linearne regresije čije se metode procjene temelje na metodi najmanjih kvadrata (engl.

ordinary least square - OLS). Podsjetimo se osnovnih pretpostavki koje moramo

testirati prilikom izrade linearnog modela :

a) homoskedastičnost varijance pogreške modela

b) nekoreliranost pogreška modela

c) normalitet pogreške modela.

Dakle, heteroskedastičnost varijance pogreške ili autokoreliranost pogreške modela ne

dozvoljavaju klasične regresijske testove, što znači da je statističko zaključivanje u tom

slučaju krivo.

Primjeri podataka gdje nam je potrebna metoda generaliziranih kvadrata bili bi podaci

mjereni na istim objektima kroz vrijeme (vremenske serije), ili ukoliko su prikupljeni

unutar klastera (uzeti iz istog razreda, obitelji, četvrti i slično). U ovim je slučajevima

korištenje metode najmanjih kvadrata problematično, dovodi do nepouzdanih procjena

parametara modela te do krivih zaključaka.

Rezime:

Regresijska analiza je pojam za skup tehnika koje modeliraju proces linearne ovisnosti

jedne zavisne (kriterijske) varijable Y o jednoj ili skupu nezavisnih (prediktorskih)

varijabli Xi. Metode kriginga eksplicitno uzimaju u obzir strukturu prostornih podataka,

tj. međusobnu ovisnost vrijednosti na bliskim lokacijama.

Jednostavna regresijska analiza i analiza trenda (engl. Surface Trend Analysis)

Osnovna regresijska metoda koja se provodi na prostornim podacima je analiza trenda

(engl. trend surface analysis) metoda koja koristi klasičnu regresijsku analizu (OLS), ali

kao nezavisne (prediktorske) varijable koristi koordinate na kojima su mjerenja

napravljena, dok zavisna (kriterijska) varijabla (Y) može biti npr. temperatura, ph,

količina oborina. Na taj način se mogu primijetiti eventualni trendovi u podacima u

ovisnosti o geografskom položaju (sjever-jug, istok-zapad). Matematička formulacija

regionalnog trenda zove se još i prilagodba polinoma (engl. Polinomial Trend Surface).

Ovu funkciju moguće je derivirati više puta pa se tako površina provlači kvalitetnije kroz

podatke. Postoje i druge metode modeliranja površine, ali o njima nećemo ovom

prilikom. Polinomijalni trend površine je matematički model regionalnog trenda tj.

vrijednost atributa na svakoj pojedinoj točki promatranog područja ovisi o njezinim 2D

koordinatama – z=f(x,y) gdje je z vrijednost atributa, a x i y projicirane koordinate u

dvodimenzionalnom prostoru. Ako se funkcija izračuna na pravilnoj mreži (engl. grid)

Page 84: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

80

rezultat zovemo površina trenda (engl. trend surface). Funkciju je moguće derivirati

barem dva puta što daje nagib i zakrivljenost.

Kao i s ostalim varijablama u linearnim modelima i geografske koordinate u modelu

mogu biti unesene i u kvadratnom obliku ili potencijama viših redova. Rezultat kreiranja

polinomijalnog trenda prvog reda je ploha, drugog reda kupola ili depresija, a polinoma

viših redova je savijena struktura u ovisnosti o broju prijelomnih točaka.

Nedostaci ove metode: u uobičajenoj linearnoj regresiji (engl. ordinary least squares -

OLS) svaka točka na jednak način doprinosi procjeni (Ŷ) kriterija (Y). Slaganje modela i

podataka (engl. goodness of fit) mjeri se razidualnom sumom kvadrata („malo je

dobro“) ili koeficijentom determinacije R2 („veliko je dobro“) i grafičkim metodama.

Koeficijent determinacije je kvadrirani koeficijent multiple korelacije R=r(Y, Ŷ). Uočite da

je R2 funkcija kvadriranih pogrešaka (rezuduala) modela, a dobiva se formulom:

𝑅2 = 1 −∑ ℰ𝑖

2

∑(𝑦𝑖 − �̅�)2, 𝑅2 ∈ [0,1]

gdje je pogreška modela.

Grafička procjena modela izvodi se na temelju dobivenih procjena Ŷ = (ŷi) kriterija Y =

(yi) i raziduala = (i) modela (engl. fitted vs residuals), crtanjem grafikona reziduala

protiv procijenjenih vrijednosti. Ako grafikon reziduala protiv procijenjenih vrijednosti

kriterija nije u obliku horizontalne pruge nego ima oblik tuljca suočavamo se s

problemom heterogenosti (heteroskedastičnosti - engl. heteroscedasticity) reziduala.

Tada treba napraviti neku od transformacija za stabilizaciju varijance reziduala. Ako je

navedeni grafikon oblika parabole, potreban je kvadratni ili polinomni model (površina

višeg reda).

Grafička provjera normaliteta raziduala izvodi se QQ grafom (engl. quantile-quantile

plot) – uspoređuju se teorijski kvantili normalne distribucije s izračunatim, uzlazno

sortiranim rezidualima.

Kao što smo rekli, OLS nije optimalna metoda za regresijsku analizu koreliranih

podataka. Ako smo ustanovili da u našim podacima postoji značajna autokorelacija

(nekim od globalnih testova za autokorelaciju, kao što je Moran I) postoji nekoliko

načina na koji je moguće nastaviti regresijsku analizu ovakvih podataka:

1. Ako je autokorelacija mala, mnogi autori je ignoriraju i nastavljaju s klasičnom

regresijskom analizom. U ovom slučaju moramo biti svjesni činjenice da će

značajnost procijenjenih parametara kao i intervali pouzdanosti parametara biti

netočni.

2. Uvodi se pretpostavka o nepostojanju konstantnih regresijskih koeficijenata na

cjelokupnom skupu podataka tj. dozvoljava se da koeficijenti variraju s

lokacijom. Ova metoda uključuje fitanje serije regresijskih površina kroz podatke

na način da one načine kontinuiranu površinu predikcija. Jedna od najpoznatijih

metoda unutar ove skupine je geografski ponderirana regresija i bit će detaljnije

objašnjena u nastavku.

Page 85: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

81

3. Dodajemo dodatni element u regresijski model koji eksplicitno uključuje

informaciju u primijećenom obrascu prostorne povezanosti i to su:

a) prostorni autoregresivni modeli

b) modeli temeljeni na Bayesovom teoremu.

Geografski ponderirana regresija (engl. Geografically Weighted Regression - GWR)

Geografski ponderirana regresija (GWR) je tehnika statističkog zaključivanja o

geografski referenciranim podacima. Osnovna je ideja u analizi geografski ponderirane

regresije istražiti varira li, i na koji način, odnos između zavisne varijable i neke od

nezavisnih varijabli na cjelokupnom geografskom području od interesa, tj. metodom

provjeravamo postoji li nestacionarnost u varijabli od interesa. Prisjetimo se jednog od

osnovnih uvjeta za provođenje OLS regresijske analize: jedan model mora na jednako

kvalitetan način predviđati vrijednosti na nemjerenoj lokaciji (tj. pogreška modela mora

biti jednaka na cijelom rasponu vrijednosti zavisne varijable). Ovaj uvjet vrlo često ne

može biti zadovoljen prilikom analize geografski referenciranih podataka, pa se iz tog

razloga provodi geografski ponderirana regresija.

Pojam geografski ponderirane regresije definirali su Fotheringham, Charlton and

Brunsdon (1997, 2002) kako bi opisali cijelu obitelj regresijskih modela u kojima se

dozvoljava da koeficijenti linearnog modela variraju geografski. Geografski ponderirana

regresija koristi koordinate svake točke uzorka. Ako su prostorni objekti u analizi

poligoni, koriste se koordinate centroida kao ciljna točka za kreiranje regresijskog

modela. Za neke modele moguće je kao ciljnu točku definirati čvor (engl. nod) grida

umjesto koordinate točke u podacima. Model ima oblik:

𝑦 = 𝑋𝛽(𝑡) + 𝜀

Koeficijent β(t) određen je analizom onih prostornih točaka koje su definirane kao

mjera udaljenosti ostalih točaka od točke za koju procjenu radimo. Definiranje blizine-

udaljenosti između dvije točke na kojima imamo mjerenje može se napraviti na dva

načina:

a) kao prava geografska udaljenost između točaka unutar definiranog prozora

b) putem definiranja susjedstva.

Ako fiksiramo broj susjeda koje tražimo, tada će i prozor za koji radimo model varirati u

svojoj veličini u ovisnosti kako su točke na kojem području raspoređene. Susjedstvo je

u pravilu kružno, određenog radijusa r oko svake točke i u ovoj metodi se ne može

modelirati anizotropni proces. Unutar metode je moguće odrediti imaju li točke unutar

radijusa jednak značaj za procjenu vrijednosti na točki ili se određuje neka funkcija koja

određuje na koji način se penalizira sve veća udaljenost točke od točke na kojoj se radi

procjena. Osnovna je ideja u ovoj metodi da mjerenja koja se nalaze bliže lokaciji za

koju radimo procjenu dobivaju veću težinu (ponder) od mjerenja napravljenih dalje od

lokacije koju procjenjujemo.

Page 86: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

82

Postoje dva osnovna načina dodjela težine (pondera), tj. izračuna prostornih težina u

GWR:

a) tzv. metoda fiksnog kernela i – za cjelokupno područje koristi jednaku širinu

kernela

b) metoda adaptivnog kernela – dopušta različite širine, ali s unaprijed

definiranim brojem susjeda koji se koriste za procjenu.

c) uobičajeni način traženja optimalnog fiksnog kernela je određivanje kriterija po

kojem ćemo odrediti optimum. Za raspon vrijednosti kriterija izračunamo

geografski ponderiran model te potom odredimo koji je model najbolji na

temelju nekog od sljedećih pokazatelja:

Akaike informacijskog kriterija (engl. Akaike Information Criterion – AIC

poprečne validacije (engl. crossvalidation) – CV

Bayesovog informacijskog kriterija ili sličnih statistika.

Model s najmanjim pokazateljem izabire se kao najbolji.

Metoda fiksnog kernela provodi se na način da se za pokretni prozor (engl. moving

window), metodom najmanjih kvadrata, traži optimalan model za podskup opservacija

obuhvaćenih prozorom. Ako u skupu podataka imamo n izmjerenih vrijednosti, metoda

stvara n regresijskih modela, svaki puta dajući najveću težinu (ponder) točki koja je u

centru. U ovakvim funkcijama vrlo je važan parametar h – širina kernela, koja definira

na koji način se ponaša shema ponderiranja. Kada imamo definiranu funkciju kernel i

širinu h, moguće je za svaku točku kreirati dijagonalnu matricu težina (vrijednostima na

dijagonali matrice, svi ostali elementi izvan dijagonale = 0). Regresijski koeficijent β(t)

za tu točku može se odrediti klasičnom OLS regresijskom metodom, pri čemu za svaku

točku imamo postavljenu jednadžbu te riješimo jednadžbe za svaku pojedinu točku u

sustavu.

Uspoređivanjem procjena parametara modela dobivamo informaciju o varijaciji

parametara u prostoru (nestacionarnosti). Osnovni problem u ovoj metodi je izbor

optimalnog „prozora“, tj. traženje njegove optimalne širine.

Postoji veći broj kontribuiranih paketa (primjerice Gwmodel) s kojima možemo napraviti

geografski ponderiranu regresiju unutar sustava R - u našem primjeru koristit ćemo

funkcionalnosti paketa spgwr.

PRIMJER:

Otvorite u RStudiju skriptu pod nazivom S730_gwr_primjeri.R.

ZADACI ZA ZAMOSTALAN RAD:

Samostalno riješite zadatke postavljene u skripti S730_zadaci_gwr.R.

Page 87: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

83

Prostorni autoregresivni i Bayesovi modeli

Veliki broj tehnika iz ove skupine potječe iz analitike vremenskih serija i razvijane su od

sredine 1950-ih godina u disciplini poznatoj kao prostorna statistika. Različiti prostorni

autoregresivni modeli (engl. Simultaneous Spatial Autoregressive – SAR) su razvijeni

posljednjih 25 godina, osobito u granama kao što su ekonometrija, geografija,

medicinska statistika, ali i ekologija, geologija, epidemiologija i mnoge druge. Odabir

adekvatne metode uglavnom ovisi o tipu podataka koje modeliramo, ali i specifičnim

preferencijama osoba iz različitih znanstvenih disciplina koji primjenjuju te metode u

svom radu. Velik broj metoda specijaliziran je za donošenje zaključaka na temelju

rijetkih podataka (engl. sparse). Metode su implementirane u velikom broju

kontribuiranih paketa unutar R-Spatial dijela R projekta (https://cran.r-

project.org/web/views/Spatial.html), ali i integraciji R sustava s drugim programskim

paketima kao što je WinBUGS koji analitiku temelji na Bayesovim principima. Neki od

paketa u kojima je moguće pronaći najveći broj tehnika su primjerice spdep, sphet i

McSpatial.

U osnovi, autoregresivni model se sastoji od varijable od interesa y koja je kreirana s prostornim pomakom (engl. lag).

𝑦 = 𝜌𝑊𝑦 + 𝜀

Ovaj oblik je sličan jednostavnoj regresiji gdje je prvi element predefiniran n x n

matricom W prostornih težina, koja se aplicira na varijablu y, zajedno s parametrom

prostornog pomaka ρ, koji se obično mora procijeniti iz podataka (uzorka). Anselin

(2008, stranica 257) opisuje autoregresivne modele, tj. modele prostornog pomaka (lag

modele) kao formalni prikaz ravnoteže ishoda procesa društvene i prostorne

interakcije. U svojoj osnovi, model prostornog pomaka izražava ideju da vrijednost

varijable na određenom položaju ovisi od vrijednosti iste varijable mjerene u susjednim

mjestima. Matrica prostornih težina u modelu gotovo je uvijek standardizirana po

retcima (suma svakog retka iznosi 1). Razlika u matrici W ovih modela i uvjetnih

prostornih modela (engl. Conditional Autoregressive Models – CAR) leži u činjenici da

matrica W nije nužno simetrična, o čemu će kasnije biti riječi.

Ako u ovakav oblik modela dodamo neku prediktorsku varijablu, dobijemo drugu grupu

modela – mješoviti prostorni autoregresivni model (engl. Mixed Regressive Spatial

Autregressive model - MRSA).

Sljedeći oblik modela je oblik gdje postoji autokorelacija u varijabli koju modeliramo, ali

jednostavan autoregresivni model nema normalno distribuciju pogreške modela

(reziduala) koji i dalje pokazuju značajnu autokorelaciju; model možemo prikazati na

ovaj način:

y = XB + ε gdje je ε = λWε + u

pri čemu je model klasičan linearan model, ali uz pretpostavku da pogreška modela

prati prostornu strukturu (autokorelacija - λWε). Pogreška modela se može samostalno

izraziti kao:

ε = (l − λW)−1u

Page 88: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

84

Kako vrijedi

𝜀 = 𝑦 − 𝑋𝐵

imamo sljedeće

𝑦 = 𝑋𝐵 + 𝜆𝑊(𝑦 − 𝑋𝐵) + 𝑢

Ili

𝑦 = 𝑋𝐵 + 𝜆𝑊𝑦 − 𝜆𝑊𝑋𝐵 + 𝑢

pa imamo model koji modelira zavisnu varijablu y kao kombinaciju generalnog modela

(komponenta linearnog trenda - Xβ) uz dodatak komponente čiste prostorne

autokorelacije (λWy) plus komponenta s negativnim predznakom trenda u susjedstvu

(λWXβ) i slučajna pogreška (u). Neki autori ovaj oblik modela nazivaju Lagged

Predictor Model. Uspoređujući ovaj model s ranije opisanim MRSA modelom

𝑦 = 𝑋𝐵 + 𝜌𝑊𝑦 + 𝜀

vidimo razliku u definiranju pogreške modela kao oblika mješovitog autoregresivnog

modela s dodatnom prostornom komponentom - trend susjedstva (λWXβ). Ovaj oblik

modela moguće je i dalje generalizirati.

S obzirom na kompleksnost raznolikih procesa u geografskom prostoru mnogi autori

predlažu metode vođene podacima (engl. Data Driven Methods) gdje se u cikličkom

iterativnom procesu model specificira, testira, ali i prema potrebi nadograđuje i

redefinira.

Uvjetni autoregresivni i Bayesovi modeli

Nešto drugačiji konceptualni pristup, koji u praksi može proizvesti slične rezultate,

poznat je kao uvjetno autoregresijski model (CAR). Osnovna ideja ovih modela je

procjena pojave vrijednosti y uz uvjet zabilježenih vrijednosti u susjedstvu

𝐸(𝑦𝑖 |𝑎𝑙𝑙 𝑦𝑗≠𝑖) = 𝜇𝑖 + 𝜌 ∑ 𝑊𝑖𝑗(𝑦𝑖

𝑗≠𝑖

− 𝜇𝑗)

gdje je μi očekivana vrijednost varijable na lokaciji i, a ρ je prostorni autokorelacijski

parametar koji opisuje lokalni efekt susjedstva (pozitivan ili negativan). Izraz sumiranja

je zbroj ponderiranih centriranih vrijednosti na svim drugim lokacijama j ( i). Ova

pretpostavka može i ne mora biti razumna za određeni problem u prostoru koji se

promatra.

U standardnom modelu CAR prostorne težine se često izračunavaju koristeći neki oblik

funkcije koja penalizira udaljenost od točke za koju se procjena radi (engl. decay

function). Raspon ove funkcije može biti neograničen ili se može postaviti na vrijednost

iznad koje težine iznose 0, tj. opservacije ne utječu jedna na drugu. Ovaj raspon može

biti određen apriornim znanjem o problemu ili se može objektivno procijeniti

semivariogramom ili korelogramom.

Page 89: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

85

Veliki broj kondicionalnih (CAR) i Bayesovih modela može se pronaći u WinBUGS

paketu koji je veza sustava R s GeoBUGS programom dizajniranim za Bayesovu

analizu. Ona se značajno razlikuje od klasičnog (frekvencijskog) pristupa. Bayesov

pristup koristi računalno zahtjevne tehnike (Markov Chain Monte Carlo ili MCMC

simulacija Gibbs uzorkovanje) za određivanje parametara modela i njihovih intervala

pouzdanosti.

GLS regresija - metoda generaliziranih najmanjih kvadrata – GLS

Metodu generaliziranih kvadrata (GLS) opisao je Aitken još 1935. godine. Jednadžba

za GLS jednaka je jednadžbi za metodu najmanjih kvadrata OLS: y=Xβ+ε s razlikom

da GLS dozvoljava heterogenost varijance reziduala uz različite oblike korelacije (i

autokorelacije) u podacima i rezidualima. Metoda ipak zahtijeva konstantnost matrice

varijanci-kovarijanci kroz vrijeme.

PRIMJER:

Provlačenje ravnine kroz podatke - trend površine prvog reda. Učitajte program

S730_trend_analiza_ols_gls.R.

>load("tcp.RData") #učitavanje podataka pripremljenjih u .Rdata formatu

>ls() #pregled svih R objekata unutar radnog prostora

>str(tcp) #upoznavanje sa strukturom podataka

'data.frame': 147 obs. of 4 variables:

$ UTM_E : num 702638 701659 703488 703421 703358 ...

$ UTM_N : num 326959 326772 322133 322508 322846 ...

$ clay35: num 78 80 66 61 53 57 70 72 70 62 ...

$ pH35 : num 4.8 4.4 4.2 4.54 4.4 ...

>ts1 <- lm(clay35 ~ UTM_E + UTM_N, data=tcp) #fitanje OLS koristeći koordinate projicirane u UTM projekciji

>summary(ts1) #sumarni rezultat linearnog modela

Call:

lm(formula = clay35 ~ UTM_E + UTM_N, data = tcp)

Residuals:

Min 1Q Median 3Q Max

-31.6006 -5.1064 -0.3632 3.6067 20.4666

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -2.503e+02 5.186e+01 -4.826 3.52e-06 ***

UTM_E 6.513e-04 5.970e-05 10.908 < 2e-16 ***

UTM_N -4.504e-04 9.238e-05 -4.875 2.84e-06 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 9.107 on 144 degrees of freedom

Multiple R-squared: 0.5059, Adjusted R-squared: 0.499

F-statistic: 73.72 on 2 and 144 DF, p-value: < 2.2e-16

Page 90: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

86

>summary(residuals(ts1)) #sumarna statistika reziduala modela

Min. 1st Qu. Median Mean 3rd Qu. Max.

-31.6000 -5.1060 -0.3632 0.0000 3.6070 20.4700

>tmp <- data.frame(e=tcp$UTM_E, n=tcp$UTM_N, residuals=residuals(ts1))

> print(bubble(tmp, zcol = "residuals", main = "Reziduali trend površine prvog reda", sub = "Glina %, 30-50 cm sloj", xlab = "UTM E", ylab = "UTM N", pch = 1))

Statistički interpolacijski modeli – hibridni model

Kao posljednju grupu modela navodimo metodu regresijskog kriginga koja se sastoji od

regresijskog dijela te dijela kriginga neobjašnjenih reziduala modela zbog čega se

svrstava u hibridne modele.

Variogramska analiza i kriging

Kriging je dugi niz godina bio sinonim za geostatističke interpolacije. Tehnika je prvi put

objavljena 1951. godine i koristila se za potrebe prognoziranja mineralnih sirovina.

Metode kriginga rade predikciju vrijednosti regionalizirane varijable na neuzorkovanom

mjestu kao linearnu kombinaciju n vrijednosti regionalizirane varijable zi (pri čemu je i

indeks lokacije). Metode kriginga postavljaju sustav od n+1 linearnih jednadžbi s n+1

nepoznanica. Francuski matematičar Matheron uspio je postaviti sustav formula koje

su u biti stvorile granu linearne geostatistike. Novost koju je Matheron uveo u analizu

prostornih podataka je variogram koji je i danas ključna funkcija za iskazivanje

prostorne ovisnosti među opservacijama – prostornu autokorelaciju.

Osnova za provođenje kriginga je modeliranje variograma iz eksperimentalnog

variograma, iz variograma dobivenog iz uzorka.

Variogram / semivariogram

Semivariogram je još jedna značajna funkcija koja indicira prostornu povezanost

opservacija mjerenih na mjestima uzorkovanja. Obično je predstavljena grafičkim

prikazom koji pokazuje varijancu među parovima opservacija s euklidskim

udaljenostima između parova opservacija, ali nije nužno da se kao udaljenost uzme

Euklidska udaljenost. Drugačije rečeno, semivariogram je grafički prikaz koji pokazuje

semivarijancu kao funkciju udaljenosti između objekata u skupu. Prvi puta se ova

funkcija spominje 1962. godine kada je Matheron (Matheron 1962, The theory of

regionalised variables) postavio teoriju za modeliranje stohastičkih površina uporabom

prostornog uzorka.

Analiza prostornog točkastog uzorka po prvi puta je rađena na način grafičkog prikaza

takozvane semivarijance – razlike između zabilježenih vrijednosti varijable između svih

kombinacija parova točaka u uzorku

𝛾(ℎ) =1

2𝐸[(𝑧(𝑠𝑖) − 𝑧(𝑠𝑖 + ℎ))2]

gdje je z(si) vrijednost mjerene varijable na nekoj lokaciji si, z(si+h) je izmjerena

vrijednost varijable na lokaciji na udaljenosti (h) si+h.

Page 91: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

87

Ako je broj opservacija u uzorku predstavljen s vrijednosti n, tada postoji n (n-1)/2 parova mjerenja na kojima se semivarijanca može izračunati. Grafički prikaz koji na osi x prikazuje vrijednost međusobne udaljenosti između točaka, a na osi y izračunate vrijednosti semivarijance zove se tzv. variogramski oblak (engl. variogram cloud) (slika dolje, b) koji nije pogodan za interpretaciju u slučaju velikog broja parova točaka. Iz tog razloga vrijednosti se usrednjavaju unutar standardne udaljenosti koju nazivamo pomak (engl. lag). Grafički prikaz takvih, usrednjenih, vrijednosti naziva se eksperimentalni variogram ili variogram uzorka. Očekivani izgled variograma je da na manjim udaljenostima varijanca između mjerenih vrijednosti bude manja, dalje s porastom udaljenosti raste te se stabilizira na vrijednosti praga (engl. sill), što se postiže na nekoj udaljenosti (doseg, engl. range) nakon koje ne postoji međusobna veza između parova opservacija. Dakle, nakon te udaljenosti opservacije su nezavisne.

Kada imamo eksperimentalni variogram, kroz njega provlačimo optimalnu funkciju koja

najbolje odgovara podacima (slika gore). U tom slučaju, eksperimentalni

(semi)variogrami mogu se matematički aproksimirati teorijskim modelima.

Page 92: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

88

Unutar gstat paketa postoji cijeli niz funkcija za provlačenje optimalne funkcije kroz

eksperimentalni variogram. Ako želimo vidjeti koje sve funkcije postoje u paketu,

trebamo koristiti funkciju show.vgms().

Funkcije se razlikuju prema tome sadržavaju li odstupanje u ishodištu (engl. nugget) te

po načinu ponašanja krivulje u blizini ishodišta. Formule po kojima se ponašaju ove

funkcije mogu se pronaći u mnogim tekstovima, na primjer Isaaks i Srivastava (1989).

Unutar paketa gstat postoji skup autoriziranih funkcija, koje automatski optimalno

opisuju podatke. To su linearna, sferična, eksponencijalna, kružna (cirkularna),

Gaussova, Besselova, funkcija potencije i slično. Paket gstat optimizira funkciju na

način da veći značaj daje onoj informaciji koja je dobivena na temelju većeg broja

parova točaka u određenom prostornom pomaku te onima na manjim udaljenostima.

Optimizacija se radi iterativno te je u kombinaciji s davanjem različitih težina nazivamo

iterativna reponderirana procjena najmanjim kvadratima.

Osnovni je cilj variogramske analize izrada variograma koji na najbolji mogući način

procjenjuje strukturu autokorelacije stohastičkog procesa. Tipičan variogram može se

opisati s tri parametra:

1. Nugget efekt – reprezentira varijacije na malim udaljenostima ili pogrešku

mjerenja. Procjenjuje se uz pomoć empirijskog variograma za pomak (lag) nula.

2. Doseg (engl. range) je udaljenost na kojoj variogram doseže plato, udaljenost

na kojoj mjerenje više nisu međusobno korelirana.

3. Prag (engl. sill) je varijanca u slučajnom polju kada zanemarimo prostornu

strukturu. To je plato kojeg variogram postiže na vrijednosti dosega.

distance

se

miv

ari

an

ce

0

1

2

3

vgm(1,"Nug",0)

0.0 1.0 2.0 3.0

vgm(1,"Exp",1) vgm(1,"Sph",1)

0.0 1.0 2.0 3.0

vgm(1,"Gau",1) vgm(1,"Exc",1)

vgm(1,"Mat",1) vgm(1,"Ste",1) vgm(1,"Cir",1) vgm(1,"Lin",0)

0

1

2

3

vgm(1,"Bes",1)

0

1

2

3vgm(1,"Pen",1) vgm(1,"Per",1) vgm(1,"Wav",1) vgm(1,"Hol",1) vgm(1,"Log",1)

0.0 1.0 2.0 3.0

vgm(1,"Pow",1)

0

1

2

3

vgm(1,"Spl",1)

Page 93: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

89

Na slici je ukratko prikazan način provedbe interpolacije kontinuirane varijable na

primjeru meteoroloških postaja na području Republike Hrvatske:

6.3.2. Geostatistika u sustavu R

Postoji velik broj metoda i pristupa u procesu interpolacije točkastih vrijednosti na

raster (mreža, grid). Unutar sustava R postoji veći broj paketa koji se bave

geostatističkim analizama i interpolacijama. To su specijalizirani paketi (akima, loess,

spatial, gstat, GeoR, ali i mnogi drugi) koji nude ogroman broj tehnika. Tijekom ovog

tečaja detaljnije ćemo se upoznati samo s jednim, paketom gstat.

6.3.3. Paket gstat

Paket je implementacija samostalnog programa gstat za geostatističke analize u

sustavu R. Uglavnom je razvijan na sveučilištu u Utrechtu (Nizozemska) od 1992. do

2007., dok je razvoj nakon 2007. nastavljen na Institutu za geoinformatiku Sveučilišta u

Münsteru (Njemačka). Cilj je bio izrada alata za modeliranje, predikcije i simulacije

geostatističkih podataka u jednoj, dvije ili tri dimenzije. Ista grupa danas razvija

strukture podataka i analitičke metode za prostorno-vremenske setove podataka –

analitika u četiri dimenzije (paketi sp i spacetime). Za svoje metode gstat je definirao

sp strukture podataka. Osim ovog, postoji i niz drugih paketa za analitiku prostornih

podataka i u određenoj se mjeri preklapaju s gstat. Primjer su paketi geoR i raster s

vlastitom klasom za prostorne podatke geodata i raster te paket spatial za analize

točkastih procesa (engl. point pattern).

Napomena:

Ako će polaznici pokazati želju za razumijevanjem teorije slučajnih polja, tada se može

ići u objašnjavanje teorije slučajnih polja koja slijedi, a u suprotnom se može i

preskočiti.

Page 94: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

90

Teorija slučajnih polja – teorija regionaliziranih varijabli

Kratak opis teorija slučajnih polja (engl. random field theory): Webster & Oliver 2001.

Geostatistics for environmental scientists, Chichester atc. John Wiley & Sons, Ltd.

Ova teorija omogućila je razvoj geostatističkih metoda kao što je kriging. Teorija

pretpostavlja da su zabilježene vrijednosti varijable na nekom prostoru rezultat

prostorno povezanog procesa o kojem možemo donositi zaključke na temelju uzorka

kojeg imamo. Ono čega moramo biti svjesni u ovoj teoriji je činjenica da ne postoji

način da ove pretpostavke provjerimo. Mnogi u ovoj činjenici vide velik problem teorije

koja se u praksi pokazala izuzetno korisnom.

Ključne ideje teorije: izmjerene vrijednosti atributa su jedna od mnogih mogućih

realizacija slučajnog procesa, zvanog i vjerojatnosni (stohastički, slučajni) proces. Taj je

slučajni proces prostorno autokoreliran što u biti znači da su atributne vrijednosti

(vrijednosti varijable) u nekoj mjeri povezane. Na svakoj prostornoj točki xi (lokaciji)

zabilježena vrijednost varijable Z samo je jedna realizacija slučajne varijable Z(x).

Znači, mi imamo samo jednu realnost (uzorak) koji je jedna realizacija procesa koji je

mogao proizvesti mnogo realizacija (μ, σ2). Svaka točka ima svoj vlastiti slučajni

proces, ali sve točke imaju jednak oblik slučajnosti. Ipak, može postojati prostorna

ovisnost među točkama, koje u tome slučaju nisu nezavisne. Kao zaključak, one

zajedno čine slučajni proces na cijelom polju R.

Zaključak: izmjerene vrijednosti uzorka rezultat su nekog slučajnog procesa, ali s

određenim restrikcijama, posebice o prostornoj ovisnosti. Skup vrijednosti koje slučajna

varijabla Z u prostoru može imati zovemo prostorno polje, a varijablu Z

regionaliziranom varijablom koja ima karakteristiku dvostruke beskonačnosti:

1. beskonačan broj mogućih točaka

2. beskonačan broj vrijednosti koje može imati na pojedinoj lokaciji.

Vizualizacija: Na donjoj slici nalaze se 4 jednako vjerojatne realizacije slučajnog polja

na mreži točaka dimenzija 256 x 256.

Page 95: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

91

Problem je što bismo željeli odrediti proces na temelju jedne točke. Da bi se zaobišao

ovaj problem uvode se određene pretpostavke poznate pod nazivom stacionarnost.

Stacionarnost prvog reda slučajnog procesa

Pretpostavljamo da je očekivana vrijednost na svakoj točki polja jednaka.

�̂�(𝑥1, 𝑥2) = 𝐸[{𝑍(𝑥𝑖) − 𝜇} ∙ {𝑍(𝑥2) − 𝜇}]

Napomena:

Primijetite da u gornjoj jednadžbi srednja vrijednost ne ovisi o lokaciji.

Uzimajući u obzir stacionarnost prvog reda u mogućnosti smo procijeniti očekivanu

vrijednost iz uzorka i njegovog prostornog rasporeda.

Problemi kod stacionarnosti prvog reda su da ona često nije zadovoljena na:

1. na različitim stratumima (regijama)

2. kod postojanja regionalnog trenda.

Kod oba ova slučaja nestacionarnog procesa, mora se primijeniti:

a) modeliranje po stratumima ili

b) uklanjanje regionalnog trenda prije modeliranja ili

c) modeliranje na malim područjima ili

d) modeliranje razlike u varijabli, a ne varijablu kao takvu.

Do sada smo procijenili sredinu neregionalizirane varijable, ali moramo uključiti i

činjenicu da su bliske opservacije međusobno sličnije. Kao i bilo koje druge varijable,

slučajne varijable koje čine regionaliziranu varijablu mogu kovarirati. Imamo jednu

realizaciju po točki, ali svaka točka je drugačija realizacija, tako da u određenome

smislu imamo različite varijable koje samim time imaju kovarijancu. Za razumijevanje

je ključno da se pod određenim pretpostavkama može smatrati da dobivena

kovarijanca ovisi jedino o međusobnoj udaljenosti između točaka te eventualno o

smjeru, o čemu će kasnije biti riječi.

U klasičnoj statistici kovarijanca je definirana na sljedeći način:

�̂�(𝑧1, 𝑧2)=1

𝑛∑ (𝑧1𝑖

− 𝑧1̅) ∙ (𝑧2𝑖− 𝑧2̅)𝑛

𝑖=1

Prostorna varijanta kovarijance:

�̂�(𝑥1, 𝑥2) = 𝐸[{𝑍(𝑥1) − 𝜇(𝑥1)} ∙ {𝑍(𝑥2) − 𝜇(𝑥2)}]

Radi pretpostavke o stacionarnosti prvog reda je očekivana vrijednost jednaka:

�̂�(𝑥1, 𝑥2) = 𝐸[{𝑍(𝑥𝑖) − 𝜇} ∙ {𝑍(𝑥2) − 𝜇}]

Page 96: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

92

Stacionarnost na jednoj točki – stacionarnost drugog reda

Problem je u sljedećem: kovarijanca u jednoj točki je njezina varijanca.

𝜎2 = 𝐸[{𝑍(𝑥𝑖) − 𝜇}2]

Ovo nije moguće procijeniti iz jednog uzorka (jedne realizacije od mnogo mogućih).

Rješenje je u pretpostavci da varijanca na svim točkama ima jednaku konačnu

vrijednost.

Uz navedenu pretpostavku procjenjujemo a priori varijancu procesa (na primjer,

kovarijancu na točki) spajanjem svih slučajnih varijabli.

Stacionarnost drugog reda na cijelom polju

Problem: Definicija kovarijance dana je između svih točaka u polju. Ne postoji način da

procijenimo kovarijancu na temelju samo jednog para točaka po paru varijabli. Ovaj

problem rješava se pretpostavkom da kovarijanca između točaka ovisi jedino o njihovoj

međusobnoj udaljenosti, a ne njihovoj apsolutnoj lokaciji. Tek sada možemo procijeniti

njihovu kovarijancu iz velikog broja parova točaka koje su odvojene približno jednakom

udaljenošću i smjerom (vektor h).

Autokovarijanca: izraz "auto" jer se radi o istoj regionaliziranoj varijabli na udaljenosti

h:

𝐶[𝑍(𝑥), 𝑍(𝑥 + ℎ)] = 𝐸[{𝑍(𝑥) − 𝜇} ∙ {𝑍(𝑥 + ℎ) − 𝜇}]

= 𝐸[{𝑍(𝑥)} ∙ {𝑍(𝑥 + ℎ)} − 𝜇2]

≡ 𝐶(ℎ)

Autokorelacija: Autokovarijanca normalizirana ukupnom varijancom, što je kovarijanca

na točki.

𝜌(ℎ) =𝐶(ℎ)

𝐶(0)

Semivarijanca: odstupanje kovarijance na određenoj udaljenosti od ukupne varijance:

𝛾(ℎ) = 𝐶(0) − 𝐶(ℎ)

Problem kod stacionarnosti drugog reda:

Pretpostavlja se da je kovarijanca konačna vrijednost, što ponekad nije zadovoljeno

kako povećavamo područje.

Rješenja ovog problema su:

modelirati razlike u vrijednostima, a ne vrijednosti same varijable

raditi modele za manja područja

modelirati semivarijancu, a ne kovarijancu.

Page 97: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

93

Ugrađena hipoteza:

Zamijenimo srednju vrijednost regionalizirane varijable Z(x) sa srednjim vrijednostima

razlika, koje su jednake na cijelome području slučajnog polja, barem na malim

separacijama vektorom h. Tada je očekivana vrijednost 0:

𝐸[𝑍(𝑥) − 𝑍(𝑥 + ℎ)] = 0

Ako zamijenimo kovarijancu vrijednosti s varijancom razlika:

𝑉𝑎𝑟[𝑍(𝑥) − 𝑍(𝑥 + ℎ)] = 𝐸[{𝑍(𝑥) − 𝑍(𝑥 + ℎ)}2] = 2𝛾(ℎ)

Prethodna jednadžba uključuje jedino razlike vrijednosti na određenoj separaciji, a ne

same vrijednosti, tako da potrebna pretpostavka konačne varijance mora biti

zadovoljena jedino za razlike, a ne i za samu varijablu, što je znatno blaža

pretpostavka. Ovo nazivamo ugrađenom hipotezom (engl. intrinsic hypothesis).

Kako je semivarijanca na separaciji h sada zadana kao funkcija procijenjene

kovarijance na području to znači da ona modelira prostorno povezanu komponentu

regionalizirane varijable. Ako eksperimentalni variogram matematički opišemo, tj.

napravimo njegov model, u mogućnosti smo modelirati slučajan proces na bilo kojoj

udaljenosti.

Empirijski variogram računamo prema formuli:

�̅�(ℎ) =1

2𝑚(ℎ)∑ [𝑧(𝑥𝑖) − 𝑧(𝑥𝑖 + ℎ)]2

𝑚(ℎ)

𝑖=1

a znamo da je teorijski variogram:

𝛾(ℎ) = 0.5 ∙ 𝐸[{𝑍(𝑥) − 𝑍(𝑥 + ℎ)}2]

Prijelaz s eksperimentalnog na teorijski variogram: procjenjuju se parametri modela iz

uzorka (eksperimentalni variogram). Da bi bili u mogućnosti fitati tzv. autorizirani

matematički model, trebaju vrijediti sljedeće pretpostavke:

1. varijance regionaliziranih varijabli monotono rastu s udaljenošću

2. varijance dosežu konstantan, asimptotski prag (engl. sill)

3. ne postoji negativno odstupanje (engl. nugget).

Ove pretpostavke na variogram omogućuju postojanje rješenja u sustavu jednadžbi

kriginga.

PRIMJER:

Otvorite u RStudiju program naziva S730_regresijski_kriging.R.

Page 98: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

94

Page 99: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

95

7. Prostorno vremenski podaci u sustavu R

Unutar sustava R postoji veći broj paketa koji se razvijaju radi kreiranja klasa i metoda

za pohranu, vizualizaciju i analizu prostorno – vremenski referenciranih podataka. Neki

od njih su paketi spacetime i SpatioTemporal. Ovdje dajemo vrlo kratak uvid u

specifičnosti rada s ovim tipom podataka kroz paket spacetime.

7.1. Paket spacetime

Unutar ovog paketa razvijaju se klase i metode za optimalnu pohranu prostorno-

vremenski referenciranih podataka koje uključuju prostorno-vremenske regularne

površine, iregularne podatke i putanje (trajektorije) te adekvatne funkcije za grafički

prikaz i animacije vremenskih serija, metode za prostorno-vremensku selekciju

podataka, prostorno-vremenska agregiranja i slično. Ovaj paket koristi strukturu

podataka paketa sp za prostornu komponentu i strukturu paketa xts za vremenski dio.

Vrlo često su se prostorno-vremenski podaci analizirali na način da se posebno

analizira prostorna, a posebno vremenska komponenta podataka. Ovaj paket razvija

metode analize integralnim pristupom segmentima u istom procesu. Specifičnost je

ovog tipa podataka da su prikupljeni i u prostornoj i u vremenskoj komponenti, ali

rijetko u obje na istom nivou kvalitete (prostornoj i vremenskoj rezoluciji).

Prostorno-vremenski referencirani podaci uglavnom se pohranjuju u različitim oblicima

tabličnih prikaza ili relacijskih baza podataka (Acess, PostgreSQL, postGIS i dr.), ili u

strukturama sličnim .xlm datotekama (razgranata struktura).

7.1.1. Zapisivanje prostorno-vremenskih informacija u paketu spacetime

Radi jednostavnosti, prostorno-vremenski podaci najčešće dolaze zapisani unutar

jedinstvene tablice koja može biti u jednom od tri formata:

a) Vremenski širok format – različite kolone u tablici predstavljaju različit trenutak

(vremensku komponentu)

b) Prostorno širok format – različite kolone predstavljaju različite lokacije mjerenja

ili područja ili

c) Dugi format – jedan redak u tablici predstavlja jedinstvenu kombinaciju prostora

i vremena.

Ovisno o tipu prostorno – vremenski referenciranih podataka trenutno su razvijeni

sljedeći formati za pohranu:

pune površine STF (engl. spatio-temporal full grids) – služe za pohranu

objekata koji nemaju nedostajućih vrijednosti (NA). Informacije se čuvaju za bilo

koji tip prostornog objekta (točka, linija, poligon, ćelija), pri čemu riječ površina

Page 100: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

96

(engl. grid) označava prostorno-vremenski raspored, a ne tip objekata koji se

prikazuje (na primjer, točka mjerenja).

Rahle (rijetke) površine STS (engl. sparse grid) – prostorno - vremenski

raspored je identičan, ali se čuvaju isključivo podaci koji imaju vrijednosti,

odnosno nisu NA.

Nepravilni rasporedi STI (engl. irregular layout) – svaka opservacija posjeduje

svoju oznaku prostora i vremena. Mjerene točke u prostoru i vremenu ne

posjeduju vidljivo pravilo.

Trajektorije STT (engl. trajectory) - objekti u pokretu, jednostavne putanje – na

ovaj način pohranjuju se informacije o objektima bez vremenskog trajanja,

objektima određenog vremena trajanja koji se ne kreću, i objektima u pokretu.

Primijetite na slici da se prilikom referenciranja prvo indeksira prostorna komponenta,

pa zatim vremenska. Unutar paketa su razvijene metode za učitavanje i izlaz,

vizualizaciju, prijelaz iz jedne klase u drugu (engl. coercion), selekciju i vizualizaciju

prostorno vremenskih podataka.

Page 101: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

97

Na slici dolje su prikazane klase objekata u paketu spacetime te su naznačeni njihovi

mogući međusobni prijelazi.

PRIMJER:

Otvorite program naziva S730_spacetime_primjeri.R uz pomoć kojega ćemo se

upoznati s klasama razvijenim za rad s prostorno-vremenskim podacima unutar paketa

spacetime.

Otvorite program naziva S730_spacetime_metode.R uz pomoć kojega ćemo se

upoznati s metodama razvijenim za rad s prostorno-vremenskim podacima unutar

paketa spacetime.

ZADACI ZA SAMOSTALAN RAD:

Otvorite skriptu naziva S730_zadaci_spacetime.R i samostalno riješite zadatke.

PRIMJER:

Učitajte program pod nazivom S730_R_access.R. Prolaskom kroz program sudionici

će se upoznati s načinom povezivanja sustava R i baze podataka Access, s kreiranjem

prostorno-vremenski referenciranih podataka te napraviti vizualizaciju na Google

Earthu.

Učitajte program pod nazivom S730_R_Postgres_PostGIS.R. Prolaskom kroz

program sudionici će se upoznati s načinom povezivanja sustava R i baze prostornih

podataka Postgres / PostGIS baze prostornih podataka.

Page 102: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

98

PITANJA ZA PONAVLJANJE:

1. Navedite primjere kada je osim prostorne komponente važno čuvati i

informaciju o vremenu. Navedite promjere iz prirodnih, društvenih i tehničkih

znanosti.

2. Navedite klase podataka kako ih definira paket spacetime.

3. Objasnite razliku između vremenski širokog formata i prostorno širokog formata.

Page 103: Programski jezik R u vizualizaciji i analizi prostornih ... · Programski jezik R u vizualizaciji i analizi prostornih podataka (S730) 2 U nekim slučajevima u ovaj dokument stavljen

Programski jezik R u vizualizaciji i analizi prostornih podataka (S730)

99

Bilješke: