primijenjena statistika - fakultet informatike u puli

26
Sveučilište Jurja Dobrile u Puli Fakultet informatike Ak.g. 2017./2018. Primijenjena statistika Diplomski studij Informatike: 1. godina Sažetak prezentiranih završnih projekata 2017./2018.

Upload: khangminh22

Post on 09-Jan-2023

0 views

Category:

Documents


0 download

TRANSCRIPT

Sveučilište Jurja Dobrile u Puli

Fakultet informatike

Ak.g. 2017./2018.

Primijenjena statistikaDiplomski studij Informatike:

1. godinaSažetak prezentiranih završnih projekata2017./2018.

01-preporučitelj poslovnih lokacijaPreporučitelj lokacija za nove poslovne sadržaje u gradu Puli

AUTORI:Robert Šajina ([email protected])

Romeo Šajina ([email protected])

DROPBOX:goo.gl/s1LwFU

Preporučitelj lokacija za nove poslovne sadržaje u gradu PuliAutor: Robert i Romeo Šajina

Mentor: doc. dr. sc. Siniša SoviljFakultet informatike, Sveučilište Jurja Dobrile u Puli

U ovom radu su prikupljeni, obrađeni i klasterirani podaci o pozicijama ustanova u gradu Puli. Premapodacima, ustanove koje prevladavaju su barovi, kafići i restorani, te su ekstremno grupirani napodručju okolice Arene. Sljedeći korak je predviđanje mogućih tipova ustanova, kojih za određenosusjedstvo nedostaju. Takvo predviđanje bi se moglo ostvariti modelom koji je izgrađen na temeljukorelacija tipova ustanova u pojedinim susjedstvima. Naravno, u model nije uključena naseljenostsusjedstva što utječe na broj ustanova, ali bi pružio uvid u nedostajuće tipove ustanova u određenomsusjedstvu.

Dijagram kojim se ilustriraju koraci u obradi podataka

Primijenjena statistika, ak. god. 2017/2018

Cilj ovog zadatka je razumijevanje prirodnost pojavljivanja ustanova u nekoj četvrti,korištenjem seta podataka koji sadržavaju precizne lokacije tisuća ustanova.Podaci su prikupljeni korištenjem Google Places-a, i to za grad Pulu.

2. Opis problema

3. Metoda

1. UvodUstanove kao što su restorani, kafići, barovi, knjižnice, smatraju se ključnim svojstvimagrada. Unatoč želji za bogatom ponudom ustanova, malo je poznato o empirijskimzakonima i korelacijama između ustanova u nekoj četvrti.

4. Rezultati

5. Zaključak

Prikaz grupiranih susjedstava pojedinom centru

Prikaz ustanova po tipovima na karti. Srednji sloj prikazana je ENOA za sve ustanove.

Podaci su prikupljeni korištenjem Google Places API-a. Maksimalan broj dohvaćenihmjesta po zahtjevu je 60, pa je stoga područje grada Pule bilo potrebno podijeliti naviše manjih cjelina. Nakon prikupljanja podataka, bilo je potrebno izbrisati duplikate ipopraviti tipove ustanove jer, u preuzetim podacima, jedna ustanova može imatidodijeljeno više tipova, čime bi zapravo isti tip ustanove mogao biti klasificiran kaodrugačiji tip. Također, ulice i ceste su izbačene iz seta podataka. Nakon toga je za svakuustanovu izračunata ENOA (Effective number of amenities), odnosno suma doprinosaobližnjih ustanova gdje se doprinos ustanova smanjuje pri većoj udaljenosti, te jenakon 500 metara gotovo zanemariv. Formula za izračunavanje ENOA-e ustanove je:

= +

gdje je udaljenost između ustanova i . Postavili smo = 16, što znači da će sedoprinos ENOA-e ustanove otprilike upola smanjiti svakih 62.5 metara. Postavili smo= 2000 što je dovoljan broj ustanova kako bi ENOA konvergirala prije sumiranja

-og elementa. Sljedeći korak je izračunavanje centara susjedstava, na način da centrommože postati ustanova čija je ENOA veća od ENOA N obližnjih ustanova, gdje je N =3*ENOA + 50. Nadalje, svaka ustanova se dodjeljuje najbližem centru susjedstva. Naposljetku su rezultati prikazani grafički.

02-paket za hrv. ekon. podatke R paket za sakupljanje svih javno dostupnih hrvatskih (makro)ekonomskih podataka

AUTORI:Petra Buršić ([email protected])

Mateo Bošnjak ([email protected])

DROPBOX:goo.gl/s1LwFU

Paket za učitavanje i vizualizaciju hrvatskih makroekonomskih podatakaAutori: Mateo Bošnjak i Petra Buršić

Mentor: doc. dr. sc. Siniša SoviljFakultet informatike, Sveučilište Jurja Dobrile u Puli

Paket sadrži 48 različitih tablica sa makroekonomskim indikatorima vezani uz hrvatskuekonomiju čije se datoteke preuzimaju iz ažuriranih izvora i prikazuju u obliku tablice.Funkcijama paketa moguće je i vizualizirati odgovarajuće tablice pozivom naredbeplotBDPg (godisnja vizualizacija) ili plotBDPk (kvartalna vizualizacija). Obe funkcije kaoargument primaju stupac kojeg korisnik želi vizualizirati te naziv stupca.

Hrvmakeko R paket predstavlja način za importiranje i vizualizaciju specifičnihpodataka te pretraživanje istih kroz uređene tablice. Paket grupira podatke te pružajednostavan pristup čime olakšava analizu podataka svojim korisnicima.

Interesantno!Nekonzistentnost podataka koje uređuje Hrvatska

narodna banka.

Primijenjena statistika, ak. god. 2017/2018

EUROSTAT Open Data omogućuje pristup EUROSTAT bazi podataka sa podacima idokumentacijom koja je također dostupna na mreži.„hrvmakeko” paket pristupa podacima Državnog zavoda za statistiku i podaci Hrvatskenarodne banke klasificirani prema institucionalnim sektorima i financijskimstrumentima. Paket dolazi sa skupom podataka vezana uz bdp, kamatnim stopama,inflaciji, ponudi novca, platnoj bilanci,itd.

2. Opis problema

Za kreiranje vlastitog paketa potrebno je instalirati alate poput „devtools” zakompajliranje paketa te „roxygen2” koji služi za stvaranje dokumentacije koja sadržiopis paketa te „Help pages” ili pomoćne stranice koje sadrže opis naredbi te na koji senačin iste pozivaju i koji su podaci sadržani u istoj.Izvor DZS-a daje podatke o BDP-u godišnje i po kvartalima što je moguće dohvatitinaredbama BDPg i BDPk.U prikazanom primjeru uzimamo u obzir naredbu BDPk koja preuzima datoteku sastranica Državnog zavoda za statistiku i vraća tablicu bruto domaćeg proizvodaprikazanog po kvartalima.

3. Metoda1. UvodPoster prikazuje kreiranje vlastitog R paketa pod nazivom „hrvmakeko”. Radi se opaketu koji omogućuje učitavanje i vizualizaciju hrvatskih makroekonomskih podatakapoput EUROSTAT R paketa. Cilj je učiniti dostupnima većinu makroekonomskihpodataka na jednome mjestu.

4. Rezultati

5. Zaključak

Pomoćna stranica sa opisom naredbe Pomoćna dokumentacija paketa

03-analiza ponude IKT poslovaAnaliza ponude IKT poslova i traženih vještina rudarenjem teksta oglasa

AUTORI:Leopold Juraga ([email protected])

Aljoša Kancijanić ([email protected])

DROPBOX:goo.gl/s1LwFU

Analiza ponude IKT poslova i traženih vještina rudarenjem teksta oglasaAutori: Leopold Juraga i Aljoša Kancijanić

Mentor: doc. dr. sc. Siniša SoviljFakultet informatike, Sveučilište Jurja Dobrile u Puli

Na temelju izvršenih analiza teksta oglasa ustanovili smoda su najpotrebniji programeri koji imaju Senior status, anajtraženije vještine Java, .Net i poznavanje web aplikacija.Najviše korištena riječ u svim prikupljenim oglasima je„Developer”.

Nakon provedene analize riječi oglasa možemo zaključiti da se najviše tražedeveloperi, inženjeri i administratori. Najtraženiji poslovi za koje se traže radnici susoftver, sistem, java, .NET i web. Također najtraženiji su zaposlenici koji su eksperti usvojem području, a oni bez iskustva su duplo manje traženi. Developeri su najtraženijikao eksperti i u manjem broju bez iskustva. Inženjeri su najtraženiji kao eksperti i zaposlove vezane uz softver. Administratori su najviše traženi za poslove vezane uzsistem.

Dijagram obrade podataka prije vizualizacije

Interesantno!Riječ „Developer” se pojavljuje u

37.5% svih obrađenih oglasa.

Primijenjena statistika, ak. god. 2017/2018

Sakupiti podatke dinamički s web-stranica koristeći vještine rudarenja teksta, tepodatke dodatno filtrirati i grafički prikazati pomoću potrebnih alata. Za prikupljanjepodataka odabran je jednostavniji alat „Web-Scraper” ekstenzija za Chrome, zboglakoće konfiguriranje pošto napredniji alati nisu bili potrebni u izradi projekta.

2. Opis problema

Prikupljanje podataka izvršeno je pomoću ekstenzije za Chrome „Web-Scraper”,njegovom konfiguracijom bilo je moguće pregledati sve trenutno objavljene oglase iuzeti određene elemente oglasa potrebne za analizu. Prikupljene podatke bilo jepotrebno prilagoditi za analizu, standardizacija riječi, izbacivanje veznika iinterpunkcijskih znakova, te pretvorba u potrebni format. Primjenom metoda zaanalizu riječi dobivene su najučestalije riječi koje se pojavljuju u oglasima koje suprikazane pomoću Word Cloud-a. Nakon toga dodatno su analizirane veze izmeđuriječi u oglasima kako bi utvrdili vještine koje su najtraženije po prikupljenimpodacima, pomoću te analize stvoren je graf traženih vještina.

3. Metoda

1. UvodPomoću napravljene analize prikazati ponude zanimanja s područja IKT-a koristeći setekstom iz oglasa. Obrađeni podaci su sakupljeni iz 498 različitih oglasa sa stranicewww.moj-posao.net. Analiza se temelji na grupiranju riječi po učestalostipojavljivanja kako bi se dobile najčešće tražene vještine.

4. Rezultati

5. Zaključak

Prikaz riječi s obzirom na broj ponavljana u oglasima

04-model cijene automobilaStatistički model tražene cijene (rabljenih) automobila u RH

AUTORI:Antonio Vuk ([email protected])

Sebastian Sinožić ([email protected])

DROPBOX:goo.gl/s1LwFU

Statistički model tražene cijene automobila u RHAutor: Antonio Vuk i Sebastian Sinožić

Mentor: doc. dr. sc. Siniša SoviljFakultet informatike, Sveučilište Jurja Dobrile u Puli

Nakon što smo odabrali najbolji model, iz ovog primjera vidimo da je predikcija zadovoljava naša očekivanja te u donjoj prikazanoj figuri prikazali smo top 3 vozila.

Model se ispostavio prilično točnim te su predikcije prilično dobre, postoji mogućnost unosa novih podataka prema kojima je vidljivo u kojoj je mjeri nova vozila podcijenjena odnosno precijenjena. Potencijalni problem ovog modela su korišteni podaci iz razloga što oglasi subjektivnog karaktera te podložni greškama oglasivača. Za buduće istraživanje bilo bi poželjno podatke dohvatiti s većeg broja servisa te u konačnici objediniti rezultate.

Interesantno!

Ekološka kategorija vozila znatnoutječe na cijenu samog vozila

što nismo očekivali na početku izrade projekta.

Primijenjena statistika, ak. god. 2017/2018

Prikupljanjem što većeg broja nama dostupnih podataka tenjihovom zajedničkom obradom pokušali smo odrediti kojifaktor u najvećoj mjeri utječe na cijenu vozila. Kao najvažnijefaktore koji utječu na cijenu vozila treba spomenuti: godinuproizvodnje automobila te ekološku kategoriju vozila, a u neštomanjoj ali značajnoj mjeri spomenuli bi garanciju i snagumotora (u kW).

2. Opis problema

Metoda koja je korištena je višestruka linearna regresija.Koristili smo tu metodu zato što smo imali više od jedneprediktorske varijable. Zavisna varijabla bila nam je cijenavozila dok su prediktorske varijable bile sve ostale varijable.

3. Metoda

1. UvodTema ovog rada je „Statistički model tražene cijene automobilau RH”. Korišteni podaci preuzeti su s web stranicewww.njuskalo.hr. Za izradu projekta korišten je programskijezik R s odgovarajućim softverom pod nazivom R studio.Glavna zamisao ovog projekta bila je usporediti cijenu vozila uodnosu na ostale varijable koje smo prikupili i vidjeti njihovemeđuodnose. Podatke smo prikupljali s weba pomoću RSelenium softwera. Ukupno smo prikupili 4120 opservacija s 20varijabli, a prikupljene podatke spremili smo u Microsoft Excel. 4. Rezultati

5. Zaključak

Prikaz ovisnosti cijene i godine proizvodnje vozila

Vizualizacija korelacijske matrice s 16 varijabli

Najbolji model te prediktori koje taj model uključuje

Reducirani model s 7 varijabli objašnjava 69% varijance zavisne varijable

Izbor top 3 modela vozila prema predikciji

05-model rangiranja restoranaStatistički model rangiranja istarskih restorana prema TripAdvisor-u

AUTORI:Kristijan Babić ([email protected])

Mateo Višković ([email protected])

DROPBOX:goo.gl/s1LwFU

Statistički model rangiranja istarskih restorana prema TripAdvisor-uAutori: Kristijan Babić, Mateo Višković

Mentor: doc. dr. sc. Siniša SoviljFakultet informatike, Sveučilište Jurja Dobrile u Puli

Na temelju izvršenih statističkih testiranja dolazimo do saznanja da Rating Value,Rating Food, Rating Service i Rating Atmosphere imaju 79% varijance zavisnevarijable.Predikcija 1:

Predikcija 2:Rating_Food=5

Rating_Food= 3Rating_Value=4.5

Rating_Value=3.5Rating_Service=4.5

Rating_Service=2.5Rating_Atmosphere=5

Rating_Atmosphere=3.5

Ocjena:4.63

Ocjena: 2.81

Te da je najpodcenjeniji restoran između prikupljenih podataka Popaj, anajprecjenjeniji Santa Barbara.

Na temelju provedenih statističkih testova zaključujemo da najveći utjecaj na ocjenu imajuvarijable Rating Value, Rating Food, Rating Service i Rating Atmosphere. Također dolazimo dozaključka da lokacija objekta kao i njegovo radno vrijeme nemaju statistički značajan utjecaj naukupnu ocjenu restorana.

Interesantno!Gradovi s većim brojem restorana

s istim atributima imaju nižu prosječnu ocjenu u odnosu

na gradove s manjim brojem restorana.

Primijenjena statistika, ak. god. 2017/2018

Obradom prikupljenih podataka utvrditi zavisne varijable između 16atributa, te pronaći utjecaj istih na zavisnu varijablu. Završetkom analizepodataka ispostavilo se da zavisna varijabla ocjena, te smo nad istomizvršili odgovarajuće statističke metode.

2. Opis problema

Nad podacima prikupljenim sa internetskog turističkog portala ”TripAdvisor”provedeno je razvrstavanje podataka po odgovarajućim atributima. Završetkomprikupljanja podataka isti su uvezeni u R-Studio u kojem smo analizom podatakautvrdili nedostajuće vrijednosti te ih zamijenili sa odgovarajućom metodom. Krozdaljnju obradu podataka grafički je prikazan odnos broja restorana po pojedinimlokacijama, kao i odnos broja recenzija s ocjenama i lokacijom. Naposljetku je utvrđennajznačajniji statističkih model, nad kojim je proveden niz statističkih testova. Natemelju najznačajnijeg statističkog modela također je izvršena predikcija kao i prikazprecijenjenih i podcijenjenih restorana.

3. Metoda

1. UvodOvim statističkim modelom analizirani su restorani na području Istarskežupanije. Analiza je provedena nad više od 140 različitih restorana kojisadržavaju 16 atributa. Ocjena je glavni aspekt razmatranja provedeneanalize, odnosno ponašanje ocjene s obzirom na različite promjenjiveatribute.

4. Rezultati

5. Zaključak

Graf nam prikazuje da se najveći broj restorana u Istri nalazi u Rovinju, Puli i Poreču

Prikaz ocjena restorana na temelju broja recenzija

06-testiranje razlike cijenaStatističko testiranje razlike cijena više identičnih proizvoda lanca Lidl u više država EU

AUTORI:Karlo Skok ([email protected])

Alen Lesar ([email protected])

DROPBOX:goo.gl/s1LwFU

Statističko testiranje razlike cijena više identičnih proizvoda lanca Lidl u više država EUAutori: Karlo Skok, Alen Lesar

Mentor: Doc. dr. sc. Siniša SoviljOdjel za informacijsko-komunikacijske tehnologije, Sveučilište Jurja Dobrile u Puli

Statističkom analizom najpovoljnijadržava je Njemačka, a najskuplja državaje Hrvatska. Predviđene i stvarne cijenaproizvoda za Hrvatsku se vrlo malorazlikuju.

Izradom statističkog modela došli smo do zaključka da su cijene proizvoda najmanje uNjemačkoj. Iz svih provedenih statističkih analiza i na temelju dobivenih rezultata nakraju zaključujemo da su cijene proizvoda u pojedinim državama značajnije različite kaona primjer cijene u Njemačkoj i Hrvatskoj dok u nekima kao na primjer, Francuskoj iŠvicarskoj gotovo da nema razlike.

Prikaz cijena proizvoda po državama Primijenjena statistika, ak. god. 2017/2018

Cij projektnog zadatka je bio prikupiti podatke o cijenama proizvoda trgovačkog lancaLidl te napraviti statističke testove nad tim podacima i utvrditi jesu li cijene statističkiznačajno različite i koliko.

2. Opis problema

Podatke smo prikupili s web stranica Lidla te ih ručno unijeli u Excel tablicu i nakon togaučitali u R studio kao podatkovni okvir. Pripremili smo podatke na način da smo izbacilinedostajuće vrijednosti i selektirali samo podatke od interesa.Napravili smo model multipla regresije kojim smo htjeli objasniti kolika će biti ovisnacijena proizvoda u Hrvatskoj o cijenama proizvoda u ostalim državama. Statistički smopokazali koja država ima najjeftinije proizvode, odnosno najskuplje po pojedinimartiklima.

3. Metoda

1. UvodU ovom statističkom modelu analizirali smo cijene proizvoda lanca Lidl u više zemaljaEuropske unije.Ukupno smo prikupili 29 različitih opservacija i 14 varijabli.

4. Rezultati

5. Zaključak

Prikaz skupoće država od najjeftinije do najskuplje

Najjeftiniji proizvodi su u Njemačkoj gdje je i sam nastao

trgovački lanac Lidl

Odnos predikcije i stvarne cijene proizvoda u RH

07-model cijena telekom paketa Statistički model usporedbe paketa telekom operatora u RH

AUTORI:Karlo Tvrdinić ([email protected])

Goran Vinković ([email protected])

DROPBOX:goo.gl/s1LwFU

Statistički model usporedbe paketa telekom operatora u RHAutori: Karlo Tvrdinić, Goran Vinković

Mentor: doc. dr. sc. Siniša SoviljFakultet informatike, Sveučilište Jurja Dobrile u Puli

Na temelju dobivenog modela (fit1) radi se predikcija te sedobivaju rezultati na kojima se vidi utjecaj broja TV programa naukupnu cijenu:test1 <- data.frame(DlBrzina.num = 35, BesplatneMinute.num =5000, TVProgrami.num = 40)predict(fit1, newdata = test1) Predikcija je 5234.75 kntest2 <- data.frame(DlBrzina.num = 4, BesplatneMinute.num =55, TVProgrami.num = 70)predict(fit1, newdata = test2) Predikcija je 6109.99 knNa temelju modela i residuala također je izrađena listapodcijenjenih i precijenjenih paketa.

U našem modelu nije bilo stršećih vrijednosti što je olakšalo sami proces izrade statističkogmodela. Tijekom izrade statističkog modela došli smo do zaključka da u modelu postoji jakakorelacija, a ta korelacija je između dvije varijable UplBrzina (eng. Upload Speed) i DlBrzina(eng. Download speed). Za predviđanje dobrog modela koristi se zavisna varijabla Ukupno,te prediktorske varijable DlBrzina, BesplatneMinute i TVProgrami. U modelu smo zaključilida najveći utjecaj na ukupnu cijenu telekom paketa ima utjecaj TV programi.

Primijenjena statistika, ak. god. 2017/2018

Cilj projekta je prikazati i opisati utjecaj prediktora na cijenu paketa, te time utvrditikoji su paketi precijenjeni, a koji su podcijenjeni. Korištene varijable su; Telekom,NazivPaketa, Paket, BesplatneMinute, TVProgrami, UplBrzina, DlBrzina,NaknadaZaUkljucenje i Ukupna cijena.

2. Opis problema

Metoda koja je korištena je multipla linearna regresija iz razloga što se koristi više odjedne prediktorske varijable. Zavisna varijabla je ukupna cijena paketa dok suprediktorske varijable BesplatneMinute, TVProgrami, Upload brzina, Download brzina inaknada za uključenje.Iteracijom više modela došlo se do najboljeg modela koji uzima u obzir sljedećeprediktore: DlBrzina.num, BesplatneMinute.num i TVProgrami.num.Zatim se nad najboljim modelom (fit1) vrši dijagnostika i predikcija kako bi se dobilipotrebni rezultati. Ovisnosti su također vizualizirane uz pomoć ggplot2 grafova.

3. Metoda

1. UvodTema projekta je Statistički model usporedbe paketa telekom operatera u RH. Podatcikoji su korišteni preuzeti su sa stranice www.kompare.hr. Operateri koje smouspoređivali su T-com, B.net, Iskon, Vip, H1 telekom, Optima telekom, amis i Terrakom.Prikupljeno je 49 opservacija i 9 varijabli.

4. Rezultati

5. Zaključak

Ovo je graf koji prikazuje utjecaj broja TV Programa na ukupnu cijenu u paketima koji nude Internet +TV + Telefon. Broj TV Programa ima veliki utjecaj na cijenu

Ovo je graf koji prikazuje utjecaj Download brzine na ukupnu cijenu u paketima koji nude Internet +TV + Telefon.

Zanimljivost!Zanimljivo je da na

ukupnu cijenu pojedinog paketa

utječe najviše prediktor TV

programa.

08-model broja dolazaka i noćenjaStatistički model broja dolazaka i noćenja turista u RH

AUTORI:Tomislav Zelembrz ([email protected])

Andrej Sabol ([email protected])

DROPBOX:goo.gl/s1LwFU

Statistički model broja dolazaka i noćenja turista u RH

Autori: Tomislav Zelembrz, Andrej SabolMentor: doc. dr. sc. Siniša Sovilj

Fakultet informatike, Sveučilište Jurja Dobrile u Puli

Vremenski uvjeti imajunajveći utjecaj na broj

dolazaka turista.

Cilj istraživanja bio je prikazati statistički model broja dolazaka i noćenja stranih i domaćih turista u RH.

2. Opis problema

Za rad na projektu korišten je programski jezik R. Podaci su bili pronađeni na stranicama Državnog zavoda za statistiku. Nakon pripreme podataka na redu je bilo testiranje i utvrđivanje povezanosti podataka . Za te svrhe korištene su metode unutar R programa kao što su korelacija i regresija. Korelacija nam prikazuje da li postoji povezanost između varijabli koje bi mogle utjecati na broj dolazaka domaćih ili stranih gostiju, a regresija nam je trebala pokazati da li postoji veza između zavisnih i nezavisnih varijabli.

3. Metoda

Najveći broj posjetitelja i broj noćenja u 2015. i 2016. godinu bilo je zabilježeno u kolovozu.

4. Rezultati

5. Zaključak

1. Uvod

Prikaz broja dolazaka turista od 2010.godine do 2016.godine kroz sve mjesece u godini.

Nakon izrade statističkog modela došli smo do zaključka sve varijable koje smo proučavali imaju jaku povezanost, jaku korelacija. Nadalje razlike između broja posjetitelja u 2015. godini i 2016. godini su veoma male, odnosno grafovi prikaza broja noćenja i broja posjetitelja su veoma slični. Smatramo da treba uzeti u obzir da statistički model koji smo napravili ne uzima sve moguće elemente koji mogu utjecati na broj posjetitelja kao što je to utjecaj vremena, događaji i slično.

09-model cijena mobilnih uređajaStatistički model usporedbe cijena mobilnih uređaja u RH

AUTORI:Katarina Đaić ([email protected])

Tomislav Đuranović ([email protected])

DROPBOX:goo.gl/s1LwFU

Statistički model usporedbe cijena mobilnih uređaja u RHAutori: Đaić Katarina, Đuranović Tomislav

Mentor: doc. dr. sc. Siniša SoviljFakultet informatike, Sveučilište Jurja Dobrile u Puli

Memorija najvište utječe na cijenu mobitela pojedinačih modelaDodavanjm prediktora veličina ekrana (nakon marke i memorije) točnost zavisnevarijable se povećala s 45% na 87%, za sve mobitele zajedno.Kod Samsung, Iphone, i LG mobitela kvaliteta kamere ne utječe puno na cijenu,dok kod Sony mobitela najviše utječe (5.71% -> 58.85%)

Na temelju dobivenih rezultata možemo zaključiti kako je prosječna cijena svihmobilnih uređaja 2283.42 kn. Isto tako može se reći da je Samsung galaxy s8najskuplji mobilni uređaj koji je izosio 4157.55 kn (gledajući Samsung modele).Gledajući Iphone najskuplji je bio Iphone x koji je iznosio 7963.85 kn, dok jenajskuplji LG model bio LG g6 (3188.04 kn). Posljednji naskuplji model je bio(gledajući Sony modele) Sony xperia z5 (iznosio je 2013.9 kn). Što se tiče najjeftinijihmobitela, su bili sljedeći uređaji: Sony xperia z1 (494.85 kn), LG g2 (639.75 kn),Iphone 4s (529.45 kn) te Samsung galaxy s4 (702.9 kn).

Dijagram koji prikazuje model koji je objasnio 87.67% varijance zavisne varijable

Interesantno!Kako smo radili višestruku regresiju,

gledajući posebno svaki model mobitela, ustanovljeno je da kako

dodajemo prediktore tako nam se točnost modela smanjuje,

osim za Sony, dokje kada smo gledali sve mobitelezajedno ona povećala kako smo

dodavali prediktore.

Primijenjena statistika, ak. god. 2017/2018.

Prikupljanjem što većeg broja podataka i obradom istih cilj je bio utvrditi kojiod prethodno navedenih polovnih uređaja je najpovoljniji te najskuplji.Također, ispitani su različiti prediktori, a to su: marka, model, memorija,veličina ekrana te kvaliteta kamere.

2. Opis problema

Podaci koje smo prikupili su s internetske stranice www.njuskalo.hr. Potomsmo ih stavili u excel tablicu te u R studio koji smo koristili pri izradi projekta.U odabranom modelu zavisna varijabla predstavlja cijenu dok su nezavisnevarijable (prediktori) bili: marka, memorija, veličina ekrana i kvaliteta kamere.Taj je model objasnio 87.67% varijance zavisne varijable.

3. Metoda

1. UvodOvim statističkim modelom analizirani su polovni mobiteli. Analiza jeprovedena nad 399 mobilnih uređaja (Samsung, Apple, LG i Sony) kojisadržavaju 6 atributa. Modeli analiziranih uređaja su: Samsung Galaxy s4, s5,s6, s7 i s8, Apple Iphone 4s, 5s, 6s, 7, 8 i X, LG G2, G3, G4, G5 i G6 te SonyXperia Z1, Z2, Z3 i Z5. Cijena je glavno područje koje razmatramo u ovojanalizi, odnosno ponašanje cijene obzirom na ostale prediktore.

4. Rezultati

5. Zaključak

Dijagram prikazuje cijenu svih uređaja po marki

Interesantno!Kamera bitno ne utječe na cijenu

Samsunga i Iphone-a, dok je za Sony modele važna u odnosu

na cijenu.Kod LG je bila neznatna

promjena kada smo dodali kameru.

10-model cijene najma apartmanaStatistički model cijene turističkog najma apartmana u Istarskoj županiji

AUTORI:David Juran ([email protected])

Mikaela Radin-Mačukat ([email protected])

DROPBOX:goo.gl/s1LwFU

Statistički model cijene najma apartmana u Istarskoj županijiAutori: Mikaela Radin-Mačukat, David Juran

Mentor: doc. dr. sc. Siniša SoviljFakultet informatike, Sveučilište Jurja Dobrile u Puli

Korištenjem modela za predikciju možemo pokušati odrediti cijenu određenihobjekata za najam. Istaknute cijene su za dvije i četiri osobe za apartman i kuću.

Obradom i radom s podacima dolazi se do zaključka da su za cijenu najma najvišebitne varijable broj ležaja, tip objekta te kategorizacija.Za korištene podatke predikcije nisu u potpunosti točne za sve tipove objekata, paovaj model nije pouzdan kako bi se mogle predviđati cijene najma u Istarskojžupaniji. Za daljnje istraživanje bilo bi dobro podatke dohvatiti s nekeprofesionalnije stranice na tom području.

Korelogram sa određenim varijablama

Interesantno!Objekti za najam koji imaju vlastiti parking obično imaju i terasu.

Primijenjena statistika, ak. god. 2017/2018

Pomoću prikupljenih podataka trebalo je doći do zaključaka o tome koji su apartmaninajjeftiniji, koliko bi u prosjeku za neki apartman trebalo izdvojiti, koji sadržaji i ponudeza apartmane uvećavaju cijenu najma te koje varijable ne utječu na cijenu.

2. Opis problema

Podaci su uneseni u tablicu koja je uvezena u R studio. Nakon obrade prikupljenihpodataka kako bi bili prikladni za rad, započeto je njihovo vizualiziranje. Vizualizacijompodataka dolazi se do nekoliko osnovnih zaključaka, koje je moguće vidjeti nagrafovima. Među ostalim, najveću ponudu smještaja ima Pula te zatim Rovinj.Nakon vizualizacije podataka izveden je test korelacije kako bi se utvrdile povezanostiizmeđu varijabli. Izrađen je korelogram kako bi se korelacije mogle lakše uočiti.Na temelju modela izrađene su predikcije cijene ovisno o nekoliko varijabli.Najznačajnije varijable za cijenu su tip objekta, broj ležaja te kategorizacija.

3. Metoda

1. UvodPrikupljeni su podaci o cijenama najma apartmana u Istarskoj županiji. Podaciuključuju 100 unosa te 12 varijabli. Podaci su prikupljeni sa web stranice Booking.com.Podaci su obrađeni kako bi se nad njima mogla provesti statistička analiza te odredileveze između varijabli, uključujući i njihovu važnost.

4. Rezultati

5. Zaključak

Broj objekata za najam u Istri; Pula je na prvom mjestu,

a slijedi je Rovinj

Dvije osobe Četiri osobe

Apartman Kuća Apartman KućaCijena za 3 zvjezdice 343 434 552 643Cijena za 4 zvjezdice 584 674 793 883

Cijena najma objekta prema njegovom tipu;

Sobe su najjeftinije

Cijena prikazana po kategorizaciji

11-model cijene najma plovilaStatistički model cijene najma plovila za Jadran

AUTORI:Tomislav Anđić ([email protected])

Nikola Blažević ([email protected])

DROPBOX:goo.gl/s1LwFU

12-usporedba konfiguracija laptopaStatistički model cijena konfiguracija laptopa u RH

AUTORI:Nikolina Obadić ([email protected])

Josipa Banjavčić ([email protected])

DROPBOX:goo.gl/s1LwFU

Statistički model cijena konfiguracija laptopa u RHAutor: Josipa Banjavčić i Nikolina Obadić

Mentor: doc. dr. sc. Siniša SoviljFakultet informatike, Sveučilište Jurja Dobrile u Puli

Predikcijski model:RAM=8 GBHDD=1TBSDD=126GBGPU=nVidiaEkran=15.6”Težina=1.8 gbNajbolja cijena prema modelu =7142 kn

Prema našem modelu najviše na cijenu laptopa utječe veličina RAM-a, vrstagrafičke, te ima li SSD pohranu.

Primijenjena statistika, ak. god. 2017./2018.

Cilj je prikazati kako komponente računala utječu na cijenu samog proizvoda.2. Opis problema

Podaci su prikupljeni sa dviju internetskih stranica : hgspot i links. Nakon prikupljanja,koristile smo Rstudio za obradu podataka i kreiranje modela.Korelacijska analiza, regresijska analiza i predikcijski model.

3. Metoda

1. UvodU statističkom modelu analiziraju se različite konfiguracije laptopa koji su prikupljeni naweb stranicama :” www.hgshop.hr” i ” www.links.hr/hr/”. Ukupno smo prikupile 98različitih modela laptopa.Zavisna varijabla ovog modela bila je cijena.

4. Rezultati

5. Zaključak

Prosječna cijena na temelju prikupljenih podataka je 5766,86 kn.Najpodcjenjenije računalo je Lenovo, a najprecjenjenije AppleInteresantno!

Najskuplji laptop nije

ujedno i najprecjenjeniji.

ORGANIZACIJA:Sveučilište Jurja Dobrile u Puli

Fakultet informatike

Diplomski studij Informatike, 1. godina

Primijenjena statistika, Ak.g. 2017./2018.

Voditelji: doc.dr.sc. Siniša Sovilj ([email protected]) iIngrid Hrga mag.oec. ([email protected])