baze podataka - superskripta

9
1. Koji su ciljevi pretraživanja informacija? a) pronaći sve važne (relevantne) informacije(dokumente) za traženu temu potpun obuhvat, b) pronaći samo relevantne informacije za zadani upit potpuna preciznost, c) rangirati pronađene informacije po važnosti (relevantnosti) rang. Rezultati pretraživanja različito su važni, oni leže na kontinuiranoj skali i teško je odrediti točnu granicu važno/nevažno. 2. Mjere pretraživanja – navedi i objasni: a+b = relevantni objekti, b+c = pronađeni objekti. obuhvat = b/(a+b), preciznost = b/(b+c) Raspon njihovih vrijednosti je 0,0-1,0 ili 0-100% Mjere pretraživanja su Obuhvat i preciznost: -Kriva je pretpostavka da se pretraživanjem dobiva: a) potpun obuhvat (sve relevantno je pronađeno, a= prazan skup), b) potpuna preciznost (sve pronađeno je relevantno, c= prazan skup). -Praksa pokazuje da su mjere kontradiktorne: ako se jedna povećava, druga se smanjuje. -Zahtjevi kvalitetnog pretraživanja (u praksi): visok obuhvat, što veća preciznost bez žrtvovanja obuhvata. -Ako se pronađeni dokumenti rangiraju po relevantnosti, preciznost varira o broju ispisanih dokumenata (pr. Ako je prvih 10 dokumenata relevantno, a sljedećih 10 nerelevantno: Preciznost je 100% u prvih 10 dokumenata, i 50 % u prvih 20 dokumenata). -Preciznost na n dokumenata je stvarni broj relevantnih u odnosu na broj ispisanih dokumenata (hitlist). -Prosječna preciznost je suma preciznosti za svaki relevantni ispisani dokument (“hitlist”) podijeljena s ukupnim brojem relevantnih dokumenata u kolekciji. 3. Može li se izračunati obuhvat na pretraživanju weba? Praksa na webu: dobar obuhvat ali loša preciznost. Obuhvat i preciznost FORMULE: obuhvat = b/(a+b), preciznost = b/(b+c). 4. Metode pretraživanja informacija nabroji i objasni: Pretraživanje po riječima. Riječ opisuje koncept ili pojam (engl. term). Pretraživanje se temelji na tehnikama uparivanja i brojanja pojmova u dokumentu , nedostaju modeli za stvarno opisivanje sadržaja teksta (za konceptualno pretraživanje). metode pretraživanja informacija:

Upload: vanja-hudoletnjak

Post on 22-Oct-2015

50 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: BAZE PODATAKA - Superskripta

1. Koji su ciljevi pretraživanja informacija?a) pronaći sve važne (relevantne) informacije(dokumente) za traženu temu potpun obuhvat,b) pronaći samo relevantne informacije za zadani upit potpuna preciznost,c) rangirati pronađene informacije po važnosti (relevantnosti) rang.Rezultati pretraživanja različito su važni, oni leže na kontinuiranoj skali i teško je odrediti točnu granicu važno/nevažno.

2. Mjere pretraživanja – navedi i objasni:a+b = relevantni objekti, b+c = pronađeni objekti. obuhvat = b/(a+b), preciznost = b/(b+c)Raspon njihovih vrijednosti je 0,0-1,0 ili 0-100%Mjere pretraživanja su Obuhvat i preciznost:-Kriva je pretpostavka da se pretraživanjem dobiva:a) potpun obuhvat (sve relevantno je pronađeno, a= prazan skup), b) potpuna preciznost (sve pronađeno je relevantno, c= prazan skup). -Praksa pokazuje da su mjere kontradiktorne: ako se jedna povećava, druga se smanjuje.-Zahtjevi kvalitetnog pretraživanja (u praksi): visok obuhvat, što veća preciznost bez žrtvovanja obuhvata.-Ako se pronađeni dokumenti rangiraju po relevantnosti, preciznost varira o broju ispisanih dokumenata (pr. Ako je prvih 10 dokumenata relevantno, a sljedećih 10 nerelevantno: Preciznost je 100% u prvih 10 dokumenata, i 50 % u prvih 20 dokumenata).-Preciznost na n dokumenata je stvarni broj relevantnih u odnosu na broj ispisanih dokumenata (hitlist). -Prosječna preciznost je suma preciznosti za svaki relevantni ispisani dokument (“hitlist”) podijeljena s ukupnim brojem relevantnih dokumenata u kolekciji.

3. Može li se izračunati obuhvat na pretraživanju weba?Praksa na webu: dobar obuhvat ali loša preciznost. Obuhvat i preciznost FORMULE: obuhvat = b/(a+b), preciznost = b/(b+c).

4. Metode pretraživanja informacija nabroji i objasni:Pretraživanje po riječima. Riječ opisuje koncept ili pojam (engl. term). Pretraživanje se temelji na tehnikama uparivanja i brojanja pojmova u dokumentu, nedostaju modeli za stvarno opisivanje sadržaja teksta (za konceptualno pretraživanje).metode pretraživanja informacija: a)Metode Booleovog pretraživanja - Informacijska potreba se opisuje upitom, koji se sastoji od riječi povezanih Booleovim (logičkim) operatorima I (AND), OR (ILI), NE (NOT)b)Modeli vektorskog prostora - Koristi se matematički pojam vektora. U vektor ulaze pojmovi: riječi ili fraze (izričaji). c)Probabilistički modeli - dokumente rangiraju prema vjerojatnosti relevantnosti u odnosu na postavljeni upit. Modeli (ima ih više) različito procjenjuju tu vjerojatnost.d)Metode modifikacije upitae)Ostale metode: klasteriranje = pretpostavka da su dokumenti u klasteru slični (slične relevantnosti za korisnika), obrada prirodnog jezika.

5. Booleovo pretraživanje /Booleovi operatori AND i OR:Informacijska potreba se opisuje upitom, koji se sastoji od riječi povezanih Booleovim (logičkim) operatorima I (AND), OR (ILI), NE (NOT) Informacijski AND (sustav OR sistem).Ako dokument odgovara upitu, dokument je pronađen selekcija: NE (0) ili DA (1). Pronađeni dokumenti nisu rangirani, jer ne postoji mjera sličnosti upita i dokumenta. Potrebno je umijeće dobrog formuliranja upita. Mnogi profesionalni korisnici ga koriste iako je slabije od metoda s rangiranjem dokumenata. Primjer: baza dokumenata EconLit.

Page 2: BAZE PODATAKA - Superskripta

I (and) – pronalaženje članka u kojima se pojavljuju 2 od navedenih riječiILI (or) – ili samo jedna riječ od pon riječi, ili istovremeno obje

6. Model vektorskog prostora / vektorsko pretraživanje:Modeli vektorskog prostora:-Koristi se matematički pojam vektora-U vektor ulaze pojmovi: riječi ili fraze (izričaji)-Svaki pojam (riječ) postaje dimenzijom u vektorskom prostoru, vektori se smatraju neovisnim (ortogonalnim)-Bilo koji tekst se reprezentira vektorom-Ako tekst sadrži pojam (riječ), dobiva ne-nula vrijednost u dimenziji kojoj pojam pripada-Kako svaki tekst ima ograničen skup pojmova (riječi), a vokabular može imati i milijun pojmova, većina vektora je slabo popunjena.- Pr. Vokabular ima 10 riječi: ekonomska, društvena, tehnička, prirodna, znanost, jest, nije, nikako, pripada, uvijek. Dokument ima sljedeći tekst:Ekonomska znanost jest društvena znanost”.Vektor dokumenta:{1,1,0,0,1,1,0,0,0,0}).

Pretraživanje u modelu vektorskog prostora:Popis pojmova (riječi) po kojima se pretražuje tvori vektor upita Q. Izračunava se udaljenost između vektora upita Q i vektora svakog dokumenta u bazi dokumenata. Ispisuju se dokumenti čija je udaljenost od upita manja od zadanog praga P. Dokumenti se rangiraju po relevantnosti (najprije se ispisuju relevantni dokumenti, bliži upitu). *Kosinus (kosinusna udaljenost, korelacija) dvaju vektora. * Kosinus ima svojstvo da vrijednost 1,0 imaju identični vektori, a 0,0 imaju ortogonalni (potpuno različiti) vektori.

7. Latentno semantičko indeksiranje (pretraživanje) (Latent Semantic Indexing, LSI):a) Obično pretraživanje po riječima: dokument sadrži traženu riječ ili ne (nema sredine).b) LSI ispituje dokument kao cjelinu : gleda koji drugi dokumenti imaju iste riječi (dokumenti koji imaju puno istih riječi su semantički slični), u semantički sličnim dokumentima pronalazi i druge riječi po kojima pretražuje, ovaj jednostavan pristup korelira s načinom ljudskog pristupa – iako LSI algoritam ne razumije sadržaj, daje dojam inteligentnog pronalaženja sličnih dokumenata.Primjer: traženje po riječima, De Morganovo pravilo daje dokumente koji sadrže tu frazu (kao obično pretraživanje), pronalazi i druge slične dokumente, jer se uz De Morganovo pravilo našlo da su i riječi logička varijabla semantički bliske, pa su pronađeni i dokumenti s tim riječima)

8. Koja je razlika između pretraživanja tražilicama i katalogom?Tražilice na Webu (search engines, index servers) pretraživanjem indeksa (kazala) pronalaze se dokumenti. Metode pretraživanja: ključne riječi kombinirane logičkim operacijama, rangiranje dokumenata. Indeks se konstantno obnavlja (pr. tražilice: Google, AltaVista).Katalozi na Webu (subject trees, directories) =hijerarhijski uređeni katalozi Web dokumenata (pr. katalozi: Yahoo!)??Oni kvalificiraju resurse po temama (koje se dijele na podteme, koje se dalje mogu dijeliti), imaju mogućnost internog pretraživanja kataloga (nema smeća). Nedostatak: ručno održavanje (pojedine dijelove ne održavaju profesionalci), nemogućnost praćenja broja promjenjivih resursa (jer katalozi sadrže URL adrese mrežnih resursa), sadrže i zastarjele informacije.

9. Ciljevi relacijske baze podataka?Nezavisnost podataka, konzistentno semantičko postupanje s podacima, eliminacija redundancije (zalihosti) podataka, skupovno orijentiran jezik za obradu podataka, bogat model podataka za opis i obradu jednostavnih i kompleksnih podataka.

Page 3: BAZE PODATAKA - Superskripta

10. Domena i atribut (+ primjeri)Domena je imenovani skup vrijednosti (pr. Naziv_dana_u_tjednu ={ponedjeljak, utorak, srijeda, četvrtak, petak,subota, nedjelja}, Datum_u_mjesecu = {1..31}, Ime_prezime_studenta {Ivan Horvat,Ana Perić}, Naziv_predmeta {Matematika, Fizika, Kemija})Atribut je imenovani stupac relacije. Atribut poprima jednu vrijednost iz pripadnedomene (pr. U relaciji STUDENT_PREDMET atributi IME_PREZIME_STUDENTA i NAZIV_PREDMETA pripadaju istoimenim domenama Ime_prezime_studenta i Naziv_predmeta).

11. Relacija i obilježjaRelacija je imenovani podskup Kartezijevog produkta domena D1,D2,...,Dn: (D1,D2,...,Dn) = {(d1,d2,...,dn): diєDi za 1 i n}.Relacija – tablica -> prikazuje se dvodimenzionalnom tablicom. Redak je odgovor 1 n-točki, a stupac jednoj domeni. Podaci se nalaze u relacijama tj. tablicama. Relacija znači veza, odnos.Redak u tablici = entitet (objekt), stupac u tablici = atribut (obilježje) entiteta.Osnovne značajke relacije: ne postoje dva jednaka stupca, redoslijed stupaca nije bitan,ne postoje dva jednaka retka, redoslijed redaka nije bitan.

12. Što je relacijska baza podataka?Skup međusobno ovisnih podataka, spremljenih bez redundancije (zalihosti), koji služe jednoj ili više aplikacija na optimalan način, gdje su podaci neovisni o programima kojima seobrađuju i gdje postoji kontrolirani pristup podacima, = skup relacija definiranih relacijskom shemom b.p, baza strukturiranih (formatiranih) podataka.

13. Krakteristike relacijske baze podataka?Sadrži podatke različitih objekata poslovnog sustava (poslovni partneri, projekti, proizvodi, usluge, fakture, narudžbe). Baza podataka je formatizirana baza , baza stukturiranih podataka. To znači da ima definiranu strukturu, oblik: tablice, slogovi, polja, niz znakova. Podaci se nalaze u relacijama tj.tablicama. redak u tablici=entitet(objekt), stupac u tablici=atribut(obilježje)entiteta

14. Ključevi u relacijskoj bazi podataka (primarni i strani ključ)Primarni ključ je izabrani minimalni ključ, odnosno atribut ili skup atributa čijim se podacima može jednoznačno identificirati svaki redak u tablici (relaciji). Npr. atribut Šifra kupca je primarni ključ u tablici Kupci.Strani ili vanjski ključ i služi za povezivanje jedne relacije (tablice) s drugom relacijom (tablicom) u kojoj je on primarni ključ (i u njoj mora postojati). Taj se odnos naziva referencijski integritetom.

15. Što je referencijski integritet?Relacijska b.p. sadrži primarni i sekundarni ključ, referencijski integritet povezuje odnos između ta dva ključa. Postignuti tj.ostvareni referencijski integritet je ostvareni odnos između stranog i primarnog ključa, odnosno kada strani (vanjski) ključ upućuje na postojeći primarni ključ. Narušeni referencijski integritet postoji kada strani ključ upućuje na primarni ključ koji ne postoji. (npr.narušen ref.integ. kada je izbrisan redak u tablici).

16. Relacijska shema baze podataka (kako se opisuje/notira relacijska shema?)Relacijska shema baze podataka = definicija baze podataka: nazivi relacija (tablica) i popis atributa koji ulaze u sastav relacija. Relacijska shema baze podataka jest skup različitih relacijskih shema. Dvije su relacijske sheme različite ako su im skupovi atributa različiti. Relacijska baza podataka je skup relacija definiranih relacijskom shemom baze podataka.(Pr. Relacijska shema baze podataka: Narudžbe (BrojNarudžbe, DatumNarudžbe, ŠifraDobavljača, Temelj, NaslovIsporuke, NačinPlaćanja, RokIsporuke, NačinOtpreme, ŽiroRačun), Dobavljači (ŠifraDobavljača, NazivDobavljača, AdresaDobavljača))

Page 4: BAZE PODATAKA - Superskripta

Relacijska shema baze podataka dobiva se iz konceptualnog modela prema pravilima: Entitet relacija, Atribut, Veza.

17. Fizički model relacijske baze podataka+ fizičko modeliranje b.p = kreiranje tablice, punjenje podataka u tablice, smještaj podataka na fizički medije.Fizički model: smještaj podataka na fizičkom mediju i pristupanje tim podacima.Izrada fizičkog modela, fizička uspostava baze podataka i održavanje baze podataka vrši se kroz održavanje (administriranje) baze podataka (obavlja ga administrator baze podataka).

18. SQLUpitni jezik – neproceduralni. Ne opisuje postupak, nego uvjete rješenja. SQL – standardni jezik za rad s relacijskom bazom podataka. Najvažnija naredba: select.SQL – kompletan jezik za rad s relacijskom bazom podataka. Skupine naredbi: naredbe za operacije s podacima, naredbe za definiranje baze podataka, naredbe za upravljanje (uspostavljanje indeksa, kontroliranje pristupa bazi ...). Standardi : SQL-89: standardiziran 1986., modificiran 1989., SQL-92, SQL3: veliki standard objavljen u dijelovima.Naredbe: SELECT ( ispis čitave relacije, ispis atributa jedne relacije, selekcija n-torki jedne relacije...

19. Inmonova definicija skladišta podataka?Skladište podataka je usmjeren području, integriran, vremenski određen i nepromjenjiv niz podataka. Usmjeren području znači da podacima pokriva čitavo poslovno područje Integriran znači da se podaci (iz različitih izvora - svobuhvatni) jednom definiraju i spremaju. Vremenski određeni znači da određuju vremensku perspektivu jer se podaci spremaju kao vremenske serije, kasnije su vrem analize vrlo značajne. Nepromjenjivi znači bez operativnog ažuriranja podataka.

20. Objasni svojstvo nepromjenjivosti podataka u skladištu?Nepromjenjivi podaci, znači da nema operativnog ažuriranja podataka, odnosno u operativnoj bazi se odvija umetanje, promjena i brisanje te učitavanje kojim se dokumenti umeču odnosno učitavaju u skladište podataka koje nam omogućuje samo čitanje. Jednom uneseni podaci u skladište podataka dakle se ne mijenjaju već se samo nadopunjuju i osvježavaju. Te promjene su različite od promjena u bazama podataka, a nakon određenog vremena, podaci se iz skladišta također brišu ili arhiviraju.

21. Objasni promjene u skladištu podataka?Iz operativne b.p. podaci se prvo učitavaju u skladište podataka, nakon toga operativna b.p. omogućuje nam više puta (u predavanjima 3X) osvježavanje ( nadopunjavanje??) i slanje tih osvježenih podataka u skladište podataka, te nakon osvježavanja postoji mogućnost brisanja ili arhiviranja podataka iz skladišta podataka.

22. Objasni krivulje korištenja CPU operativne obrade i skladišta podataka?Operativni sustav (relacijska baza) je previdljiv, skladište podataka je varijabilno i nepredvidivo. Odnosno korištenje cpu je ili malo ili veliko kod operativnih sustava, dok kod skladišta podataka krivulja stalno varira, malo raste, malo pada.

23. Objasni karakteristike podataka kod skladišta podataka?-Podaci su organizirani i orijentirani na određeno područje i POTPORA SU ODLUČIVANJU. -Podaci su konzistentni (integrirani iz raznih aplikacija), -istovremeno obuhvaća i agregirane i detaljne podatke, -podaci obuhvaćaju višegodišnje razdoblje i koriste se za trend analize, predviđanje i usporedbe u vremenu (vremenske serije)-jednom uneseni podaci se ne mijenjaju već nadopunjuju (nepromjenjivost podataka).

Page 5: BAZE PODATAKA - Superskripta

24. Vanjski izvori podataka?a) podaci konkurentnosti (proizvodi, usluge, promjene konkurentnih poduzeća …),b) ekonomski podaci (valutne promjene, politički indikatori, promjene kamata, burzovni pod.…), c) strukovni podaci (tehnološki, marketinški trendovi …), d) financijski podaci, robni podaci (cijene sirovina..), e) ekonometrijski podaci (prihodi pojedinih skupina, ponašanje kupaca …), f) psihometrijski podaci (profiliranje kupaca …), g) meteorološki, demografski marketinški podaci.vanjski izvori podataka se kasnije šalju u skladište podataka??

*Izvori podataka - unutarnji podaci:a)Sustav za obradu transakcija:– financijski podsustavi (glavna knjiga …)– logistički podsustavi (planiranje materijala, nabava...)– podsustavi prodaje– podsustavi proizvodnje (upravljanje i kontrola proizvod.,praćenje radnih naloga, praćenje projekata…)– podsustavi ljudskih resursa (plaće, radna mjesta,...),b)Sustav za potporu upravljanju (planovi, odluke,pravilnici i sl.)c)Sustav za potporu komunikaciji i suradnji ( npr. elektronička pošta i sl.)

25. Što je dimenzija, a što mjera u dimenzijskoj strukturi podataka?Dimenzijska struktura podataka omogućuje promatranje poslovnih pojava kroz dimenzije. -Razumljiv pogled na podatke u bazi podataka, jednostavno postavljanje poslovnih pitanja (upita), npr. koliki je prihod od prodaje bezalkoholnih pića u Zagrebu u 2006.g.Dimenzije imaju svoje pozicije po kojima se mogu kategorizirati (npr. pozicije dimenzije Vrijeme su: 1.1.2007.,2.1.2007.,...31.12.2007., pozicije 1.2. i 3.mjeseca mogu se kategorizirati u 1.kvartal itd.) Hijerarhija - detaljizirano i agregirano promatranje pojava. Vrijednost ili mjera - kvantitativno obilježje pojave (Npr. broj prodanih komada, iznos prihoda od prodaje, iznos troškova prodaje, itd.). Podaci mjera su zbrojivi (npr. iznos prihoda od prodaje po danima može se zbrojiti u iznos prodaje u jednom mjesecu)

26. Nabroji operacije na dimenzijskom modelu podataka / dimenzijske analitičke operacije / osnove analitičke operacije /

Operacije na dimenzijskom modelu podataka: rotacija, selektiranje, detaljiiranje i agragiranje.Rotacija – ili pivotiranje, zamjena orijentacije dimenzije, isticanje neki dimenzija u prvi plan, a ostale su u pozadini.Selektiranje - selektiranje pozicije jedne ili više dimenzija, isticanje je selektiranje (“fiksiranje”) jedne pozicije dimenzije (engl. slice and dice). No istovremno se mogu selektirati pozicije razl. dimenzija.Detaljiziranje - je hijerarhija u pozicijama dimenzije, detaljiziranje - silaženje, svrdlanje (engl. Drill down) po hijerarhiji pozicija jedne dimenzijeAgregiranje - je dizanje (engl. drill up) po hijerarhiji pozicija jedne dimenzije

27. ETL kod skladištenja podataka, i proceduraETL su postupci ekstrakcije i transformacije, skup procesa koji ima za cilj ekstrahirati, odnosno zahvaćati ili vaditi (engl.Extract), transformirati odnosno preoblikovati (engl. Transform) i puniti ili unositi (engl. Load) podatke iz jednog ili višetransakcijskih sustava u skladište podataka.Etl se koristi za migriranje jedne b.p. u dr., za formiranje skladišta podataka, ili pretvaranje b.p iz jednog oblika u drugi.

Page 6: BAZE PODATAKA - Superskripta

28. Komponente access-a:Tablica, upit, izvještaj, obrazac. a) Tablica – u njima se nalaze podaci sadržani u b.p. Skup podataka o jednoj određenoj temi (kupci ili narudžbe). Za bolju organizaciju bolje je imati više tablica. b) Upit – je komponenta b.p. koja se koristi kada je potrebno nali i analizirati određene podatke iz 1 ili više tabela. Mogu se koristiti kao podloga za izvještaje. c) Izvještaj – koristi se kada me potrebno neku grupu podataka pripremiti za ispis. Ne razlikuje se mnogo od obrasca, jedino što je u njemu moguće samo gledati podatke, ali se zato slike mogu lakše dodavati, računati prosjeci i sl. d) Obrazac – služi za grafičko pregledavnje podataka iz tavlica i upita, i da možemo pregledavati povezane podatke iz više tablica. Funkcija obrasca kao komponente b.o. je interakcija s korisnikom. Korisnik ne vidi tablice, već obrasce.

NOVA PITANJA:Zašto se kod skladišta podataka ne koristi operativno ažuriranje podataka?Skladište podataka nam omogućuje samo učitanje, odnosno inkrementalno učitavanje tj radi se o nepromjenjivom nizu podataka, dok se u operativnim bazama podataka odvijaju: umetanje, promjena i brisanje te čitanje te se ti dokumenti zatim učitavaju u skladište podataka.

Kako oblikujemo relacijske baze podataka (3 faze):1. ideja(konceptualni model): objekti poslovnog sustava, atributi,međusobna povezanost objekata2. logički model (relacije): raspored podataka u tablicama3. fizički model: smještaj podataka na fizičkom mediju (tablice)

Sudionici upravljanja sadržajema)Urednik sadržaja - određuje koji de se sadržaj i gdje publiciratib)Publicist sadržaja - publicira sadržajc) Autor(i) sadržaja - stvara sadržaj

Alati za analitičke obrade:Excell, Oracle OLAP, Oracle BI, Business Objects, Cognos.