prona ženje informacija

25
Pronaženje informacija Cvetana Krstev čas 1

Upload: shel

Post on 11-Feb-2016

57 views

Category:

Documents


0 download

DESCRIPTION

Prona ženje informacija. Cvetana Krstev čas 1. Pronalaženje informacija – šta je tu novo?. Engleski termin je Information Retrieval Koje je značenje reči “ retrieval ”? Collins Cobuild: - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Prona ženje informacija

Pronaženje informacija

Cvetana Krstevčas 1

Page 2: Prona ženje informacija

Pronalaženje informacija – šta je tu novo? Engleski termin je Information Retrieval Koje je značenje reči “retrieval”?

Collins Cobuild:If you retrieve sth, you succeed in getting it back from somewhere, especially from the place where you have hidden it or where it should not be. The men were trying to retrieve weapons left when the army abandoned the islandOxford/Hornby:get possession of again: retrieve a lost piece of lagguage

Page 3: Prona ženje informacija

Šta kaže Vikipedija? (stara definicija) Information retrieval (IR) is the science of searching for

documents, for information within documents, and for metadata about documents, as well as that of searching relational databases and the WWW. There is overlap in the usage of the terms data retrieval, document retrieval, information retrieval, and text retrieval, but each also has its own body of literature, theory, praxis, and technologies. IR is interdisciplinary, based on computer science, mathematics, library science, information science, information architecture, cognitive psychology, linguistics, statistics, and physics.

Automated information retrieval systems are used to reduce what has been called „information overload“. Many universities and public libraries use IR systems to provide access to books, journals and other documents. Web search engines are the most visible IR applications.

Page 4: Prona ženje informacija

Šta kaže Vikipedija? (nova definicija) Information retrieval (IR) is the activity of obtaining

information resources relevant to an information need from a collection of information resources. Searches can be based on metadata or on full-text (or other content-based) indexing.

Automated information retrieval systems are used to reduce what has been called "information overload". Many universities and public libraries use IR systems to provide access to books, journals and other documents. Web search engines are the most visible IR applications..

An information retrieval process begins when a user enters a query into the system. Queries are formal statements of information needs, for example search strings in web search engines. In information retrieval a query does not uniquely identify a single object in the collection. Instead, several objects may match the query, perhaps with different degrees of relevancy...

Page 5: Prona ženje informacija

O nastanku discipline Ideja: Ideja da bi se računari mogli koristiti za traženje

relevantnih informacija je u članku As We May Think koji je objavljen 1945. godine u časopisu The Atlantic (pre efektivnog korišćenja računara) popularisao Vannever Bush (Buš)

U ovom radu Buš predstavlja koncept Memex-a, mašine u kojoj bi bio implementiran koncept onoga što danas poznajemo kao hipertekst, verujući da bi takvo otkriće moglo čovečanstvu da pruži „kolektivnu memoriju“, koju bi ono moglo da koristi da ostvari mudrost koja je neophodna da bi se izbeglo korišćenje naučnih otkrića za uništavanje i rat.

Buš je verovao da bi pomoću ove mašine eksplozija informacija mogla da se transformiše u eksploziju znanja.

Page 6: Prona ženje informacija

O nastanku discipline

Termin: IR je skovao i prvi upotrebio Calvin Northrup Mooers zajedno sa terminom “descriptor” u svojoj magistarskoj tezi na MIT-u 1948. godine, a zatim 1950. godine i u radu na ACM konferenciji: The theory of digital handling of non-numerical information and its implications to machine economics

Realizacija: Da bi se prevazišlo zaostajanje za SSSR-om u nauci, u SAD-u počinju početkom 50-tih godina XX veka da se finansiraju istraživanja u oblasti “mechanized literature searching systems” i “citation indexing”

Page 7: Prona ženje informacija

Malo istorije 60-te godine: prvi sistemi za pronalaženje informacija u

kolekcijama manjeg obima (nekoliko hiljada dokumenata). Gerard Selton i sistem SMART (System for the Mechanical Analysis and Retrieval of Text)

70-te godine: Prvi on-line sistemi —NLM's AIM-TWX, MEDLINE (Medical Literature Analysis and Retrieval System); Lockheed's Dialog (prvi sistem velikih dimenzija); SDC's ORBIT

Početak 90-tih godina: Ministarstvo odbrane SAD-a (US Department of Defense), zajedno sa Državnim institutom za standarde i tehnologiju (National Institute of Standards and Technology - NIST), finansiraju konferenciju Text Retrieval Conference (TREC) sa ciljem da se istraživačima u oblasti IR obezbedi potrebna infrastruktura za evaluaciju metodologija za pronaženje tekstualnih informacija u vrlo velikim kolekcijama dokumenata.

Page 8: Prona ženje informacija

Bum 90-tih

1989: Tim Berners-Lee iz CERN-a je sačinio prvi predlog World Wide Web-a.

Kasne 90-te: U mašinama za pretraživanje veba primenjena su mnoga napredna svojstva koja su ranije imali samo eksperimentalni IR sistemi. Mašine za pretraživanje su postale najčešći i najbolji primer za modele, istraživanje i realizaciju u pronalaženju informacija.

Page 9: Prona ženje informacija

Ko je Sir Tim Berners-Lee?

Page 10: Prona ženje informacija

Šta je o njemu mislio britanski “Sun” 1991. godine

Page 11: Prona ženje informacija

Razvoj pojma Pronalaženje informacija Sistemi za pronalaženje dokumenata Sistemi za pronalaženje tekstualnih

dokumenata Savremeno pronalaženje dokumenata Pronalaženje dokumenata s punim tekstom

Sistemi za pronalaženje multimedijalnih dokumenata

Page 12: Prona ženje informacija

Sistemi za pronalaženje dokumenata Prvi sistemi za pronalaženje informacija Njihova svrha je bila da pronađu informacije o

postojanju ili nepostojanju bibliografskih dokumenata koja su relevantni za korisnikov upit. Ova dokumenta uz bibliografske podatke mogu da sadrže ključne reči, apstrakt ili sažetak, itd.

Ovi sistemi ne informišu korisnika, tj. ne menjaju njegovo znanje o temi upita, već mu samo govore da li postoje i gde se nalaze dokumenta koja su vezana za korisnikov zahtev.

Page 13: Prona ženje informacija

Sistemi za pronalaženje tekstualnih dokumenata Pojam pronalaženja informacija se

suštinski promenio kada su počela da se skladište u digitalnom obliku kompletna dokumenta (“pun tekst dokumenata”)

Ovi sistemi mogu da pretražuju ili po bibliografskim podacima ili se u tekstu dokumenta iz uskladištene kolekcije traži tekst koji je korisnik zadao kao upit

Page 14: Prona ženje informacija

Sistemi za pronalaženje multimedijalnih dokumenata Pojam sistema za pronalaženje informacija je

na početku značio pronalaženje tekstualnih informacija

Savremeni multimedijalni sistemi pronalaze multimedijalne informacije što osim teksta, podrazumeva slike, zvuk i pokretne slike.

Mnoge tehnike koje se koriste za pronalaženje tekstualnih informacija se mogu primeniti i na multimedijalna dokumenta, iako su za njih razvijeni mnogi novi alati i tehnike. (Mi se time u okviru ovog kursa nećemo baviti)

Page 15: Prona ženje informacija

Odnos sistema za pronalaženje informacija i sistema za upravljanje bazama podataka Sistemi za upravljanje

(relacionim) bazama podataka Sistemi za rad s bibliografskim

podacima I u njima su sadržane činjenice ali kao

meta-podaci (podaci o podacima) o dokumentima koja se zapravo traže.

Page 16: Prona ženje informacija

Sistemi za upravljanje (relacionim) bazama podataka U njima su sadržane činjenice kao

vrednosti odgovarajućih atributa. Korisnik pretražuje i kao odgovor dobija činjenice (npr. Koja je prosečna starost vozača u autobuskom preduzeću?)

Podaci su u principu obavezni i unapred poznate (maksimalne) dužine

Page 17: Prona ženje informacija

Sistemi za rad s bibliografskim podacima I u njima su sadržane činjenice ali kao meta-podaci

(podaci o podacima) o dokumentima koja se zapravo traže.

I njih je moguće pretraživati po činjenicama (npr. Koliko različitih autora je objavljivalo kod “Prosvete” 1986. godine?)

Ali najčešće se traže podaci koji će pomoći da se pronađu potrebna dokumenta (na polici ili u bazi podataka)

Karakterišu ih neobavezni podaci promenljive dužine. Za njihov opis koriste se formati iz familije MARC

(MAchine Readable Cataloguing)

Page 18: Prona ženje informacija

Sistemi za pronalaženje informacija Traže se dokumenta koja u potpunosti, ali

češće delimično, odgovaraju korisnikovom upitu. (“Interesuju me tekstovi koji govore o maloletničkom nasilju na sportskim terenima”)

Otuda se sistemi za pronalaženje dokumenata sastoje od tri važne komponente: Informacione stavke; Korisnički upiti; Sravnjivanje upita sa bazom podataka

dokumenta

Page 19: Prona ženje informacija

Šta sistem za pronalaženje informacija treba da radi Analizira sadržaj informacionih

izvora kao i korisničkih upita i na osnovu toga

Sravnjuje jedne i druge da bi pronašao one koju su za korisnika relevantni (najrelevantniji).

Page 20: Prona ženje informacija

Na osnovu toga sledi da su glavne funkcije sistema za pronalaženje: Identifikacija informacionih izvora koji su relevantni za

oblast interesovanja ciljne grupe korisnika; Analiza sadržaja informacionih izvora (dokumenata); Reprezentacija sadržaja analiziranih izvora na način

koji bi bio pogodan za sravnjivanje s korisničkim upitima;

Analiza korisničkih upita i njihova reprezentacija u obliku koji bi bio pogodan za sravnjivanje s bazom podataka dokumenata;

Sravnjivanje upitnog iskaza sa uskladištenom bazom; Pronalaženje relevantnih informacija; Potrebno podešavanje odgovora na osnovu odziva

korisnika.

Page 21: Prona ženje informacija

Komponente sistema za pronalaženje informacija Podsistem dokumenata; Podsistem za indeksiranje; Rečnički podsistem; Podsistem za pretraživanje; Korisničko sučelje (interface); Podsistem za sravnjivanje.

Page 22: Prona ženje informacija

Opšti nacrt sistema za pronalaženje

Informacioniizvori

Analiza i reprezentacija

Organizacijainformacija

Korisnikovepotrebe

Analizaupita

Upitni iskazi

sravnjivanjePronađeneinformacije

Page 23: Prona ženje informacija

Tipovi sistema za pronalaženje informacija Kućni sistemi za pronalaženje informacija

služe korisnicima unutar neke organizacije On-line sistemi za pronalaženje

informacija obezbeđuju raznovrsnim korisnicima pristup udaljenim bazama podataka Javno dostupni (npr. OPAC) Pristup na komercijalnoj osnovi

Baze podataka na CD-ROM ili DVD

Page 24: Prona ženje informacija

Zastarevanje digitalnih podataka Korišćenje digitalnih metoda za skladištenje i

pronalaženje informacija je dovelo do fenomena koji je poznat kao zastarevanje digitalnih podataka (digital obsolescence), kada digitalni resurs više ne može da se pročita bilo zato što fizički medij ili uređaj koji ga čita više nije dostupan, ili nije dostupan hardver ili softver koji se na njemu izvršava. Digitalne informacije je na početku lakše pronaći nego one na papiru, ali u jednom trenutku, ako se na vreme ne prenesu na savremeniji medijum, one su potpuno izgubljene.

Page 25: Prona ženje informacija

Primer zastarevanja digitalnog materijala BBC Domesday Project je trebalo da

obeleži 900-tu godišnjicu originalnog dokumenta Domesday Book, koji predstavlja popis stanovništva Engleske iz XI veka. Smešten je na laserskim diskovima (Laser Vision

Read-Only Memory LV-ROM format) – prethodnik CD-ROM

Softver je pisan na programskom jeziku BCPL (prethodnik jezika C)

Slike su bile u analognom formatu (pre nastanka JPEG)

...