systemy wyszukiwawcze

Post on 25-Dec-2014

3.493 Views

Category:

Technology

6 Downloads

Preview:

Click to see full reader

DESCRIPTION

Wykład 3

TRANSCRIPT

Systemy wyszukiwawcze

Dr Stanisław Skórka

Systemy wyszukiwania informacji. Wykład 3

System wyszukiwania informacji• S. wyszukiwawczy, s. informacyjno-

wyszukiwawczy• System przetwarzający informację,

który z informacji wejściowych (dokumentów, stron WWW) tworzy zbiór wyszukiwawczy poprzez odpowiednie transformacje, dokonując w nim przeszukiwania na podstawie określonej dla danego systemu relacji relewancji technicznej (dopasowania instrukcji wyszukiwawczej do elementów zbioru wyszukiwawczego)

Wyszukiwarka

• Usługa sieciowa umożliwiająca odnajdywanie w Internecie dowolnych informacji określonych za pomocą słów kluczowych i operatorów (instrukcji wyszukiwawczych, zapytań)

• baza danych tworzona automatycznie

• ang. search engine

Wyszukiwanie: pojęcia

• wyrażenie – ciąg znaków w postaci słowa lub skrótu,

• słowo kluczowe – wyrażenie odzwierciedlające potrzebę informacyjną zawartą w zadaniu wyszukiwawczym, np. kufi,

• zapytanie – jedno lub więcej wyrażeń skierowanych do wyszukiwarki, mogące zawierać m.in. operatory logiczne lub modyfikatory,

• strona wynikowa – strona WWW zawierająca adresy do dokumentów wzbogacone streszczeniem ich zawartości odpowiadającej wysłanemu zapytaniu (trafienia).

Wyszukiwanie według użytkownika

ZapytanieInstrukcja wyszukiwawcza

ZapytanieInstrukcja wyszukiwawcza

Czarna magia

(przetwarzanie)

WynikInformacja wyjściowa

WynikInformacja wyjściowa

S.w. wczoraj

1996 r.

2007 r.2007 r.

1994 - powstaje WebCrawler prekursor dzisiejszych wyszukiwarek

Posługiwanie się wyszukiwarką do odnajdywania informacji uznaje się

za tradycyjną metodę poszukiwania, gdyż stosowana jest od wielu lat w bazach danych oraz

zintegrowanych systemach bibliotecznych…

…jednak jej skuteczność nie jest tak wysoka. Powodem jest brak jednolitej

struktury dokumentów hipertekstowych, w przeciwieństwie

do baz danych, zbudowanych z rekordów, pól i podpól oraz

przechowywanie w swojej strukturze wielu form przekazu (tekst, grafika

i dźwięk).

Anatomia s.w.

Morville, Rosenfeld, s. 163

Elementy budowy wyszukiwarki

• robot (pajączek), który jest programem przeszukującym strony internetowe i umieszczającym je w bazie danych wyszukiwarki

• baza danych (indeks), przechowuje strony znalezione przez pajączka

• moduł wyszukujący, przegląda bazę danych w poszukiwaniu stron odpowiadających zapytaniu użytkownika

Działanie wyszukiwarki Indeksowanie

Architektura informacji a wyszukiwanie

1. Interfejs2. Strefy wyszukiwania3. Metody przeszukiwania4. Prezentacja wyników5. Efektywność wyszukiwania

1. Interfejs

Interfejsy proste

Interfejsy zaawansowane

2. Strefy wyszukiwania

• podzbiory serwisu indeksowane oddzielnie

• możliwość zwiększenia precyzji wyszukiwania

• zaczerpnięte z baz danych (pola indexowane)

Kryteria wyboru

• typ zawartości• audytorium• rola / funkcja• geografia• chronologia• autor• dział / jednostka organizacyjna

Strefy wyszukiwania

3. Metody przeszukiwania

Modele klasyczne

• boolowskiboolowski: oparty na algebrze Boole’a, dokumenty i zapytania reprezentowane są przez terminy indeksowe (dokumenty relewantne i nierelewantne)

• zalety: jasno sformułowane kryteria przeszukiwnia

• wady: zbyt dokładne dopasowywanie, przejawiające się zbyt małą lub zbyt dużą liczbą trafień

Modele klasyczne

wektorowy: dokumenty i zapytania uważane są za wektory w wielowymiarowej przestrzeni (stosuje tzw. dopasowanie częściowe)

• zalety: stosuje schemat tzw. ważenia terminów, częściowe dopasowanie pozwala odszukać dokumenty przybliżone tematyką do zapytania, jest elastyczny w stosowaniu strategii rankingowej

• popularny wśród projektujących

Modele

probabilistyczny: oparty na teorii prawdopodbieństwa,

• zaleta: porządkuje wyniki według prawdopodobnej relewancji

• wady: konieczność rozpoznawania dokumentów relewantnych od nierelewantnych, nie analizuje frekwencyjności terminów w treści,

4. Prezentacja wyników

Metody porządkowania trafień

• Sortowanie

wg kryteriów formalnych: chronologicznie, alfabetyczne

• Ranking

oparty na ocenie zgodności z zapytaniem

Elementy składowe trafienia

• nagłówek (link)• opis (2-3 wiersze)• adres URL

Prezentacja wyników

Prezentacja wyników (2)

5. Skuteczność wyszukiwania

5. Skuteczność wyszukiwania

odpowiedź = liczba wyszukanych relewantnych dokumentów / liczba wszystkich relewantnych dokumentów

precyzja = liczba wyszukanych relewantnych dokumentów / liczba wszystkich wyszukanych dokumentów

Opcje, ułatwienia

Wskazówki

• Użytkownicy oczekują od wyszukiwarek:– pola do wpisania instrukcji

wyszukiwawczej– przycisku z etykietą Szukaj– listy najlepszych wyników, ułożonych

liniowo i ws sposób priorytetowy na nowej stronie

Wskazówki (2)

• Pole wyszukiwania (hasłowe) powinno mieć szerokość 27 znaków, co zapewni 90% uzytkownikom wpisanie całej instrukcji wyszukiwawczej

• niewielu użytkowników używa opcji wyszukiwania zaawansowanego – unikaj jej na pierwszej stronie

• Stosuj opcję Czy chodziło ci o…• Użytkownicy najczęściej stosują zapytania

złożone – uwzgledniaj to w sekcji opisie strony

• Zasada „Najlepszego strzału” (nazwa produktu, nazwisko dyrektora, nazwa kategorii)

• Specjalista od SEO (Search Engine Optimization)

• Sztuczki oszustów (cloacking, spam wyszukujący, fałszywe komentarze, farmy odnośników)

Wskazówki (3)

Literatura

1. J. Nielsen, H. Loranger, Optymalizacja funkcjonalności serwsów internetowych. Gliwice 2007.

2. R. Baeza-Yates, B.Ribeiro-Neto, Modern Information Retrieval. Addison Wesley 1999.

3. L. Rosenfeld, P. Morville, Architektura informacji…, s. 159-206.

• Wykład prof. R. Tadeusiewicza: http://www.ap.krakow.pl/iinib/spai/wyklady/

top related