bby 220 - bilgi erişim İlkeleri

36
1 BBY 220 - Bilgi Erişim İlkeleri Erişim Fonksiyonları: Vektör Uzayı Modeli

Upload: santa

Post on 04-Jan-2016

118 views

Category:

Documents


5 download

DESCRIPTION

BBY 220 - Bilgi Erişim İlkeleri. Erişim Fonksiyonları: Vektör Uzayı Modeli. Erişim Fonksiyonu: Vektör Yaklaşımı. Ters Dizin Kütüğünde bulunan her bir doküman bir vektör olarak düşünülebilir. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: BBY 220 - Bilgi Erişim İlkeleri

1

BBY 220 - Bilgi Erişim İlkeleri

Erişim Fonksiyonları: Vektör

Uzayı Modeli

Page 2: BBY 220 - Bilgi Erişim İlkeleri

2

Erişim Fonksiyonu: Vektör Erişim Fonksiyonu: Vektör Yaklaşımı Yaklaşımı

Ters Dizin Kütüğünde bulunan her bir doküman bir vektör olarak düşünülebilir.

Örnek kütükte, D1,D2…D6 ve Q1

aynı boyutlarda vektörler olarak düşünülebilir. Vektörlerdeki her bir indis aynı dizin terimini ifade etmektedir.

Eğer kullanıcı sorgusunu da bir vektör olarak ifade edersek vektörel işlemlerle sorgu ve belgelerin benzerliklerini belirlemek mümkündür.

Terimler Dokümanlar Sorgu

D1 D2 D3 D4 D5 D6 Q1

bilgi 1 1 0 0 0 0 1

erişim 1 0 0 0 0 0 1

dizinleme 1 0 0 0 0 0 0

sanal 0 1 0 0 0 0 0

dünyada 0 1 0 0 0 0 0

kütüphane 0 0 1 0 0 0 0

ve 1 1 1 0 0 1 0

veri 0 0 1 0 0 0 0

saklama 0 0 1 0 0 0 0

dünyada 0 0 0 1 0 0 0

ekonomik 0 0 0 1 1 0 0

durum 0 0 0 1 0 0 0

günlük 0 0 0 0 1 0 0

veriler 0 0 0 0 1 1 0

haftalık 0 0 0 0 0 1 0

veya 0 0 0 0 0 1 0

günlük 0 0 0 0 0 1 0

mal 0 0 0 0 0 1 0

Page 3: BBY 220 - Bilgi Erişim İlkeleri

3

Vektörler Vektörler

Uzunluk, alan ve hacim gibi büyüklüklerin yanlızca bir gerçel sayı ile belirtilmelerine karşın, özellikle fizikten gelen ivme, hız, kuvvet gibi nicelikleri belirlemek için bir gerçel sayı yeterli değildir.

İkinci türden niceliklerin bir yönü, doğrultusu, büyüklüğü ve uygulama noktası vardır. Bu büyüklükler için yönlendirilmiş doğru parçaları kullanılır.

Bir düzlemde, yönü, doğrultuları ve büyüklükleri olan yönlendirilmiş doğru parçalarına vektör denir.

http://www.aof.anadolu.edu.tr/kitap/IOLTP/2288/unite03.pdf

Page 4: BBY 220 - Bilgi Erişim İlkeleri

4

Vektörler Vektörler İki Vektörün Eşitliği: İki vektörün eşit olması için gerek ve yeter koşul bu iki vektörün

karşılıklı bileşenlerinin eşit olmasıdır.

http://www.aof.anadolu.edu.tr/kitap/IOLTP/2288/unite03.pdf

İki Vektörün Toplamı: İki vektörün toplamı, bu iki vektörün karşılıklı koordinatlarının toplanmasıyla elde edilir.

Bir vektörün gerçel bir sayıyla çarpılması: İki vektörün toplamı, bu iki vektörün karşılıklı koordinatlarının toplanmasıyla elde edilir.

Page 5: BBY 220 - Bilgi Erişim İlkeleri

5

Vektörler: Toplama Örneği Vektörler: Toplama Örneği

http://www.aof.anadolu.edu.tr/kitap/IOLTP/2288/unite03.pdf

Page 6: BBY 220 - Bilgi Erişim İlkeleri

6

Vektörler: Vektörler: Bir Vektörün BoyuBir Vektörün Boyu

http://www.aof.anadolu.edu.tr/kitap/IOLTP/2288/unite03.pdf

Başlangıç noktası R ve bitiş noktası S olan vektörünün boyu bu iki nokta arasında kalan uzaklıktır.

Vektörün boyu yerine vektörün büyüklüğü, vektörün uzunluğu ve vektörün normu terimleri de kullanılır ve biçiminde gösterilir. Vektörün boyu aşağıdaki gibi hesaplanır.

RS

|| RS

Özel olarak bir R(r1,r2) yer vektörünün boyu aşağıdaki gibi hesaplanır.

Page 7: BBY 220 - Bilgi Erişim İlkeleri

7

Vektörler: Vektörler: Bir Vektörün BoyuBir Vektörün Boyu Örneği Örneği

http://www.aof.anadolu.edu.tr/kitap/IOLTP/2288/unite03.pdf

Page 8: BBY 220 - Bilgi Erişim İlkeleri

8

Vektörler: İki Vektörün Skaler ÇarpımıVektörler: İki Vektörün Skaler Çarpımı

http://www.aof.anadolu.edu.tr/kitap/IOLTP/2288/unite04.pdf

Page 9: BBY 220 - Bilgi Erişim İlkeleri

9

Skaler Çarpımın Özellikleri: Vektörün Skaler Çarpımın Özellikleri: Vektörün NormuNormu

http://www.aof.anadolu.edu.tr/kitap/IOLTP/2288/unite04.pdf

Page 10: BBY 220 - Bilgi Erişim İlkeleri

10

Skaler Çarpımın Özellikleri: İki vektör Skaler Çarpımın Özellikleri: İki vektör arasındaki açıarasındaki açı

http://www.aof.anadolu.edu.tr/kitap/IOLTP/2288/unite04.pdf

Page 11: BBY 220 - Bilgi Erişim İlkeleri

11

Skaler Çarpımın Özellikleri: İki vektör Skaler Çarpımın Özellikleri: İki vektör arasındaki açı örneği 1arasındaki açı örneği 1

http://www.aof.anadolu.edu.tr/kitap/IOLTP/2288/unite04.pdf

Page 12: BBY 220 - Bilgi Erişim İlkeleri

12

Skaler Çarpımın Özellikleri: İki vektör Skaler Çarpımın Özellikleri: İki vektör arasındaki açı örneği 2arasındaki açı örneği 2

)0,0,1(),1,1,1(),1,0,1(

cba

Verilen a,b ve c vektörleri için bir birine en yakın olanlar hangileridir.

816,045,2

2

6

2

32

2

111101

)1.11.01.1(

||||

.cos

222222

ba

ba

707,0414,1

1

2

1

12

1

001101

)0.10.01.1(

||||

.cos

222222

ca

ca

577,0732,1

1

3

1

13

1

001111

)0.10.11.1(

||||

.cos

222222

cb

cb

Bir birine en yakın olan vektörler a ve b, neden?

Page 13: BBY 220 - Bilgi Erişim İlkeleri

13

Benzerlik Ölçüsü (ya da skoru)Benzerlik Ölçüsü (ya da skoru)

Vektörler arasında hesaplanan cos Ø değeri açıyı değil açısının cos değerini gösteriyor.

Ø açsı büyüdükçe açının cos değeri küçülüyor. O zaman cos Ø değeri ne kadar büyükse vektörler bir birine o kadar yakındır diyebiliriz.

Vektörler arasındaki cos Ø değeri iki vektörün bir birine ne kadar yakın olduğunu gösterir.

İki vektör arasındaki açının cosinüsünün 1.0 çıkması iki vektörün aynı ya üst üste olduğunu gösterir. Yani aralarındaki Ø açısı 0(sıfır).

Vektörler arasındaki bu açı Bilgi Erişim alanında benzerlik ölçüsü (similarity) olarak adlandırılır.

Page 14: BBY 220 - Bilgi Erişim İlkeleri

14

Benzerlik Ölçüsü (ya da skoru)Benzerlik Ölçüsü (ya da skoru)

O zaman vektörler arasındaki bu ilişki ters dizin kütüğü üzerinde de kullanılabilir.

Derlemde bulunan her bir belge ve her bir sorgu birer vektör olarak düşünülür.

Vektör elemanları ters dizin kütüğünde bulunan tekil kelimelerden oluşturulur.

Vektör katsayıları kullanılan modele göre değişiyor.

Örneğin bool modelinde katsayılar 1 ve 0 oluyor.

Örneğimizde her bir vektörün eleman sayısı = derlemdeki tekil kelime sayısı = 18

Tüm vektörler eşit eleman sayısında olmak zorunda.

Terimler Belgeler Sorgu

D1 D2 D3 D4 D5 D6 Q

bilgi 1 1 0 0 0 0 1

erişim 1 0 0 0 0 0 1

dizinleme 1 0 0 0 0 0 0

sanal 0 1 0 0 0 0 0

kütüphane 0 0 1 0 0 0 0

ve 1 1 1 0 0 1 0

veri 0 0 1 0 0 0 0

saklama 0 0 1 0 0 0 0

dünyada 0 1 0 1 0 0 0

ekonomik 0 0 0 1 1 0 0

durum 0 0 0 1 0 0 0

günlük 0 0 0 0 1 0 0

veriler 0 0 0 0 1 1 0

haftalık 0 0 0 0 0 1 0

veya 0 0 0 0 0 1 0

günlük 0 0 0 0 0 1 0

mal 0 0 0 0 0 1 0

Page 15: BBY 220 - Bilgi Erişim İlkeleri

15

Benzerlik Ölçüsü (ya da skoru)Benzerlik Ölçüsü (ya da skoru)

Sorgu (“bilgi erişim”) ve D1, D2, D3 belgeleri arasındaki benzerlik skorları nedir?

Terimler Belgeler Sorgu

D1 D2 D3 D4 D5 D6 Q

bilgi 1 1 0 0 0 0 1

erişim 1 0 0 0 0 0 1

dizinleme 1 0 0 0 0 0 0

sanal 0 1 0 0 0 0 0

dünyada 0 1 0 0 0 0 0

kütüphane 0 0 1 0 0 0 0

ve 1 1 1 0 0 1 0

veri 0 0 1 0 0 0 0

saklama 0 0 1 0 0 0 0

dünyada 0 0 0 1 0 0 0

ekonomik 0 0 0 1 1 0 0

durum 0 0 0 1 0 0 0

günlük 0 0 0 0 1 0 0

veriler 0 0 0 0 1 1 0

haftalık 0 0 0 0 0 1 0

veya 0 0 0 0 0 1 0

günlük 0 0 0 0 0 1 0

mal 0 0 0 0 0 1 0

707,08

2

11*1111

11),(

2222221

QDsim

354,08

1

11*1111

1),(

2222222

QDsim

011*1111

0),(

2222223

QDsim

Page 16: BBY 220 - Bilgi Erişim İlkeleri

16

Benzerlik Ölçüsü (ya da skoru)Benzerlik Ölçüsü (ya da skoru)

Terimler Belgeler Sorgu

D1 D2 D3 D4 D5 D6 Q

bilgi 1 1 0 0 0 0 1

erişim 1 0 0 0 0 0 1

dizinleme 1 0 0 0 0 0 0

sanal 0 1 0 0 0 0 0

dünyada 0 1 0 0 0 0 0

kütüphane 0 0 1 0 0 0 0

ve 1 1 1 0 0 1 0

veri 0 0 1 0 0 0 1

saklama 0 0 1 0 0 0 0

dünyada 0 0 0 1 0 0 0

ekonomik 0 0 0 1 1 0 0

durum 0 0 0 1 0 0 0

günlük 0 0 0 0 1 0 0

veriler 0 0 0 0 1 1 0

haftalık 0 0 0 0 0 1 0

veya 0 0 0 0 0 1 0

günlük 0 0 0 0 0 1 0

mal 0 0 0 0 0 1 0

Sorgu (“bilgi veri erişim”) olursa sorgu ve D1, D2, D3 belgeleri arasındaki benzerlik skorları ne olur?

577,012

2

111*1111

011),(

22222221

QDsim

289,012

1

111*1111

001),(

22222222

QDsim

289,012

1

111*1111

010),(

22222223

QDsim

Sadece “bilgi” ve sadece “veri” terimlerinin kesiştiği durumda aynı benzerlik skoruna erişildi (0,289).

Sorgu ve D1 belgesi arasındaki benzerlik skoru düştü, neden?

Page 17: BBY 220 - Bilgi Erişim İlkeleri

17

Bool Ağırlıklandırma (0-1) ProblemleriBool Ağırlıklandırma (0-1) Problemleri

Bool modelindeki en büyük problem doküman belge eşleşmeleri için bir derece (rank) belirlenememesiydi.

Vektör yaklaşımı ile bu bir nebze giderildi.

Şimdi problem belge içerisindeki her terimin aynı önemle değerlendirilmesi. Oysa bir kelime bir belge içerisindeki ne kadar çok geçiyorsa o belge için o kadar değerlidir.

Diğer taraftan bir terim derlemdeki belgelerde ne kadar çok geçiyorsa ayırt edici olma olasılığı o kadar düşüktür.

O halde bir belge içinde çok geçen ancak derlemde çok sayıda belgede bulunmayan terimler bizim için daha anlamlı bu nedenle erişim fonksiyonunda bu tür terimler daha değerli olmalı ama nasıl?

Page 18: BBY 220 - Bilgi Erişim İlkeleri

18

tf*idf ağırlıklandırmatf*idf ağırlıklandırma

Ters dizin kütüğünde terimler için 0/1 ağırlığı yerine tf(w)*idf(w) çarpımı kullanılır.

tf (term frequency): Terim sıklığı anlamına gelir ve bir terimin bir belge içerisindeki geçeme sayısını ya da sıklığını (frequency) ifade eder. tf değerini hesaplamak için 2 yöntem var:

• Birincisinde; terimin ilgili doküman içerisinde geçme sayısı doğrudan kullanılır,• İkincisinde; terimin ilgili doküman içerisinde geçme sayısı, ilgili dokümandaki

toplam kelime sayısına bölünür ve sayı normalleştirilir.

idf (inverse document frequency): Ters doküman sıklığı anlamına gelir ve bir terimin derlemdeki diğer belgelerde geçme sıklığını ifade eder.

• idf hesaplanırken aşağıdaki formül kullanılır,• NDerlemde bulunan toplam belge sayısı• df(w) w teriminin geçtiği belge sayısı• Ölçeği küçültmek için bölümün logaritması alınır

10( ) log( )

Nidf w

df w

Page 19: BBY 220 - Bilgi Erişim İlkeleri

19

tf*idf ağırlıklandırmatf*idf ağırlıklandırma

• Bir terim bir belge içerisinde ne kadar çok geçiyorsa o kadar değerlidir.• Bir terim derlemdeki diğer belgelerde ne kadar çok geçiyorsa belge için ayırt edici

olma gücü o kadar düşüktür.

log(1) = 0log(10) = 1log(100) = 2log(1000) = 3log(10000) = 4

log(5,67) = ?log(128,4) = ?log(18912) = ?

1000 adet belgenin bulunduğu bir derlemde idf değerleri:

Page 20: BBY 220 - Bilgi Erişim İlkeleri

20

tf*idf ağırlıklandırma örneğitf*idf ağırlıklandırma örneği

“bilgi” teriminin D1 belgesi için tf ve idf değerleri nedir?

• tf(“bilgi”) = 2• idf(“bilgi”)=log(6/2) = 0,477• tf(“bilgi”)*idf(“bilgi”) = 0,954

Derlemdeki Belgelerimiz: D1 : bilgi erişim ve bilgi dizinlemeD2 : sanal dünya ve bilgiD3 : kütüphane ve veri saklamaD4 : dünyada ekonomik durum D5 : günlük ekonomik verilerD6 : haftalık mali ve günlük mali veriler

“ve” teriminin D6 belgesi için tf ve idf değerleri nedir?

• tf(“ve”) = 1• idf(“ve”)=log(6/4) = 0,176• tf(“ve”)*idf(“ve”) = 0,176

“mali” teriminin D6 belgesi için tf ve idf değerleri nedir?

• tf(“mali”) = 2• idf(“mali”)=log(6/1) = 0,778• tf(“mali”)*idf(“mali”) = 1,556

Örnekler içinde en değerli kelime hangisi? Neden?

Page 21: BBY 220 - Bilgi Erişim İlkeleri

21

tf*idf ağırlıklandırma ve ters dizin tf*idf ağırlıklandırma ve ters dizin kütüğükütüğü

Derlemdeki terimlere göre ters dizin kütüğündeki terim ağırlıklarını D1 için güncelleyelim.

Derlemdeki Belgelerimiz: D1 : bilgi erişim ve bilgi dizinlemeD2 : sanal dünya ve bilgiD3 : kütüphane ve veri saklamaD4 : dünyada ekonomik durum D5 : günlük ekonomik verilerD6 : haftalık ve günlük mali veriler

Terimler Dokümanlar Sorgu

D1 D2 D3 D4 D5 D6 Q

bilgi 0,954 0,477 0 0 0 0 1

erişim 0,778 0 0 0 0 0 1

dizinleme 0,778 0 0 0 0 0 0

sanal 0 1 0 0 0 0 0

dünyada 0 1 0 0 0 0 0

kütüphane 0 0 1 0 0 0 0

ve 0,176 1 1 0 0 1 0

veri 0 0 1 0 0 0 0

saklama 0 0 1 0 0 0 0

dünyada 0 0 0 1 0 0 0

ekonomik 0 0 0 1 1 0 0

durum 0 0 0 1 0 0 0

günlük 0 0 0 0 1 0 0

veriler 0 0 0 0 1 1 0

haftalık 0 0 0 0 0 1 0

veya 0 0 0 0 0 1 0

günlük 0 0 0 0 0 1 0

mal 0 0 0 0 0 1 0

tf(“bilgi”)*idf(“bilgi”)= 2*0,477 = 0,954

tf(“erişim”)*idf(“erişim”)= 1*0,778 = 0,778

tf(“dizinleme”)*idf(“dizinleme”)= 1*0,778= 0,778

tf(“ve”)*idf(“ve”)= 1*0,176 = 0,176

Page 22: BBY 220 - Bilgi Erişim İlkeleri

22

tf*idf ağırlıklandırma ve ters dizin tf*idf ağırlıklandırma ve ters dizin kütüğükütüğü

Aynı işlemlerin sorgular için de yapılması gereklidir.Q={bilgi erişim}tf(“bilgi”)*idf(“bilgi”)= 1*0,477 = 0,477tf(“erişim”)*idf(“erişim”)= 1*0,778 = 0,778

ÖDEV 1. Yandaki ters dizin kütüğünü tüm terim/doküman çiftleri için güncelleyiniz.

ÖDEV 2. Q sorgusu ağrılıkları güncellenmiş bu derlem üzerinde yürütülürse erişim çıktısı ne olur? Sıralı ve benzerlik skorları ile beraber yazınız.

Terimler Dokümanlar Sorgu

D1 D2 D3 D4 D5 D6 Q

bilgi 0,954 0,477 0 0 0 0 0,477

erişim 0,778 0 0 0 0 0 0,778

dizinleme 0,778 0 0 0 0 0 0

sanal 0 1 0 0 0 0 0

dünyada 0 1 0 0 0 0 0

kütüphane 0 0 1 0 0 0 0

ve 0,176 1 1 0 0 1 0

veri 0 0 1 0 0 0 0

saklama 0 0 1 0 0 0 0

dünyada 0 0 0 1 0 0 0

ekonomik 0 0 0 1 1 0 0

durum 0 0 0 1 0 0 0

günlük 0 0 0 0 1 0 0

veriler 0 0 0 0 1 1 0

haftalık 0 0 0 0 0 1 0

veya 0 0 0 0 0 1 0

günlük 0 0 0 0 0 1 0

mal 0 0 0 0 0 1 0

Page 23: BBY 220 - Bilgi Erişim İlkeleri

23

Eşik Değer (Threshold) SeçimiEşik Değer (Threshold) Seçimi

• N adet belgenin bulunduğu bir derlemde Q kullanıcı sorgusu ile ilgili belgelere erişim sağlanıyor. Erişim çıktısında kaç adet belgeye erişim sağlanacak?• Belge ile sorgu arasında bir kelime bile kesişse bu belge erişim çıktısında yer alacak mı?• Derleme yollanan sorgu derlemdeki her bir belge ile karşılaştırılarak her bir belge – sorgu çifti için bir skor değeri oluşturulur,• Hangi skordan yüksek eşleşmeler ilgili ?

Sorgu Belge Skor

Q D1 0.92

Q D2 0.75

Q D3 0.46

Q D4 0.19

Q D5 0.02

Q D6 0.01

… … …

Page 24: BBY 220 - Bilgi Erişim İlkeleri

24

Eşik Değer (Threshold) SeçimiEşik Değer (Threshold) Seçimi

• Eşik değer: erişim çıktısında bulunan belgeler için belli bir skor değerinin altında kalanlar ilgisiz kabul edilir, ilgili / ilgisiz ayrımının yapılmasını sağlayan bu skor değeri eşik değer olarak kabul edilir,

• Eğer BES’de eşik değeri kullanılmazsa erişim çıktısında ilgisiz ya da çok az ilgili belge sayısı artar,

• İlgililik ile ilgili skorlar için eşik değeri hangi noktada seçilecek, yani hangi skorlar ilgili hangileri ilgisiz kararı nasıl verilecek?

•Eşik değerleri seçilirken BES’de anma ve duyarlık değerlerinin en yüksek olduğu noktadaki skor değeri alınır.

•Anma: Sistem tarafından erişilen ilgili belgelerin (a) derlemdeki toplam ilgili belgelere (a+c) oranıdır.

•Duyarlık: Sistem tarafından erişilen ilgili belgelerin (a) erişim çıktısında yer alan ilgili veya ilgisiz toplam belge sayısına (a+b) oranıdır.

prec

isio

nrecall

x

xx

x

Page 25: BBY 220 - Bilgi Erişim İlkeleri

25

Eşik Değer (Threshold) SeçimiEşik Değer (Threshold) Seçimi

• BES’de eşik değerini hesaplamak için bir eğitim kümesi (training set) yaratılır. Bu eğitim kümesi belgeler ve sorgulardan oluşur.

• Eğitim kümesinde her bir sorgunun hangi belgelerle ilgili olduğu önceden bilinir. Bu sayede BES’in sorguya karşılık olarak döndürdüğü belgelerin doğru mu yanlış mı olduğu belirlenebilir.

• Eğitim kümesindeki her bir sorgu derlem üzerinde yürütülerek sorgu ve belgenin ilgili olduğu eşleşmeler için benzerlik skor değerleri elde edilir.

• Sonraki aşamada ilgili belge – sorgu çiftleri için ortalama bir skor değeri belirlenir ve bu eşik değerine göre örnek sorguların anma ve duyarlık değerleri hesaplanır,

• Daha sonra başlangıçta belirlenen eşik değerinin altında ve üstünde yeni eşik değerleri seçilerek yeni anma ve duyarlık değerleri hesaplanır,

• Anma ve duyarlık değerleri arttıkça eşik değeri değiştirilmeye (arttırılmaya ya da azaltılmaya) devam edilir,

• Anma ve duyarlık değerlerinin en yüksek olduğu durumdaki skor değeri sistem için eşik değeri olarak kabul edilir.

Page 26: BBY 220 - Bilgi Erişim İlkeleri

26

Eşik Değer (Threshold) Seçimi ÖrnekEşik Değer (Threshold) Seçimi Örnek

Page 27: BBY 220 - Bilgi Erişim İlkeleri

27

Eşik Değer (Threshold) Seçimi ÖrnekEşik Değer (Threshold) Seçimi Örnek

Page 28: BBY 220 - Bilgi Erişim İlkeleri

28

Eşik Değer (Threshold) Seçimi ÖrnekEşik Değer (Threshold) Seçimi Örnek

Page 29: BBY 220 - Bilgi Erişim İlkeleri

29

Eşik Değer (Threshold) Seçimi ÖrnekEşik Değer (Threshold) Seçimi Örnek

Page 30: BBY 220 - Bilgi Erişim İlkeleri

30

Eşik Değer (Threshold) Seçimi ÖrnekEşik Değer (Threshold) Seçimi Örnek

Page 31: BBY 220 - Bilgi Erişim İlkeleri

31

Eşik Değer (Threshold) Seçimi ÖrnekEşik Değer (Threshold) Seçimi Örnek

Page 32: BBY 220 - Bilgi Erişim İlkeleri

32

Eşik Değer (Threshold) Seçimi ÖrnekEşik Değer (Threshold) Seçimi Örnek

Page 33: BBY 220 - Bilgi Erişim İlkeleri

33

Eşik Değer (Threshold) Seçimi ÖrnekEşik Değer (Threshold) Seçimi Örnek

Page 34: BBY 220 - Bilgi Erişim İlkeleri

34

Eşik Değer (Threshold) Seçimi ÖrnekEşik Değer (Threshold) Seçimi Örnek

Page 35: BBY 220 - Bilgi Erişim İlkeleri

35

Eşik Değer (Threshold) Seçimi ÖrnekEşik Değer (Threshold) Seçimi Örnek

Eşik Anma Duyarlık0,100 0,915 0,7150,120 0,865 0,7730,140 0,810 0,8200,160 0,730 0,8500,180 0,621 0,8800,200 0,540 0,9040,220 0,478 0,9300,240 0,417 0,941

0,260 0,377 0,940

Page 36: BBY 220 - Bilgi Erişim İlkeleri

36

Vektör Uzayı Modeli DeğerlendirmeVektör Uzayı Modeli Değerlendirme

• Sorgu sonucu derecelendirilebilmektedir,

• Cos ölçümüne göre her belgeye bir sorgu ile benzerlik değeri verilebilmektedir,

• Terim ağırlıklandırma sorgu sonucu döndürülen belgelerin kalitesini artırmaktadır yani bilgiye erişim daha başarılı olmaktadır,

• Hızlı ve etkin bir fonksiyon, hala popüler olarak kullanılıyor,

• Terimleri bir birlerinden bağımsız görmesi dezavantajı (belgedeki kelimeler arası ilişkiler göz ardı ediliyor)