bilgi erişim sistemleri

18
1 SKOR DAĞILIMLI ÜST ARAMA MODELİ SKOR DAĞILIMLI ÜST ARAMA MODELİ Güven KÖSE - Hayri SEVER BAŞKENT ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ

Upload: colleen-montgomery

Post on 04-Jan-2016

45 views

Category:

Documents


2 download

DESCRIPTION

SKOR DAĞILIMLI ÜST ARAMA MODELİ Güven KÖSE - Hayri SEVER BAŞKENT ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ. Bilgi Erişim Sistemleri. Tekli Çerçeve Çalışmaları Sadece bir sorgu işleme motoru. Belge başlığı, özet, vücut ve kaynakça ağırlıkları. Çoklu Çerçeve Çalışmaları - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Bilgi Erişim Sistemleri

1

SKOR DAĞILIMLI ÜST ARAMA MODELİSKOR DAĞILIMLI ÜST ARAMA MODELİ

 Güven KÖSE - Hayri SEVER

BAŞKENT ÜNİVERSİTESİBİLGİSAYAR MÜHENDİSLİĞİ  

Page 2: Bilgi Erişim Sistemleri

2

Bilgi Erişim Sistemleri

• Tekli Çerçeve Çalışmaları– Sadece bir sorgu işleme motoru.– Belge başlığı, özet, vücut ve kaynakça ağırlıkları.

• Çoklu Çerçeve Çalışmaları– Birden fazla sorgu işleme motoru.– Veri Birleştirme ve Kolleksiyon Birleştirme.

Başkent Üniversitesi - 2003

Page 3: Bilgi Erişim Sistemleri

3

Üst Arama Problemi

• Skor Normalleştirme Adımı– Farklı sistemler farklı

erişim çıktıları sunar.– Erişim çıktıları ortak bir

ölçeğe çekilir.

• Birleştirme Adımı– CombSUM ve

CombMNZ en etkili yöntemler.

Yöntem İşlev

CombMIN Bağımsız skor değerlerinin en küçüğü

CombMAX Bağımsız skor değerlerinin en büyüğü

CombMED Bağımsız skor değerlerinin ortancası

CombSUMBağımsız skor değerlerininToplamı

CombANZCombSUM / sıfırdan farklı skor değerlerinin sayısı

CombMNZCombSUM * sıfırdan farklı skor değerlerinin sayısı

Başkent Üniversitesi - 2003

Page 4: Bilgi Erişim Sistemleri

4

Varolan Normalleştirme Yöntemleri

• Belge skorlarının doğrusal olarak kaydırılması ve ölçeklenmesi.

• Skorlar ilgili belgeler için doğru olasılıkları yansıtmalı.

• 4 arama sisteminden sonra azalan bir performans oluşmakta.

Yöntem Adı Açıklama

Standart Minimum değeri 0, Maximum değeri 1 olarak belirle.

Sum Minimum değeri 0 , ve Sum’ı 1 olarak belirle.

ZMUV Ortalamayı 0, varyansı 1 olarak belirle.

Başkent Üniversitesi - 2003

Page 5: Bilgi Erişim Sistemleri

5

Üst Arama Verileri

• Geliştirilen sistemlerin test edilmesi için büyük veri kümelerine ihtiyaç duyulur.

•Ulusal Standartlar ve Teknoloji Enstitüsü (NIST) tarafından TREC geliştirildi.

•Derlem 2 gb büyüklüğünde yaklaşık 1 milyon belgeden oluşmakta.

•Kullanılan değerlendirme yöntemlerinde birlikteliğin sağlanmasını sağlar.

Page 6: Bilgi Erişim Sistemleri

6

Trec-4 ve -9 için varolan normalleştirme teknikleri

İşletimler Sum ZMUV Standart Sum ZMUV Standart Bağımsız

CombSUM CombMNZ İşletim

Crn1AE 0,2944 0,2944 0,2944 0,2944 0,2944 0,2944 0,2944

pircs1 0,3020 0,2948 0,2992 0,3017 0,2938 0,3001 0,2599

citya1 0,3057 0,2933 0,3001 0,3042 0,2923 0,3015 0,2568

INQ201 0,3088 0,2946 0,3056 0,3068 0,2929 0,3052 0,2407

siems1 0,3039 0,2866 0,3046 0,3047 0,2876 0,3059 0,2031

Ortalama 0,3030 0,2927 0,3008 0,3024 0,2922 0,3014 0,251

Değişim(%) 0,1952 0,0201 0,1984 0,2048 0,1641 0,2007

İşletimler Sum ZMUV Standart Sum ZMUV Standart Bağımsız

CombSUM CombMNZ İşletim

jscbt9w112 0,2801 0,2801 0,2801 0,2801 0,2801 0,2801 0,2801

ric9dpn 0,3017 0,2942 0,2902 0,3008 0,2932 0,2905 0,2616

Nenm 0,3070 0,2977 0,3023 0,3085 0,3014 0,3054 0,2499

acsys9mw0 0,3241 0,3165 0,3261 0,3286 0,3263 0,3310 0,2486

hum9mw0 0,3230 0,3155 0,3227 0,3258 0,3237 0,3257 0,2335

Ortalama 0,3072 0,3008 0,3043 0,3088 0,3049 0,3065 0,2547

Değişim(%) 0,2061 0,1809 0,1947 0,2124 0,1971 0,2034

Başkent Üniversitesi - 2003

Page 7: Bilgi Erişim Sistemleri

7

0,17

0,19

0,21

0,23

0,25

0,27

0,29

0,31

0,33

1 2 3 4 5

birleştirilen arama motoru sayısı

ort

alam

a d

uya

rlılı

k

Sum -CombSumZMUV-CombSumStandard -CombSumSum -CombMNZZMUV-CombMNZStandard -CombMNZIndividualEngines

0.22

0.24

0.26

0.28

0.3

0.32

0.34

1 2 3 4 5birleştirilen arama motoru sayısı

ort

ala

ma d

uyarl

ılık

Sum - CombSum

ZMUV-CombSum

Standard -CombSum

Sum-CombMNZ

ZMUV-CombMNZ

Standard -CombMNZ

Individual Engine

Trec-4 ve -9 için varolan normalleştirme teknikleri

Trec-4 Trec-9

Başkent Üniversitesi - 2003

Page 8: Bilgi Erişim Sistemleri

8

ZMUV Normalleştirme Tekniği• Bu teknik iki Gaussian dağılımın varyans ve ortalama

değerleninin normalleştirilmesidir.

Başkent Üniversitesi – 2003

• İlgili ve ilgisiz belge skorlarının dağılımları iki normal dağılımın birleşimi ile modellenemez.

Page 9: Bilgi Erişim Sistemleri

9

Uygun Normalleştirme Tekniği

Farklı arama sistemlerine ait erişim

çıktılarındaki ilgisiz belge skor dağılımları

kullanılarak uygun normalleştirme

sağlanabilir.

Başkent Üniversitesi - 2003

Page 10: Bilgi Erişim Sistemleri

10

Dağılım Eşitlenmesi Yöntemi

• İlgisiz dağılımların üstel doğası, belge skorları için bilgi sağlar.

• p(x) = λ exp(-λx), x=skor(D).• μ = 1 / λ (üstel dağılımın ortalaması).• Üstel ilgisiz bir dağılım için minimum skorlar 0 ve

maximum skorlar 1 olarak kabül edilir.• Üstel ilgisiz bir dağılım için üstel uygunluk

ML(Maximum Likelihood) yöntemi ile hesaplanır.

λ = count({D | D Є NonRel}) / ΣD Є NonRel score(D)• skor(D) = skor(D)*λ .• Bu teknik EXPML olarak adlandırlır.

Başkent Üniversitesi - 2003

Page 11: Bilgi Erişim Sistemleri

11

İlgisiz Dağılımların Kestirilmesi

•Karma model uygunluğu kullanılarak kestirme

•Toplam dağılım kullanılarak kestirme

•Ortalama kullanılarak kestirme

Başkent Üniversitesi - 2003

Page 12: Bilgi Erişim Sistemleri

12

Karma Model Uygunluğu•İlgili belgeler için normal ve ilgisiz belgeler için üstel bir dağılım kullanılır.

•Expectation Maximization yöntemi kullanılarak üstel ve Gaussian dağılımlarından oluşan karma bir model skor dağılımları için uygunlaştırılabilir.

•Üstel bileşen için ortalama, normal bileşen içinde ortalama ve standart sapma değerleri hesaplanarak skorlar normalleştirilir.

•Bu yöntem EXPEM olarak adlandırılır.

Başkent Üniversitesi - 2003

Page 13: Bilgi Erişim Sistemleri

13

Toplam Dağılım•Arama sistemlerinin çıktılarında ilgili belgelerin oranı çok düşük olduğu için ilgili ve ilgisiz bütün belge skorlarının dağılımları kullanılarak normalleştirme işlemi yapılabilir.

•Minimum değerler 0 olarak belirlenerek ve tüm belge skorları eşitlenerek normalleştirme işlemi gerçekleştirilir.

•Bu yöntem SUM normalleştirme tekniğine eşdeğer olarak görülür.

Başkent Üniversitesi - 2003

Page 14: Bilgi Erişim Sistemleri

14

Ortalama Kullanılarak Kestirme

•Karma model kestirmesi ve toplam dağılımların kestirmesi yöntemlerinin ortalaması alınarak yeni bir kestirme elde edilir.

•Bu yöntem EXPEM-CombSUM ve Sum-CombSUM yöntemleri arasında bir performans değerine sahiptir.

Başkent Üniversitesi - 2003

Page 15: Bilgi Erişim Sistemleri

15

Trec-4 ve -9 için normalleştirme teknikleri

İşletimler Sum EXPML EXPEM EXPAVR Standart Bağımsız

CombSUM CombMNZ İşletim

Crn1AE 0.2944 0.2944 0.2944 0.2944 0.2944 0.2944

pircs1 0.3020 0.3046 0.3008 0.3015 0.3001 0.2599

cityal 0.3057 0.3104 0.3033 0.3048 0.3015 0.2568

INQ201 0.3088 0.3136 0.3077 0.3093 0.3052 0.2407

siems1 0.3039 0.3092 0.3032 0.3041 0.3059 0.2031

Ortalama 0.3030 0.3064 0.3019 0.3028 0.3014 0.2510

Değişim(%) 0.1952 0.2207 0.2028 0.2064 0.2007

İşletimler Sum EXPML EXPEM EXPAVR Standart Bağımsız

CombSUM CombMNZ İşletim

jscbt9w11 0,2801 0,2801 0,2801 0,2801 0,2801 0,2801

ric9dpn 0,3017 0,3052 0,3030 0,3041 0,2905 0,2616

NEnm 0,3070 0,3096 0,3075 0,3091 0,3054 0,2499

acsys9mw 0,3241 0,3319 0,3281 0,3295 0,3310 0,2486

hum9tdn 0,3230 0,3306 0,3269 0,3288 0,3257 0,2335

Ortalama 0,3072 0,3115 0,3091 0,3103 0,3065 0,2547

Değişim(%) 0,2061 0,2230 0,2136 0,2183 0,2034

Başkent Üniversitesi - 2003

Page 16: Bilgi Erişim Sistemleri

16

Trec-4 ve -9 için normalleştirme teknikleri

0,15

0,17

0,19

0,21

0,23

0,25

0,27

0,29

0,31

0,33

1 2 3 4 5

birleştirilen arama motoru sayısı

ortla

ma

duya

rlılık

Sum -CombSumEXPML -CombSumEXPEM -CombSumEXPAVR -CombSum

Standard -CombMNZIndividualEngines

0,2

0,22

0,24

0,26

0,28

0,3

0,32

0,34

1 2 3 4 5

birleştirilen arama motoru sayısı

orta

lam

a du

yarlı

lık

Sum -CombSum

EXPML -CombSum

EXPEM -CombSum

EXPAVR -CombSum

Standard -CombMNZ

IndividualEngine

Başkent Üniversitesi - 2003

Page 17: Bilgi Erişim Sistemleri

17

Sonuçlar •Bu çalışmada tartışılan, farklı arama sistemlerine ait ilgisiz skor dağılımlarının eşitlenmesi ve sonuç skorlarının ortalamalarının alınması yöntemi ile en iyi sonuçlar üretilmiştir.

•İlgisiz dağılımların kestirilmesi için üç farklı yöntem üzerinde durulmuş ancak en kolay tekniğin toplam dağılımların kestirilmesi olduğu görülmüştür.

•Çoklu arama sistemlerinin birleştirilmesi bilgi erişiminde genellikle önemli bir ilerleme sağlamaktadır ancak 5’den fazla arama motorunun sonuçlarının birleştirilmesinden sonra performans artışının devam edeceğini söylemek doğru görünmemektedir.

Başkent Üniversitesi - 2003

Page 18: Bilgi Erişim Sistemleri

18

TEŞEKKÜRLERTEŞEKKÜRLER