bilgiye erişim sistemlerinde arama kalitesini İyileştirme
DESCRIPTION
Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme. Normalleştirme Etkeninin Önemi. Özlem KARAGEDİK Ata Önal. Amaç. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/1.jpg)
Normalleştirme Etkeninin Önemi
Özlem KARAGEDİKAta Önal
![Page 2: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/2.jpg)
AmaçÇalışmada, kullanıcının ihtiyacı olan ilgili
belgelere en iyi oranda erişerek arama kalitesinin arttırılması amaçlanmıştır. Bu amaçla, vektör uzay modeli ve eksenli benzersiz normalleştirme modeli karşılaştırılarak bu modellerin sonuçları gözlemlenmiştir.
2
![Page 3: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/3.jpg)
Bilgiye Erişim Nedir?
DdDddBilgiye erişim denince akla genelde internet
arama motorları gelir.Ticari olarak başarılı çalışmalar30 yıldan fazla akademik araştırma konusu
Bilgiye erişim herhangi bir ilgili belgeyi bulmayı kapsar.
3
![Page 4: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/4.jpg)
Bilgiye Erişim SistemleriBilgiye erişim sistemleri, belge arşivlerinde
kullanıcıların isteklerine uygun belgelere, kullanıcıların kolay bir şekilde erişimlerini sağlayan sistemlerdir.
4
![Page 5: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/5.jpg)
Bilgiye Erişim Sistemleri
5
![Page 6: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/6.jpg)
Bilgiye Erişim SistemleriBilgiye erişim sistemleri belge arşivlerindeki
ilgili (relevant) belgelere erişmeyi,ilgisiz (non-relevant) belgeleri ise çıkartmayı
amaçlar.Bilgiye erişim sistemlerinin kalitesinin
arttırılması Elde edilen ilgili belge sayısının arttırılması, İlgili belgelerin sıralamada daha yüksek sıralarda
yer alması ile olur.
6
![Page 7: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/7.jpg)
Bilgiye Erişim Sistemleri
7
![Page 8: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/8.jpg)
Değerlendirme Ölçütleriİlgililik
Sorguların kullanıcının ihtiyacını ne kadar iyi karşıladığının ölçüsüdür.
HassasiyetErişilen ilgili belgelerin, erişilen belgelere oranıdır.Hassasiyet=İlgili erişilen belgeler/Erişilen belgeler
Anma Erişilen ilgili belgelerin, bütün ilgili belgelere
oranıdır.Anma=İlgili erişilen belgeler/ilgili belgeler
8
![Page 9: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/9.jpg)
Sıralandırılmış Bir Listeyi DeğerlendirmeDerecelendirilmiş Erişim
Her derece için hassasiyet ve anma hesaplanır. Hassasiyet ve anma grafiği çizilir.
Ortalama Hassasiyet İlgili belgelere erişilen sıralardaki ortalama hassasiyet
9
![Page 10: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/10.jpg)
Hassasiyetlerin Aritmetik Ortalaması(MAP)Her bir sorgu için hesaplanan ortalama
hassasiyet değerlerinin aritmetik ortalamasına denir.
10
![Page 11: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/11.jpg)
Ön İşlemlerSorguyu ve belgeleri bilgiye erişime hazır ve
verimli hale getirmek için, yapılan işlemlerdir.
Bu işlemler:Tek harfli veya iki harfli gibi çok kısa kelimeler
silinir.
11
![Page 12: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/12.jpg)
Ön İşlemlerÇıkartılacak kelimeler listesindeki (stop word
list) kelimelerin atılır (stop word elimination). Kelimelerin türetilmiş veya ek almış
hallerinden kurtularak köklerine inmek için birkaç farklı yöntem vardır.
12
![Page 13: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/13.jpg)
Kullanılan YöntemlerVektör Uzay Modeli(Vector Space Model)
Terim Sıklığı- Devrik Belge Sıklığı(Term Frequency-Inverse Document Frequency (Tf-Idf))
Kosinüs BenzerliğiEksenli Benzersiz Normalleştirme (Pivoted
Unique Normalization)
13
![Page 14: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/14.jpg)
Vektör Uzay ModeliBelgeler ve sorgular birer vektör ile ifade
edilir. Her bir belge, anlamlı kelimelerden oluşan
ve kelimelerin her birinin ağırlığı olan birer terim vektörü şekline getirilir.
Belge vektörleri bir araya getirilerek bütün belgeleri içeren bir matris oluşturulur
14
![Page 15: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/15.jpg)
Vektör Uzay ModeliBelge terim matrisi ( D matrisi)
Her bir satırı bir belgeyi vektör olarak gösterirken,
Sütunları da terim vektörleri olarak adlandırılır.
15
![Page 16: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/16.jpg)
Vektör Uzay ModeliTerim Ağırlığı her bir terimin o belge için
önemini belirtir.Terim ağırlığı farklı yollarla bulunabilir.
Terim SayısıTerim Sıklığı- Devrik Belge Sıklığı
16
![Page 17: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/17.jpg)
Terim Sıklığı- Devrik Belge SıklığıTerimin ağırlığı,
belge içerisinde o terimin geçme sayısıyla doğru orantılıyken;
bütün belge havuzu içerisinde o terimin geçme sıklığıyla ters orantılıdır
17
![Page 18: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/18.jpg)
Kosinüs BenzerliğiKosinüs benzerliği iki vektör arasındaki açının
kosinüsünü bularak bu vektörlerin birbirleriyle benzerliklerini ölçmek için kullanılmaktadır .
Kosinüs benzerliğinde belge ve sorgular kendi vektör uzunluklarına bölünerek birim vektör haline getirilir.
Kosinüs değeri sıfır ile bir arasında olur. Bir değerine ne kadar yakınsa benzerlik o kadar fazladır.
18
![Page 19: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/19.jpg)
Kosinüs Benzerliği
19
![Page 20: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/20.jpg)
Kosinüs BenzerliğiBelge ve sorgular kendi vektör uzunluklarına
bölünerek birim vektör haline getirilir.Vektör uzunluklarına bölünmesiyle belgeler
normalleştirilir.
20
![Page 21: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/21.jpg)
Erişim kalitesini etkileyen faktörlerBelge uzunluklarının normalleştirilme
gereksinimleri şunlardır: Yüksek terim frekansları : Uzun belgeler ,
genelde aynı terimi çokça kez tekrar eder. Fazla sayıda terim: Uzun belgeler fazla sayıda
farklı terim içerir.
21
![Page 22: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/22.jpg)
Kosinüs BenzerliğiKosinüs benzerliğinde normalleştirme
ağırlıklı belge vektörü uzunluğuna bölünerek yapılır.Normalleştirme belgelerin uzunluklarından
bağımsızdır.Bu durumda büyük belgeler için vektör
uzunlukları çok büyük olur. Belgeler büyüdükçe kosinüs
normalleştirmesinin başarısı düşer.
22
![Page 23: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/23.jpg)
Eksenli Benzersiz Normalleştirme Modeli Klasik vektör uzay modelinin değiştirilmiş bir
versiyonudur. Terim ağırlığı hesaplanırken, terim ve belge
frekanslarından farklı olarak bir normalleştirme etkeni de denkleme eklenir.
23
![Page 24: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/24.jpg)
Eksenli Benzersiz Normalleştirme Modeli dtf:terimin belgede geçme sayısı sumdtf: belge içerisindeki tüm terimler için
ifadesinin toplamı N koleksiyondaki toplam belge sayısını nf j. terimi içeren belge sayısını U’da belgedeki benzersiz terim sayısını
gösterir
24
![Page 25: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/25.jpg)
Eksenli Benzersiz Normalleştirme Modeli Denklemin ilk kısmında sumdtf değerine
bölünmesiyle, uzun belgelerde aynı sayıda terimin çokça geçmesi problemine çözüm getirir
Normalleştirme etkeni uzun belgelerin fazla sayıda farklı terim içermesi ve bunun uzun belgelerin ağırlıklarını yükseltmesi problemine çözüm getirir
25
![Page 26: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/26.jpg)
Veri KümesiWikipediaMM, görsel bigiye erişim için Wikipedia
resimlerinin koleksiyonundan oluşan bir test ortamı sunar.
Veri kümesi olarak wikipedia’nın kullanılmasının amacı, kullanıcının arama yapabileceği, web’e benzer nitelikte daha büyük ölçekli ve heterojen içerikli bir koleksiyonu araştırmaktır.
Çalışmada WikipediaMM 2008 veri kümesi kullanılmıştır.
26
![Page 27: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/27.jpg)
Veri KümesiVeri kümesi, çeşitli konularda 151,519 resim
içerir . Bu resimlerin her biri yapısal olmayan
gürültülü metinsel açıklamalar içerir.Bu veri kümesinde resimler üzerinde
aranabilecek 75 metinsel sorgu bulunur. Sorgularla ilgili olan toplam belge sayısı ise
5593’tür.
27
![Page 28: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/28.jpg)
Veri Kümesi Belge Örnek<?xml version="1.0"?><article>
<name id="10">1959ModelPiperPA24 Comanche.jpg</name><image xmlns:xlink="http://www.w3.org/1999/xlink" xlink:type="simple" xlink:actuate="onLoad" xlink:show="embed" xlink:href="../pictures/1959ModelPiperPA-24Comanche.jpg" id="10" part="images-40000">1959ModelPiperPA-24Comanche.jpg</image><text>A 1959 model Piper PA-24 Comanche, Valleyfield, Quebec 2004</text>
</article>
28
![Page 29: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/29.jpg)
Veri Kümesi Sorgu Örnek<topic> <number>76</number> <title>Shopping in a market</title> </topic>
29
![Page 30: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/30.jpg)
Deneysel SonuçlarEksenli benzersiz normalleştirme modelinin daha
başarılı olduğu gözlemlenmiştir. Bu model belgelerin uzunluklarını dikkate alan
bir normalleştirme etkeni kullanarak, çok büyük boyuttaki belgelerin ağırlıklarını azaltılmış, küçük boyuttaki belgelerin ağırlıklarını arttırmış ve bütün belgelerdeki ağırlıkları ortalama boyuttaki belgelerle ile aynı seviyeye getirmiştir.
30
![Page 31: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/31.jpg)
Deneysel SonuçlarNo Yöntem
Ort. Hassasiyet
İlk 5’de hassasiyet
İlk 10’da hassasiyet Erişilen İlgili Erişilen İlgili
1 Vektör Uzay Modeli-Kosinüs Norm. 0.1394 0.2427 0.2013 64040 2369 5593
2 Eksenli Benzersiz Normalleştirme 0.2549 0.4453 0.3693 65888 3184 5593
31
![Page 32: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/32.jpg)
Gelecek ÇalışmalarÇalışmanın bundan sonraki ilerleyişi:
kullanıcının sorgularını sistemin otomatik olarak genişletmesi ile arama kalitesinin arttırılması üzerine olacaktır.
Genişletme ile, sorgudaki kelimeler ile benzer anlamlı yeni kelimeler, sorguya eklenecektir. Böylelikle sorgunun içeriği zenginleştirilerek, sorgunun ilk halindeki kelimeyi içermeyen ama sorgu genişletilince bulunabilen ilgili belgelere de erişimi sağlamak amaçlanacaktır.
32
![Page 33: Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme](https://reader036.vdocuments.mx/reader036/viewer/2022081503/56814b87550346895db86e1a/html5/thumbnails/33.jpg)
TEŞEKKÜRLER
33