bilgi erişim sorunu
DESCRIPTION
Bilgi Erişim Sorunu. Yaşar Tonta H acettepe Üniversitesi [email protected] yunus.hacettepe.edu.tr/~tonta/ BBY220 Bilgi Erişim İlkeleri. Plan. Bilgi artışı Bilgi erişim sorunu Tanım Bilgi erişim sistemlerinin mantıksal yapısı Erişim kuralları Performans ölçümleri - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/1.jpg)
1
Bilgi Erişim Sorunu
Yaşar TontaYaşar TontaHacettepe Üniversitesi
yunus.hacettepe.edu.tr/~tonta/
BBY220 Bilgi Erişim İlkeleri
![Page 2: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/2.jpg)
2
Plan
• Bilgi artışı
• Bilgi erişim sorunu
• Tanım
• Bilgi erişim sistemlerinin mantıksal yapısı
• Erişim kuralları
• Performans ölçümleri
• Bilgi erişim ve Internet
![Page 3: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/3.jpg)
3
Bilgi . . .
• Bilgi depolama ortamları – beyin, kültürel birikim, “dış” ortamlar
• Bilgi iletim ortamı – dağıtık ağlar: 14 saniyede Kongre
Kütüphanesi’nin içeriğini bir yerden bir yere iletmek mümkün
• Bilgi işleme ortamları – beyin, bilgisayarlar, insanlardan daha “akıllı”
makineler, “yapay beyin”
![Page 4: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/4.jpg)
5
Depolama Maliyetleri
Depolama Fiyatları (1992-2023)
0,0
0,1
1,0
10,0
100,0
1.000,0
10.000,0
100.000,0
1.000.000,0
Yıl
Mal
iyet
(US
D)
1 Gigabyte (USD)
1 Terabyte (USD)
0,42 USD
Fiyatlar her yıl %45 düşüyor
421 USD
Kaynak: http://www.berghell.com/whitepapers/Storage%20Costs.pdf
![Page 5: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/5.jpg)
6
İletim Maliyetleri
Kaynak: ULAKBİM Faaliyet Raporu, 2003 (www.ulakbim.gov.tr/hakkimizda/faaliyet/faaliyet03.uhtml)
![Page 6: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/6.jpg)
7
Bilgi Patlaması - 2002
• 5 Exabyte (5 x 1018 byte)• 2002’de dünyada üretilen yeni bilgi miktarı (5
x 1018 byte)
• 5 Exabyte’lık bilgi = 37,000 yeni Kongre Kütüphanesi!
• “Yüzey web”de yaklaşık 100 milyar belge var (1670 Terabyte) var
• “Derin web”de 550 milyar belge var(dı) (91857 Terabyte)
Kaynak: BrightPlanet & Lyman and Varian
![Page 7: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/7.jpg)
8
Bir Exabyte (EB) ne kadar büyük?Kilobyte (KB)
1,000 bytes OR 103bytes
2 Kilobytes: A Typewritten page.
100 Kilobytes: A low-resolution photograph.
Megabyte (MB)
1,000,000 bytes OR 106 bytes
1 Megabyte: A small novel OR a 3.5 inch floppy disk.
2 Megabytes: A high-resolution photograph.
5 Megabytes: The complete works of Shakespeare.
10 Megabytes: A minute of high-fidelity sound.
100 Megabytes: 1 meter of shelved books.
500 Megabytes: A CD-ROM.
Gigabyte (GB)
1,000,000,000 bytes OR 109 bytes
1 Gigabyte: a pickup truck filled with books.
20 Gigabytes: A good collection of the works of Beethoven.
100 Gigabytes: A library floor of academic journals.
Terabyte (TB)
1,000,000,000,000 bytes OR 1012 bytes
1 Terabyte: 50000 trees made into paper and printed.
2 Terabytes: An academic research library.
10 Terabytes: The print collections of the U.S. Library of Congress.
400 Terabytes: National Climactic Data Center (NOAA) database.
Petabyte (PB)
1,000,000,000,000,000 bytes OR 1015 bytes
1 Petabyte: 3 years of EOS data (2001).
2 Petabytes: All U.S. academic research libraries.
20 Petabytes: Production of hard-disk drives in 1995.
200 Petabytes: All printed material.
Exabyte (EB)
1,000,000,000,000,000,000 bytes OR 1018 bytes
2 Exabytes: Total volume of information generated in 1999.
5 Exabytes: All words ever spoken by human beings.Kaynak: How much information 2003, Tablo 1.1
![Page 8: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/8.jpg)
9
Tablo 1. 2002’de dünyada üretilen özgün dijital bilgi üretimi. İyimser tahminlerde bilginin dijital olarak tarandığı varsayıldı, alt tahminlerde dijital içeriğin sıkıştırıldığı varsayıldı.
Depolama ortamı 2002 Üst
tahmin (Terabyte
olarak)
2002 Alt
tahmin (Terabyte
olarak)
1999-2000 Üst tahmin
1999-2000 Alt tahmin
% Değişim
Üst tahminler
Kâğıt 1,634 327 1,200 240 %36
Film 420,254 76,69 431,690 58,209 %-3
Manyetik 5187130 3,416,230 2,779,760 2,073,760 %87
Optik 103 51 81 29 %28
TOPLAM 5,609,121 3,416,281 3,212,731 2,132,238 %74.5
Kaynak: Lyman ve Varian
Bilgi Artışı
![Page 9: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/9.jpg)
10
![Page 10: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/10.jpg)
11
Bilgi Miktarı
• 5,4 Exabyte (milyar x milyar byte: 54 milyar Economist dergisinin içeriğine eşit)
• ABD’de her yıl 80 milyar fotoğraf çekiliyor
• 2 milyar röntgen filmi çekiliyor
• Günde 610 milyar e-posta mesajı gönderiliyor
• Her yıl 15 trilyon sayfa yazıcılardan çıktı alınıyor
![Page 11: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/11.jpg)
12
Bilgi Patlaması - 2006
http://www.emc.com/about/destination/digital_universe/pdf/Expanding_Digital_Universe_IDC_WhitePaper_022507.pdf
![Page 12: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/12.jpg)
13
5 Exabayt 161 Exabayt
http://www.emc.com/about/destination/digital_universe/pdf/Expanding_Digital_Universe_IDC_WhitePaper_022507.pdf
![Page 13: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/13.jpg)
14
Depolama Kapasitesi
http://www.emc.com/about/destination/digital_universe/pdf/Expanding_Digital_Universe_IDC_WhitePaper_022507.pdf
![Page 14: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/14.jpg)
15
Bilgi Erişim Sorunu • Wells, “World Encyclopedia” (1936)• Bush, “As we may think,” Atlantic Monthly, (1945)
– Memex (memory expansion)
• “bilgi erişim” (IR) teriminin ilk kez kullanımı (Calvin Mooers, 1952)• Otomatik dizinleme – KWIC/KWOC (Luhn, 1958)• Boole modeli (Lockheed, 1960’lar)• Mantıksal model (Mooers, Cooper & Maron, Van Rijsbergen, 1960- )• Olasılık modeli (Maron-Kuhns, 1960; Robertson-Jones, 1976; Robertson-Maron-Cooper, 1982;
Croft, 1979 )• Vektör uzayı modeli (Gerard Salton, 1961)• İstatistiksel ağırlıklandırma (tf*idf, 1970’ler)• Dil modelleri (Ponte-Croft, 1998)• Performans ölçümleri
– Cranfield, Medlars, SMART, STAIRS, TREC, 1960- (Cleverdon, Lancaster, Salton, Blair-Maron, Harman)
![Page 15: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/15.jpg)
16
“Memex ve Türkler”
“The owner of the memex, let us say, is interested in the origin and properties of the bow and arrow. Specifically he is studying why the short Turkish bow was apparently superior to the English long bow in the skirmishes of the Crusades. He has dozens of possibly pertinent books and articles in his memex. First he runs through an encyclopedia, . . . Thus he goes, building a trail of many items. . . Thus he builds a trail of his interest through the maze of materials available to him.
And his trails do not fade. Several years later, his talk with a friend turns to the queer ways in which a people resist innovations, even of vital interest. He has an example, in the fact that the outraged Europeans still failed to adopt the Turkish bow. In fact he has a trail on it. A touch brings up the code book. . . . It is an interesting trail, pertinent to the discussion. So he sets a reproducer in action, photographs the whole trail out, and passes it to his friend for insertion in his own memex, there to be linked into the more general trail.”
![Page 16: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/16.jpg)
17
Bilgi Erişim
• “bilgi toplama, sınıflama, kataloglama, depolama, büyük miktardaki verilerden arama yapma ve bu verilerden istenen bilgiyi üretme (veya gösterme) tekniği ve süreci”
![Page 17: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/17.jpg)
18
Bilgi Erişimin Entellektüel Temelleri
• Sistem felsefesi
• Bilim felsefesi
• Dil felsefesi
![Page 18: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/18.jpg)
19
Dil Felsefesi ve Bilgi Erişim
• Bilgi düzenleme ve bilgi erişim de dil kullanımının özel bir türü
• Sistematik dizinleme (J. Otto Kaiser)• Dilbilimsel yapılar
– Sözdağarı– Anlambilim– Sözdizimi
• Kataloglama, sınıflama, dizinleme
![Page 19: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/19.jpg)
20
Sınıflama Kuramı
• Sınıflama dile dayanıyor• Dil belirsizlikler içeriyor• Kavramlar üzerinde anlaşma sağlamak zor• Domates “meyve” mi “sebze” mi?• George Lakoff, “Women, Fire and Dangerous
Things”• “Alternatif tıp” hangi konuya girer?
– Felsefe?– Din?– Sağlık ve tıp?
![Page 20: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/20.jpg)
21
“Well, it all started with an unsuccessful subject search”
![Page 21: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/21.jpg)
22
Bilgi Erişimin Temel İkilemi
• “Hakkında bilgi bulmak için bilmediğin bir şeyi tanımlama gereği” (Hjerrpe)
![Page 22: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/22.jpg)
23
Bilgi Keşfetme, Tanımlama, Düzenleme ve Erişim
Erişim
Düzenleme
Tanımlama
Keşfetme Keşfetme
Tanımlama
Düzenleme
Erişim
![Page 23: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/23.jpg)
24
Belge Erişim Sisteminin Mantıksal Düzenlemesi
Dizin tutanakları
Gömü - Sözlük
Dizinleme
Belgeler Kullanıcılar
Sorgu formülasyonu
Formel sorgu cümlesi
Erişim kuralı
Kaynak: Maron, 1984
![Page 24: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/24.jpg)
25
İdeal Bilgi Erişim Sistemi
• İlgili belgelerin tümüne ve salt ilgili belgelere erişim sağlamalı
• “İlgililik” kavramı– Nesnel ilgililik
– Öznel ilgililik
• Birbirine benzeyen bilgileri bir araya getirmek, benzemeyenleri ayırmak
![Page 25: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/25.jpg)
26
Erişim Kuralları
Boole mantığı
Vektör uzayı modeli
Olasılık modeli
(D,Q) = (tkxqk) / (tk)2 x (qk)
2
P (ilgili) = n / N P( ilgili) = 1 – P(ilgili) = N – n / N
tk = k teriminin belgedeki değeri
qk = k teriminin sorgudaki değeri
n = ilgili belge sayısı N = toplam belge sayısı
Ağırlıklandırma ilkesi: İlgili belgelerde sık AMA derlemin tamamında seyrek geçen terimleri daha yüksek ağırlıklandır
İstatistiksel ağırlıklandırma (tf*idf)
Set kuramına dayanıyor. Boole işleçleri –VE, VEYA, DEĞİL- kullanılıyor
![Page 26: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/26.jpg)
27
Benzerlik Skorunun Hesaplanması
Slide 38 of 79
Zile
Pekmez
http://www.sims.berkeley.edu/courses/is296a-3/f98/lectures/ir-background/sld038.htm
![Page 27: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/27.jpg)
28
Bilgi Erişim Sistemleri Mükemmel Değil!
İLGİLİ ERİŞİLEN
v ux
y
N
u tipi hatalarv tipi hatalar
Bilgi Erişim Sistemleri Mükemmel Değil!
![Page 28: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/28.jpg)
29
Bilgi Erişim Performansı
v uxy
NİLGİLİ İLGİSİZ
ERİŞİLEN x u n1
ERİŞİLE-MEYEN
v y
n2İLGİLİ
ERİŞİLEN
Anma = x / n2 Erişilen ilgili belgelerin tüm ilgili belgelere oranı
Posa = u / u + y Erişilen ilgisiz belgelerin tüm ilgisiz belgelere oranı
Genellik = n2 / N Tüm dermedeki ilgili belgelerin oranı
Duyarlık = x / n1 Erişilen ilgili belgelerin erişilen tüm belgelere oranı
![Page 29: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/29.jpg)
30
Diğer Performans Ölçümleri
• Kapsama Oranı: |Rk| / U
– Gerçekte erişilen ilgili belgelerin kullanıcının ilgili olduğunu önceden bildiği belgelere oranı
• Yenilik Oranı: |Ru| / |Ru| + |Rk| – Gerçekte erişilen ilgili belgelerin kullanıcının ilgili
olduğunu önceden bilmediği belgelere oranı
U: kullanıcının ilgili olduğunu önceden bildiği belgeler seti
Rk: Erişilen ve kullanıcının önceden ilgili olduğunu bildiği belgelerin sayısı
Ru: Erişilen ve kullanıcının önceden ilgili olduğunu bilmediği belgelerin sayısı
![Page 30: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/30.jpg)
31
Sıralama 1 2 3 4 5 6 7 8 9
Sıra1 + + + + + - - - -
Sıra2 - - - - + + + + +
Sıra3 + + + - - - + - +
Normalleştirilmiş Sıralama
Duyarlık üç arama için de 5/9
Hangisini tercih edersiniz?
![Page 31: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/31.jpg)
32
Yetersizlik Aksiyomları I
• Bir bilgi ihtiyacı bağlamdan bağımsız olarak ifade edilemez.
• Bir makineye bir soruyu uygun arama terimlerine çevirmesini öğretmek olanaksızdır.
• Bir belgenin ilgili olup olmaması görülen diğer belgelere bağlıdır.
• Bütün ilgili belgelerin bulunup bulunmadığını doğrulamak asla mümkün değildir.
• Makineler anlamı tanıyamaz -> entellektüel dizinleme kadar başarılı değildir, vs.
![Page 32: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/32.jpg)
33
Yetersizlik Aksiyomları II
• Sözcük sıklığı istatistikleri ne anlamı temsil edebilir, ne de anlam yerine geçebilir.
• Bir bilgi erişim sisteminin bir tekrarlı süreci destekleme yeteneği insanlar tarafından sadece bir kez yapılan ilgililik değerlendirmesiyle değerlendirilemez.
• Ya sağlam ilgililik değerlendirmesi ya da çok etkili mekanik süreçlere sahip olabilirsiniz, ama ikisine birden asla.
• Yani, tutarlı bir şekilde etkin olan tamamen otomatik dizinleme ve erişim mümkün değildir.
Kaynak: Swanson, 1988
![Page 33: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/33.jpg)
34
Internet
• Zaman ve mekân engelinin ortadan kalkması
• Bilgi kaynaklarına ve hizmetlerine günde 24 saat haftada 7 gün uzaktan erişim
• “Anında memnuniyet”
![Page 34: Bilgi Erişim Sorunu](https://reader033.vdocuments.mx/reader033/viewer/2022061616/56814605550346895db3125e/html5/thumbnails/34.jpg)
35
Bilgi Erişim ve Internet...
• “Yangın hortumundan su içmek” • “Dijital belgeler”: devingen, sınırları belirsiz, kendi
kendini değiştirebilen belge• Dizinleme ve bilgi erişim teknikleri yetersiz• Erişim doğrusal ve hantal• İnsan beyninde ise dizinleme ve erişim “bağıntılı”• Acaba yakın gelecekte taklit edilebilir mi? • Ses, koku, vs. bilgisine erişim? • Beyin dışında kayıtlı bilgiler insanın düşünme ve
sorun çözme gücünün bir parçası haline getirilebilir mi?