some fundamental concepts of information retrieval
TRANSCRIPT
Some Fundamental Concepts of Information Retrieval
James ChuangWilson, P. (1978). Some Fundamental Concepts of Information Retrieval. Drexel Library Quarterly, 14(2), 10-24.
大綱• 作者介紹• 前言• 資訊檢索的五大概念
• 資訊 (Information)• 關於 (About)• 相關 (Relevance)• 需求 (Need)• 用途 (Use)
• 理想的檢索系統 2
作者介紹• Patrick Wilson (1927 - 2003)• Professor in the School of
Information Management and Systems, Emeritus (Berkeley)
• 1949, A.B. in philosophy.• 1953, Bachelor's degree in
library science. • 1960, Ph.D. in philosophy.
3
前言• 從業人員不知其所以然的應用與討論實務技巧• 基本的概念缺乏公認的定義• 資訊檢索的五大概念
• 資訊 (Information)• 關於 (About)• 相關 (Relevance)• 需求 (Need)• 用途 (Use)
4
資訊 (Information)• 資訊的載體:文件
• 文件包含某主題的資訊• 文件包含某主題的正確資訊
• 文件包含 (Contain) 資訊 ?• 文字的涵義由人詮釋
• 資訊存在人的心中• 個人的信念 (beliefs)• 資訊輸出者與資訊接受者 5
• 資訊輸出者與接受者的四種關係1. 接受者無法確認資訊正確,僅只於了解2. 接受者自認理解,接受並成為信念3. 確認資訊正確,但是僅止於了解4. 承第三點,更進一步接受成為信念
6
資訊 (Information)
確定正確 不確定理解 情況 3 情況 1
接收成為信念 情況 4 情況 2
• 資訊存在正確與不正確• Content retrieval• Information retrieval
• 目前的資訊系統均屬於內容檢索• 正確資訊• 誤訊 (misinformation)
7
資訊 (Information)
關於 (About)• 分類與索引• 探討文字與真實世界的關係• 操作型定義:
• 了解「關於」的本質• 確保索引的一致性
8
• Maron 的定義• 若文件關於某一主題 ( 詞彙 i ) ,使用者檢索時會以詞彙 i 作為檢索詞。
• W ilson 的批評• 主題索引與非主題索引
• 任何文件均具有規律結構• 資訊的規律結構就是言談結構的展現• 文章結構→一棵樹• 利用言談結構組織資訊
• 歷史背景、問題陳述、解決方法等等 9
關於 (About)
相關 (Relevance)• 對索引系統的評估指標
• 求準率 (Precision)• 求全率 (Recall)
• 「相關」的明確定義 ?
10
• 相關在字典上的解釋• 對於自身有關或影響的事物• 可以證明事務或議題的事物• 與某事物有可回溯的、顯著的、邏輯上的連接
11
相關 (Relevance)
• 相關對資訊檢索而言• 為一個重要的評估詞彙• retrieval-worthy• 在檢索需求與特定資料之間,相關的文件就表示為應被檢索到的文件。• 文件相不相關的依據為是否該被檢索到• 文件排序依據是:與檢索要求相關的程度
12
相關 (Relevance)
• 如何認定相關?• 需求的本質• 需求者
• 需求可能是• 以主題或是話語的形式• 邏輯相關• 歷史影響力• 對個人有無利用性
13
相關 (Relevance)
• 認定相關的方法,依不同任務而有差異。• 不同的需求者對於不同因素的權重不同,對於相關的程度判斷亦有差異。
14
相關 (Relevance)
需求 (Need)• In Strong Sense
• 某物是需要的,意思是說其為必要條件 (sine qua non)• Need vs. Goal
• In Weaker Sense• 使我們容易達到目標
15
• 在達到目標的過程中會有的需求減輕成本、增加效率、使成果更好• → 對於資訊的需求 ( 協助判斷 )
• 人需要某事物不一定會明確說出
16
需求 (Need)
• 資訊需求
• 需求是否滿足 X 感受是否滿意
17
需求 (Need)
用途 (Use)• 主要用途 (Primary use)
• 主題上的用途• 進一步用途 (Further use)
• 可應用的計畫、加速決策、支持論點• 問題:某讀者欲蒐集資訊證明其論點
• 系統依據主題判斷相關 ( 主要用途 )• 讀者欲尋求支持論點之文獻 ( 進一步用途 )
18
• 資訊檢索系統是否可對誤訊 (misinformation)的區分• 內容檢索系統 (Content retrieval system)
• 作者的想法或意見• 不分辨真偽
• 目前只能根據主要用途 ( 主題性 )提供資訊•新的資訊組織應以功能性來進行
19
用途 (Use)
理想的檢索系統•提供資訊而非資訊與誤訊雜陳• 非停留在文件內容的描述,而是可解決讀者問題與達成目標• 目前檢索系統只能告訴我們
• 文件的內容• 無法告知真正的價值• 只能說明一些利用價值
20
Q & A21