asking generalized queries to domain experts to improve learning

IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 6, pp. 812-825, 2010.

Jun Du and Charles X. LingReporter:HUANG, Chun-Ming

112/04/22 1

OutlineINTRODUCTIONAGQ: ACTIVE LEARNING WITH

GENERALIZED QUERIESAGQ+

EXPERIMENTS WITH GENERALIZED QUERIES

CONCLUSIONS

112/04/22 2

INTRODUCTION傳統資料探勘下，主動學習演算法都假設專家只可回答具有提供所有的屬性值的明確問題

例如：如果 ID 是 32765 ，名字叫 Jane ，年齡為 35 ，性別是女性，體重為 85 公斤，血壓 160/90 ，溫度是98F ，無疼痛的膝蓋，沒有糖尿病病史…等等，那這個病人是否有關節炎？

在現實世界的情況下，專家往往會回答廣義查詢，如“ 50 歲以上且膝關節疼痛的人，可能會有關節炎嗎？”

112/04/22 3

INTRODUCTION此外，來自專家廣義查詢的答案往往可能是不確定的

例如，回答上述廣義查詢，“ YES” ，可能是有百分之九十的可能性另一個過於廣義的查詢，如“ 50 歲以上的人可能會有關節炎？”，那回答” Yes” ，可能是百分之 60 的可能性

上述的問題會導致學習性能降低，因此，我們針對於具有廣義查詢的主動學習器設計了一個新的演算法，稱為 AGQ

112/04/22 4

AGQ: ACTIVE LEARNING WITH GENERALIZED QUERIES假定樣本是由 N 個數值或名目屬性 (Xn) 和具有正 (1)

負 (0) 數的二進制標籤 Y 所組成給予一個初始標記的訓練集合 R 、一個未標記的資料集合 U 、測試集合AGQ 演算法可以分為以下四個主要步驟

112/04/22 5

AGQ: ACTIVE LEARNING WITH GENERALIZED QUERIESStep1.

首先，最初的學習器 L 是使用目前已被標記的訓練資料集合 R 來建構，然後，將 L 用來預測在 U 中每個樣本。之後選擇最不確定的樣本 Xu 。舉例來說，明確的樣本可能是 [1 ， 0 ， 1 ， 1 ， 0 ，1] ，根據 L 判斷，具有百分之 52 的預測概率為第 1類 ( 百分之 48 為第 0 類 ) 。

112/04/22 6


從最不確定的樣本 Xu 中，透過演算法 1 找出不相關的屬性，並以” * ” 代替，建構一廣義查詢。上例樣本 [1 ， 0 ， 1 ， 1 ， 0 ， 1] 的廣義查詢可能是 [1 ， *， 1 ， *， 0 ， 1] 。

112/04/22 7

112/04/22 8


送出這個廣義查詢給專家，之後會回傳標籤與機率分佈。上例的廣義查詢 [1 ， * ， 1 ， * ， 0 ， 1] ，專家可能會回傳 0.9 為類別 1 的機率 ( 和 0.1 為類別 0的機率 ) 。

112/04/22 9


之後利用回傳的標籤和分佈機率來更新訓練資料，並重複 Step1 。上例的廣義查詢 [1 ， *， 1 ， *， 0 ， 1] 和類別的機率分佈，產生四個具有標籤機率 (0.9 為類別 1和 0.1 為類別 0 ) 且明確的樣本[1 ， 0 ， 1 ， 0 ， 0 ， 1],[1 ， 0 ， 1 ， 1 ， 0 ，1],[1 ， 1 ， 1 ， 0 ， 0 ， 1], 和 [1 ， 1 ， 1 ， 1 ，0 ， 1] 加入到訓練集合中

112/04/22 10

AGQ+在 AGQ 中的屬性值大多是只有一個明確的值，但在大多數實際應用中，名目的屬性可以是子集合 ( 的值 ) ，且數值屬性可以是一範圍例如，要預測“關節炎”，那“膝關節疼痛”可能是具有關於“無”，“輕微”和“嚴重”值的名目屬性，且“年齡”可能是另一種具有數值的相關屬性建構一廣義查詢可能會是“年齡介於 50 到 65 ，且患有中度或重度的膝關節疼痛的人，可能會有關節炎嗎？”112/04/22 11

AGQ+AGQ 延伸為 AGQ+

與 AGQ 的 Step2 作法不同名目屬性從最不確定的樣本中，先透過演算法 1 找出不相關的屬性，之後再透過演算法 2 找出弱不相關 (weak-irrelevant) 的屬性。數值屬性從最不確定的樣本中，先透過演算法 1 找出不相關的屬性，之後再演算法 2 建構一個數值範圍 [ai-δ ， ai+δ] ，找出弱不相關 (weak-irrelevant) 的屬性。

112/04/22 12


112/04/22 14


112/04/22 15


112/04/22 17

CONCLUSIONS 以往主動學習，假設專家只能回答明確的查詢，但是，在現實世界的應用中，領域專家往往是會回答廣義查詢回答這種廣義查詢可以提供更多的訊息來提高學習，但來自專家的答案有可能是不正確的，這有可能會導致性能下降我們所提出的 AGQ 能夠盡可能的為廣義查詢保留高度確定性標籤，來提高學習的性能

asking generalized queries to domain experts to improve learning

Documents