phÂnlỚpvÀ dỰ ĐoÁn - caohock24.files.wordpress.com · sườn chung về quy nạp trên...

50
 À Á PHÂNLPVÀ DĐOÁN

Upload: others

Post on 25-Oct-2019

3 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

 À ÁPHÂN LỚP VÀ DỰ ĐOÁN

Page 2: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

NỘI DUNG

Phân lớp và dự đoán? Các vấn đề về phân lớp và dự đoán

ế Quy nạp trên cây quyết định Phân lớp Bayes

Cá h há hâ lớ khá Các phương pháp phân lớp khác

Page 3: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

PHÂN LớP LÀ GÌ ? Dự ĐOÁN LÀ GÌ?PHÂN LớP LÀ GÌ ? Dự ĐOÁN LÀ GÌ?

Có thể dùng phân lớp và dự đoán để xác lập mô Có thể dùng phân lớp và dự đoán để xác lập môhình nhằm mô tả các lớp quan trọng hay dự đoánkhuynh hướng dữ liệu trong tương lai

Phân lớp(classification): Tạo ra bộ phân lớp/ môhình.D đ á ( di ti ) D à bộ hâ lớ để d Dự đoán (prediction): Dựa vào bộ phân lớp để dựđoán nhãn của các mẫu chưa biết nhãn.

Page 4: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

Phân lớp là gì? Dự đoán là gì ?

Phâ lớ dữ liệ là tiế

Phân lớp là gì? Dự đoán là gì ?

Phân lớp dữ liệu là tiếntrình có 2 bước Huấn luyện: Dữ liệu

huấn luyện được phânyệ ợ ptích bởi thuật tóan phânlớp ( có thuộc tính nhãnlớp) để tạo ra bộ phân lớp

Phân lớp: Dữ liệu kiểm Phân lớp: Dữ liệu kiểmtra được dùng để ướclượng độ chính xác của bộphân lớp. Nếu độ chínhxác là chấp nhận được thìxác là chấp nhận được thìcó thể dùng bộ phân lớpđể phân lớp các mẫu dữliệu mới.

Page 5: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

Phân lớp là gì? Dự đoán là gì ?

ộ hí h á ( ) ủ bộ hâ lớ ê Độ chính xác (accuracy) của bộ phân lớp trên tập kiểm tra cho trước là phần trăm của các mẫu trong tập kiểm tra được bộ phân lớp xếpmẫu trong tập kiểm tra được bộ phân lớp xếp lớp đúng

lt tl ifi dtlsampletest ofnumber total

sampletest classifiedcorrectly Accuracy

Page 6: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

CHUẨN BỊ DỮ LIỆUCHUẨN BỊ DỮ LIỆU

Làm sạch dữ liệu Nhiễu Thiếu giá trị Thiếu giá trị

Phân tích liên quan (chọn đặc trưng) Các thuộc tính không liên quan Các thuộc tính dư thừa

Biến đổi dữ liệu

Page 7: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

SO SÁNH CÁC PHƯƠNG PHÁP PHÂN LỚPSO SÁNH CÁC PHƯƠNG PHÁP PHÂN LỚP

Độ hí h á ủ d đ á khả ă bộ hâĐộ chính xác của dự đoán: khả năng bộ phânlớp dự đoán đúng dữ liệu chưa biết trước nhãn

Tính bền vững: khả năng của bộ phân lớp thựcTính bền vững: khả năng của bộ phân lớp thựchiện dự đoán đúng với dữ liệu nhiễu hay thiếugiá trị

Tính kích cỡ (scalability): khả năng tạo bộphân lớp hiệu quả với số lượng dữ liệu lớnKhả ă diễ iải bộ hâ lớ ấ t iKhả năng diễn giải: bộ phân lớp cung cấp trithức có thể hiểu được

Page 8: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

CÂY QUYẾT ĐỊNH

Page 9: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

CÂY QUYẾT ĐỊNHCÂY QUYẾT ĐỊNH

Cây quyết định là cấu trúc cây sao cho:y q y y Mỗi nút trong ứng với một phép kiểm tra trên

một thuộc tính Mỗi nhánh biểu diễn kết quả phép kiểm tra Mỗi nhánh biểu diễn kết quả phép kiểm tra Các nút lá biểu diễn các lớp hay các phân bố lớp Nút cao nhất trong cây là nút gốc.

Page 10: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

CÂY QUYẾT ĐỊNH: VÍ DỤCÂY QUYẾT ĐỊNH: VÍ DỤ

Cây quyết định: có mua computer? Dựa vào các thuộc tính tuổi, sinh viên, Uy tín.

Page 11: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

Sườn chung về quy nạp trên cây quyết định

1. Chọn thuộc tính “tốt nhất” theo một độ đo chọn lựa cho trước ọ ộ ộ ộ ọ ự2. Mở rộng cây bằng cách thêm các nhánh mới cho từng giá trị thuộc tính3. Sắp xếp các ví dụ học vào nút lá 4. Nếu các ví dụ được phân lớp rõ thì Stop nguợc lại lặp lại các bước 1-4 cho mỗi

nút lá

Headache Temperature FluTemperature

l

5. Tỉa các nút lá không ổn định

Headache Temperature Flu

e1 yes normal noe2 yes high yes Headache

normal high very high

Headacheno

{e1, e4}{e2, e5} {e3,e6}

e3 yes very high yese4 no normal noe5 no high noe6 no very high no yes no yes no

yes{e2}

no{e5}

yes{e3}

no{e6}

e6 no very high no yes no y

Page 12: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

CHIẾN LƯỢC CƠ BẢNCHIẾN LƯỢC CƠ BẢN

Bắt đầu từ nút đơn biểu diễn tất cả các mẫuế ẫ ề Nếu các mẫu thuộc về cùng một lớp, nút trở thành nút lá và

được gán nhãn bằng lớp đó Ngược lại, dùng độ đo thuộc tính để chọn thuộc tính sẽ phân

tách tốt nhất các mẫu vào các lớptách tốt nhất các mẫu vào các lớp Một nhánh được tạo cho từng giá trị của thuộc tính được

chọn và các mẫu được phân hoạch theo Dùng đệ quy cùng một quá trình để tạo cây quyết định Tiến trình kết thúc chỉ khi bất kỳ điều kiện nào sau đây làđúng Tất cả các mẫu cho một nút cho trước đều thuộc về cùng một

lớp.lớp. Không còn thuộc tính nào mà mẫu có thể dựa vào để phân

hoạch xa hơn. Không còn mẫu nào cho nhánh test_attribute = ai

Page 13: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

BẢNG DỮ LIỆU HUẤN LUYỆNBẢNG DỮ LIỆU HUẤN LUYỆN

Day Outloook Temp Humidity Wind PlayTennis

D1 Sunny Hot High Weak NoD2 Sunny Hot High Strong NoD3 Overcast Hot High Weak YesD3 Overcast Hot High Weak YesD4 Rain Mild High Weak YesD5 Rain Cool Normal Weak YesD6 Rain Cool Normal Strong No6 Ra Coo o a St o g oD7 Overcast Cool Normal Strong YesD8 Sunny Mild High Weak NoD9 Sunny Cool Normal Weak Yes

D10 Rain Mild Normal Weak YesD11 Sunny Mild Normal Strong YesD12 Overcast Mild High Strong YesD13 Overcast Hot Normal Weak YesD14 Rain Mild High Strong No

Page 14: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

CÂY QUYẾT ĐỊNH CHO BÀI TOÁN CHƠI TENNIS

temperaturep

outlook outlookwind

cool hot mild{D5, D6, D7, D9} {D1, D2, D3, D13} {D4, D8, D10, D11,D12, D14}

sunny rain o’cast{D9} {D5, D6} {D7}

true false{D2} {D1, D3, D13}

sunny o’cast rain{D8, D11} {D12} {D4, D10,D14}

true false

wind

high normal

humidity

true false{D11} {D8}

windyes yes no yes

high normal{D4 D14} {D10}

humidity

{D5} {D6} {D1, D3} {D3}

sunny rain o’cast

outlook

{D11} {D8}

no yes yes

{D4, D14} {D10}

yestrue false

{D14} {D4}

windnoyes

sunny rain o cast{D1} {D3}

yesno null

{D14} {D4}

no yes

Page 15: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

CÂY QUYẾT ĐỊNH ĐƠN GIẢNCÂY QUYẾT ĐỊNH ĐƠN GIẢN

outlook

sunny o’cast rain{D1, D2, D8 {D3, D7, D12, D13} {D4, D5, D6, D10, D14}

outlook

D9, D11}

humidity yes wind

high normal{D1, D2, D8} {D9, D11}

strong weak{D6, D14} {D4, D5, D10}

no yesno yes no yes

Cây sẽ đơn giản hơn nếu “outlook” được chọn làm gốc.Cá h ố ể ế ?Cách chọn thuộc tính tốt để tách nút quyết định?

Page 16: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

THUỘC TÍNH NÀO LÀ TỐT NHẤT? THUỘC TÍNH NÀO LÀ TỐT NHẤT?

Nút ế S ó 29 ẫ th ( ) à 35 ẫ

Nếu các thuộc tính A1 và A2 (mỗi thuộc tính có 2 giá trị) tách S thành các

Nút quyết định S có 29 mẫu thuộc lớp cộng (+) và 35 mẫu thuộc lớp trừ (-), ta ký hiệu là [29+, 35-]

[29 35 ]

( g )nút con với tỷ lệ của mẫu dương và mẫu âm như sau, thuộc tính nào là tốt hơn?

[29+, 35 -]A1 = ?

[29+, 35 -]A2 = ?

[ ] [ ][21+, 5-] [8+, 30 -] [18+, 33-] [11+, 2-]

Page 17: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

ĐỘ ĐO VDay Outloook Temp Humidity Wind PlayTenni

s

D1 Sunny Hot High Weak No

D2 Sunny Hot High Strong No

D3 Overcast Hot High Weak YesĐỘ ĐO VOutlook(O):

D3 Overcast Hot High Weak Yes

D4 Rain Mild High Weak Yes

D5 Rain Cool Normal Weak Yes

D6 Rain Cool Normal Strong No

D7 Overcast Cool Normal Strong YesOutlook(O):V(O=Sunny) = (2/5,3/5)V(O=Overcast)=(4/4,0/4)=(1,0)V(O=Rain)=(3/5 2/5)

D7 Overcast Cool Normal Strong Yes

D8 Sunny Mild High Weak No

D9 Sunny Cool Normal Weak Yes

D10 Rain Mild Normal Weak Yes

D11 Sunny Mild Normal Strong YesV(O=Rain)=(3/5,2/5)Temp(T):

V(T=Hot) = (2/4,2/4)V(T C l) (3/4 1/4)

D11 Sunny Mild Normal Strong Yes

D12 Overcast Mild High Strong Yes

D13 Overcast Hot Normal Weak Yes

D14 Rain Mild High Strong No

V(T=Cool)=(3/4,1/4)V(T=Mild)=(4/6,2/6)

Humidity(H):V(H Hi h) (3/7 4/7)

Chọn Outlook vì số mẫu ổn định nhiều nhất.

V(H=High) = (3/7,4/7)V(H=Normal)=(6/7,1/7)

Wind(W):V(W=Weak) = (3/6,3/6)V(W=Strong)=(6/8,2/8)

Page 18: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

ĐỘ ĐO VỘ

{D1 D2 D14} [9+ 5-]{D1, D2, ..., D14} [9+, 5-]

Outlook

S O R iSunny Overcast Rain

{D1, D2, D8, D9, D11}[2+, 3-]

{D3, D7, D12, D13}[4+, 0-]

{D4, D5, D6, D10, D14}[3+, 2-][2+, 3 ] [4+, 0 ] [3+, 2 ]

? Yes ?

Page 19: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

CÂY QUYẾT ĐỊNH CUỐI CÙNG

Day Temp Humidity Wind PlayTennis

D1 Hot High Weak No

D2 Hot High Strong No

D8 Mild High Weak No

Day Temp Humidity Wind PlayTennis

D4 Mild High Weak Yes

D5 Cool Normal Weak Yes

D6 Cool Normal Strong NoCÂY QUYẾT ĐỊNH CUỐI CÙNG

Outlook

D9 Cool Normal Weak Yes

D11 Mild Normal Strong Yes

D10 Mild Normal Weak Yes

D14 Mild High Strong No

Sunny Overcast Rain{D1, D2, D8 {D3, D7, D12, D13} {D4, D5, D6, D10, D14} D9, D11}

high normal{D1, D2, D8} {D9, D11}

Humidity yes

Strong Weak{D6, D14} {D4, D5, D10}

Wind

no yes no yes

Từ cây ta có 5 luật:1. If Outlook = Overcast then Yes2. If Outlook = Sunny and Humidity = High then No3. If Outlook = Sunny and Humidity = Normal then Yes4 If Outlook = Rain and Wind = Strong then No4. If Outlook = Rain and Wind = Strong then No5. If Outlook = Rain and Wind= Weak then Yes

Page 20: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

ENTROPYENTROPY

Entropy đặc trưng độ hỗn tạp (tinh khiết) của tập bất kỳ các ví dụ.

S là tập các mẫu thuộc lớp âm và lớp dương

P là tỷ lệ các mẫu thuộc lớp dương trong S

p là tỷ lệ các mẫu thuộc lớp âm trong S

Entropy(S) = -p log2p -p log2p py( ) p g2p p g2p

Page 21: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

VÍ DỤỤ

Từ 14 mẫu của bảng Play-Tennis, 9 thuộc lớp dương và 5 mẫu âm (ký hiệu là [9+ 5 ] )hiệu là [9+, 5-] )

Entropy([9+, 5-] ) = - (9/14)log2(9/14) - (5/14)log2(5/14)= 0 940= 0.940

Lưu ý:1. Entropy là 0 nếu tất cả các thành viên của S đều thuộc về cùng một lớp.

ế ấ ề ềVí dụ, nếu tất cả các thành viên đều thuộc về lớp dương thì :Entropy(S) = -N/N. log2(N/N) - 0 = -1.0 – 0 = 0 (N là số mẫu) .

2 Entropy là 1 nếu tập hợp chứa số lượng bằng nhau các thành viên thuộc2. Entropy là 1 nếu tập hợp chứa số lượng bằng nhau các thành viên thuộclớp dương và lớp âm. Nếu các số này là khác nhau, entropy sẽ nằm giữa 0 và1.

Page 22: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

INFORMATION GAININFORMATION GAIN

Ta định nghĩa độ đo information gain, phản ánh mức độ hiệuquả của một thuộc tính trong phân lớp. Đó là sự rút giảmmong muốn của entropy gây ra bởi sự phân hoạch các ví dụtheo thuộc tính nàytheo thuộc tính này

)Entropy(SS

Entropy(S)A)Gain(S v )Entropy(SS

Entropy(S)A)Gain(S, vValue(A)v

Giá trị Value(A) là tập các giá trị có thể cho thuộc tính A, và Sv là tập con của S mà A nhận giá trị v.

Page 23: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

INFORMATION GAIN

Values(Wind) = {Weak Strong} S = [9+ 5 ]Values(Wind) = {Weak, Strong}, S = [9+, 5-]Sweak là nút con với trị “weak” là [6+, 2-]

S là út ới t ị “ t ” là [3+ 3 ]Sstrong là nút con với trị “strong”, là [3+, 3-]

G i (S Wi d) E t (S) )Entropy(SSvGain(S, Wind) = Entropy(S) -

= Entropy(S) - (8/14)Entropy(Sweak)(6/ ) (S )

)Entropy(SSStrong} {Weak,v

v

- (6/14)Entropy(SStrong)

= 0.940 - (8/14)0.811 - (6/14)1.000 048= 0.048

Page 24: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

Thuộc tính nào là phân lớp tốt nhất?Thuộc tính nào là phân lớp tốt nhất?

S:[9+, 5-]E = 0.940

H idi

S:[9+, 5-]E = 0.940

Humidity

High Normal

Wind

Weak Strong

[3+, 4-] [6+, 1-]E = 0 985 E = 0 592

Weak Strong

[6+, 2-] [3+, 3-]E 0 811 E 1 00E = 0.985 E = 0.592

Gain(S, Humidity)= .940 - (7/14).985 - (7/14).592

E = 0.811 E = 1.00

Gain(S, Wind)= .940 - (8/14).811 - (6/14)1.00 .940 (7/14).985 (7/14).592

= .151 .940 (8/14).811 (6/14)1.00

= .048

Page 25: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

INFORMATION GAIN CỦA TẤT CẢ CÁCÍTHUỘC TÍNH

Gain (S, Outlook) = 0.246

Gain (S, Humidity) = 0.151

G i (S Wi d) 0 048Gain (S, Wind) = 0.048

Gain (S, Temperature) = 0.029( , p )

Page 26: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

Bước kế tiếp trong tiến trình tăng trưởng trên cây quyết định

{D1 D2 D14} [9+ 5-]{D1, D2, ..., D14} [9+, 5-]

Outlook

S O R iSunny Overcast Rain

{D1, D2, D8, D9, D11}[2+, 3-]

{D3, D7, D12, D13}[4+, 0-]

{D4, D5, D6, D10, D14}[3+, 2-][2+, 3 ] [4+, 0 ] [3+, 2 ]

? Yes ?

Thuộc tính nào cần được kiểm tra?

Ssunny = {D1, D2, D8, D9, D11}Gain(Ssunny, Humidity) = .970 - (3/5)0.0 - (2/5)0.0 = 0.970Gain(S Temperature) = 970 - (2/5)0 0 - (2/5)1 0 - (1/5)0 0 = 0 570Gain(Ssunny, Temperature) = .970 - (2/5)0.0 - (2/5)1.0 - (1/5)0.0 = 0.570Gain(Ssunny, Wind) = .970 - (2/5)1.0 - (3/5)0.918 = 0.019

Page 27: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

ĐIỀU KIỆN DỪNGĐIỀU KIỆN DỪNG

1 Từng thuộc tính đã được đưa vào dọc theo con đường trên1. Từng thuộc tính đã được đưa vào dọc theo con đường trêncây

2. Các mẫu huấn luyện ứng với nút lá có cùng giá trị thuộc tínhđích (chẳng hạn, chúng có entropy bằng 0)

Lưu ý: Thuật toán ID3 dùng Information Gain và C4 5 thuậtLưu ý: Thuật toán ID3 dùng Information Gain và C4.5, thuậttoán được phát triển sau nó, dùng Gain Ratio (một biến thểcủa Information Gain)

Page 28: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

Các thuộc tính với nhiều giá trị

Nếu thuộc tính có nhiều giá trị (ví dụ, các ngày trong tháng)

ID3 sẽ chọn nó

C4.5 dùng GainRatio

A)Gain(S,)(

Slog

SA)mation(SSplitInfor

A)mation(S,SplitInforA)Gain(S,

A)S,GainRatio(

ii

Slog

SA)mation(S,SplitInfor 2

S

)(i AValue

Page 29: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

Ví dụ về Ratio Gain

Ta có: Ta có: Gain (S, O) = 0.246; SplitInfo(S,O) = -5/14 log25/14 – 4/14log24/14 – 5/14log25/14 1.58

RatioGain(S,O) = 0.246/1.58 0.156( , ) /RatioGain (S, H) = 0.151/1 0.151RatioGain(S, W) = 0.048/0.985 0.049RatioGain(S, T) = 0.029/1.56 0.003

Day Outloook Temp Humidity Wind PlayTennis

D1 Sunny Hot High Weak No

D2 Sunny Hot High Strong No

D3 Overcast Hot High Weak Yes

D4 Rain Mild High Weak Yes

D5 Rain Cool Normal Weak Yes

D6 Rain Cool Normal Strong No

D7 Overcast Cool Normal Strong Yes

D8 Sunny Mild High Weak No

D9 Sunny Cool Normal Weak Yes

D10 Rain Mild Normal Weak Yes

D11 Sunny Mild Normal Strong Yes

D12 Overcast Mild High Strong Yes

D13 Overcast Hot Normal Weak Yes

D14 Rain Mild High Strong No

Page 30: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

ÂPHÂN LỚP BAYES

Page 31: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

PHÂN LỚP BAYES

ể ấBộ phân lớp Bayes có thể dự báo các xác suất làthành viên của lớp, chẳng hạn xác suất mẫu chotrước thuộc về một lớp xác địnhtrước thuộc về một lớp xác định

Bộ phân lớp Naïve Bayes có thể so sánh đuợc vềếcông năng với Bộ phân lớp cây quyết định và mạng

nơron. Chúng giả định các thuộc tính là độc lập nhau(độc lập điều kiện lớp)(độc lập điều kiện lớp)

Page 32: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

ĐỊNH LÝ BAYES

X là mẫu dữ liệu chưa biết nhãn lớpp H là giả thuyết sao cho X thuộc về lớp C Ấn định xác suất hậu nghiệm (posterior probability)

P(H|X) sao cho H đúng khi cho trước quan sát X (HP(H|X) sao cho H đúng khi cho trước quan sát X (Hconditioned on X)

Giả sử thế giới các mẫu dữ liệu gồm trái cây, được mô tảbằ à ắ à hì h dábằng màu sắc và hình dáng.

- Giả sử X là màu đỏ và hình tròn- H là giả thuyết mà X là quả táoH là giả thuyết mà X là quả táo- Thì P(H|X) phản ánh độ tin cậy X là quả táo khi biếttrước X có màu đỏ và hình tròn

Page 33: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

Đị h lý BĐịnh lý Bayes

ấ ề P(X|H) là xác suất hậu nghiệm của X có điều kiện trên. Định lý Bayes:

P(X)H)P(H)|P(X

X)|P(H

Khi có n giả thuyết

P(X)

n

iii

))P(HH|P(X

))P(HH|P(XX)|P(H

1j jj ))P(HH|P(X

Page 34: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

PHÂN LỚP NAÏVE BAYESIAN (NBC)PHÂN LỚP NAÏVE BAYESIAN (NBC)

Mỗi mẫu dữ liệu được biểu diễn bằng X= (x1, x2,…, xn)ệ ợ g ( 1, 2, , n)với các thuộc tính A1, A2,…, An

Các lớp C1, C2, …, Cm. Cho trước mẫu chưa biết X. NBCá X à C khi à hỉ khi P(C |X) P(C |X) ới 1 j gán X vào Ci khi và chỉ khi P(Ci|X) > P(Cj|X) với 1 j m,

j i. Do vậy, chúng ta cực đại P(Ci|X). Lớp Ci sao choP(Ci|X) là cực đại được gọi là giả thuyết hậu nghiệm cựciđại (maximum posterior hypothesis). Theo định lý Bayes

))P(CC|P(XP(X)

))P(CC|P(XX)|P(C ii

i

Page 35: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

PHÂN LỚP NAÏVE BAYESIANPHÂN LỚP NAÏVE BAYESIAN

Do P(X) là hằng cho tất cả các lớp, chỉ cần cực đạiP(X|Ci) P(Ci). Nếu chưa biết P(Ci) cần giả địnhP(C1)=P(C2)=…= P(Cm) và chúng ta sẽ cực đạiP(X|Ci). Ngược lại, ta cực đại P(X|Ci) P(Ci)

Nếu m là lớn, sẽ rất tốn kém khi tính P(X|Ci) P(Ci).NBC giả định độc lập điều kiện lớp

)C|P(x)C|P(X i

n

1kki

1k

Page 36: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

PHÂN LỚP NAÏVE BAYESIAN

ó hể h í h á ẫ h ấ

PHÂN LỚP NAÏVE BAYESIAN

Có thể phỏng tính P(x1|Ci), …, P(xn|Ci) từ các mẫu huấn luyện

Nếu Ak được phân lớp thì P(xk|Ci) = sik/si với sik là Nếu Ak được phân lớp thì P(xk|Ci) sik/si với sik là số mẫu huấn luyện của Ci có trị xk cho Ak và si là số các mẫu thuộc về lớp Ci

Nếu Ak là liên tục thì nó được giả định có phân bốGaussian

2iC

2iCk

ii

)μ(x

CCkik e21

)σ,μ,g(x)C|P(x

i

ii

C2πσ

Page 37: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

PHÂN LỚP NAÏVE BAYESIANPHÂN LỚP NAÏVE BAYESIAN

Để phân lớp mẫu chưa biết X, ta tính P(X|Ci) p p , ( | i)P(Ci) cho từng Ci. Sau đó mẫu X được gán vào Ciiff P(Ci|X) > P(Cj|X) for 1 j m, j i

Nói cách khác, NBC gán X vào lớp Ci sao cho P(X|Ci) P(Ci) là cực đại P(X|Ci) P(Ci) là cực đại

Page 38: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

VÍ DỤ: XÉT CSDL THỜI TIẾTVÍ DỤ: XÉT CSDL THỜI TIẾT

Day Outloook Temp Humidity Wind Play?D1 S H t Hi h W k ND1 Sunny Hot High Weak NoD2 Sunny Hot High Strong NoD3 Overcast Hot High Weak YesD4 Rain Mild High Weak YesD4 Rain Mild High Weak YesD5 Rain Cool Normal Weak YesD6 Rain Cool Normal Medium NoD7 Overcast Cool Normal Strong YesD8 Sunny Mild High Weak NoD9 Sunny Cool Normal Weak Yes

D10 Rain Mild Normal Weak YesD11 Sunny Mild Normal Strong YesD12 Overcast Mild High Strong YesD13 Overcast Hot Normal Weak YesD14 Rain Mild High Strong No

Page 39: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

D Á Ã Ớ Ớ Â Ớ BDỰ BÁO NHÃN LỚP VỚI PHÂN LỚP BAYESIAN

Với X = (O = Sunny, Temp = Hot, Humidity = Normal, Wind = Weak)

Yes No

( ) ( ) P(Play = yes) = 9/14 P(Play = no) = 5/14

P(O = Sunny| Play = Yes) = 2/9 P(O = Sunny| Play = No) = 3/5

P(T H t|Pl Y ) 2/9 P(T H t | Pl N ) 2/5P(T = Hot|Play = Yes) = 2/9 P(T = Hot | Play = No) = 2/5

P(H = Normal | Play = Yes) = 6/9 P(H = Normal | Play = No) = 1/5

P(W = Weak | Play = Yes) = 6/9 P(W = Weak | Play = No) = 2/5P(W = Weak | Play = Yes) = 6/9 P(W = Weak | Play = No) = 2/5

P(Yes | X) = P(No | X) = 567

89*9*9*9*146*6*2*2*9

8756

5*5*5*5*142*1*2*3*5

5679*9*9*9*14 8755*5*5*5*14

Page 40: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

THUẬT TOÁN ILA (I L A )(INDUCTIVE LEARNING ALGORITHM)

Böôùc 1:Böôc 1:Chia baûng coù chöùa m maãu thaønh n baûng con. Moät baûng öùng vôùi moät giaù trò coùtheå coù cuûa thuoäc tính lôùp. (Töø böôùc 2 ñeán böôùc 8 seõ ñuôïc laëp laïi cho moãi baûng)

Böôùc 2:Khôûi taïo soá löôïng thuoäc tính keát hôïp j vôùi j = 1.

Böôùc 3:Vôùi moãi baûng con ñang xeùt, phaân chia caùc thuoäc tính cuûa noù thaønh moät danhù h ù h ä í h k á h ãi h ø h h à û d h ù h ù j h ä í h h âsaùch caùc thuoäc tính keát hôïp, moãi thaønh phaàn cuûa danh saùch coù j thuoäc tính phaânbieät.

Böôùc 4:Vôùi moãi keát hôp caùc thuoäc tính trong danh saùch treân, ñeám soá laàn xuaát hieän caùcVôi moi ket hôïp cac thuoäc tính trong danh sach tren, ñem so lan xuat hieän cacgiaù trò cho caùc thuoäc tính trong keát hôïp ñoù ôû caùc doøng chöa bò khoùa cuûa baûngñang xeùt nhöng noù khoâng ñöôïc xuaát hieän cuøng giaù trò ôû nhöõng baûng con khaùc.Choïn ra moät keát hôïp trong danh saùch sao cho noù coù giaù trò töông öùng xuaát hieännhieàu nhaát vaø ñöôïc goïi laø Max_combination.g

Page 41: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

THUẬT TOÁN ILA THUẬT TOÁN ILA

Böôùc 5:Böôc 5:If max_combination = 0 thì j = j + 1 quay laïi böôùc 3.

Böôùc 6:Khoùa caùc doøng ôû baûng con ñang xeùt maø tai ñoù noù coù giaù trò baèng vôùi giaù trò taoKhoa cac dong ô bang con ñang xet ma taïi ño no co gia trò bang vôi gia trò taïora max_combination.

Böôùc 7:Theâm vaøo R luaät môùi vôùi giaû thieát laø max_combination caùc thuoäc tính vaø giaù trò

ù h â bi ä ø k á ái ù b ä ø b è AND k á l ä û l ä l ø i ùtöông öùng phaân bieät vaø keát noái caùc boä naøy baèng AND, keát luaän cuûa luaät laø giaùtrò cuûa thuoäc tính quyeát ñònh töông öùng vôùi baûng con naøy.

Böôùc 8:Neáu taát caû caùc doøng ñeàu khoùaNeu tat ca cac dong ñeu khoa

Neáu coøn baûng con thì qua baûng con tieáp theo vaø quay laïi böôùc 2. Ngöôïc laïi chaám döùt thuaät toaùn

Ngöôïc laïi (nghóa laø vaãn coøn doøng chöa khoùa trong baûng con ñang xeùt) thì quay laïi böôùc 4.

Page 42: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

VÍ DỤ MINH HỌA ILAVÍ DỤ MINH HỌA ILA

STT Kích cỡ Màu sắc Hình dáng Quyết định1 Vừa Xanh dương Hộp Mua2 Nhỏ Đỏ Nón Không mua3 Nhỏ Đỏ Cầu Mua4 Lớn Đỏ Nón Không mua4 Lớn Đỏ Nón Không mua5 Lớn Xanh lá Trụ Mua6 Lớn Đỏ Trụ Không mua7 Lớn Xanh lá Cầu Mua

Page 43: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

VÍ DỤ ILA (TT)STT Kích cỡ Màu sắc Hình dáng Quyết định

1 Vừa Xanh dương Hộp Mua3 Nhỏ Đỏ Cầu Mua5 Lớn Xanh lá Trụ Mua5 Lớn Xanh lá Trụ Mua7 Lớn Xanh lá Cầu Mua

STT Kích cỡ Màu sắc Hình dáng Quyết định2 Nhỏ Đỏ Nón Không mua4 Lớn Đỏ Nón Không mua6 Lớn Đỏ Trụ Không mua

Page 44: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

VÍ DỤ ILA (TT)STT Kích cỡ Màu sắc Hình dáng Quyết định

1 Vừ X h d Hộ M1 Vừa Xanh dương Hộp Mua3 Nhỏ Đỏ Cầu Mua5 Lớn Xanh lá Trụ Muaụ7 Lớn Xanh lá Cầu Mua

STT Kích cỡ Màu sắc Hình dáng Quyết định2 Nhỏ Đỏ Nón Không muaChọn thuộc tính Màu sắc

ới iá t ị X h lá4 Lớn Đỏ Nón Không mua6 Lớn Đỏ Trụ Không mua

với giá trị Xanh lá

Page 45: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

VÍ DỤ ILA (TT)STT Kích cỡ Màu sắc Hình dáng Quyết định

1 Vừ X h d Hộ M1 Vừa Xanh dương Hộp Mua3 Nhỏ Đỏ Cầu Mua

IF Mà ắ X h lá THEN Q ết đị h MIF Màu sắc = Xanh lá THEN Quyết định = Mua

STT Kích cỡ Màu sắc Hình dáng Quyết định2 Nhỏ Đỏ Nón Không mua4 Lớn Đỏ Nón Không mua6 Lớn Đỏ Trụ Không mua

Page 46: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

VÍ DỤ ILA (TT)STT Kích cỡ Màu sắc Hình dáng Quyết định

3 Nhỏ Đỏ Cầ M3 Nhỏ Đỏ Cầu Mua

IF Màu sắc = Xanh lá THEN Quyết định = Mua

IF Kích cỡ = Vừa THEN Quyết định = Mua

STT Kích cỡ Màu sắc Hình dáng Quyết định2 Nhỏ Đỏ Nón Không mua4 Lớn Đỏ Nón Không mua6 Lớn Đỏ Trụ Không mua

Page 47: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

VÍ DỤ ILA (TT)

ắ Q ếIF Màu sắc = Xanh lá THEN Quyết định = Mua

IF Kích cỡ = Vừa THEN Quyết định = Mua

IF Hình dáng= Cầu THEN Quyết định = MuaIF Hình dáng Cầu THEN Quyết định Mua

STT Kích cỡ Màu sắc Hình dáng Quyết định2 Nhỏ Đỏ Nón Không mua4 Lớn Đỏ Nón Không mua6 Lớn Đỏ Trụ Không mua

Page 48: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

VÍ DỤ ILA (TT)STT Kích cỡ Màu sắc Hình dáng Quyết định

1 Vừ X h d Hộ M1 Vừa Xanh dương Hộp Mua3 Nhỏ Đỏ Cầu Mua5 Lớn Xanh lá Trụ Muaụ7 Lớn Xanh lá Cầu Mua

STT Kích cỡ Màu sắc Hình dáng Quyết định2 Nhỏ Đỏ Nón Không mua4 Lớn Đỏ Nón Không mua6 Lớn Đỏ Trụ Không mua

ếIF Hình dáng = Nón THEN Quyết định = Không mua

Page 49: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

VÍ DỤ ILA (TT)STT Kích cỡ Màu sắc Hình dáng Quyết định

1 Vừ X h d Hộ M1 Vừa Xanh dương Hộp Mua3 Nhỏ Đỏ Cầu Mua5 Lớn Xanh lá Trụ Muaụ7 Lớn Xanh lá Cầu Mua

STT Kích cỡ Màu sắc Hình dáng Quyết định6 Lớn Đỏ Trụ Không mua

IF Hình dáng = Nón THEN Quyết định = Không mua

Page 50: PHÂNLỚPVÀ DỰ ĐOÁN - caohock24.files.wordpress.com · Sườn chung về quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo

VÍ DỤ ILA (TT)STT Kích cỡ Màu sắc Hình dáng Quyết định

1 Vừ X h d Hộ M1 Vừa Xanh dương Hộp Mua3 Nhỏ Đỏ Cầu Mua5 Lớn Xanh lá Trụ Muaụ7 Lớn Xanh lá Cầu Mua

STT Kích cỡ Màu sắc Hình dáng Quyết định6 Lớn Đỏ Trụ Không mua

IF Hình dáng = Nón THEN Quyết định = Không mua

IF Kích cỡ = Lớn AND Màu sắc = Đỏ THEN Quyết định = Không muay ị g