ctt305 10hc sv th ref.weka diendandaihoc.vn 12261612082011 2

17
 Đại hc Quc Gia Thành ph H Chí Minh Trường Đại hc Khoa Hc T Nhiên Khoa Công Ngh Thông Tin B môn Khoa Hc Máy Tính Khai thác d liu và ng dng Tài liu tham kho HƯỚNG D  ẪN S DNG WEKA EXPLORER 3.6.3 Tháng 8/2011

Upload: petite-giang

Post on 14-Jul-2015

572 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2

5/13/2018 CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2 - slidepdf.com

http://slidepdf.com/reader/full/ctt305-10hc-sv-th-refweka-diendandaihocvn-12261612082011-2 1/16

 

Đại học Quốc Gia Thành phố Hồ Chí Minh

Trường Đại học Khoa Học Tự Nhiên

Khoa Công Nghệ Thông Tin

Bộ môn Khoa Học Máy Tính

Khai thác dữ liệu và ứng dụng

Tài liệu tham khảo 

HƯỚNG D ẪN SỬ DỤNG

WEKA EXPLORER 3.6.3

________________________________________________

________________________________________________

Tháng 8/2011

Page 2: CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2

5/13/2018 CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2 - slidepdf.com

http://slidepdf.com/reader/full/ctt305-10hc-sv-th-refweka-diendandaihocvn-12261612082011-2 2/16

 

Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng 

MỤC LỤC

1. Giới thiệu..................................................................................................................................................................................1  1.1. Các chức năng của Weka Explorer ....................................................................................................................1 1.2. Khảo sát dữ liệu ...........................................................................................................................................................1 

2. Tiền xử lý dữ liệu .................................................................................................................................................................3 3. Tập phổ biến & luật k ết hợp ..........................................................................................................................................5 4. Phân loại ...................................................................................................................................................................................8 5. Gom cụm................................................................................................................................................................................ 10 6. Một số định dạng t ập tin ............................................................................................................................................... 12 

Page 3: CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2

5/13/2018 CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2 - slidepdf.com

http://slidepdf.com/reader/full/ctt305-10hc-sv-th-refweka-diendandaihocvn-12261612082011-2 3/16

 

Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng 

Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 1

1. Giới thiệu

1.1. Các chức năng của Weka Explorer

Các chức năng chính của Weka Explorer thể hiện trong các thẻ (tab) của màn hình

chính, bao gồm:

  Preprocess: Cho phép mở, điều chỉnh, lưu một t ập tin dữ liệu, thẻ này chứa các

thuậtt toán áp dụng trong tiền xử lý dữ liệu.

  Classify: Cung cấp các mô hình phân loại dữ liệu hoặc hồi quy.

  Cluster: Cung cấp các mô hình gom cụm.

   Associate: Khai thác t ập phổ biến và luật k ết hợp.

  SelectAttributes: Lựa chọn các thuộc tính thích hợp nhất trong t ập dữ liệu

  Visualize: Thể hiện dữ liệu dưới dạng biểu đồ 

1.2. Khảo sát dữ liệu

  Sử dụng thẻ Preprocess 

  (1) Open file…: Mở một t ập tin dữ liệu.

  (2) Edit…: Hiển thị và chỉnh sửa dữ liệu bằng tay nếu cần thiết.

  (3) Save…: Lưu dữ liệu hiện t ại ra t ập tin.

Weka Explorer hỗ trợ một số định dạng trong đó có 2 định dạng chính cần quan tâm là

*.arff và *.csv (Xem phần 6)  (4) Filter: Các tác vụ tiền xử lý được gọi là các bộ lọc, (xem phần 2). 

Page 4: CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2

5/13/2018 CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2 - slidepdf.com

http://slidepdf.com/reader/full/ctt305-10hc-sv-th-refweka-diendandaihocvn-12261612082011-2 4/16

 

Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng 

Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 2

  (5) Selected attribute: Thông tin về thuộc tính đang được chọn: 

o  Type: Kiểu dữ liệu của thuộc tính (Numeric: Dạng số, Nominal: Dạng rời rạc/phi

số). 

o  Missing: Số mẫu thiếu giá trị trên thuộc tính đang xét  

o  Distinct: Số giá trị phân biệt  

o  Unique: Số mẫu không có giá trị trùng với mẫu khác 

o  Bảng thống kê:

 Dạng phi số:Thể hiện các giá trị và t ần suất của mỗi giá trị 

  Dạng số:Thể hiện một số đại lượng thống kê như giá trị nhỏ nhất, lớn nhất,

giá trị trung bình và độ lệch chuẩn.

Page 5: CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2

5/13/2018 CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2 - slidepdf.com

http://slidepdf.com/reader/full/ctt305-10hc-sv-th-refweka-diendandaihocvn-12261612082011-2 5/16

 

Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng 

Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 3

2. Tiền xử lý dữ liệu

  Choose: Chọn một bộ lọc.

  Textbox: Các tham số của bộ lọc đã chọn, click vào đây để thay đổi tham số.

o  Thông thường, với những bộ lọc có thể áp dụng trên các thuộc tính riêng lẻ sẽ cho

phép lựa chọn t ầm ảnh hưởng của bộ lọc đối với những thuộc tính người dùng

quan tâm.

o  More: Hiển thị thông tin chi tiết về bộ lọc.

o  Capabilities: Các yêu cầu cần thiết đối với dữ liệu để thực hiện bộ lọc.

   Apply: Thực thi bộ lọc với các tham số đã xác định trên dữ liệu hiện t ại.

Page 6: CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2

5/13/2018 CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2 - slidepdf.com

http://slidepdf.com/reader/full/ctt305-10hc-sv-th-refweka-diendandaihocvn-12261612082011-2 6/16

 

Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng 

Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 4

  Ví dụ: Unsupervised.Attribute.Discretize 

o  Hình bên dưới là màn hình điều chỉnh tham số cho phương pháp chia giỏ, trong

đó có các tham số như số lượng giỏ (bins), chia giỏ theo độ rộng/độ sâu

(useEqualFrequency) ,… 

  Ví dụ: Unsupervised.Attribute.Normalize: Chuẩn hóa min-max với tham số giới hạn

(scale) và giá trị nhỏ nhất (translation). 

Page 7: CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2

5/13/2018 CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2 - slidepdf.com

http://slidepdf.com/reader/full/ctt305-10hc-sv-th-refweka-diendandaihocvn-12261612082011-2 7/16

 

Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng 

Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 5

3. Tập phổ biế n & luật k ế t hợp

  Sử dụng thẻ  Asscociate 

   Associator: Phương pháp khai thác luật k ết hợp. 

o  Choose: Lựa chọn một phương pháp 

o  Textbox: Thay đổi tham số cho phương pháp đã lựa chọn

  Ví dụ: Apriori: Khai thác t ập phổ biến và luật k ết hợp.

o  [lowerBoundMinSupport, upperBoundMinSupport]: Độ phổ biến của các t ập

hạng mục khai thác được sẽ nằm trong khoảng này.

o  metricType: Độ đo tính lý thú của luật k ết hợp, gồm có Confidence, Lift,

Leverage, Conviction. 

o  minMetric: Các luật khai thác được sẽ có độ đo thỏa giá trị này. 

Page 8: CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2

5/13/2018 CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2 - slidepdf.com

http://slidepdf.com/reader/full/ctt305-10hc-sv-th-refweka-diendandaihocvn-12261612082011-2 8/16

 

Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng 

Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 6

o  numRule và delta: Thuật toán luôn khởi động với mức độ lý thú mục tiêu cao

nhất. Khisố luật đạt con số numRule, thuật toán sẽ dừng, ngược lại giá trị của

minMetric sẽ giảm một lượng delta để tìm các luật có độ đo lý thú thấp hơn. 

o  outputItemsets: Kết xuất t ập phổ biến trong k ết quả. 

  Thể hiện k ết quả:

o  Tập phổ biến: Danh sách các hạng mục và độ phổ biến

o  Luật k ết hợp: Luật và độ đo lý thú. 

Page 9: CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2

5/13/2018 CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2 - slidepdf.com

http://slidepdf.com/reader/full/ctt305-10hc-sv-th-refweka-diendandaihocvn-12261612082011-2 9/16

 

Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng 

Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 7

  Ví dụ: FP-Growth, Khai thác luật k ết hợp

Ngoài các tham số như của Apriori, FP-Growth trong Weka còn được hỗ trợ một số tiện

ích khác:

o  findAllRulesForSupportedLevel:Khai thác t ất cả các luật với độ đo đã lượng

chọn. 

o  maxNumberofItems:Số hạng mục t ối đa trong lụât khai thác được. 

o  rulesMustContainvà transactionsMustContain:Chỉ khai thác trên các hạng mục

được quan tâm. 

Page 10: CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2

5/13/2018 CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2 - slidepdf.com

http://slidepdf.com/reader/full/ctt305-10hc-sv-th-refweka-diendandaihocvn-12261612082011-2 10/16

 

Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng 

Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 8

4. Phân loại

  Sử dụng thẻ Classify. 

  (1): Classifier: Lựa chọn bộ phân loại và các tham số.

  (2): Test Options: Các tùy chọn để kiểm thử mô hình:

o  Use training set: Sử dụng chính t ập dữ liệu huấn luyện để kiểm nghiệm. 

o  Supplied test set: Sử dụng một t ập dữ liệu khác. 

o  Cross-validation: Chia dữ liệu thành nhiều phần (Folds) để thực hiện nhiều lần

đánh giá kết quả. 

o  Percentage split: Chia dữ liệu thành 2 phần theo t ỉ lệ %, một phần dùng để xây

dựng mô hình, phần còn lại dành cho kiểm thử. 

o  More Options: Điều chỉnh một số tham số khác: 

- Output predictions:

Trả ra k ết quả phân loại chi tiết cho t ừng mẫu

trong dữ liệu kiểm nghiệm.

- Preserve order for % Split:

Chia các mẫu vào t ập huấn luyện và kiểm thử 

không theo cách lựa chọn ngẫu nhiên. Thứ t ự 

như trong dữ liệu hiện t ại được giữ nguyên.

- Điều chỉnh việc k ế t xuất một số thông tin.

  (3): Result list: Danh sách k ết quả các lần chạy thuật toán, có thể tương tác trên danh

sách này để thực hiện một các chức năng phụ.

- Load model, Save model: Mở/Lưu mô hình

phân loại ra t ập tin.

- Visualize tree: Một số bộ phân loại sử dụng cây

quyết định có thể cho hình ảnh cây.

Page 11: CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2

5/13/2018 CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2 - slidepdf.com

http://slidepdf.com/reader/full/ctt305-10hc-sv-th-refweka-diendandaihocvn-12261612082011-2 11/16

 

Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng 

Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 9

  (4): Classifier output:

Kết quả sau được liệt kê bằng văn bản với những phần phân biệt như sau: 

o  Run information: 

 Thông tin chung về thuật toán được sử dụng, t ập dữ liệu.

o  Classifier model

Page 12: CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2

5/13/2018 CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2 - slidepdf.com

http://slidepdf.com/reader/full/ctt305-10hc-sv-th-refweka-diendandaihocvn-12261612082011-2 12/16

 

Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng 

Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 10

  Chi tiết mô hình phân loại, tuy nhiên đối với một số bộ phân loại thì mô

hình phân loại không thể hiện đầy đủ thông tin bằng văn bản được.

o  Summary

  Liệt kê thông tin t ổng quát về mức độ chính xác của bộ phân loại trong thử 

nghiệm vừa thực thi.

o  Detailed Accuracy By Classvà Confusion Matrix

  Chi tiết k ết quả độ chính xác của bộ phân loại trên t ừng phân lớp. 

5. Gom cụm

  Sử dụng thẻ Cluster. 

  (1): Clusterer: Lựa chọn mô hình gom cụm và các tham số.

  (2): Cluster mode: Các tùy chọn để kiểm thử mô hình:

o  Use training set: Sử dụng chính t ập dữ liệu huấn luyện để kiểm nghiệm. 

o  Supplied test set: Sử dụng một t ập dữ liệu khác. 

o  Percentage split: Chia dữ liệu thành 2 phần theo t ỉ lệ %, một phần dùng để xây

dựng mô hình, phần còn lại dành cho kiểm thử. 

o  Classes to clusters evaluation:

Gomcụmtrêntoànbộdữliệuvàđánhgiávớitiêuchíđộlỗilàthấpnhất.Vớiphươngphápn

ày ta cóthểápdụngcácphươngphápđánhngoàiđểkhảosátchấtlượnggomcụm. 

  Ignore attributes: Bỏ qua cácthuộctínhchỉđịnhkhitiếnhànhgomcụm. 

Page 13: CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2

5/13/2018 CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2 - slidepdf.com

http://slidepdf.com/reader/full/ctt305-10hc-sv-th-refweka-diendandaihocvn-12261612082011-2 13/16

 

Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng 

Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 11

  (3): Clusterer output: Chứacáck ếtquảgomcụm.

o  Thông tin môhình:Đượcthểhiệntùytheobộgomcụmđượcsửdụng

Vídụđốivớithuậttoán Farthest First thìthông tin

đượchiểnthịbaogồmtrọngtâmcủacácnhóm, cònvớithuậttoán HAC

thìlàdanhsáchcácnhóm qua

mỗivònglặp.Trongk ếtquảcủathuậttoánKmeanscòncóthông tin vềchỉsố SSE.

Page 14: CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2

5/13/2018 CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2 - slidepdf.com

http://slidepdf.com/reader/full/ctt305-10hc-sv-th-refweka-diendandaihocvn-12261612082011-2 14/16

 

Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng 

Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 12

o  K ế tquảgomcụm: Thểhiệnsốmẫugomcụmđược/khônggomcụmđược.

ĐốivớiphươngphápđánhgiáClasses to clusters evaluationthìcòncóthông tinvềsốmẫubịgomcụmsai.

6. Một số định dạng t ập tin

  Attribute-Relation File Format (*.arff)o  Là t ập tin văn bản, gồm 2 phần:

Phần khai báo (header)

Page 15: CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2

5/13/2018 CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2 - slidepdf.com

http://slidepdf.com/reader/full/ctt305-10hc-sv-th-refweka-diendandaihocvn-12261612082011-2 15/16

 

Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng 

Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 13

Phần dữ liệu (data)

o  Phần khai báo:

@relation <tên dữ liệu>

@attribute <tên thuộc tính 1><Kiểu dữ liệu>

@attribute <tên thuộc tính 2><Kiểu dữ liệu>

… 

@attribute <tên thuộc tính n><Kiểu dữ liệu>

o  Các kiểu dữ liệu

Numeric Dữ liệu dạng số Ví dụ: @ATTRIBUTE name numeric

Nominal Dữ liệu rời rạc Ví dụ: @ATTRIBUTE class {setosa, versicolor}

String Dữ liệu chuỗi Ví dụ: @ATTRIBUTE name stringDate Dữ liệu kiểu ngày Ví dụ: @ATTRIBUTE discovered date

Dữ liệu thiếu được ký hiệu bằng dấu chấm hỏi “?” 

o  Phần dữ liệu:

Mỗi mẫu dữ liệu được đặt trên một dòng, giá trị của các thuộc tính được liệt kê

theo thứ t ự t ừ trái qua phải và ngăn cách bởi dấu phẩy “,” 

  Comma Separated Values (*.csv)

o Là t ập tin văn bản

o  Cấu trúc tương tự phần dữ liệu của t ập tin arff: Các mẫu được lưu trên một dòng,

các thuộc tính được ngăn cách bằng dấu phẩy.

o  Dòng đầu tiên chứa tên các thuộc tính.

Ví dụ:

Một t ập tin csv có nội dung như sau: 

Page 16: CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2

5/13/2018 CTT305 10HC SV TH Ref.weka Diendandaihoc.vn 12261612082011 2 - slidepdf.com

http://slidepdf.com/reader/full/ctt305-10hc-sv-th-refweka-diendandaihocvn-12261612082011-2 16/16

 

Weka Explorer 3.6.3 CTT305 – Khai thác dữ liệu & Ứng dụng 

Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM Trang 14

Có nghĩa là dữ liệu này gồm có 14 mẫu và 5 thuộc tính (outlook, temperature, humidity,

windy, play).

Hiể

n thị

t ậ

p tin này bằ

ng arffViewer: