khoinguonit.com - text mining

33
Đtài Trí tunhân to Text Mining KhoiNguonIT.Com tổng hợp TTNT - KhoiNguonIT.Com tổng hợp

Upload: palm-palm-nguyen

Post on 02-Aug-2015

151 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Khoinguonit.com - Text Mining

Đề tài Trí tuệ nhân tạo

Text Mining

KhoiNguonIT.Com tổng hợp

TTNT - KhoiNguonIT.Com tổng hợp

Page 2: Khoinguonit.com - Text Mining

Thực hiện

Phù Thế Công – CN06065

Phạm Đình Chương – CN06066

Võ Văn Lĩnh – CN06076

Ngô Hữu Sáng – CN06082

Nguyễn Hoàng Tất – CN06093

Bùi Ngọc Thịnh – CN06100

Mai Đại Triều – CN06107

TTNT - KhoiNguonIT.Com tổng hợp

Page 3: Khoinguonit.com - Text Mining

References

http://s24.ifile.it/2ardfv5/k952/571031/1599049902_text_an

d_web_mining.rar

http://s27.ifile.it/vmh3k1/i4dp/570790/0387955631.pdf

http://s30.ifile.it/zs185l/yfxu/570548/97doprado815990437

39.rar

http://s22.ifile.it/savokg5/fxr3/570007/jumperK.rar

algdocs.ncsa.uiuc.edu/ Introduction to text mining

Giáo trình khai thác dữ liêu –Ts Đỗ Phúc

www.knowledgetechnologies.org

TTNT - KhoiNguonIT.Com tổng hợp

Page 4: Khoinguonit.com - Text Mining

Text Mining

TỔNG QUAN TEXT MINING

KIẾN TRÚC TEXT MINING

ỨNG DỤNG

TTNT - KhoiNguonIT.Com tổng hợp

Page 5: Khoinguonit.com - Text Mining

Khai phá tài liệu y học

Nghiên cứu y học

Tìm ra biểu hiện liên quan giữa triệu chứng hoặc bệnh và

thuốc hoặc những hoá chất

TTNT - KhoiNguonIT.Com tổng hợp

Page 6: Khoinguonit.com - Text Mining

Ví dụ khai phá tài liệu y học

Đối tượng nghiên cứu:

Theo những chuỗi liên quan để khám ra một mối quan hệ giữa chứng đau nữa đau và mức hóa sinh.

Data:

Những bài nguyên cứu và tin về y học.(thông tin văn bản không có cấu trúc).

Key concept types:

symptoms, drugs, diseases, chemicals…

TTNT - KhoiNguonIT.Com tổng hợp

Page 7: Khoinguonit.com - Text Mining

Thông tin rút trích: khám phá y học

stress is associated with migraines

stress can lead to loss of magnesium

calcium channel blockers prevent some migraines

magnesium is a natural calcium channel blocker

spreading cortical depression (SCD) is implicated in some

migraines

high levels of magnesium inhibit SCD

migraine patients have high platelet aggregability

magnesium can suppress platelet aggregability

(source: Swanson and Smalheiser, 1994)

TTNT - KhoiNguonIT.Com tổng hợp

Page 8: Khoinguonit.com - Text Mining

Tri thức mới

Khái niệm:

Khai phá văn bản (text mining) là tiến

trình khám phá tri thức hữu ích và

tiềm ẩn “viên ngọc quý “từ kho văn

bản lớn.

Tổng quan text mining

Khối văn bản

TTNT - KhoiNguonIT.Com tổng hợp

Page 9: Khoinguonit.com - Text Mining

Tìm kiếm và Khám phá

Tìm kiếm Khám phá

TTNT - KhoiNguonIT.Com tổng hợp

Page 10: Khoinguonit.com - Text Mining

Tìm kiếm và Khám phá

Data

Mining

Text

Mining

Data

Retrieval

Information

Retrieval

Tìm kiếm Khám phá

Dữ liệu có cấu

trúc

Dữ liệu không có

cấu trúc(Text)

TTNT - KhoiNguonIT.Com tổng hợp

Page 11: Khoinguonit.com - Text Mining

Tiềm năng của Text mining

Khoảng 90% dữ liệu trên thế giới ở dạng thông tin

không có cấu trúc.

Thông tin chuyên sâu trong quá trình kinh doanh nên

nó đòi hỏi phải quá trình tìm kiếm từ tập tài liệu đơn

đơn đến khám phá tri thức

Thông tin có cấu trúc

Thông tin không có cấu trúc90%

10%

TTNT - KhoiNguonIT.Com tổng hợp

Page 12: Khoinguonit.com - Text Mining

Tổng quan text mining

Sự kết hợp các kĩ thuật

Khai thác dữ liệu

Text Mining

Rút trích thông tin

Máy họcXử lý ngôn

ngữ tự nhiên

TTNT - KhoiNguonIT.Com tổng hợp

Page 13: Khoinguonit.com - Text Mining

Xử lý ngôn ngữ tự nhiên (NLP)

Là một trong những vấn đề lâu đời và khó khăn

nhất trong lĩnh vực trí tuệ nhân tạo.

Là quá trình phân tích ngôn ngữ tự nhiên của con

người sao cho máy tính có thể hiểu ngôn ngữ này

như là con người.

Vài trò của NLP trong TM là giai đoạn rút trích

thông tin

TTNT - KhoiNguonIT.Com tổng hợp

Page 14: Khoinguonit.com - Text Mining

Khai thác dữ liệu (DM)

Là tiến trình trích chọn, sản sinh những tri thức

hoặc các mẫu tiềm ẩn, chưa biết nhưng hữu ích từ

các DL lớn

Khi sử dụng trong khai thác văn bản, DM được áp

dụng để tạo ra các sự kiện trong giao đoạn khai

thác thông tin.

TTNT - KhoiNguonIT.Com tổng hợp

Page 15: Khoinguonit.com - Text Mining

Mục đích và ý nghĩa

Mục đích:

Text mining nhằm phân tích và phát hiện các quan hệ trong

khối dữ liệu văn bản lớn như các tập tin văn bản, các bảng tính,

e-mail, các trang Web và các kho văn bản khác .

Ý nghĩa

KPVB có thể hỗ trợ:

- Phát hiện các tri thức “Tiềm ẩn” trong kho tài liệu

- Phân loại tài liệu theo chủ đề

- Tìm kiếm dựa trên khái niệm

- Cung cấp tài nguyên thỏa yêu cầu truy vấn

TTNT - KhoiNguonIT.Com tổng hợp

Page 16: Khoinguonit.com - Text Mining

Kiến trúc text mining

KPVB là tiến trình tìm kiếm tri thức hữu ích, tiềm ẩn

trong tập hợp dữ liệu văn bản (ngữ liệu).

KPVB gồm 6 bước ,chia thành 3 chức năng chính.

TTNT - KhoiNguonIT.Com tổng hợp

Page 17: Khoinguonit.com - Text Mining

Thu thập dữ liệu:

- Chọn tài nguyên

- Chọn văn bản tương ứng

Đưa dữ liệu vào kho :

- Xác định siêu dữ liệu (rút trích thông tin),

- Lưu dữ liệu vào kho (bước tiền xử lý).

Khai thác dữ liệu:

- Khai phá dữ liệu

- Trình diễn dữ liệu

Kiến trúc text mining

TTNT - KhoiNguonIT.Com tổng hợp

Page 18: Khoinguonit.com - Text Mining

Lựa chọn tài nguyên

- Là tiến trình chọn tài nguyên để khai thác

- Tiêu chuẩn chọn tài nguyên truyền thống :

Tiêu chuẩn

Chủ đềTính

sẳn sàngĐịnh dạng Giá thành

TTNT - KhoiNguonIT.Com tổng hợp

Page 19: Khoinguonit.com - Text Mining

Lựa chọn văn bản

Là tiến trình nhận diện + lựa chọn + thu lượm những văn bản riêng lẻ từ những nguồn tài nguyên được lựa chọn.

Hướng tiếp cận :

-Không gian vectơ.

-Xác suất.

-Nhị phân.

Phương pháp lựa chọn văn bản :

-Imformation Retrieval.(Tìm kiếm thông tin)

TTNT - KhoiNguonIT.Com tổng hợp

Page 20: Khoinguonit.com - Text Mining

Hướng tiếp cận

Không gian vecto:

- Các truy vấn được biểu diễn theo cách thức tương tự như văn bản

- Sự giống nhau giữa các văn bản và câu truy vấn được tính toán theo tích vô hướng của vecto văn bản và vecto truy vấn.

Xác suất:

d(d1,d2,d3,…,dv), di=wi (biểu diễn từ thứ i).V-tập hợp các từ khóa.

Di = wi:biểu diễn từ khóa thứ I trong tài liệu d, trong đó:

- wi=1: nếu từ khóa xuất hiện trong d.

- wi=0: ngược lại.

Nhị phân:

di = số lượng của từ khóa wi xuất hiện trong d.

TTNT - KhoiNguonIT.Com tổng hợp

Page 21: Khoinguonit.com - Text Mining

IR System (Imformation Retrieval)

Xác định tập tài liệu phù hợp với truy vấn người

dùng

Hệ thống IR thường được sử dụng trong thư viện .

Công cụ tìm kiếm google .

Hệ thống IR cho phép chúng ta thu gọn lại các tập

các tài liệu liên quan đến tài liệu cụ thể ->có thể

tăng tốc độ phân tích đáng kể.

TTNT - KhoiNguonIT.Com tổng hợp

Page 22: Khoinguonit.com - Text Mining

IR System (Imformation Retrieval)

IR

System

Truy vấn

E.g. Spam / Text

Nguồn tài liệu

Find:

• Tập các tài liệu có liên quan

đến truy vấn của người dùng Tập tài liệu

liên quan

Docume

ntDocume

ntDocument

Given:

Tập tài liệu văn bản

Truy vấn người dùng

TTNT - KhoiNguonIT.Com tổng hợp

Page 23: Khoinguonit.com - Text Mining

Rút trích đặc trưng

Nhận diệný nghĩa

của văn bản

Phân tíchtừ vựng

Phân tíchngữ nghĩa

Phân tíchthống kê

Phân tích cú pháp

Phân tích sử dụng.

TTNT - KhoiNguonIT.Com tổng hợp

Page 24: Khoinguonit.com - Text Mining

IE là quá trình tự động thu thập dữ liệu từ nguồn tài liệu ngôn ngữ tự

nhiên không có cấu trúc .

Quá trình này bao gồm : Xác định dạng thông tin chung ( Template ) ->

Định hướng cho quá trình khai phá .

+ Phân tích thuật ngữ : Đây là quá trình xác định các thuật ngữ

trong tài liệu . Điều này đặc biệt hữu ích đối với các tài liệu chứa nhiều

thuật ngữ phức tạp như các bản nghiên cưu khoa học .

+ Xác định tên thực thể : Đây là quá trinh xác định tên của thực thể

trong tài liệu như tên của 1 người hoặc tên một tổ chức .

+ Trích chọn sự việc : Đây là quá trình xác định và trích chọn các

sự việc phức tạp từ tài liệu. Những sự kiện này có thể là mối quan hệ

giữa các thực thể hoặc các sự kiện

Sự trích chọn thông tin

TTNT - KhoiNguonIT.Com tổng hợp

Page 25: Khoinguonit.com - Text Mining

Sự trích chọn thông tin

Extraction

System

Nguồn tài liệu

Các tài liệu

Liên quan

Relevant Info 1

Relevant Info 2

Relevant Info 3

Tuy vấn 1(E.g. job title)

Truy vấn 2(E.g. salary)

Kết hợp

Các kết quả truy vấn

TTNT - KhoiNguonIT.Com tổng hợp

Page 26: Khoinguonit.com - Text Mining

Sự trích chọn thông tin

Given:

Tập tài liệu văn bản .

Truy vấn người dùng được xác định rõ ràng.

Find:

Các câu với các thông tin có liên quan.

Trích chọn các thông tin có liên quan và bỏ qua các

thông tin không có liên quan.

Liên kết thông tin liên quan.

TTNT - KhoiNguonIT.Com tổng hợp

Page 27: Khoinguonit.com - Text Mining

Ví dụ

Salvadoran President-elect Alfredo Cristiania condemned the terrorist killing of Attorney General Roberto Garcia Alvarado and accused the Farabundo Marti Natinal Liberation Front (FMLN) of the crime. … Garcia Alvarado, 56, was killed when a bomb placed by urban guerillas on his vehicle exploded as it came to a halt at an intersection in downtown San Salvador. … According to the police and Garcia Alvarado’s driver, who escaped unscathed, the attorney general was traveling with two bodyguards. One of them was injured.

Incident Date: 19 Apr 89

Incident Type: Bombing

Perpetrator Individual ID: “urban guerillas”

Human Target Name: “Roberto Garcia Alvarado”

...

TTNT - KhoiNguonIT.Com tổng hợp

Page 28: Khoinguonit.com - Text Mining

Mining Web

IR / IE

System

Truy vấn

Nguồn tài liệu

Tài liệu

Liên quan

Web Spider

1. Doc1

2. Doc2

3. Doc3

.

.

TTNT - KhoiNguonIT.Com tổng hợp

Page 29: Khoinguonit.com - Text Mining

Data mining

Classsification

- Học có giám sát.

Clusterimg

- Học không giám sát

TTNT - KhoiNguonIT.Com tổng hợp

Page 30: Khoinguonit.com - Text Mining

Data mining

Given:

Nguồn các tài liệu văn bản.

Training set.Classification

System

Training set

Nguồn tài liệu

Doc

Do

cDoc

Doc

Doc

DocDoc

Doc

Doc

Doc

• Find:

• Các class tài liệu có liên quan với nhau

TTNT - KhoiNguonIT.Com tổng hợp

Page 31: Khoinguonit.com - Text Mining

Clustering

Clustering

System

Tiêu chuẩn

tương đồng

Nguồn tài liệu

Doc

Do

cDoc

Doc

Doc

DocDoc

Doc

Doc

Doc

• Find:

• Các Cluster tài liệu có liên quan với nhau

Given:

Nguồn các tài liệu văn bản.

Tiêu chuẩn tương đồng.

e.g., how many words are

common in these documents

TTNT - KhoiNguonIT.Com tổng hợp

Page 32: Khoinguonit.com - Text Mining

Trình diễn

Mục đích :

- Đánh giá lựa chọn mô hình thích hợp.

- Giải thích các kết quả .

- Đánh giá chất lượng của dữ liệu có đáp ứng yêu

cầu phân tích hay không

Các bước trình diễn :

- Tóm tắt.

- Hiển thị.

TTNT - KhoiNguonIT.Com tổng hợp

Page 33: Khoinguonit.com - Text Mining

Cám các bạn đã

theo dõi bài thuyết trình

TTNT - KhoiNguonIT.Com tổng hợp