khoinguonit.com - text mining
TRANSCRIPT
Đề tài Trí tuệ nhân tạo
Text Mining
KhoiNguonIT.Com tổng hợp
TTNT - KhoiNguonIT.Com tổng hợp
Thực hiện
Phù Thế Công – CN06065
Phạm Đình Chương – CN06066
Võ Văn Lĩnh – CN06076
Ngô Hữu Sáng – CN06082
Nguyễn Hoàng Tất – CN06093
Bùi Ngọc Thịnh – CN06100
Mai Đại Triều – CN06107
TTNT - KhoiNguonIT.Com tổng hợp
References
http://s24.ifile.it/2ardfv5/k952/571031/1599049902_text_an
d_web_mining.rar
http://s27.ifile.it/vmh3k1/i4dp/570790/0387955631.pdf
http://s30.ifile.it/zs185l/yfxu/570548/97doprado815990437
39.rar
http://s22.ifile.it/savokg5/fxr3/570007/jumperK.rar
algdocs.ncsa.uiuc.edu/ Introduction to text mining
Giáo trình khai thác dữ liêu –Ts Đỗ Phúc
www.knowledgetechnologies.org
TTNT - KhoiNguonIT.Com tổng hợp
Text Mining
TỔNG QUAN TEXT MINING
KIẾN TRÚC TEXT MINING
ỨNG DỤNG
TTNT - KhoiNguonIT.Com tổng hợp
Khai phá tài liệu y học
Nghiên cứu y học
Tìm ra biểu hiện liên quan giữa triệu chứng hoặc bệnh và
thuốc hoặc những hoá chất
TTNT - KhoiNguonIT.Com tổng hợp
Ví dụ khai phá tài liệu y học
Đối tượng nghiên cứu:
Theo những chuỗi liên quan để khám ra một mối quan hệ giữa chứng đau nữa đau và mức hóa sinh.
Data:
Những bài nguyên cứu và tin về y học.(thông tin văn bản không có cấu trúc).
Key concept types:
symptoms, drugs, diseases, chemicals…
TTNT - KhoiNguonIT.Com tổng hợp
Thông tin rút trích: khám phá y học
stress is associated with migraines
stress can lead to loss of magnesium
calcium channel blockers prevent some migraines
magnesium is a natural calcium channel blocker
spreading cortical depression (SCD) is implicated in some
migraines
high levels of magnesium inhibit SCD
migraine patients have high platelet aggregability
magnesium can suppress platelet aggregability
(source: Swanson and Smalheiser, 1994)
TTNT - KhoiNguonIT.Com tổng hợp
Tri thức mới
Khái niệm:
Khai phá văn bản (text mining) là tiến
trình khám phá tri thức hữu ích và
tiềm ẩn “viên ngọc quý “từ kho văn
bản lớn.
Tổng quan text mining
Khối văn bản
TTNT - KhoiNguonIT.Com tổng hợp
Tìm kiếm và Khám phá
Tìm kiếm Khám phá
TTNT - KhoiNguonIT.Com tổng hợp
Tìm kiếm và Khám phá
Data
Mining
Text
Mining
Data
Retrieval
Information
Retrieval
Tìm kiếm Khám phá
Dữ liệu có cấu
trúc
Dữ liệu không có
cấu trúc(Text)
TTNT - KhoiNguonIT.Com tổng hợp
Tiềm năng của Text mining
Khoảng 90% dữ liệu trên thế giới ở dạng thông tin
không có cấu trúc.
Thông tin chuyên sâu trong quá trình kinh doanh nên
nó đòi hỏi phải quá trình tìm kiếm từ tập tài liệu đơn
đơn đến khám phá tri thức
Thông tin có cấu trúc
Thông tin không có cấu trúc90%
10%
TTNT - KhoiNguonIT.Com tổng hợp
Tổng quan text mining
Sự kết hợp các kĩ thuật
Khai thác dữ liệu
Text Mining
Rút trích thông tin
Máy họcXử lý ngôn
ngữ tự nhiên
TTNT - KhoiNguonIT.Com tổng hợp
Xử lý ngôn ngữ tự nhiên (NLP)
Là một trong những vấn đề lâu đời và khó khăn
nhất trong lĩnh vực trí tuệ nhân tạo.
Là quá trình phân tích ngôn ngữ tự nhiên của con
người sao cho máy tính có thể hiểu ngôn ngữ này
như là con người.
Vài trò của NLP trong TM là giai đoạn rút trích
thông tin
TTNT - KhoiNguonIT.Com tổng hợp
Khai thác dữ liệu (DM)
Là tiến trình trích chọn, sản sinh những tri thức
hoặc các mẫu tiềm ẩn, chưa biết nhưng hữu ích từ
các DL lớn
Khi sử dụng trong khai thác văn bản, DM được áp
dụng để tạo ra các sự kiện trong giao đoạn khai
thác thông tin.
TTNT - KhoiNguonIT.Com tổng hợp
Mục đích và ý nghĩa
Mục đích:
Text mining nhằm phân tích và phát hiện các quan hệ trong
khối dữ liệu văn bản lớn như các tập tin văn bản, các bảng tính,
e-mail, các trang Web và các kho văn bản khác .
Ý nghĩa
KPVB có thể hỗ trợ:
- Phát hiện các tri thức “Tiềm ẩn” trong kho tài liệu
- Phân loại tài liệu theo chủ đề
- Tìm kiếm dựa trên khái niệm
- Cung cấp tài nguyên thỏa yêu cầu truy vấn
TTNT - KhoiNguonIT.Com tổng hợp
Kiến trúc text mining
KPVB là tiến trình tìm kiếm tri thức hữu ích, tiềm ẩn
trong tập hợp dữ liệu văn bản (ngữ liệu).
KPVB gồm 6 bước ,chia thành 3 chức năng chính.
TTNT - KhoiNguonIT.Com tổng hợp
Thu thập dữ liệu:
- Chọn tài nguyên
- Chọn văn bản tương ứng
Đưa dữ liệu vào kho :
- Xác định siêu dữ liệu (rút trích thông tin),
- Lưu dữ liệu vào kho (bước tiền xử lý).
Khai thác dữ liệu:
- Khai phá dữ liệu
- Trình diễn dữ liệu
Kiến trúc text mining
TTNT - KhoiNguonIT.Com tổng hợp
Lựa chọn tài nguyên
- Là tiến trình chọn tài nguyên để khai thác
- Tiêu chuẩn chọn tài nguyên truyền thống :
Tiêu chuẩn
Chủ đềTính
sẳn sàngĐịnh dạng Giá thành
TTNT - KhoiNguonIT.Com tổng hợp
Lựa chọn văn bản
Là tiến trình nhận diện + lựa chọn + thu lượm những văn bản riêng lẻ từ những nguồn tài nguyên được lựa chọn.
Hướng tiếp cận :
-Không gian vectơ.
-Xác suất.
-Nhị phân.
Phương pháp lựa chọn văn bản :
-Imformation Retrieval.(Tìm kiếm thông tin)
TTNT - KhoiNguonIT.Com tổng hợp
Hướng tiếp cận
Không gian vecto:
- Các truy vấn được biểu diễn theo cách thức tương tự như văn bản
- Sự giống nhau giữa các văn bản và câu truy vấn được tính toán theo tích vô hướng của vecto văn bản và vecto truy vấn.
Xác suất:
d(d1,d2,d3,…,dv), di=wi (biểu diễn từ thứ i).V-tập hợp các từ khóa.
Di = wi:biểu diễn từ khóa thứ I trong tài liệu d, trong đó:
- wi=1: nếu từ khóa xuất hiện trong d.
- wi=0: ngược lại.
Nhị phân:
di = số lượng của từ khóa wi xuất hiện trong d.
TTNT - KhoiNguonIT.Com tổng hợp
IR System (Imformation Retrieval)
Xác định tập tài liệu phù hợp với truy vấn người
dùng
Hệ thống IR thường được sử dụng trong thư viện .
Công cụ tìm kiếm google .
Hệ thống IR cho phép chúng ta thu gọn lại các tập
các tài liệu liên quan đến tài liệu cụ thể ->có thể
tăng tốc độ phân tích đáng kể.
TTNT - KhoiNguonIT.Com tổng hợp
IR System (Imformation Retrieval)
IR
System
Truy vấn
E.g. Spam / Text
Nguồn tài liệu
Find:
• Tập các tài liệu có liên quan
đến truy vấn của người dùng Tập tài liệu
liên quan
Docume
ntDocume
ntDocument
Given:
Tập tài liệu văn bản
Truy vấn người dùng
TTNT - KhoiNguonIT.Com tổng hợp
Rút trích đặc trưng
Nhận diệný nghĩa
của văn bản
Phân tíchtừ vựng
Phân tíchngữ nghĩa
Phân tíchthống kê
Phân tích cú pháp
Phân tích sử dụng.
TTNT - KhoiNguonIT.Com tổng hợp
IE là quá trình tự động thu thập dữ liệu từ nguồn tài liệu ngôn ngữ tự
nhiên không có cấu trúc .
Quá trình này bao gồm : Xác định dạng thông tin chung ( Template ) ->
Định hướng cho quá trình khai phá .
+ Phân tích thuật ngữ : Đây là quá trình xác định các thuật ngữ
trong tài liệu . Điều này đặc biệt hữu ích đối với các tài liệu chứa nhiều
thuật ngữ phức tạp như các bản nghiên cưu khoa học .
+ Xác định tên thực thể : Đây là quá trinh xác định tên của thực thể
trong tài liệu như tên của 1 người hoặc tên một tổ chức .
+ Trích chọn sự việc : Đây là quá trình xác định và trích chọn các
sự việc phức tạp từ tài liệu. Những sự kiện này có thể là mối quan hệ
giữa các thực thể hoặc các sự kiện
Sự trích chọn thông tin
TTNT - KhoiNguonIT.Com tổng hợp
Sự trích chọn thông tin
Extraction
System
Nguồn tài liệu
Các tài liệu
Liên quan
Relevant Info 1
Relevant Info 2
Relevant Info 3
Tuy vấn 1(E.g. job title)
Truy vấn 2(E.g. salary)
Kết hợp
Các kết quả truy vấn
TTNT - KhoiNguonIT.Com tổng hợp
Sự trích chọn thông tin
Given:
Tập tài liệu văn bản .
Truy vấn người dùng được xác định rõ ràng.
Find:
Các câu với các thông tin có liên quan.
Trích chọn các thông tin có liên quan và bỏ qua các
thông tin không có liên quan.
Liên kết thông tin liên quan.
TTNT - KhoiNguonIT.Com tổng hợp
Ví dụ
Salvadoran President-elect Alfredo Cristiania condemned the terrorist killing of Attorney General Roberto Garcia Alvarado and accused the Farabundo Marti Natinal Liberation Front (FMLN) of the crime. … Garcia Alvarado, 56, was killed when a bomb placed by urban guerillas on his vehicle exploded as it came to a halt at an intersection in downtown San Salvador. … According to the police and Garcia Alvarado’s driver, who escaped unscathed, the attorney general was traveling with two bodyguards. One of them was injured.
Incident Date: 19 Apr 89
Incident Type: Bombing
Perpetrator Individual ID: “urban guerillas”
Human Target Name: “Roberto Garcia Alvarado”
...
TTNT - KhoiNguonIT.Com tổng hợp
Mining Web
IR / IE
System
Truy vấn
Nguồn tài liệu
Tài liệu
Liên quan
Web Spider
1. Doc1
2. Doc2
3. Doc3
.
.
TTNT - KhoiNguonIT.Com tổng hợp
Data mining
Classsification
- Học có giám sát.
Clusterimg
- Học không giám sát
TTNT - KhoiNguonIT.Com tổng hợp
Data mining
Given:
Nguồn các tài liệu văn bản.
Training set.Classification
System
Training set
Nguồn tài liệu
Doc
Do
cDoc
Doc
Doc
DocDoc
Doc
Doc
Doc
• Find:
• Các class tài liệu có liên quan với nhau
TTNT - KhoiNguonIT.Com tổng hợp
Clustering
Clustering
System
Tiêu chuẩn
tương đồng
Nguồn tài liệu
Doc
Do
cDoc
Doc
Doc
DocDoc
Doc
Doc
Doc
• Find:
• Các Cluster tài liệu có liên quan với nhau
Given:
Nguồn các tài liệu văn bản.
Tiêu chuẩn tương đồng.
e.g., how many words are
common in these documents
TTNT - KhoiNguonIT.Com tổng hợp
Trình diễn
Mục đích :
- Đánh giá lựa chọn mô hình thích hợp.
- Giải thích các kết quả .
- Đánh giá chất lượng của dữ liệu có đáp ứng yêu
cầu phân tích hay không
Các bước trình diễn :
- Tóm tắt.
- Hiển thị.
TTNT - KhoiNguonIT.Com tổng hợp
Cám các bạn đã
theo dõi bài thuyết trình
TTNT - KhoiNguonIT.Com tổng hợp