mÔ hÌnh hÓa chỦ ĐỀ suỐt ĐỜi vÀ Ứng dỤng vÀo phÂn … · 2020. 10. 20. ·...
TRANSCRIPT
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trần Thị Minh Tươi
MÔ HÌNH HÓA CHỦ ĐỀ SUỐT ĐỜI VÀ
ỨNG DỤNG VÀO PHÂN LỚP ĐA NHÃN VĂN BẢN
TIẾNG VIỆT
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Hệ thống thông tin
HÀ NỘI - 2018
HÀ NỘI - 2018
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trần Thị Minh Tươi
MÔ HÌNH HÓA CHỦ ĐỀ SUỐT ĐỜI VÀ
ỨNG DỤNG VÀO PHÂN LỚP ĐA NHÃN VĂN BẢN
TIẾNG VIỆT
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Hệ thống thông tin
Cán bộ hướng dẫn: PGS. TS. Hà Quang Thụy
Cán bộ đồng hướng dẫn: TS. Phạm Thị Ngân
HÀ NỘI - 2018
i
LỜI CAM ĐOAN
Tôi xin cam đoan các kết quả được trình bày trong khóa luận này do tôi thực hiện dưới
sự hướng dẫn của PGS. TS. Hà Quang Thụy và TS. Phạm Thị Ngân.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách
rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có việc
sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham
khảo.
Hà Nội, ngày 26 tháng 04 năm 2018
Người cam đoan
Trần Thị Minh Tươi
ii
LỜI CẢM ƠN
Đầu tiên, tôi xin được gửi lời cảm ơn sâu sắc nhất đến PGS. TS. Hà Quang Thụy
và TS. Phạm Thị Ngân, những người đã trực tiếp tận tình chỉ bảo và hướng dẫn tôi từ
những ngày đầu tiên bước chân vào lĩnh vực nghiên cứu này. Thầy, Cô luôn là động lực
và nguồn cảm hứng lớn lao giúp tôi giữ lửa đam mê và nỗ lực không ngừng trong suốt
quá trình học tập và tham gia nghiên cứu tại trường Đại học Công nghệ - Đại học Quốc
gia Hà Nội.
Tôi xin gửi lời cảm ơn đến các quý Thầy, Cô giáo thuộc trường Đại học Công
nghệ - Đại học Quốc gia Hà Nội nói chung, và khoa Công nghệ thông tin nói riêng, đã
truyền đạt nhiều kiến thức quý báu và tạo điều kiện học tập thuận lợi cho tôi trong suốt
bốn năm đại học.
Tôi cũng xin gửi lời cảm ơn chân thành đến các thầy cô giáo, các anh chị, các
bạn và các em sinh viên thuộc phòng thí nghiệm Khoa học dữ liệu và Công nghệ tri
thức, khoa Công nghệ thông tin, trường Đại học Công nghệ - Đại học Quốc gia Hà Nội,
đặc biệt là các thành viên thuộc nhóm nghiên cứu đã hỗ trợ tôi rất nhiệt tình về cả kiến
thức chuyên môn, vật chất và tinh thần để tôi có thể hoàn thành tốt khóa luận này.
Cuối cùng, tôi gửi lời cảm ơn sâu sắc tới gia đình và bạn bè của tôi, những người luôn
đồng hành, ủng hộ và động viên tôi để tôi có thể vượt qua nhiều thử thách và khó khăn
trong cuộc sống.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 26 tháng 04 năm 2018
Sinh viên
Trần Thị Minh Tươi
iii
TÓM TẮT
Tóm tắt: Học máy suốt đời đang nổi lên trong những năm gần đây nhờ vào khả năng sử dụng
tri thức học được trong quá khứ cho việc học hiện tại, giải quyết được một số vấn đề của các
mô hình học máy cô lập như: đòi hỏi một lượng lớn các ví dụ học, chỉ phù hợp với các nhiệm
vụ hẹp và xác định…
Mục đích chính của khóa luận này là nghiên cứu giải thuật mô hình hóa chủ đề suốt đời
AMC (Z. Chen và B. Liu, 2014), qua đó đề xuất một phương pháp mô hình hóa chủ đề suốt đời
học thiên mức miền và sử dụng mô hình chủ đề suốt đời vào bài toán phân lớp đa nhãn văn bản
tiếng Việt.
Phương pháp đề xuất bao gồm hai pha chính: (1) mô hình hóa chủ đề suốt đời và (2)
phân lớp đa nhãn. Tại pha thứ nhất, ý tưởng cơ bản là chỉ sử dụng các miền gần trong việc sinh
mô hình chủ đề. Các miền gần được xác định thông qua một độ tương tự giữa hai chủ đề. Tại
pha thứ hai, một giải thuật phân lớp đa nhãn bán giám sát được sử dụng để đánh giá đóng góp
của mô hình chủ đề đề xuất trong phân lớp đa nhãn. Mô hình chủ đề sinh từ pha (1) được dùng
để biểu diễn đặc trưng trong phân lớp đa nhãn.
Một vài thực nghiệm được thực hiện trên miền dữ liệu tiếng Việt và một giải thuật phân
lớp đa nhãn MULTICS (Pham và cộng sự, 2017). Dữ liệu thực nghiệm được chia thành các tập
có kích thước từ nhỏ tới lớn nhằm khai thác sự ảnh hưởng của mô hình đề xuất lên một tập dữ
liệu nhỏ - vấn đề có ý nghĩa quan trọng trong học suốt đời. Các kịch bản thực nghiệm so sánh
hiệu suất của phương pháp đề xuất với các phương pháp mô hình chủ đề khác như LDA, AMC.
Kết quả thực nghiệm cho thấy phương pháp đề xuất tốt hơn phương pháp LDA và AMC trong
mọi trường hợp.
Từ khóa: học máy suốt đời, chủ đề suốt đời, miền gần, chủ đề gần, học thiên mức miền, độ đo
tương tự của hai túi từ, phân lớp đa nhãn
iv
MỤC LỤC
LỜI CAM ĐOAN .................................................................................................... i
LỜI CẢM ƠN ......................................................................................................... ii
TÓM TẮT .............................................................................................................. iii
MỤC LỤC ............................................................................................................... iv
DANH SÁCH THUẬT NGỮ ................................................................................ vii
DANH SÁCH HÌNH VẼ ....................................................................................... viii
DANH SÁCH BẢNG .............................................................................................. ix
MỞ ĐẦU .................................................................................................................. 1
CHƯƠNG 1. TỔNG QUAN VỀ HỌC MÁY SUỐT ĐỜI, PHÂN LỚP ĐA
NHÃN VÀ SƠ BỘ BÀI TOÁN ĐỀ XUẤT ........................................................... 3
1.1. Học máy suốt đời ....................................................................................... 3
1.1.1. Định nghĩa LML .................................................................................. 3
1.1.2. Mô hình học máy suốt đời.................................................................... 4
1.2. Phân lớp đa nhãn ........................................................................................ 5
1.3. Sơ bộ bài toán trong khóa luận .................................................................. 6
CHƯƠNG 2. CÁC PHƯƠNG PHÁP LDA, AMC, MULTICS .......................... 8
2.1. Mô hình chủ đề suốt đời ............................................................................ 8
2.1.1. Mô hình chủ đề ..................................................................................... 8
2.1.2. Mô hình chủ đề suốt đời ....................................................................... 9
2.1.3. Must-Links và Cannot-Links ............................................................... 9
2.2. Mô hình chủ đề ẩn LDA .......................................................................... 10
2.3. Mô hình chủ đề suốt đời AMC ................................................................ 11
2.3.1. Tổng quan về AMC ............................................................................ 11
2.3.2. Mô hình AMC .................................................................................... 14
v
2.4. Thuật toán phân lớp đa nhãn bán giám sát MULTICS ............................ 15
2.4.1. Phân lớp đa nhãn bán giám sát ........................................................... 15
2.4.2. Thuật toán phân lớp đa nhãn bán giám sát MULTICS ...................... 15
2.5. TF-IDF ..................................................................................................... 18
2.5.1. TF (term-frequency) ........................................................................... 19
2.5.2. IDF (inverse document frequency) .................................................... 19
Tóm tắt chương ................................................................................................... 19
CHƯƠNG 3. PHƯƠNG PHÁP ĐỀ XUẤT ....................................................... 20
3.1. Xây dựng bài toán .................................................................................... 20
3.2. Xác định miền gần ................................................................................... 20
3.2.1. Độ đo tương tự của hai túi từ ............................................................. 20
3.2.2. Chủ đề gần .......................................................................................... 21
3.2.3. Xác định miền gần ............................................................................. 21
3.3. Phương pháp mô hình hóa chủ đề suốt đời đề xuất ................................. 22
3.4. Phân lớp đa nhãn văn bản tiếng Việt áp dụng chủ đề suốt đời ................ 23
Tóm tắt chương ................................................................................................... 24
CHƯƠNG 4. THỰC NGHIỆM VÀ KẾT QUẢ ................................................. 25
4.1. Tập dữ liệu ............................................................................................... 25
4.2. Các kịch bản thực nghiệm và đánh giá .................................................... 26
4.3. Kết quả thực nghiệm và đánh giá ............................................................ 27
4.1.1. Đánh giá chất lượng chủ đề của mô hình đề xuất với chủ đề của các
mô hình LDA, AMC ........................................................................................ 28
4.1.2. Đánh giá hiệu suất phân lớp đa nhãn sử dụng mô hình chủ đề đề
xuất với các mô hình chủ đề LDA, AMC ........................................................ 28
Tóm tắt chương ................................................................................................... 30
KẾT LUẬN ........................................................................................................... 31
Kết luận ............................................................................................................... 31
vi
Các công việc trong tương lai ............................................................................. 31
TÀI LIỆU THAM KHẢO .................................................................................... 32
vii
DANH SÁCH THUẬT NGỮ
Từ hoặc cụm từ Từ viết tắt
Knowledge Base (Hệ cơ sở tri thức) KB
Trí tuệ nhân tạo AI
Học máy suốt đời LML
Term Frequency - Inverse Document Frequency TF-IDF
viii
DANH SÁCH HÌNH VẼ
Hình 1.1. Mô hình học máy suốt đời…………………………………………………….4
Hình 1.2. Mô hình tổng quan bài toán…………………………………………………..6
Hình 2.1. Mô hình AMC………………………………………………………………14
Hình 2.2. Khung phân lớp đa nhãn bán giám sát với việc giảm và làm giàu đặc trưng…16
Hình 3.1. Mô hình chủ đề suốt đời đề xuất……………………………………………..22
Hình 3.2. Mô hình phân lớp đa nhãn văn bản tiếng Việt sử dụng chủ đề suốt đời……...24
ix
DANH SÁCH BẢNG
Bảng 4.1. Các tập dữ liệu thực nghiệm ......................................................................... 25
Bảng 4.2. Số liệu kiểm tra miền gần ............................................................................. 28
Bảng 4.3. Kết quả các kịch bản thực nghiệm ................................................................ 29
1
MỞ ĐẦU
Hiện nay, khoa học công nghệ đang có những bước phát triển mạnh mẽ với nhiều
thành tựu vượt bậc trong lĩnh vực trí thông minh nhân tạo, sự phát triển đó đồng nghĩa
với việc đòi hỏi một nền tảng tri thức ngày càng thông minh hơn, do đó khả năng học
tựa như con người càng trở nên quan trọng. Học máy suốt đời chính là một giải pháp
cho vấn đề đó.
Theo Z.Chen và B.Liu [1], học máy suốt đời là một mô hình học máy tiên tiến,
học liên tục, tích lũy tri thức học được trong quá khứ và sử dụng chúng cho việc học
trong tương lai. Trong quá trình này, máy học ngày càng trở nên hiệu quả và hiểu biết
hơn. Khả năng học tập này chính là một trong những điểm nổi bật của trí tuệ con người.
Trong chương “The construct of general intelligence” của [2], Loyd Humphreys chỉ ra
rằng trí thông minh là kết quả của quá trình tiếp thu, lưu trữ, trích xuất, kết hợp, so sánh
và sử dụng trong bối cảnh thông tin và kĩ năng tư duy mới. Như vậy, học máy suốt đời
có thể mang lại trí thông minh thực sự cho hệ thống. Hiện nay, học máy suốt đời đã
được ứng dụng trong một số lĩnh vực trí thông minh nhân tạo và xử lí ngôn ngữ tự nhiên
như chatbot, trợ lí thông minh, robot vật lý…
Mặc dù đã mang lại những đột phá nhất định trong khoa học công nghệ, nhưng
ứng dụng của học máy suốt đời trong khai phá văn bản tiếng Việt vẫn là một bài toán
khá mới. Đặc biệt, trong một số hoạt động kinh doanh, việc khai phá các đánh giá của
người dùng là một công việc quan trọng trong quá trình cải tiến, phát triển của doanh
nghiệp.
Trong khóa luận này, tôi đề xuất một phương pháp mô hình hóa chủ đề suốt đời
học thiên mức miền và ứng dụng vào phân lớp đa nhãn văn bản tiếng Việt trên miền dữ
liệu khách sạn.
Mô hình hóa chủ đề suốt đời là một phương pháp học không giám sát suốt đời.
KB là nơi lưu trữ các mô hình chủ đề học được từ các nhiệm vụ trong quá khứ. Khi học
một nhiệm vụ mới, các tri thức “phù hợp” trong KB được trích xuất để giúp mô hình
hóa chủ đề của tập dữ liệu hiện tại, mô hình chủ đề kết quả được lưu vào KB phục vụ
cho các nhiệm vụ học trong tương lai. Tri thức “phù hợp” được nêu trong bài toán là tri
thức của các miền gần với miền hiện tại.
Một phương pháp phân lớp đa nhãn bán giám sát cho văn bản tiếng Việt
MULTICS [4] được sử dụng trong bài toán để đánh giá hiệu quả của phương pháp đề
xuất. Tuy nhiên MULTICS[4] sử dụng mô hình chủ đề ẩn cô lập để biểu diễn các đặc
2
trưng phân lớp, khóa luận đề xuất sử dụng mô hình chủ đề suốt đời thay thế cho mô hình
chủ đề cô lập trong phân lớp đa nhãn.
Nội dung khóa luận bao gồm các phần:
Chương 1: Trình bày tổng quan về học máy suốt đời và phân lớp đa nhãn và sơ
lược bài toán đề xuất trong khóa luận.
Chương 2: Trình bày những nội dung cơ bản và trọng tâm nhất về các lý thuyết
và công nghệ được sử dụng trong bài toán như: mô hình chủ đề suốt đời, mô hình chủ
đề ẩn LDA, mô hình chủ đề suốt đời AMC, thuật toán phân lớp đa nhãn MULTICS.
Chương 3: Trình bày chi tiết về phương pháp đề xuất
Chương 4: Trình bày về quá trình thực nghiệm, kết quả thực nghiệm và đánh giá
phương pháp đề xuất.
Phần kết luận: Tóm lược các vấn đề đã giải quyết trong khóa luận và định hướng
phát triển trong tương lai.
3
CHƯƠNG 1. TỔNG QUAN VỀ HỌC MÁY SUỐT ĐỜI, PHÂN
LỚP ĐA NHÃN VÀ SƠ BỘ BÀI TOÁN ĐỀ XUẤT
1.1. Học máy suốt đời
Học máy suốt đời được đề xuất vào năm 1996 bởi S. Thrun và T. M. Mitchell [6,
7] và nổi lên trong những năm gần đây nhờ vào khả năng sử dụng tri thức học được
trong quá khứ cho việc học trong tương lai. Có thể thấy quá trình học này mô phỏng
cách học của con người, giải quyết được một số vấn đề hạn chế mà học máy cô lập mang
lại như: đòi hỏi một lượng lớn các ví dụ học, chỉ phù hợp với các nhiệm vụ hẹp và xác
định. Theo Z.Chen và B.Liu [1], học máy suốt đời có ba đặc điểm chính: (i) là một quá
trình học liên tục, (ii) tích lũy và duy trì tri thức đã học, (iii) sử dụng tri thức đã học
trong quá khứ cho việc học trong tương lai.
Như vậy quá trình học suốt đời là một chuỗi các nhiệm vụ có thể không bao giờ
kết thúc, trong quá trình đó bộ học (learner) trở nên thông minh hơn và học ngày một
tốt hơn. Nghiên cứu về học suốt đời có thể mang lại những tiến bộ lớn đối với sự phát
triển của trí thông minh nhân tạo.
1.1.1. Định nghĩa LML
Một định nghĩa học suốt đời được đưa ra bởi Fei và cộng sự [14], Shu và cộng
sự [15, 16] như sau:
Học suốt đời là một quá trình học liên tục. Vào một thời điểm bất kì, bộ học biểu
diễn một chuỗi N nhiệm vụ học 𝑇1, 𝑇2, … , 𝑇𝑁. Các nhiệm vụ đó được gọi là nhiệm vụ
quá khứ với các tập dữ liệu tương ứng là 𝐷1, 𝐷2, … , 𝐷𝑁. Các tri thức học được từ các
nhiệm vụ quá khứ được gọi là tri thức quá khứ, được lưu trữ trong KB.
Khi có một nhiệm vụ thứ (N+1) 𝑇𝑁+1 (được gọi là nhiệm vụ mới hay nhiệm vụ
hiện tại) với tập dữ liệu tương ứng 𝐷𝑁+1, bộ học có thể sử dụng tri thức quá khứ trong
KB để giúp học 𝑇𝑁+1.
Mục tiêu của LML thường là tối ưu hiệu suất trên 𝑇𝑁+1, nhưng nó có thể tối ưu
trên bất kì nhiệm vụ nào bằng cách coi phần còn lại của các nhiệm vụ như các nhiệm vụ
quá khứ, giả sử LML có thể coi 𝑇𝑁 là nhiệm vụ hiện tại và các nhiệm vụ còn lại:
𝑇1, 𝑇2, … , 𝑇𝑁−1 là các nhiệm vụ quá khứ. Sau khi hoàn thành việc học 𝑇𝑁+1, các tri thức
4
thu được (ví dụ như các kết quả trung gian hay kết quả cuối cùng) được cập nhật và lưu
trữ trong KB.
1.1.2. Mô hình học máy suốt đời
Hình 1.1. Mô hình học máy suốt đời
Mô hình học máy suốt đời được mô tả như Hình 1.1 gồm các thành phần [1]:
(1) KB: là nơi lưu trữ tri thức quá khứ, có thể bao gồm một số thành phần con:
- Nơi lưu trữ thông tin quá khứ (PIS): Lưu trữ thông tin từ quá trình học trước. Tùy
vào nhiệm vụ học hay thuật toán mà PIS có thể bao gồm các kho thông tin con
như: (i) dữ liệu được sử dụng trong nhiệm vụ trước, (ii) kết quả trung gian trong
nhiệm vụ trước, (iii) kết quả cuối cùng từ nhiệm vụ trước.
- Bộ khai phá siêu tri thức (MKM): Thực hiện việc khai phá ở mức cao hơn các tri
thức trong PIS và trong MKS. Kết quả được lưu trong MKS.
- Nơi lưu trữ siêu tri thức (MKS): Nơi lưu trữ các tri thức được củng cố hoặc khai
phá từ PIS và KMS.
- Knowledge Reasoner (KR): Suy luận tri thức trong MKS và PIS để sinh ra nhiều
tri thức hơn.
5
(2) Bộ học dựa trên tri thức (KBL): trong học máy suốt đời học dựa trên tri
thức quá khứ là vấn đề cốt lõi. KBL có thể củng cố tri thức trong KB để học nhiệm vụ
mới. KBL gồm hai thành phần con:
- TKM: khai phá, xác định những tri thức phù hợp với nhiệm vụ hiện tại từ những
thông tin, tri thức thô trong KB.
- Sau khi đã khai phá những tri thức phù hợp với nhiệm vụ học hiện tại, máy học
có thể sử dụng những tri thức đó vào việc học.
(3) Đầu ra: Là kết quả của quá trình học, kết quả có thể là một mô hình dự đoán,
bộ phân lớp trong học có giám sát hay các cụm, chủ đề trong học không giám sát.
(4) Task Manager: Tiếp nhận và quản lí các nhiệm vụ đầu vào của hệ thống, xử
lí sự thay đổi các nhiệm vụ và chuyển nhiệm vụ học mới tới KBL để bắt đầu tiến trình
học.
1.2. Phân lớp đa nhãn
Phân lớp đa nhãn là nhiệm vụ gán từng phần tử đã cho vào một tập các lớp được
xác định trước, trong một miền dữ liệu, ở đó một phần tử có thể thuộc nhiều lớp khác
nhau cùng một lúc [4].
Theo Zhi-Hua Zhou và cộng sự [11], phân lớp đa nhãn được phát biểu như sau:
Cho X 𝜖 ℝ𝑛 biểu thị một không gian phần tử n chiều và Y = {𝑦1, 𝑦2, … , 𝑦𝑞} biểu
thị không gian nhãn gồm q nhãn lớp. Nhiệm vụ của học đa nhãn là học hàm số f: X→ 2𝑌
từ dữ liệu huấn luyện đa nhãn D = {(𝑥𝑖 , 𝑌𝑖|1 ≤ 𝑖 ≤ 𝑚), trong đó với mỗi phần tử (𝑥𝑖 , 𝑌𝑖),
𝑥𝑖 ∈ X là một véc tơ đặc trưng n chiều 𝑥𝑖 = (𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖𝑛) và 𝑌𝑖 ⊆ Y là tập các nhãn
của 𝑥𝑖. Với một phần tử mới x ∈ X, hàm số f(.) trả về f(x) là một tập các nhãn dự đoán
cho x.
Phân lớp đa nhãn ngày càng được chú ý và ứng dụng trong nhiều lĩnh vực như
phân loại văn bản, phân loại web, dự đoán chức năng gen, phân lớp chức năng protein
(Zhang & Zincir-Heywood, 2005), phân lớp âm nhạc (Li & Ogihara, 2003)…
Hiện nay, các phương pháp phân lớp đa nhãn được phân thành hai loại chính là
các phương pháp chuyển đổi vấn đề và các phương pháp thích nghi thuật toán. Trong
pha áp dụng mô hình chủ đề đề xuất vào phân lớp đa nhãn văn bản tiếng Việt, khóa luận
6
sử dụng một phương pháp phân lớp dựa trên thích nghi thuật toán sẽ được trình bày tại
chương kế tiếp.
1.3. Sơ bộ bài toán trong khóa luận
Các tri thức học được trong quá khứ là vô cùng quý giá, được xem như là cơ sở
giúp con người trở nên thông minh hơn, hiểu biết hơn, có cái nhìn chính xác hơn về các
vấn đề xung quanh; trong học máy suốt đời, các tri thức học được từ các nhiệm vụ trong
quá khứ cũng mang ý nghĩa tương tự đối với các bộ học.
Trong khoá luận này, tôi xin đề xuất một phương pháp sử dụng học máy suốt đời:
mô hình hoá chủ đề suốt đời, tận dụng tri thức quá khứ giúp sinh các chủ đề tốt hơn,
nhằm nâng cao hiệu suất mô hình phân lớp đa nhãn văn bản tiếng Việt.
Tuy nhiên, khoá luận không sử dụng tri thức quá khứ từ tất cả các miền để mô
hình hoá chủ đề của nhiệm vụ hiện tại, mà chỉ sử dụng tri thức quá khứ từ các miền gần
với miền hiện tại (miền của nhiệm vụ hiện tại). Phương pháp xác định miền gần sẽ được
giới thiệu trong chương 3.
Bài toán: Mô hình hóa chủ đề suốt đời, ứng dụng vào phân lớp đa nhãn văn bản tiếng
Việt.
Bài toán đề xuất gồm hai pha được mô tả như trong Hình 1.2:
Pha 1. Mô hình hóa chủ đề suốt đời: dựa trên phương pháp AMC [2], tuy nhiên áp
dụng miền gần trong mô hình chủ đề suốt đời.
Pha 2. Phân lớp đa nhãn: áp dụng mô hình chủ đề suốt đời sinh từ pha 1 để biểu diễn
các đặc trưng trong phân lớp đa nhãn MULTICS [3], xem xét ảnh hưởng của chủ đề
suốt đời trong hiệu suất của phân lớp đa nhãn văn bản tiếng Việt.
Hình 1.2. Mô hình tổng quan của bài toán
7
Tóm tắt chương
Chương 1 đã trình bày những kiến thức tổng quan về học máy suốt đời, phân lớp đa
nhãn, đồng thời giới thiệu sơ bộ về bài toán đưa ra trong khóa luận.
Chương tiếp theo sẽ trình bày về cơ sở lý thuyết và các công nghệ đã được áp dụng để
giải quyết bài toán đưa ra trong khóa luận này.
8
CHƯƠNG 2. CÁC PHƯƠNG PHÁP LDA, AMC, MULTICS
2.1. Mô hình chủ đề suốt đời
2.1.1. Mô hình chủ đề
Mô hình hoá chủ đề là công cụ để khai phá văn bản, giúp khám phá cấu trúc ngữ
nghĩa ẩn của một văn bản. Một chủ đề ẩn được biểu diễn bởi một cụm các từ thường
xuyên xuất hiện cùng nhau. Các mô hình chủ đề coi rằng mỗi văn bản là một phân phối
đa thức trên các chủ đề, mỗi chủ đề là một phân phối đa thức trên các từ. Do đó, có hai
loại phân phối đa thức trong mô hình chủ đề là phân phối văn bản – chủ đề và phân phối
chủ đề - từ.
Kể từ khi được đề xuất lần đầu tiên, mô hình chủ đề đã nhận được rất nhiều chú
ý và thu hút sự quan tâm rộng rãi của các nhà nghiên cứu trong nhiều lĩnh vực. Cho đến
nay, bên cạnh việc khai phá văn bản, mô hình chủ đề cũng mang lại nhiều ứng dụng
thành công trong các lĩnh vực thị giác máy tính, tin sinh học, di truyền học quần thể và
mạng xã hội.
Tuy nhiên, mô hình chủ đề là mô hình học không giám sát có xu hướng sinh ra
các chủ đề khó hiểu. Nguyên nhân chính là do các hàm mục tiêu của các mô hình chủ
đề không phải lúc nào cũng phù hợp với đánh giá của con người. Để giải quyết vấn đề
này chúng ta có thể sử dụng các phương pháp sau [1]:
(1) Tạo ra các chủ đề tốt hơn: Phương pháp này khả thi khi có một lượng lớn các
văn bản, vì mô hình hoá chủ đề là phương pháp học không giám sát và số lượng văn bản
nhỏ sẽ không đủ để cung cấp số liệu thống kê tin cậy cho mô hình.
(2) Yêu cầu người dùng cung cấp tri thức miền quá khứ: Phương pháp này yêu
cầu người dùng hoặc một chuyên gia miền cung cấp một số tri thức miền quá khứ. Tri
thức có thể ở dạng must-links hay cannot-links. Tuy nhiên trong thực tế, việc yêu cầu
người dùng cung cấp tri thức quá khứ là một vấn đề không đơn giản, bởi người dùng có
thể không biết tri thức nào để cung cấp hoặc không phải tất cả tri thức do người dùng
cung cấp đề đúng, đồng thời nó làm cho phương pháp này không được tự động.
(3) Sử dụng mô hình chủ đề suốt đời: Phương pháp này sử dụng LML trong
mô hình hoá chủ đề. Thay vì yêu cầu người dùng cung cấp tri thức, tri thức quá khứ
được học và tích lũy một cách tự động trong quá trình mô hình hóa chủ đề của các nhiệm
vụ quá khứ. Đây cũng là phương pháp được sử dụng trong khoá luận.
9
2.1.2. Mô hình chủ đề suốt đời
Một số mô hình chủ đề cô lập như LDA[8], pLSA[9] được sử dụng rộng rãi trong
việc trích xuất chủ đề từ các văn bản. Tuy nhiên, các mô hình này có một số hạn chế của
học không giám sát được trình bày ở phần trước, trong đó có yêu cầu một lượng lớn dữ
liệu để cung cấp các số liệu thống kê tin cậy. Trong thực tế, có rất ít tập dữ liệu lớn. Do
đó, đòi hỏi một phương pháp mô hình hóa chủ đề có thể hoạt động tốt hơn, thậm chí trên
các tập dữ liệu nhỏ - phương pháp mô hình hóa chủ đề suốt đời.
Ý tưởng của mô hình hóa chủ đề suốt đời là trích xuất tri thức từ các chủ đề kết
quả của các miền dữ liệu hoặc nhiệm vụ quá khứ, sử dụng cho quá trình mô hình hóa
chủ đề của miền dữ liệu hoặc nhiệm vụ hiện tại. Mô hình hóa chủ đề suốt đời bao gồm
các bước chính:
Bước 1. Cho N tập dữ liệu D = {𝐷𝑖|i=1, 2, …, N} từ N miền, chạy một mô hình
chủ đề cô lập (ví dụ: LDA) trên mỗi tập 𝐷𝑖 thuộc D sinh ra tập các chủ đề tương ứng
𝑇𝑜𝑝𝑖𝑐𝑠𝑖 . Các chủ đề này được gọi là các p-chủ đề (chủ đề quá khứ).
Bước 2. Một KB gồm tập các tri thức quá khứ được khai phá từ tất cả các p-chủ
đề trong S=∪𝑖 𝑆𝑖.
Bước 3. Tri thức quá khứ trong KB được sử dụng để giúp sinh chủ đề cho tập dữ
liệu hiện tại. Các chủ đề kết quả tiếp tục được khai phá và tích hợp trong KB để sử dụng
cho các nhiệm vụ mô hình hoá chủ đề tiếp theo trong tương lai.
2.1.3. Must-Links và Cannot-Links
Must-links và cannot-links là hai dạng tri thức trong mô hình chủ đề suốt đời.
Must-links và cannot-links được sinh ra từ các mô hình chủ đề quá khứ, lưu trữ trong
KB và sử dụng trong mô hình chủ đề mới, giúp sinh ra các chủ đề chặt chẽ hơn. Một
must-link có nghĩa là hai từ nên thuộc cùng một chủ đề, ví dụ “giá” và “đắt”. Một cannot-
link có nghĩa là hai từ không nên thuộc cùng một chủ đề, ví dụ “máy_tính” và “mưa”.
Cho một ví dụ các đánh giá thuộc ba miền. Một mô hình chủ đề cô lập được sử
dụng để sinh các tập chủ đề ở mỗi miền. Mỗi miền có một chủ đề giả sử là dịch vụ. Dưới
đây là top bốn từ có xác suất cao nhất trong chủ đề dịch vụ của từng miền:
- Miền 1: lễ_tân, xa, ngon, nhân_viên
- Miền 2: nhân_viên, chu_đáo, lễ_tân, phong_phú
- Miền 3: nhân_viên, cũ, chu_đáo, thân_thiện
10
Nếu chúng ta chú ý tới những từ xuất hiện cùng nhau ở ít nhất hai miền, ta sẽ tìm
thấy các tập:
{lễ_tân, nhân_viên}, {nhân_viên, chu_đáo}.
Các từ trong mỗi tập trên dường như thuộc cùng một chủ đề, khi đó các tập trên
được gọi là must-links. Vì vậy, must-links là một tập các từ có liên hệ nhau về mặt ngữ
nghĩa, thường xuyên xuất hiện cùng nhau trong một chủ đề, đồng thời ta cũng có thể
thấy cannot-links là một khái niệm ngược lại chỉ tập các từ không có liên hệ về mặt ngữ
nghĩa, ví dụ máy tính và mưa.
2.2. Mô hình chủ đề ẩn LDA
LDA là mô hình xác suất sinh mẫu của một tập văn bản. Ý tưởng cơ bản là trong
LDA, các văn bản được biểu diễn dưới dạng hỗ hợp ngẫu nhiên các chủ đề ẩn, trong đó
mỗi chủ đề được đặc tả bởi một phân phối từ.
Quá trinh sinh mẫu của LDA cho mỗi văn bản w thuộc tập văn bản D được biểu
diễn như sau [8]:
(1) Chọn N ~ Poisson(𝜉)
(2) Chọn 𝜃 ~ Dir(𝛼)
(3) Với mỗi từ 𝑤𝑛 trong N words:
(a) Chọn một chủ đề 𝑧𝑛 ~ Đa thức(𝜃)
(b) Chọn một từ 𝑤𝑛 từ p(𝑤𝑛|𝑧𝑛, 𝛽), một xác suất đa thức ở trạng thái chủ đề 𝑧𝑛
Trong đó:
- N là độ dài của văn bản
- 𝜃 = (𝜃1, 𝜃2, … , 𝜃𝑘) là xác suất mà một từ được chọn ngẫu nhiên trong w thuộc
chủ đề i, i = {1, 2, …, k}
- Poisson(𝜉) là phân phối Poisson với tham số 𝜉 (𝜉: số thực dương)
- Dir(𝛼) là phân phối Dirichlet ẩn với tham số 𝛼 (𝛼: một véc tơ các số thực dương)
Một số giả thiết đơn giản hóa được thực hiện trong mô hình cơ bản này như sau.
Kích thước k của phân phối Dirichlet (là kích thước của biến chủ đề z) được cho trước
11
và cố định. Các xác suất của từ được tham số hóa bởi một ma trận 𝛽 (k x V) chiều, 𝛽𝑖𝑗
= 𝑝(𝑤𝑗 = 1|𝑧𝑖 = 1).
Một biến Dirichlet k chiều ngẫu nhiên 𝜃 có thể nhận các giá trị trong đơn hình
(k – 1) (một k-véc tơ 𝜃 nằm trong đơn hình (k – 1) nếu 𝜃𝑖 ≥ 0, ∑ 𝜃𝑖 = 1𝑘𝑖=1 ) và có mật
độ xác suất trên đơn hình này như sau:
𝑝(𝜃|𝛼) =Γ(∑ 𝛼𝑖
𝑘𝑖=1 )
∏ Γ(𝛼𝑖)𝑘𝑖=1
𝜃1𝛼1−1
… 𝜃𝑘𝛼𝑘−1
Trong đó tham số 𝛼 là một k-véc tơ với các thành phần 𝛼𝑖 > 0, và Γ(x) là hàm
Gamma.
Cho các tham số 𝛼 và 𝛽, một phân phối chung của một hỗn hợp chủ đề 𝜃, một
tập N chủ đề z và một tập N từ w, ta có:
𝑝(𝜃, 𝑧, 𝑤|𝛼, 𝛽) = 𝑝(𝜃|𝛼) ∏ 𝑝(𝑧𝑛|𝜃)𝑝(𝑤𝑛|𝑧𝑛, 𝛽)
𝑁
𝑛=1
Trong đó, 𝑝(𝑧𝑛|𝜃) là 𝜃𝑖 với i duy nhất mà 𝑧𝑛𝑖 = 1. Tích hợp trên 𝜃 và tổng hợp
trên z, chúng ta thu được phân phối biên của một văn bản như sau:
𝑝(𝑤|𝛼, 𝛽) = ∫ 𝑝(𝜃|𝛼)(∏ ∑ 𝑝(𝑧𝑛|𝜃)𝑝(𝑤𝑛|𝑧𝑛, 𝛽))𝑑𝜃
𝑧𝑛
𝑁
𝑛=1
Cuối cùng, lấy kết quả các xác suất biên của các văn bản đơn lẻ, thu được xác
suất của một tập văn bản:
𝑝(𝐷|𝛼, 𝛽) = ∏ ∫ 𝑝(𝜃𝑑|𝛼)(∏ ∑ 𝑝(𝑧𝑑𝑛|𝜃𝑑)𝑝(𝑤𝑑𝑛|𝑧𝑑𝑛, 𝛽))𝑑𝜃𝑑
𝑧𝑑𝑛
𝑁𝑑
𝑛=1
𝑀
𝑑=1
2.3. Mô hình chủ đề suốt đời AMC
2.3.1. Tổng quan về AMC
AMC là một mô hình chủ đề suốt đời được đề xuất bởi Z.Chen và B.Liu [2].
12
Một số phương pháp mô hình chủ đề như DF-LDA [18], MC-LDA [19] có thể
sử dụng cả hai dạng tri thức must-links và cannot-links để giúp sinh các chủ đề tốt hơn.
Tuy nhiên tri thức must-links và cannot-links được sử dụng trong hai phương pháp trên
được cung cấp bởi người dung, được giả định rằng chúng đều đúng và không có xung
đột, tuy nhiên các giả định này là không chính xác [8]. LTM [20] là một mô hình chủ đề
suốt đời đầu tiên, tuy nhiên LTM mới chỉ xem xét các must-links.
AMC là phương pháp mô hình chủ đề tự động, không có sự can thiệp của con
người, do đó có thể giải quyết được vấn đề tính chính xác của tri thức do người dùng
cung cấp. AMC sử dụng tri thức thu được từ các miền dữ liệu trong quá khứ giúp mô
hình chủ đề trên miền hiện tại, vì vậy thay vì cần sử dụng một tập dữ liệu lớn (hiếm có
trong thực tiễn) như các mô hình chủ đề cô lập, AMC có thể sử dụng các tập dữ liệu nhỏ
(có nhiều trong thực tiễn). AMC xem xét đồng thời hai dạng tri thức must-links, cannot-
links, và khai phá tri thức must-links tốt hơn LTM qua việc giải quyết được một số vấn
đề khó khăn có thể gặp phải trong quá trình sinh tri thức must-links và cannot-links như
đa ngữ nghĩa: một từ có thể có nhiều nghĩa, ví dụ từ đồng có nhiều nghĩa, có thể là ruộng
đồng, đồng tiền, đồng thau…, tri thức không thích hợp: bởi không phải tất cả các must-
links đều đúng với tất cả các miền, ví dụ, một must-link {cao, rẻ} đúng trong miền giá
cả nhưng không đúng trong miền hình dạng…
AMC khai phá tri thức must-links bằng cách sử dụng thuật toán MS-FIM [21] để
tìm các tập mục thường xuyên, trong phạm vi ngữ cảnh bài toán, các tập mục thường
xuyên là các tập gồm hai từ thường xuyên xuất hiện cùng nhau trong các p-chủ đề và
các tập mục này được sử dụng như là các must-links. MS-FIM được phát triển dựa trên
kĩ thuật khai phá tập mục thường xuyên FIM, tuy nhiên nếu như FIM sử dụng một độ
hỗ trợ tối thiểu (minsupp) duy nhất thì MS-FIM sử dụng nhiều minsupp. MS-FIM được
mô tả tổng quát như sau:
Cho một tập các giao dịch T, mỗi giao dịch 𝑡𝑖 ∈ T là một tập mục từ một tập mục
toàn cục I: 𝑡𝑖 ⊆ 𝐼. Trong ngữ cảnh bài toán, 𝑡𝑖 là một véc tơ chủ đề gồm top 𝑀 từ có xác
suất xảy ra nhất của một chủ đề (không đính kèm xác suất). Khi đó, một mục trong giao
13
dịch 𝑡𝑖 là một từ trong véc tơ chủ đề 𝑡𝑖. Do vậy T chính là tập các p-chủ đề trong KB S
và I là tập các từ trong S.
Mỗi mục (từ) được cung cấp một độ hỗ trợ tập mục tối thiểu (MIS). Độ hỗ trợ tối
thiểu (minsupp) mà một tập mục cần thỏa mãn là không cố định, nó phụ thuộc vào giá
trị MIS của tất cả các mục trong một tập mục. MS-FIM cũng có một ràng buộc khác là
ràng buộc SDC – ràng buộc khác nhau về độ hỗ trợ, thể hiện yêu cầu rằng các độ hỗ trợ
của các mục trong một tập mục không được quá khác nhau.
MIS và SDC đã giải quyết được các ngược điểm của thuật toán FIM cổ điển khi
FIM chỉ sử dụng một minuspp duy nhất. Các chủ đề khác nhau có thể có tần suất rất
khác nhau. Với một minsupp duy nhất, khi đặt minsupp quá thấp, sẽ tạo các tập mục
thường xuyên giả mạo (kết quả là các must-links sai) và nếu đặt minsupp quá cao chúng
ta có thể không tìm được bất cứ must-links nào từ các chủ đề có tần suất thấp, do đó có
thể bỏ lỡ nhiều tri thức must-links.
Trong AMC, hai từ 𝑤1, 𝑤2 trong mỗi chủ đề hiện tại tạo thành một cannot-links
nếu thoả mãn hai điều kiện sau[2]:
𝑁𝑑𝑖𝑓𝑓
𝑁𝑑𝑖𝑓𝑓+ 𝑁𝑠ℎ𝑎𝑟𝑒 ≥ 𝜋𝑐
Ndiff ≥ 𝜋𝑑𝑖𝑓𝑓
Trong đó: - Ndiff là số miền quá khứ mà hai từ w1 và w2 thuộc các p-chủ đề khác nhau
- Nshare là số miền quá khứ mà w1 và w2 thuộc cùng một p-chủ đề
- Ndiff/(Nshare + Ndiff) được gọi là độ hỗ trợ
- 𝜋𝑑𝑖𝑓𝑓 và 𝜋𝑐 là hai ngưỡng cho trước.
14
2.3.2. Mô hình AMC
Hình 2.1. Mô hình AMC
Mô hình AMC được biểu diễn như Hình 2.3, và được mô tả chi tiết sau đây:
Pha 1 – Khởi tạo:
Các nhiệm vụ quá khứ 𝑇1, 𝑇2, … , 𝑇𝑛 với các tập dữ liệu tương ứng 𝐷 = {𝐷1, 𝐷2, … , 𝐷𝑛}
của n miền. Áp dụng mô hình LDA cho từng tập 𝐷𝑖 ∈ 𝐷 để sinh tập các p-chủ đề
𝑇𝑜𝑝𝑖𝑐𝑠𝑖 tương ứng. Gọi S = ∪𝑖 𝑆𝑖 là các tập p-chủ đề được sử dụng để mô hình hóa chủ
đề mới. Một tập must-links M được khai phá từ S.
Pha 2 – Học suốt đời với AMC:
Nhiệm vụ hiện tại 𝑇𝑁+1 với tập dữ liệu 𝐷𝑁+1. Pha này sử dụng AMC[2] để sinh tập các
chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 từ 𝐷𝑁+1 được gọi là các c-chủ đề (chủ đề hiện tại). Thuật toán AMC
được mô tả như sau đây, trong đó, N là số vòng lặp lấy mẫu GibbsSampling(.)
(GibbsSampling(.) được giới thiệu trong [2]).
15
AMC (Dt, S, M)
1. 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 ← GibbsSampling(𝐷𝑁+1, M, N, ∅) ; //∅: không có cannot-links
2. for r = 1 to R do
3. C ← C ∪ MineCannotLinks(S, 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1); // khai phá cannot-links
4. 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 ← GibbsSampling(𝐷𝑁+1, M, N, C);
5. end for
6. S ← Incorporate(𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1, 𝑆); // tích hợp chủ đề hiện tại 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 vào KB S
7. M ← MiningMustLinks(S); // khai phá must-links
2.4. Thuật toán phân lớp đa nhãn bán giám sát MULTICS
2.4.1. Phân lớp đa nhãn bán giám sát
Ý tưởng chính của phân lớp đa nhãn bán giám sát là sử dụng cả tập dữ liệu có
nhãn và không nhãn để tìm phân vùng C, xây dựng mô hình phân lớp f mà có thể dự
đoán các nhãn cho các phần tử không nhãn.
Trong [4], mô hình phân lớp đa nhãn bán giám sát được mô tả như sau:
Cho �̅� = �̅�𝐿 ∪ �̅�𝑈, trong đó �̅�𝐿 là tập các phần tử có nhãn, �̅�𝑈 là tập các phần tử
không nhãn. Nhiệm vụ của phân lớp đa nhãn bán giám sát là xây dựng một hàm số phân
lớp f: �̅�𝐿 ∪ �̅�𝑈 → 2𝐿. Mục tiêu xây dựng bộ phân lớp là tìm một phân vùng C từ �̅�, sao
cho C = {𝐶1, 𝐶2, … , 𝐶𝑚}, trong đó, 𝐶𝑖 = {𝑑1(𝑖)
, … , 𝑑𝐶𝑖
(𝑖)} (1≤ 𝑖 ≤ 𝑚), ∪1≤𝑖≤𝑚 𝐶𝑖 = �̅� và
𝐶𝑖 ∩ 𝐶𝑗 = ∅ (1≤ 𝑖 ≠ 𝑗 ≤ 𝑚). Tất cả các phần tử trong cụm 𝐶𝑖 được gán cùng một tập
nhãn không rỗng 𝑙𝐶𝑖 (được gọi là nhãn cụm).
Sau khi thu được phân vùng C, khi có một phần tử không nhãn 𝑑𝑢 ∈ 𝐷𝑈, f sử
dụng giải thuật láng ghiềng gần nhất để tìm cụm gần nhất 𝐶𝑗 = arg𝐶𝑝
𝑚𝑖𝑛 𝑑𝑖𝑠(𝑑𝑢, 𝑐𝑝),
trong đó 𝑐𝑝 là tâm của cụm 𝐶𝑝 và 𝑑𝑖𝑠(𝑑𝑢, 𝑐𝑝) là khoảng cách giữa 𝑑𝑢, 𝑐𝑝 (khoảng cách
từ 𝑑𝑢 tới tâm cụm). Khi đó nhãn cụm của 𝐶𝑝 được gán cho 𝑑𝑢: 𝑙(𝑑𝑢) = 𝑙𝑐𝑗
2.4.2. Thuật toán phân lớp đa nhãn bán giám sát MULTICS
Trong [4] cung cấp một giải thuật phân lớp đa nhãn bán giám sát cho miền dữ
liệu tiếng Việt gồm một số bước làm giàu đặc trưng được thể hiện trong Hình 2.4:
16
(i) một giai đoạn làm giàu đặc trưng bằng cách sử dụng mô hình chủ đề ẩn LDA
để khai thác thông tin ngữ nghĩa của văn bản.
(ii) một giai đoạn trích chọn đặc trưng với MI [22] để giữ lại các đặc trưng có
liên quan nhất và loại bỏ các đặc trưng không liên quan.
(iii) một giai đoạn sử dụng thuật toán phân lớp đa nhãn bán giám sát MULTICS
Hình 2.2. Khung phân lớp đa nhãn bán giám sát với việc giảm và làm giàu đặc
trưng
Thuật toán MULTICS hồm hai pha: (i) pha học: MULTICSLearn(.) và (ii) pha
phân lớp: MULTICSClassifier(.)
Pha học sử dụng thuật toán phân cụm bán giám sát để xác định các thành phần
(các cụm) từ các phần tử có nhãn và không nhãn dựa trên nhãn nổi bật. Pha phân lớp
xác định cụm gần nhất để gán nhãn cho phần tử không nhãn. Thuật toán
MULTICSLearn(.) và MULTICSClassifier(.) được trình bày như sau [4]:
17
𝑪 ← MULTICSLearner(�̅�, 𝑳𝟏, 𝑳𝟐)
Đầu vào:
�̅�: một tập các văn bản có nhãn (�̅�𝐿) và không nhãn (�̅�𝑈)
𝐿1: một tập nhãn ngầm định sẵn có cho mọi phần tử trong �̅�𝐿
𝐿2: một tập nhãn có thể thêm vào cho các phần tử trong �̅�𝐿
Đầu ra:
𝐶: một tập các cụm văn bản đã được gán nhãn
Thủ tục:
1. Gọi 𝜆 là nhãn trong 𝐿2 có tần suất xuất hiện lớn nhất trong �̅�𝐿
2. Tạo một tập nhãn mới 𝐿∗ gồm ba nhãn phụ:
𝜆1 ← 𝐿1 ∪ {𝜆}
𝜆2 ← 𝐿1 ∪ {𝜆} ∪ {𝛽|𝛽 ∈ 𝐿2}
𝜆3 ← 𝐿2\{𝜆}
𝐷′̅̅ ̅ ← 𝐴𝑛𝑛𝑜𝑡𝑎𝑡𝑒(�̅�, { 𝜆1, 𝜆2, 𝜆3}) ; 𝐶∗ ← 𝑇𝐸𝑆𝐶(𝐷′̅̅ ̅, 𝐿∗)
3. Chia �̅� thành ba tập con của các văn bản không nhãn và có nhãn liên quan
đến phân vùng 𝐶∗:
a. 𝐷1̅̅ ̅: tập con của các văn bản không nhãn, và văn bản có nhãn được gán
nhãn 𝜆1
b. 𝐷2̅̅ ̅: tập con của các văn bản không nhãn, và văn bản có nhãn được gán
nhãn 𝜆2
c. 𝐷3̅̅ ̅: tập con của các văn bản không nhãn, và văn bản có nhãn được gán
nhãn 𝜆3
4. Trên 𝐷1̅̅ ̅:
𝐶 ← 𝐶 ∪ 𝑇𝐸𝑆𝐶(𝐷1̅̅ ̅, 𝐿1 ∪ {𝜆})
5. Trên 𝐷2̅̅ ̅:
a. if tất cả phần tử trong 𝐷2̅̅ ̅ có cùng một nhãn 𝐿3 then:
𝐶 ← 𝐶 ∪ 𝑇𝐸𝑆𝐶(𝐷2̅̅ ̅, 𝐿3)
b. else:
// các phần tử trong 𝐷2̅̅ ̅ chưa đồng nhất nhãn
// chuyển 𝜆 từ 𝐿2 sang 𝐿1
𝐶 ← 𝐶 ∪ 𝑀𝐴𝑆𝑆𝐿𝑒𝑎𝑟𝑛(𝐷2̅̅ ̅, 𝐿1 ∪ {𝜆}, 𝐿2{𝜆})
6. Trên 𝐷3̅̅ ̅:
18
a. if tất cả phần tử trong 𝐷3̅̅ ̅ có cùng một nhãn 𝐿4 then:
𝐶 ← 𝐶 ∪ 𝑇𝐸𝑆𝐶(𝐷3̅̅ ̅, 𝐿4)
b. else:
// các phần tử trong 𝐷3̅̅ ̅ chưa đồng nhất nhãn
// xóa 𝜆 khỏi 𝐿2
𝐶 ← 𝑀𝐴𝑆𝑆𝐿𝑒𝑎𝑟𝑛(𝐷3̅̅ ̅, 𝐿1, 𝐿2{𝜆})
7. return 𝐶
𝑳𝑼 ← MULTICSClassifier(C, 𝑫𝑼)
Đầu vào:
C: một tập các cụm văn bản có nhãn C = {𝐶1, 𝐶2, … , 𝐶𝑚}
𝐷𝑈: một tập các văn bản không nhãn
Đầu ra:
𝑳𝑼: một tập các nhãn để gán cho các văn bản không nhãn trong 𝐷𝑈
Thủ tục:
1. for each 𝑑𝑢 ∈ 𝐷𝑈 do:
2. 𝐶𝑡𝑒𝑚𝑝 ← 𝐶0 // 𝐶0 là cụm đầu tiên trong 𝐶
3. 𝑙𝑑𝑢 ← 𝑙𝐶𝑡𝑒𝑚𝑝 // 𝑙𝐶𝑡𝑒𝑚𝑝
là nhãn của cụm 𝐶𝑡𝑒𝑚𝑝
4. for each 𝐶𝑗 𝜖 𝐶 do:
5. 𝐷𝑖𝑠(𝑑𝑢, 𝐶𝑗) ← ‖𝑑𝑢 − 𝐶𝑗‖ //sử dụng khoảng cách Euclidean
6. If 𝐷𝑖𝑠(𝑑𝑢, 𝐶𝑡𝑒𝑚𝑝) > 𝐷𝑖𝑠(𝑑𝑢, 𝐶𝑗) then:
7. 𝐶𝑡𝑒𝑚𝑝 ← 𝐶𝑗
8. end if
9. end for
10. 𝑙𝑑𝑢 ← 𝑙𝐶𝑡𝑒𝑚𝑝
11. Add 𝑙𝐶𝑡𝑒𝑚𝑝 to 𝐿𝑈
12. end for
13. return 𝐿𝑈
2.5. TF-IDF
TF-IDF là một số liệu thống kê phản ánh mức độ quan trọng của từ trong một
văn bản, văn bản đang xét thuộc một tập văn bản. Một trong những phát biểu nổi tiếng
19
nhất của Geogre Kingsley Zipf: Trong văn bản ngôn ngữ con người, từ thứ n phổ biến
nhất xảy ra với một tần số tỉ lệ nghịch với n. Có nghĩa là, luôn có một tập các từ mà tần
số xuất hiện, sử dụng nhiều hơn các từ khác. Vì vậy, cần một phương pháp để cân bằng
mức độ quan trọng giữa các từ - phương pháp TF-IDF.
TF-IDF gồm hai số liệu thống kê: TF và IDF, được tính bằng công thức:
TF-IDF = TF*IDF
Trong khoá luận này, tôi sử dụng TF-IDF để xác định top các từ có xác suất
xuất hiện cao nhất trong một tập văn bản để tính toán một độ đo miền gần.
2.5.1. TF (term-frequency)
TF dùng để ước tính tần suất xuất hiện của một từ t trong một văn bản d:
TF(t, d) = (số lần xuất hiện của t trong d)/(tổng số từ trong d)
Do đó TF chỉ mức độ phổ biến của một từ trong văn bản.
2.5.2. IDF (inverse document frequency)
Các từ quan trọng là những từ chỉ xuất hiện nhiều trong một số văn bản, vì nó
đặc trưng cho văn bản chứa nó, các từ xuất hiện nhiều trong nhiều văn bản thì không
quan trọng, ví dụ như các từ dừng. Do đó, cần giảm giá trị các từ không quan trọng và
tăng giá trị của các từ quan trọng bằng cách sử dụng IDF. Do đó IDF dùng để ước lượng
mức độ quan trọng của một từ t trong văn bản d thuộc tập văn bản D.
IDF(t, D) = 𝑙𝑜𝑔𝑒(tổng số văn bản d trong D/số văn bản d chứa t)
Tóm tắt chương
Chương 2 đã trình bày những nội dung cơ bản và trọng tâm nhất về các lý thuyết
và công nghệ được sử dụng trong bài toán: mô hình hóa chủ đề suốt đời, mô hình chủ
đề ẩn LDA, mô hình chủ đề suốt đời AMC, giải thuật phân lớp đa nhãn bán giám sát
MULTICS.
Chương tiếp theo sẽ tập trung đi vào chi tiết phương pháp đề xuất trong khóa luận.
20
CHƯƠNG 3. PHƯƠNG PHÁP ĐỀ XUẤT
3.1. Xây dựng bài toán
Cho 𝑇1, 𝑇2, … , 𝑇𝑁 là N nhiệm vụ mô hình hoá chủ đề đã được thực hiện trong quá
khứ (gọi là các nhiệm vụ quá khứ) và 𝐷𝑖 , 𝑉𝑖 , 𝑇𝑜𝑝𝑖𝑐𝑠𝑖 lần lượt là tập dữ liệu, từ vựng,
mô hình chủ đề của 𝑇𝑖 với i = 1, 2, .., N. Các 𝑡𝑜𝑝𝑖𝑐𝑠𝑖 được xây dựng bởi mô hình chủ
đề ẩn hoặc mô hình chủ đề suốt đời. Gọi S là một KB, lưu trữ tất cả các thông tin, tri
thức từ N nhiệm vụ quá khứ (S = ∅ khi N = 0).
𝑇𝑁+1 là nhiệm vụ hiện tại (hay nhiệm vụ mới) với các tập dữ liệu 𝐷𝑁+1, từ vựng
𝑉𝑁+1. Bài toán đặt ra là xây dựng một mô hình chủ đề suốt đời 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 dựa trên tri
thức của các miền gần với miền hiện tại từ S. Mô hình chủ đề suốt đời 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 được
sử dụng để xây dựng đặc trưng cho các văn bản trong phân lớp đa nhãn, kết quả phân
lớp dùng để đánh giá ảnh hưởng của phương pháp đề xuất tới hiệu suất của phân lớp đa
nhãn (Hình 1.1).
Phương pháp đề xuất được tiến hành theo các bước:
Bước 1. Xác định các miền gần với miền hiện tại bằng phương pháp xác định
miền gần được giới thiệu trong phần 3.2
Bước 2. Khi có được các miền gần, ta sử dụng tri thức của các miền đó để giúp
mô hình hóa chủ đề cho miền hiện tại
Bước 3. Kết quả mô hình chủ đề của miền hiện tại được sử dụng để xây dựng
đặc trưng trong phân lớp đa nhãn
3.2. Xác định miền gần
3.2.1. Độ đo tương tự của hai túi từ
Cho hai túi từ A = {(𝑤𝑎𝑖 , 𝑝𝑎𝑖)}, B = {(𝑤𝑏𝑖 , 𝑝𝑏𝑖)}, trong đó 𝑤𝑎𝑖 , 𝑤𝑏𝑖 là các từ,
𝑝𝑎𝑖 , 𝑝𝑏𝑖 là trọng số của từ tương ứng, C là tập từ vựng của các từ trong A và B, khi đó
C = {𝑤𝑎𝑖} ∪ {𝑤𝑏𝑖}. Gọi 𝑣𝑎 , 𝑣𝑏 là các véc tơ trọng số của A và B xây dựng dựa trên C.
Độ đo tương tự của A và B, gọi là similarity(A, B), được định nghĩa là độ đo cosine giữa
hai véc tơ 𝑣𝑎, 𝑣𝑏:
Similarity(A, B) = cosine(𝑣𝑎 , 𝑣𝑏), (1)
21
Ví dụ, có hai túi từ A = {(trang_phục, 0.034586), (mũ, 0.024568), (đắt,
0.045683)} và B = {(mũ, 0.012648), (đẹp, 0.021345), (áo, 0.048588)}. Khi đó C =
{trang_phục, mũ, đắt, đẹp, áo}. Véc tơ trọng số của A và B có dạng: 𝑣𝑎 = (0.034586,
0.024568, 0.045683, 0, 0), 𝑣𝑏 = (0, 0.012648, 0, 0.021345, 0.048588). Độ tương tự của
A và B được tính như sau: Similarity(A, B) = cosine(𝑣𝑎 , 𝑣𝑏) = 0.09136.
3.2.2. Chủ đề gần
Cho hai chủ đề A, B từ hai tập chủ đề khác nhau, hai chủ đề A và B được coi là
gần nếu:
Similiaty(𝑇𝑜𝑝𝑀(𝐴), 𝑇𝑜𝑝𝑀(𝐵)) ≥ 𝜃, (2)
Trong đó, 𝑡𝑜𝑝𝑀(𝐴) và 𝑡𝑜𝑝𝑀(𝐵) là tập M từ có xác suất xảy ra cao nhất trong A
và B, 𝜃 là một ngưỡng được chọn trước.
Similiaty(𝑇𝑜𝑝𝑀(𝐴), 𝑇𝑜𝑝𝑀(𝐵)) được gọi là độ đo chủ đề gần. Độ đo chủ đề gần được sử
dụng để xác định các miền gần.
3.2.3. Xác định miền gần
Cho hai tập dữ liệu 𝐷𝑖 , 𝐷𝑗 của các nhiệm vụ 𝑇𝑖 , 𝑇𝑗. 𝑉𝑖 , 𝑉𝑗 và 𝑇𝑜𝑝𝑖𝑐𝑠𝑖 , 𝑇𝑜𝑝𝑖𝑐𝑠𝑗 lần
lượt là hai tập từ vựng và chủ đề tương ứng của 𝐷𝑖 , 𝐷𝑗. Miền của tập 𝐷𝑗 được gọi là gần
với miền của tập 𝐷𝑖 nếu thỏa mãn tất cả các điều kiện sau:
(i) Mức từ vựng:
|𝑉𝑖∩𝑉𝑗|
|𝑉𝑗|+
|𝑉𝑖∩𝑉𝑗|
|𝑉𝑖| ≥ 𝜃1 (3)
Thành phần |𝑉𝑖∩𝑉𝑗|
|𝑉𝑗| (
|𝑉𝑖∩𝑉𝑗|
|𝑉𝑖| ) biểu thị mức độ 𝑉𝑗 (𝑉𝑖) có trong 𝑉𝑖 (𝑉𝑗). Trong thuật
ngữ truy vấn thông tin, mức độ một miền quá khứ 𝑉𝑖 thuộc một miền hiện tại 𝑉𝑗 có ý
nghĩa như độ chính xác, mức độ một miền hiện tại 𝑉𝑗 thuộc miền quá khứ 𝑉𝑖 có ý nghĩa
như độ đo hồi tưởng.
(ii) Mức từ:
Similarity(𝑇𝑜𝑝𝑀(𝑉𝑖), 𝑇𝑜𝑝𝑀(𝑉𝑗)) ≥ 𝜃2 (4)
22
Trong đó, 𝑇𝑜𝑝𝑀(𝑉𝑖), 𝑇𝑜𝑝𝑀(𝑉𝑗) là tập M từ có xác suất cao nhất trong 𝑉𝑖 và 𝑉𝑗,
được xác định bởi phương pháp TF-IDF.
(iii) Mức chủ đề: Số các chủ đề trong 𝑇𝑗 tương tự với chủ đề trong 𝑇𝑖 chia cho số chủ
đề của 𝑇𝑗 lớn hơn hoặc bằng một ngưỡng cho trước:
|{𝑡1∈𝑇𝑜𝑝𝑖𝑐𝑠(𝑇𝑖)}|{{𝑡2∈𝑇𝑜𝑝𝑖𝑐𝑠(𝑇𝑗)}⋀𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦(𝑡2,𝑡1)≥𝜃3|
|𝑇𝑜𝑝𝑖𝑐𝑠(𝑇𝑗)|≥ 𝜃4 (5)
Các giá trị 𝜃1, 𝜃2, 𝜃3, 𝜃4 là các ngưỡng dương cho trước.
Như vậy, 𝐷𝑖, i = 1, 2, …, N, quá trình xác định miền gần giữa 𝐷𝑖 và 𝐷𝑁+1 gồm
ba bước: (i) bước đầu tiên được thực hiện trên mức từ vựng, chuyển sang bước (ii) nếu
điều kiện (3) thỏa mãn, (ii) bước thứ hai được thực hiện trên mức top các từ, chuyển
sang bước (iii) nếu thỏa mãn điều kiện (4), (iii) bước thứ ba được thực hiện trên mức
chủ đề, nếu thỏa mãn điều kiện (5) chứng tỏ miền của 𝐷𝑖 gần với 𝐷𝑁+1, do đó tri thức
học được từ 𝐷𝑖 được sử dụng để học trên 𝐷𝑁+1.
3.3. Phương pháp mô hình hóa chủ đề suốt đời đề xuất
Phương pháp đề xuất được mô tả trong Hình 3.1.
Hình 3.1. Mô hình chủ đề suốt đời đề xuất
Chi tiết mô hình đề xuất được trình bày như sau:
23
Bước 1. Cho N tập dữ liệu 𝐷1, 𝐷2, … , 𝐷𝑁 của N nhiệm vụ mô hình chủ đề đã thực
hiện trong quá khứ 𝑇1, 𝑇2, … , 𝑇𝑁. 𝐷𝑁+1 là tập dữ liệu của nhiệm vụ hiện tại 𝑇𝑁+1.
Bước 2. Áp dụng mô hình LDA cho tập 𝐷𝑁+1, sinh ra tập các chủ đề ẩn.
Nếu S rỗng (trong S chưa có tri thức quá khứ), có nghĩa là 𝑇𝑁+1 là nhiệm vụ đầu tiên,
thêm toàn bộ tập các chủ đề ẩn của 𝑇𝑁+1 vào S.
Nếu S không rỗng (trong S đã có tri thức quá khứ), chuyển sang thực hiện bước 3
Bước 3. Gọi S* là một KB tạm thời chứa tất cả các tri thức của các miền quá khứ
gần với miền hiện tại từ S. Các miền gần là các miền thỏa mãn các điều kiện trong phần
3.2.2.
Bước 4. Bước này áp dụng thuật toán AMC [2] để tinh chỉnh các chủ đề, tuy
nhiên chỉ sử dụng tri thức từ S*.
Bước 5. Các chủ đề kết quả được tích hợp vào S, sử dụng cho các nhiệm vụ mô
hình chủ đề trong tương lai.
Kết quả từ pha này được sử dụng trong pha phân lớp đa nhãn.
3.4. Phân lớp đa nhãn văn bản tiếng Việt áp dụng chủ đề suốt đời
Để tận dụng được các lợi ích của dữ liệu không nhãn, phương pháp đề xuất sử
dụng mô hình phân lớp đa nhãn bán giám sát MULTICS[]. Trong MULTICS[], mô hình
chủ đề ẩn LDA được sử dụng để xây dựng các đặc trưng. Khóa luận này đề xuất sử dụng
mô hình chủ đề suốt đời đề xuất thay vì mô hình chủ đề LDA (Hình 3.2)
24
Hình 3.2. Mô hình phân lớp đa nhãn văn bản tiếng Việt sử dụng chủ đề suốt đời
Các chủ đề 𝑇𝑁+1 (𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1) sử dụng cho pha phân lớp đa nhãn là các chủ đề
thu được từ pha mô hình hóa chủ đề suốt đời. Các chủ đề trên được sử dụng để xây dựng
các đặc trưng cho các văn bản: gọi 𝑝(𝑑, 𝑗) là xác suất mà một văn bản d thuộc chủ đề
𝑗 ∈ 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1, véc tơ (𝑝(𝑑, 1), 𝑝(𝑑, 2), … , 𝑝(𝑑, 𝑘)) (trong đó k là số chủ đề) được gọi
là véc tơ đặc trưng chủ đề ẩn. Các đặc trưng này được sử dụng trong MULTICS để xây
dựng một bộ đặc trưng cho phân lớp.
Để tránh các rò rỉ ngoại lệ trong tương lai, tập dữ liệu kiểm thử 𝐷𝑡𝑒𝑠𝑡 không được
sử dụng để xây dựng tập chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1. Điều này có ý nghĩa vô cùng quan trọng
trong học máy suốt đời, bởi các tập dữ liệu mới (hay tập dữ liệu kiểm thử) nên được
xem như đến từ tương lai.
Tóm tắt chương
Chương 3 đã trình bày chi tiết về bài toán đề xuất trong khóa luận.
Nội dung chương tiếp theo trình bày về kết quả thực nghiệm và đánh giá phương pháp
đề xuất.
25
CHƯƠNG 4. THỰC NGHIỆM VÀ KẾT QUẢ
4.1. Tập dữ liệu
Khóa luận thực nghiệm hiệu suất của phương pháp đề xuất trên bốn tập dữ liệu
về đánh giá của người dùng thuộc bốn miền khác nhau, bao gồm ba tập dữ liệu không
nhãn và một tập dữ liệu có nhãn.
Tập dữ liệu có nhãn được sử dụng làm tập dữ liệu hiện tại trong pha mô hình hóa
chủ đề để sinh tập các chủ đề (không sử dụng nhãn) và pha phân lớp đa nhãn để đánh
giá hiệu suất của phương pháp đề xuất trong phân lớp đa nhãn (sử dụng nhãn). Tập dữ
liệu không nhãn chỉ sử dụng trong pha mô hình hóa chủ đề.
Bảng 4.1. Các tập dữ liệu thực nghiệm
Tập dữ liệu Số đánh giá Miền
𝐷1 26800 Các đánh giá trên miền du lịch
𝐷2 6479 Các đánh giá trên miền bảo tàng
𝐷3 1441 Các đánh giá trên miền điện thoại
𝐷4 1493 Các đánh giá trên miền khách sạn
Bốn tập dữ liệu được mô tả như trong Bảng 4.1. Tập dữ liệu 𝐷1, 𝐷2, 𝐷3 là các tập
dữ liệu không nhãn. Tập dữ liệu 𝐷4 là tập dữ liệu có nhãn, mỗi đánh giá trong 𝐷4 có thể
có một hoặc nhiều nhãn: vị trí và giá cả: bao gồm các đánh giá về sự tiện ích của vị trí
cũng như giá cả của khách sạn, nhân viên: các đánh giá về tính chuyên nghiệp, thái độ
của nhân viên, nhân viên vệ sinh, nhân viên bảo vệ…, đồ ăn: các đánh giá về đồ ăn, đồ
uống tại khách sạn, trang thiết bị : các đánh giá về tiện ích và nội thất của khách sạn,
chất lượng phòng: các đánh giá về chất lượng phòng, chất lượng khách sạn.
Tập 𝐷4 do đó được sử dụng làm tập dữ liệu hiện tại, 𝐷1, 𝐷2, 𝐷3 là tập dữ liệu quá
khứ. Chia 𝐷4 thành hai phần: 𝐷4𝑡𝑒𝑠𝑡 và 𝐷4𝑡𝑟𝑎𝑖𝑛. 𝐷4𝑡𝑒𝑠𝑡 gồm 300 đánh giá được dùng làm
tập dữ liệu kiểm thử cho pha phân lớp; 𝐷4𝑡𝑟𝑎𝑖𝑛 gồm 1000 đánh giá, chia thành năm tập
dữ liệu huấn luyện 𝐷4𝑎 , 𝐷4𝑏 , 𝐷4𝑐 , 𝐷4𝑑 , 𝐷4𝑒 tương ứng với năm tập dữ liệu hiện tại trong
pha mô hình hoá chủ đề, với các kích thước tương ứng là 100, 200, 400, 600, 1000 đánh
giá.
26
4.2. Các kịch bản thực nghiệm và đánh giá
Tiến hành ba kịch bản thực nghiệm với mỗi tập dữ liệu hiện tại 𝐷𝑁+1 trong
{𝐷4𝑎 , 𝐷4𝑏 , 𝐷4𝑐 , 𝐷4𝑑 , 𝐷4𝑒 }:
(i) Kịch bản thực nghiệm 1: Học cô lập: áp dụng mô hình chủ đề LDA trên tập 𝐷𝑁+1
sinh tập chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1
(ii) Kịch bản thực nghiệm 2: Học suốt đời: áp dụng mô hình chủ đề suốt đời AMC [2]
trên mỗi tập 𝐷𝑁+1 sinh tập chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1
(iii) Kịch bản thực nghiệm 3: Học suốt đời: áp dụng mô hình chủ đề suốt đời đề xuất
trong khóa luận trên mỗi tập 𝐷𝑁+1 sinh tập chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1. Các giá trị tham số để
xác định miền gần trong công thức (1) – (5) là: 𝜃 = 0.1, 𝜃1 = 0.8, 𝜃2 = 0.1, 𝜃3 = 0.1, 𝜃4
= 0.2, M = 20 cho cả hai công thức (2) và (4).
Với mỗi kịch bản, sau khi sinh tập chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1, tiến hành hai kịch bản đánh
giá:
(i) Kịch bản đánh giá 1 - Đánh giá chất lượng chủ đề của mô hình đề xuất với chủ đề
của các mô hình LDA, AMC
Đánh giá chất lượng chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 được sinh ra từ ba kịch bản thực nghiệm
bằng độ đo topic cohenrence được giới thiệu trong [23]. Topic cohenrence là một chỉ số
đánh giá chất lượng của chủ đề mà không sử dụng các tập dữ liệu tham chiếu bên ngoài,
bởi [23] chỉ ra rằng, các chủ đề tiêu chuẩn không sử dụng đầy đủ các thông tin sẵn có,
do đó không cần một tập dữ liệu tham chiếu bên ngoài. Độ lớn giá trị của topic
cohenrence tỉ lệ thuận với chất lượng của chủ đề. Công thức tính topic cohenrence [23]
như sau:
𝐶(𝑡; 𝑉(𝑡)) = ∑ ∑ log𝐷(𝑣𝑚
(𝑡), 𝑣𝑙
(𝑡)) + 1
𝐷(𝑣𝑙
(𝑡))
𝑚−1
𝑙=1
𝑀
𝑚=2
Trong đó, 𝑉(𝑡) = (𝑣1(𝑡)
, … , 𝑣𝑚(𝑡)
) là danh sách top 𝑀 từ có xác suất xảy ra nhất của
chủ đề 𝑡.
Thực nghiệm cho kịch bản đánh giá 1 được thực hiện với số lượng chủ đề 10, 15,
20, 25 và top M = 20 từ trên mỗi chủ đề.
(ii) Kịch bản đánh giá 2 – Đánh giá hiệu suất phân lớp đa nhãn sử dụng mô hình chủ
đề đề xuất với các mô hình chủ đề LDA, AMC
27
Áp dụng mô hình phân lớp đa nhãn được mô tả trong Hình 3.2 trên mỗi tập dữ
liệu huấn luyện 𝐷𝑁+1 cùng với tập chủ đề tương ứng 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 được sinh ra từ ba kịch
bản thực nghiệm để so sánh hiệu suất phân lớp đa nhãn.
Đánh giá hiệu suất phân lớp đa nhãn trong khoá luận sử dụng ba chỉ số precision,
recall, 𝐹1 được tính như sau:
Precision(𝑇𝑃𝑗 , 𝐹𝑃𝑗 , 𝑇𝑁𝑗 , 𝐹𝑁𝑗) = 𝑇𝑃𝑗
𝑇𝑃𝑗 + 𝐹𝑃𝑗
Recall(𝑇𝑃𝑗 , 𝐹𝑃𝑗 , 𝑇𝑁𝑗 , 𝐹𝑁𝑗) = 𝑇𝑃𝑗
𝑇𝑃𝑗 + 𝐹𝑁𝑗
𝐹1 = 2(𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛∗𝑟𝑒𝑐𝑎𝑙𝑙
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙)
Trong đó:
- TP (true positive): mẫu mang nhãn dương được phân lớp đúng vào lớp dương
- FN (false negative): mẫu mang nhãn dương được phân lớp sai vào lớp âm
- FP (false positive): mẫu mang nhãn âm được phân lớp sai vào lớp dương
- TN (true negative): mẫu mang nhãn âm được phân lớp đúng vào lớp âm
Trong phân lớp đa nhãn, giá trị các chỉ số trên càng cao thì hiệu suất phân lớp của
mô hình càng tốt, giá trị đối đa của các chỉ số đánh giá là 1.
Trong [4, 5] chỉ ra rằng hiệu suất của thuật toán MULTICS mang lại kết quả tốt nhất
với số lượng chủ đề là 15 và 25, cho nên thực nghiệm cho kịch bản đánh giá 2 được thực
hiện với số lượng các chủ đề là 10, 15, 20, 25.
4.3. Kết quả thực nghiệm và đánh giá
Đầu tiên cần xác định các miền gần từ các tập dữ liệu quá khứ với tập dữ liệu
hiện tại. Bảng 4.2 thống kê ra kết quả tính toán trên các tập dữ liệu 𝐷1, 𝐷2 và 𝐷3 với
𝐷4𝑎 , 𝐷4𝑏 , 𝐷4𝑐 , 𝐷4𝑑 và𝐷4𝑒.
Kết quả cho thấy có năm cặp miền gần: (𝐷1, 𝐷4𝑎), (𝐷1, 𝐷4𝑏), (𝐷1, 𝐷4𝑐),
(𝐷1, 𝐷4𝑑), (𝐷1, 𝐷4𝑒). Do đó, chỉ có một tập dữ liệu 𝐷1 được sử dụng để tinh chỉnh mô
hình chủ đề trên các miền dữ liệu hiện tại 𝐷𝑁+1 {𝐷4𝑎 , 𝐷4𝑏 , 𝐷4𝑐 , 𝐷4𝑑, 𝐷4𝑒}.
28
Bảng 4.2. Số liệu kiểm tra miền gần
Tập dữ
liệu
D1 D2 D3
V W T C V W T C V W T C
D4a 0.95 0.34 0.33 Y 0.86 0 0.13 N 0.41 0.03 0.06 N
D4b 0.97 0.25 0.33 Y 0.86 0.03 0.13 N 0.46 0 0.06 N
D4c 0.96 0.38 0.6 Y 0.84 0.03 0.13 N 0.45 0 0 N
D4d 0.95 0.34 0.27 Y 0.82 0.03 0.13 N 0.44 0 0.13 N
D4e 0.95 0.38 0.4 Y 0.81 0.03 0.13 N 0.44 0 0.06 N
(V: mức từ vựng, W: mức top từ, T: mức chủ đề, C: gần hay không, Y: có, N: không)
4.1.1. Đánh giá chất lượng chủ đề của mô hình đề xuất với chủ đề của các mô hình
LDA, AMC
4.1.2. Đánh giá hiệu suất phân lớp đa nhãn sử dụng mô hình chủ đề đề xuất với
các mô hình chủ đề LDA, AMC
Tập chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 được sử dụng để biểu diễn đặc trưng cho phân lớp đa
nhãn. Kết quả của các kịch bản thực nghiệm: phương pháp LDA cô lập, phương pháp
học máy suốt đời AMC và phương pháp đề xuất trong khóa luận được đưa ra ở Bảng
4.2. Các so sánh về hiệu suất của các mô hình được trình bày với các trường hợp số
lượng chủ đề khác nhau: 5, 10, 15, 20 chủ đề.
Trong hầu hết các kịch bản, tất cả hệ thống có kết quả tốt hơn khi tăng kích thước
tập dữ liệu huấn luyện từ 100 (𝐷4𝑎) lên 1000 (𝐷4𝑒).
Trong kịch bản học LDA cô lập, kết quả tốt nhất là 77.64% trong trường hợp
thực nghiệm với số chủ đề bằng 20 trên tập dữ liệu huấn luyện 1000 đánh giá (𝐷4𝑒).
Hiệu suất của các mô hình được cải thiện trong hầu hết trường hợp với kịch bản
thực nghiệm thứ hai: phương pháp AMC [2] và trong tất cả trường hợp với kịch bản thứ
ba: phương pháp đề xuất trong khóa luận. Khi kích thước tập dữ liệu huấn luyện nhỏ
(𝐷4𝑎 , 𝐷4𝑏), độ cải thiện khoảng 2%, điều này có ý nghĩa lớn trong học máy suốt đời.
Phương pháp đề xuất thậm chí mang lại kết quả tốt hơn AMC [2] trong tất cả các
thực nghiệm. Trong mọi trường hợp, độ cải thiện tăng khoảng 1%. Các biểu diễn chỉ ra
29
rằng, kích thước của tập dữ liệu hiện tại có ảnh hướng tới hiệu suất phân lớp. Cụ thể,
mô hình của phương pháp đề xuất hoạt động tốt hơn khi thực hiện trên một lượng nhỏ
các đánh giá trong tập dữ liệu huấn luyện. Điều đó có nghĩa là các đặc trưng được xây
dựng từ cách tiếp cận đề xuất cung cấp sự hỗ trợ tốt nhất cho việc phân lớp.
Bảng 4.3. Kết quả các kịch bản thực nghiệm
Các phương
pháp
Học cô lập
LDA
Học suốt đời
AMC[2]
Học suốt đời
Phương pháp đề xuất
NoT TDS P
%
R
%
F1
%
P
%
R
%
F1
%
P
%
R
%
F1
%
10
𝐷4𝑎 63.26 50.38 56.09 65.19 52.42 58.11 62.94 54.72 58.54
𝐷4𝑏 70.68 55.24 62.01 74.68 58.52 65.62 75.32 59.03 66.19
𝐷4𝑐 80.72 67.43 73.48 82.5 67.18 74.05 83.07 67.43 74.44
𝐷4𝑑 82.42 68.96 75.09 84.38 68.7 75.74 85.05 69.47 76.47
𝐷4𝑒 82.31 71.5 76.53 83.58 71.25 76.92 83.28 72.99 77.8
15
𝐷4𝑎 62.94 50.13 55.81 63.14 52.72 57.46 62.18 53.64 57.59
𝐷4𝑏 71.13 54.76 61.88 73.7 57.76 64.76 73.7 58.36 65.14
𝐷4𝑐 84.01 68.19 75.28 84.01 68.19 75.28 84.01 69.19 75.89
𝐷4𝑑 84.47 69.21 76.08 84.74 69.21 76.19 84.74 69.21 76.19
𝐷4𝑒 82.26 72.11 76.58 83.58 71.25 76.92 84.52 72.26 77.91
20
𝐷4𝑎 62.94 50.13 55.81 63.14 51.27 56.59 62.5 52.62 57.14
𝐷4𝑏 72.7 55.76 63.11 73.7 57.76 64.76 74.03 58.02 65.05
𝐷4𝑐 84.01 68.19 75.28 84.01 68.19 75.28 84.01 68.19 75.28
𝐷4𝑑 84.47 69.21 76.08 84.74 69.21 76.19 84.78 69.47 76.36
𝐷4𝑒 84.23 72.01 77.64 83.58 73.68 78.32 84.82 73.52 78.77
𝐷4𝑎 61.18 49.17 54.53 63.14 50.13 55.89 62.5 51.62 56.54
𝐷4𝑏 72.43 54.7 62.33 73.7 57.76 64.76 73.38 57.51 64.48
30
25 𝐷4𝑐 83.93 67.12 74.59 84.01 68.19 75.28 84.01 68.19 75.28
𝐷4𝑑 84.35 69.42 76.16 84.74 69.21 76.19 84.78 69.47 76.36
𝐷4𝑒 83.93 71.52 77.23 83.58 71.25 76.92 84.82 72.52 78.19
(NoT: số lượng chủ đề, TDS: tập dữ liệu huấn luyện, P: precision, R: recall)
Mặt khác, mô hình đề xuất mang lại kết quả tốt nhất là 78.77% khi thực nghiệm
trong trường hợp số chủ đề là 20. Khi số lượng chủ đề là 25, hiệu suất của hệ thống theo
ba cách tiếp cận (tương ứng với ba kịch bản thực nghiệm) dường như đều giảm. Tình
huống này có thể được giải thích rằng với số lượng chủ đề lớn gây ra những tác động
tới mối quan hệ giữa các chủ đề và độ gần giữa hai miền, hoặc có thể do chính tập dữ
liệu của các mô hình.
Tóm tắt chương
Chương 4 đã trình bày các kịch bản thực nghiệm trong khoá luận và đánh giá, so sánh
hiệu suất của phương pháp đề xuất với các phương pháp LDA, AMC[2]. Kết quả cho
thấy phương pháp đề xuất mang lại kết quả tốt hơn so với các phương pháp được so
sánh.
31
KẾT LUẬN
Kết luận
Trong khóa luận này tôi đã đưa ra những kiến thức tổng quan về học máy suốt
đời và phân lớp đa nhãn, đồng thời trình bày các công nghệ, cơ sở lí thuyết được sử dụng
trong bài toán như: mô hình chủ đề suốt đời, mô hình chủ đề ẩn LDA, mô hình chủ đề
suốt đời AMC, phương pháp phân lớp đa nhãn bán giám sát MULTICS. Cuối cùng là
giới thiệu một phương pháp mô hình hóa chủ đề suốt đời, ứng dụng vào phân lớp đa
nhãn văn bản tiếng Việt. Phương pháp đề xuất gồm hai pha chính: mô hình hóa chủ đề
suốt đời dựa trên phương pháp AMC và phân lớp đa nhãn dựa trên phương pháp
MULTICS. Chúng tôi khai thác ảnh hưởng của các miền gần trong mô hình chủ đề suốt
đời và sử dụng chủ đề suốt đời để biểu diễn các đặc trưng trong phân lớp văn bản. Các
thực nghiệm cho thấy rằng, phương pháp đề xuất mang lại một kết quả tốt hơn so với
các phương pháp được so sánh là LDA, AMC [2].
Các công việc trong tương lai
Trong tương lai, chúng tôi sẽ tiến hành các thực nghiệm trên các miền dữ liệu
khác, cùng với những tùy chỉnh về số chủ đề, ngưỡng 𝜃, kích thước các tập dữ liệu 𝐷𝑁+1
(có thể nhỏ hơn kích thước 100) nhằm khai thác các ảnh hưởng của các thông số này
trong thuật toán đề xuất và đánh giá mô hình.
32
TÀI LIỆU THAM KHẢO
[1] Zhiyan Chen and Bing Liu, “Lifelong Machine Learning”, Synthesis Lectures on
Artificial Intelligence and Machine Learning, Morgan & Claypool Publishers, 2006,
Vol. 10, pp. 1- 11
[2] Zhiyan Chen and Bing Liu, “Mining Topics in documents: standing on the shoulders
of big data”, In KDD 2014, pp. 1116-1125
[3] Richard J. Haier and Loyd G. Humphreys, “Intelligence A Multidisciplinary
Journal", Vol. 3, 1979, pp. 105-120
[4] Thi-Ngan Pham, Van-Quang Nguyen, Van-Hien Tran, Tri-Thanh Nguyen, and
Quang-Thuy Ha, “A semi-supervised multi-label classification framework with feature
reduction and enrichment”, Journal of Information anf Telecommunication, 2017, pp.
[5] Thi-Ngan Pham, Van-Quang Nguyen, Duc-Trong Dinh, Tri-Thanh Nguyen, and
Quang-Thuy Ha, “MASS: a Semi-supervised Multi-label Classification Algorithm With
specific Feature”, Studies in Computational Intelligence, Vol 170 (ACIIDS 2017), pp.
37-47, 2017
[6] Sebastian Thrun and Tom M. Mitchell, “Lifelong robot learning”, Robotics and
Autonomous Systems, 1995, pp. 25-46
[7] Sebastian Thrun, “Explanation-Based Neural Network Learning: A Lifelong
Learning Approach”, Springer US, 1996
[8] David M. Blei, Andrew Y. Ng and Michael I. Jordan, “Latent Dirichlet Allocation”,
Journal of Machine Learning Research, 2003, P. 994 - 997
[9] T. Hofmann, “Probabilistic Latent Semantic Analysis”, Uncertainly in Artificial
Intelligence (UAI), 1999
[10] Grigorios Tsoumakas and Ioannis Katakis, “Multi-Label Classification: An
Overview”, Dept. of Informatics, Aristotle University of Thessaloniki, pp. 1-2
[11] M.-L. Z. S.-J. H. a. Y.-F. L. Zhi-Hua Zhou, “Multi-Instance Multi-Label Learning
with Application to Scene Classification”, National Key Laboratory for Novel Software
Technology, pp. 2291-2320, 2012.
[12] Eva Gibaja and Sebastián Ventura, “A Tutorial on Multi-Label Learning”, ACM
Computing Surveys (CSUR), vol. 3, p. 52, 2015.
33
[13] Nguyen Van Quang, “An algorithm adaptation multi-label classification method
and expriments on Vietnamese text”, Graduation Thesis, University of Engineering and
Technology - VNUH, 2017, pp. 13-14 .
[14] Geli Fei, Shuai Wang, and Bing Liu, “Learning Cumulatively to Become More
Knowledgeable”, In KDD, 2016.
[15] Lei Shu, Hu Xu, and Bing Liu, “Lifelong Learning CRF for Supervised Aspect
Extraction”, Proceedings of Annual Meeting of the Association for Computational
Linguistics, 2017
[16] Lei Shu, Hu Xu, and Bing Liu, “DOC: Deep Open Classification of Text
Documents”, Proceedings of 2017 Conference on Empirical Methods in Natural
Language Processing, 2017
[17] J. K. Pritchard, M. Stephens and P. Donnelly, “Inference of population structure
using multilocus genotype data”, Vol. 155
[18] D. Andrzejewski, X. Zhu và M. Craven, “Incorporating domain knowledge into
topic modeling via Dirichlet Forest priors”, ICML, pp.25-32, 2009
[19] Z. Chen, A. Mukherjee, B.Liu, M.Hsu, M.Castellanos and R. Ghosh, “Exploiting
Domain Knowledge in Aspect Extraction”, EMNLP, pp.1655-1667, 2013
[20] Z. Chen and B. Liu, “Topic Modeling using Topics from Many Domains, Lifelong
Learning and Big Data”, ICML, 2014
[21] B. Liu, W. Hsu và Y. Ma, “Mining association rules with multiple minimum
supports”, KDD, pp. 337-341, 1999
[22] Gauthier Doquire and Michel Verleysen, “Feature Selection with Mutual
Information for Uncertain Data”, 2011
[23]