mÔ hÌnh hÓa chỦ ĐỀ suỐt ĐỜi vÀ Ứng dỤng vÀo phÂn … · 2020. 10. 20. ·...

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trần Thị Minh Tươi

MÔ HÌNH HÓA CHỦ ĐỀ SUỐT ĐỜI VÀ

ỨNG DỤNG VÀO PHÂN LỚP ĐA NHÃN VĂN BẢN

TIẾNG VIỆT

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Hệ thống thông tin

HÀ NỘI - 2018

HÀ NỘI - 2018

http://test.uet.vnu.vn/

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ


MÔ HÌNH HÓA CHỦ ĐỀ SUỐT ĐỜI VÀ

ỨNG DỤNG VÀO PHÂN LỚP ĐA NHÃN VĂN BẢN

TIẾNG VIỆT

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Hệ thống thông tin

Cán bộ hướng dẫn: PGS. TS. Hà Quang Thụy

Cán bộ đồng hướng dẫn: TS. Phạm Thị Ngân

HÀ NỘI - 2018

i

LỜI CAM ĐOAN

Tôi xin cam đoan các kết quả được trình bày trong khóa luận này do tôi thực hiện dưới

sự hướng dẫn của PGS. TS. Hà Quang Thụy và TS. Phạm Thị Ngân.

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách

rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có việc

sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham

khảo.

Hà Nội, ngày 26 tháng 04 năm 2018

Người cam đoan


ii

LỜI CẢM ƠN

Đầu tiên, tôi xin được gửi lời cảm ơn sâu sắc nhất đến PGS. TS. Hà Quang Thụy

và TS. Phạm Thị Ngân, những người đã trực tiếp tận tình chỉ bảo và hướng dẫn tôi từ

những ngày đầu tiên bước chân vào lĩnh vực nghiên cứu này. Thầy, Cô luôn là động lực

và nguồn cảm hứng lớn lao giúp tôi giữ lửa đam mê và nỗ lực không ngừng trong suốt

quá trình học tập và tham gia nghiên cứu tại trường Đại học Công nghệ - Đại học Quốc

gia Hà Nội.

Tôi xin gửi lời cảm ơn đến các quý Thầy, Cô giáo thuộc trường Đại học Công

nghệ - Đại học Quốc gia Hà Nội nói chung, và khoa Công nghệ thông tin nói riêng, đã

truyền đạt nhiều kiến thức quý báu và tạo điều kiện học tập thuận lợi cho tôi trong suốt

bốn năm đại học.

Tôi cũng xin gửi lời cảm ơn chân thành đến các thầy cô giáo, các anh chị, các

bạn và các em sinh viên thuộc phòng thí nghiệm Khoa học dữ liệu và Công nghệ tri

thức, khoa Công nghệ thông tin, trường Đại học Công nghệ - Đại học Quốc gia Hà Nội,

đặc biệt là các thành viên thuộc nhóm nghiên cứu đã hỗ trợ tôi rất nhiệt tình về cả kiến

thức chuyên môn, vật chất và tinh thần để tôi có thể hoàn thành tốt khóa luận này.

Cuối cùng, tôi gửi lời cảm ơn sâu sắc tới gia đình và bạn bè của tôi, những người luôn

đồng hành, ủng hộ và động viên tôi để tôi có thể vượt qua nhiều thử thách và khó khăn

trong cuộc sống.

Tôi xin chân thành cảm ơn!

Hà Nội, ngày 26 tháng 04 năm 2018

Sinh viên


iii

TÓM TẮT

Tóm tắt: Học máy suốt đời đang nổi lên trong những năm gần đây nhờ vào khả năng sử dụng

tri thức học được trong quá khứ cho việc học hiện tại, giải quyết được một số vấn đề của các

mô hình học máy cô lập như: đòi hỏi một lượng lớn các ví dụ học, chỉ phù hợp với các nhiệm

vụ hẹp và xác định…

Mục đích chính của khóa luận này là nghiên cứu giải thuật mô hình hóa chủ đề suốt đời

AMC (Z. Chen và B. Liu, 2014), qua đó đề xuất một phương pháp mô hình hóa chủ đề suốt đời

học thiên mức miền và sử dụng mô hình chủ đề suốt đời vào bài toán phân lớp đa nhãn văn bản

tiếng Việt.

Phương pháp đề xuất bao gồm hai pha chính: (1) mô hình hóa chủ đề suốt đời và (2)

phân lớp đa nhãn. Tại pha thứ nhất, ý tưởng cơ bản là chỉ sử dụng các miền gần trong việc sinh

mô hình chủ đề. Các miền gần được xác định thông qua một độ tương tự giữa hai chủ đề. Tại

pha thứ hai, một giải thuật phân lớp đa nhãn bán giám sát được sử dụng để đánh giá đóng góp

của mô hình chủ đề đề xuất trong phân lớp đa nhãn. Mô hình chủ đề sinh từ pha (1) được dùng

để biểu diễn đặc trưng trong phân lớp đa nhãn.

Một vài thực nghiệm được thực hiện trên miền dữ liệu tiếng Việt và một giải thuật phân

lớp đa nhãn MULTICS (Pham và cộng sự, 2017). Dữ liệu thực nghiệm được chia thành các tập

có kích thước từ nhỏ tới lớn nhằm khai thác sự ảnh hưởng của mô hình đề xuất lên một tập dữ

liệu nhỏ - vấn đề có ý nghĩa quan trọng trong học suốt đời. Các kịch bản thực nghiệm so sánh

hiệu suất của phương pháp đề xuất với các phương pháp mô hình chủ đề khác như LDA, AMC.

Kết quả thực nghiệm cho thấy phương pháp đề xuất tốt hơn phương pháp LDA và AMC trong

mọi trường hợp.

Từ khóa: học máy suốt đời, chủ đề suốt đời, miền gần, chủ đề gần, học thiên mức miền, độ đo

tương tự của hai túi từ, phân lớp đa nhãn

iv

MỤC LỤC

LỜI CAM ĐOAN .................................................................................................... i

LỜI CẢM ƠN ......................................................................................................... ii

TÓM TẮT .............................................................................................................. iii

MỤC LỤC ............................................................................................................... iv

DANH SÁCH THUẬT NGỮ ................................................................................ vii

DANH SÁCH HÌNH VẼ ....................................................................................... viii

DANH SÁCH BẢNG .............................................................................................. ix

MỞ ĐẦU .................................................................................................................. 1

CHƯƠNG 1. TỔNG QUAN VỀ HỌC MÁY SUỐT ĐỜI, PHÂN LỚP ĐA

NHÃN VÀ SƠ BỘ BÀI TOÁN ĐỀ XUẤT ........................................................... 3

1.1. Học máy suốt đời ....................................................................................... 3

1.1.1. Định nghĩa LML .................................................................................. 3

1.1.2. Mô hình học máy suốt đời.................................................................... 4

1.2. Phân lớp đa nhãn ........................................................................................ 5

1.3. Sơ bộ bài toán trong khóa luận .................................................................. 6

CHƯƠNG 2. CÁC PHƯƠNG PHÁP LDA, AMC, MULTICS .......................... 8

2.1. Mô hình chủ đề suốt đời ............................................................................ 8

2.1.1. Mô hình chủ đề ..................................................................................... 8

2.1.2. Mô hình chủ đề suốt đời ....................................................................... 9

2.1.3. Must-Links và Cannot-Links ............................................................... 9

2.2. Mô hình chủ đề ẩn LDA .......................................................................... 10

2.3. Mô hình chủ đề suốt đời AMC ................................................................ 11

2.3.1. Tổng quan về AMC ............................................................................ 11

2.3.2. Mô hình AMC .................................................................................... 14

v

2.4. Thuật toán phân lớp đa nhãn bán giám sát MULTICS ............................ 15

2.4.1. Phân lớp đa nhãn bán giám sát ........................................................... 15

2.4.2. Thuật toán phân lớp đa nhãn bán giám sát MULTICS ...................... 15

2.5. TF-IDF ..................................................................................................... 18

2.5.1. TF (term-frequency) ........................................................................... 19

2.5.2. IDF (inverse document frequency) .................................................... 19

Tóm tắt chương ................................................................................................... 19

CHƯƠNG 3. PHƯƠNG PHÁP ĐỀ XUẤT ....................................................... 20

3.1. Xây dựng bài toán .................................................................................... 20

3.2. Xác định miền gần ................................................................................... 20

3.2.1. Độ đo tương tự của hai túi từ ............................................................. 20

3.2.2. Chủ đề gần .......................................................................................... 21

3.2.3. Xác định miền gần ............................................................................. 21

3.3. Phương pháp mô hình hóa chủ đề suốt đời đề xuất ................................. 22

3.4. Phân lớp đa nhãn văn bản tiếng Việt áp dụng chủ đề suốt đời ................ 23

Tóm tắt chương ................................................................................................... 24

CHƯƠNG 4. THỰC NGHIỆM VÀ KẾT QUẢ ................................................. 25

4.1. Tập dữ liệu ............................................................................................... 25

4.2. Các kịch bản thực nghiệm và đánh giá .................................................... 26

4.3. Kết quả thực nghiệm và đánh giá ............................................................ 27

4.1.1. Đánh giá chất lượng chủ đề của mô hình đề xuất với chủ đề của các

mô hình LDA, AMC ........................................................................................ 28

4.1.2. Đánh giá hiệu suất phân lớp đa nhãn sử dụng mô hình chủ đề đề

xuất với các mô hình chủ đề LDA, AMC ........................................................ 28

Tóm tắt chương ................................................................................................... 30

KẾT LUẬN ........................................................................................................... 31

Kết luận ............................................................................................................... 31

vi

Các công việc trong tương lai ............................................................................. 31

TÀI LIỆU THAM KHẢO .................................................................................... 32

vii

DANH SÁCH THUẬT NGỮ

Từ hoặc cụm từ Từ viết tắt

Knowledge Base (Hệ cơ sở tri thức) KB

Trí tuệ nhân tạo AI

Học máy suốt đời LML

Term Frequency - Inverse Document Frequency TF-IDF

viii

DANH SÁCH HÌNH VẼ

Hình 1.1. Mô hình học máy suốt đời…………………………………………………….4

Hình 1.2. Mô hình tổng quan bài toán…………………………………………………..6

Hình 2.1. Mô hình AMC………………………………………………………………14

Hình 2.2. Khung phân lớp đa nhãn bán giám sát với việc giảm và làm giàu đặc trưng…16

Hình 3.1. Mô hình chủ đề suốt đời đề xuất……………………………………………..22

Hình 3.2. Mô hình phân lớp đa nhãn văn bản tiếng Việt sử dụng chủ đề suốt đời……...24

ix

DANH SÁCH BẢNG

Bảng 4.1. Các tập dữ liệu thực nghiệm ......................................................................... 25

Bảng 4.2. Số liệu kiểm tra miền gần ............................................................................. 28

Bảng 4.3. Kết quả các kịch bản thực nghiệm ................................................................ 29

1

MỞ ĐẦU

Hiện nay, khoa học công nghệ đang có những bước phát triển mạnh mẽ với nhiều

thành tựu vượt bậc trong lĩnh vực trí thông minh nhân tạo, sự phát triển đó đồng nghĩa

với việc đòi hỏi một nền tảng tri thức ngày càng thông minh hơn, do đó khả năng học

tựa như con người càng trở nên quan trọng. Học máy suốt đời chính là một giải pháp

cho vấn đề đó.

Theo Z.Chen và B.Liu [1], học máy suốt đời là một mô hình học máy tiên tiến,

học liên tục, tích lũy tri thức học được trong quá khứ và sử dụng chúng cho việc học

trong tương lai. Trong quá trình này, máy học ngày càng trở nên hiệu quả và hiểu biết

hơn. Khả năng học tập này chính là một trong những điểm nổi bật của trí tuệ con người.

Trong chương “The construct of general intelligence” của [2], Loyd Humphreys chỉ ra

rằng trí thông minh là kết quả của quá trình tiếp thu, lưu trữ, trích xuất, kết hợp, so sánh

và sử dụng trong bối cảnh thông tin và kĩ năng tư duy mới. Như vậy, học máy suốt đời

có thể mang lại trí thông minh thực sự cho hệ thống. Hiện nay, học máy suốt đời đã

được ứng dụng trong một số lĩnh vực trí thông minh nhân tạo và xử lí ngôn ngữ tự nhiên

như chatbot, trợ lí thông minh, robot vật lý…

Mặc dù đã mang lại những đột phá nhất định trong khoa học công nghệ, nhưng

ứng dụng của học máy suốt đời trong khai phá văn bản tiếng Việt vẫn là một bài toán

khá mới. Đặc biệt, trong một số hoạt động kinh doanh, việc khai phá các đánh giá của

người dùng là một công việc quan trọng trong quá trình cải tiến, phát triển của doanh

nghiệp.

Trong khóa luận này, tôi đề xuất một phương pháp mô hình hóa chủ đề suốt đời

học thiên mức miền và ứng dụng vào phân lớp đa nhãn văn bản tiếng Việt trên miền dữ

liệu khách sạn.

Mô hình hóa chủ đề suốt đời là một phương pháp học không giám sát suốt đời.

KB là nơi lưu trữ các mô hình chủ đề học được từ các nhiệm vụ trong quá khứ. Khi học

một nhiệm vụ mới, các tri thức “phù hợp” trong KB được trích xuất để giúp mô hình

hóa chủ đề của tập dữ liệu hiện tại, mô hình chủ đề kết quả được lưu vào KB phục vụ

cho các nhiệm vụ học trong tương lai. Tri thức “phù hợp” được nêu trong bài toán là tri

thức của các miền gần với miền hiện tại.

Một phương pháp phân lớp đa nhãn bán giám sát cho văn bản tiếng Việt

MULTICS [4] được sử dụng trong bài toán để đánh giá hiệu quả của phương pháp đề

xuất. Tuy nhiên MULTICS[4] sử dụng mô hình chủ đề ẩn cô lập để biểu diễn các đặc

2

trưng phân lớp, khóa luận đề xuất sử dụng mô hình chủ đề suốt đời thay thế cho mô hình

chủ đề cô lập trong phân lớp đa nhãn.

Nội dung khóa luận bao gồm các phần:

Chương 1: Trình bày tổng quan về học máy suốt đời và phân lớp đa nhãn và sơ

lược bài toán đề xuất trong khóa luận.

Chương 2: Trình bày những nội dung cơ bản và trọng tâm nhất về các lý thuyết

và công nghệ được sử dụng trong bài toán như: mô hình chủ đề suốt đời, mô hình chủ

đề ẩn LDA, mô hình chủ đề suốt đời AMC, thuật toán phân lớp đa nhãn MULTICS.

Chương 3: Trình bày chi tiết về phương pháp đề xuất

Chương 4: Trình bày về quá trình thực nghiệm, kết quả thực nghiệm và đánh giá

phương pháp đề xuất.

Phần kết luận: Tóm lược các vấn đề đã giải quyết trong khóa luận và định hướng

phát triển trong tương lai.

3

CHƯƠNG 1. TỔNG QUAN VỀ HỌC MÁY SUỐT ĐỜI, PHÂN

LỚP ĐA NHÃN VÀ SƠ BỘ BÀI TOÁN ĐỀ XUẤT

1.1. Học máy suốt đời

Học máy suốt đời được đề xuất vào năm 1996 bởi S. Thrun và T. M. Mitchell [6,

7] và nổi lên trong những năm gần đây nhờ vào khả năng sử dụng tri thức học được

trong quá khứ cho việc học trong tương lai. Có thể thấy quá trình học này mô phỏng

cách học của con người, giải quyết được một số vấn đề hạn chế mà học máy cô lập mang

lại như: đòi hỏi một lượng lớn các ví dụ học, chỉ phù hợp với các nhiệm vụ hẹp và xác

định. Theo Z.Chen và B.Liu [1], học máy suốt đời có ba đặc điểm chính: (i) là một quá

trình học liên tục, (ii) tích lũy và duy trì tri thức đã học, (iii) sử dụng tri thức đã học

trong quá khứ cho việc học trong tương lai.

Như vậy quá trình học suốt đời là một chuỗi các nhiệm vụ có thể không bao giờ

kết thúc, trong quá trình đó bộ học (learner) trở nên thông minh hơn và học ngày một

tốt hơn. Nghiên cứu về học suốt đời có thể mang lại những tiến bộ lớn đối với sự phát

triển của trí thông minh nhân tạo.

1.1.1. Định nghĩa LML

Một định nghĩa học suốt đời được đưa ra bởi Fei và cộng sự [14], Shu và cộng

sự [15, 16] như sau:

Học suốt đời là một quá trình học liên tục. Vào một thời điểm bất kì, bộ học biểu

diễn một chuỗi N nhiệm vụ học 𝑇1, 𝑇2, … , 𝑇𝑁. Các nhiệm vụ đó được gọi là nhiệm vụ

quá khứ với các tập dữ liệu tương ứng là 𝐷1, 𝐷2, … , 𝐷𝑁. Các tri thức học được từ các

nhiệm vụ quá khứ được gọi là tri thức quá khứ, được lưu trữ trong KB.

Khi có một nhiệm vụ thứ (N+1) 𝑇𝑁+1 (được gọi là nhiệm vụ mới hay nhiệm vụ

hiện tại) với tập dữ liệu tương ứng 𝐷𝑁+1, bộ học có thể sử dụng tri thức quá khứ trong

KB để giúp học 𝑇𝑁+1.

Mục tiêu của LML thường là tối ưu hiệu suất trên 𝑇𝑁+1, nhưng nó có thể tối ưu

trên bất kì nhiệm vụ nào bằng cách coi phần còn lại của các nhiệm vụ như các nhiệm vụ

quá khứ, giả sử LML có thể coi 𝑇𝑁 là nhiệm vụ hiện tại và các nhiệm vụ còn lại:

𝑇1, 𝑇2, … , 𝑇𝑁−1 là các nhiệm vụ quá khứ. Sau khi hoàn thành việc học 𝑇𝑁+1, các tri thức

4

thu được (ví dụ như các kết quả trung gian hay kết quả cuối cùng) được cập nhật và lưu

trữ trong KB.

1.1.2. Mô hình học máy suốt đời

Hình 1.1. Mô hình học máy suốt đời

Mô hình học máy suốt đời được mô tả như Hình 1.1 gồm các thành phần [1]:

(1) KB: là nơi lưu trữ tri thức quá khứ, có thể bao gồm một số thành phần con:

- Nơi lưu trữ thông tin quá khứ (PIS): Lưu trữ thông tin từ quá trình học trước. Tùy

vào nhiệm vụ học hay thuật toán mà PIS có thể bao gồm các kho thông tin con

như: (i) dữ liệu được sử dụng trong nhiệm vụ trước, (ii) kết quả trung gian trong

nhiệm vụ trước, (iii) kết quả cuối cùng từ nhiệm vụ trước.

- Bộ khai phá siêu tri thức (MKM): Thực hiện việc khai phá ở mức cao hơn các tri

thức trong PIS và trong MKS. Kết quả được lưu trong MKS.

- Nơi lưu trữ siêu tri thức (MKS): Nơi lưu trữ các tri thức được củng cố hoặc khai

phá từ PIS và KMS.

- Knowledge Reasoner (KR): Suy luận tri thức trong MKS và PIS để sinh ra nhiều

tri thức hơn.

5

(2) Bộ học dựa trên tri thức (KBL): trong học máy suốt đời học dựa trên tri

thức quá khứ là vấn đề cốt lõi. KBL có thể củng cố tri thức trong KB để học nhiệm vụ

mới. KBL gồm hai thành phần con:

- TKM: khai phá, xác định những tri thức phù hợp với nhiệm vụ hiện tại từ những

thông tin, tri thức thô trong KB.

- Sau khi đã khai phá những tri thức phù hợp với nhiệm vụ học hiện tại, máy học

có thể sử dụng những tri thức đó vào việc học.

(3) Đầu ra: Là kết quả của quá trình học, kết quả có thể là một mô hình dự đoán,

bộ phân lớp trong học có giám sát hay các cụm, chủ đề trong học không giám sát.

(4) Task Manager: Tiếp nhận và quản lí các nhiệm vụ đầu vào của hệ thống, xử

lí sự thay đổi các nhiệm vụ và chuyển nhiệm vụ học mới tới KBL để bắt đầu tiến trình

học.

1.2. Phân lớp đa nhãn

Phân lớp đa nhãn là nhiệm vụ gán từng phần tử đã cho vào một tập các lớp được

xác định trước, trong một miền dữ liệu, ở đó một phần tử có thể thuộc nhiều lớp khác

nhau cùng một lúc [4].

Theo Zhi-Hua Zhou và cộng sự [11], phân lớp đa nhãn được phát biểu như sau:

Cho X 𝜖 ℝ𝑛 biểu thị một không gian phần tử n chiều và Y = {𝑦1, 𝑦2, … , 𝑦𝑞} biểu

thị không gian nhãn gồm q nhãn lớp. Nhiệm vụ của học đa nhãn là học hàm số f: X→ 2𝑌

từ dữ liệu huấn luyện đa nhãn D = {(𝑥𝑖 , 𝑌𝑖|1 ≤ 𝑖 ≤ 𝑚), trong đó với mỗi phần tử (𝑥𝑖 , 𝑌𝑖),

𝑥𝑖 ∈ X là một véc tơ đặc trưng n chiều 𝑥𝑖 = (𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖𝑛) và 𝑌𝑖 ⊆ Y là tập các nhãn

của 𝑥𝑖. Với một phần tử mới x ∈ X, hàm số f(.) trả về f(x) là một tập các nhãn dự đoán

cho x.

Phân lớp đa nhãn ngày càng được chú ý và ứng dụng trong nhiều lĩnh vực như

phân loại văn bản, phân loại web, dự đoán chức năng gen, phân lớp chức năng protein

(Zhang & Zincir-Heywood, 2005), phân lớp âm nhạc (Li & Ogihara, 2003)…

Hiện nay, các phương pháp phân lớp đa nhãn được phân thành hai loại chính là

các phương pháp chuyển đổi vấn đề và các phương pháp thích nghi thuật toán. Trong

pha áp dụng mô hình chủ đề đề xuất vào phân lớp đa nhãn văn bản tiếng Việt, khóa luận

6

sử dụng một phương pháp phân lớp dựa trên thích nghi thuật toán sẽ được trình bày tại

chương kế tiếp.

1.3. Sơ bộ bài toán trong khóa luận

Các tri thức học được trong quá khứ là vô cùng quý giá, được xem như là cơ sở

giúp con người trở nên thông minh hơn, hiểu biết hơn, có cái nhìn chính xác hơn về các

vấn đề xung quanh; trong học máy suốt đời, các tri thức học được từ các nhiệm vụ trong

quá khứ cũng mang ý nghĩa tương tự đối với các bộ học.

Trong khoá luận này, tôi xin đề xuất một phương pháp sử dụng học máy suốt đời:

mô hình hoá chủ đề suốt đời, tận dụng tri thức quá khứ giúp sinh các chủ đề tốt hơn,

nhằm nâng cao hiệu suất mô hình phân lớp đa nhãn văn bản tiếng Việt.

Tuy nhiên, khoá luận không sử dụng tri thức quá khứ từ tất cả các miền để mô

hình hoá chủ đề của nhiệm vụ hiện tại, mà chỉ sử dụng tri thức quá khứ từ các miền gần

với miền hiện tại (miền của nhiệm vụ hiện tại). Phương pháp xác định miền gần sẽ được

giới thiệu trong chương 3.

Bài toán: Mô hình hóa chủ đề suốt đời, ứng dụng vào phân lớp đa nhãn văn bản tiếng

Việt.

Bài toán đề xuất gồm hai pha được mô tả như trong Hình 1.2:

Pha 1. Mô hình hóa chủ đề suốt đời: dựa trên phương pháp AMC [2], tuy nhiên áp

dụng miền gần trong mô hình chủ đề suốt đời.

Pha 2. Phân lớp đa nhãn: áp dụng mô hình chủ đề suốt đời sinh từ pha 1 để biểu diễn

các đặc trưng trong phân lớp đa nhãn MULTICS [3], xem xét ảnh hưởng của chủ đề

suốt đời trong hiệu suất của phân lớp đa nhãn văn bản tiếng Việt.

Hình 1.2. Mô hình tổng quan của bài toán

7

Tóm tắt chương

Chương 1 đã trình bày những kiến thức tổng quan về học máy suốt đời, phân lớp đa

nhãn, đồng thời giới thiệu sơ bộ về bài toán đưa ra trong khóa luận.

Chương tiếp theo sẽ trình bày về cơ sở lý thuyết và các công nghệ đã được áp dụng để

giải quyết bài toán đưa ra trong khóa luận này.

8

CHƯƠNG 2. CÁC PHƯƠNG PHÁP LDA, AMC, MULTICS

2.1. Mô hình chủ đề suốt đời

2.1.1. Mô hình chủ đề

Mô hình hoá chủ đề là công cụ để khai phá văn bản, giúp khám phá cấu trúc ngữ

nghĩa ẩn của một văn bản. Một chủ đề ẩn được biểu diễn bởi một cụm các từ thường

xuyên xuất hiện cùng nhau. Các mô hình chủ đề coi rằng mỗi văn bản là một phân phối

đa thức trên các chủ đề, mỗi chủ đề là một phân phối đa thức trên các từ. Do đó, có hai

loại phân phối đa thức trong mô hình chủ đề là phân phối văn bản – chủ đề và phân phối

chủ đề - từ.

Kể từ khi được đề xuất lần đầu tiên, mô hình chủ đề đã nhận được rất nhiều chú

ý và thu hút sự quan tâm rộng rãi của các nhà nghiên cứu trong nhiều lĩnh vực. Cho đến

nay, bên cạnh việc khai phá văn bản, mô hình chủ đề cũng mang lại nhiều ứng dụng

thành công trong các lĩnh vực thị giác máy tính, tin sinh học, di truyền học quần thể và

mạng xã hội.

Tuy nhiên, mô hình chủ đề là mô hình học không giám sát có xu hướng sinh ra

các chủ đề khó hiểu. Nguyên nhân chính là do các hàm mục tiêu của các mô hình chủ

đề không phải lúc nào cũng phù hợp với đánh giá của con người. Để giải quyết vấn đề

này chúng ta có thể sử dụng các phương pháp sau [1]:

(1) Tạo ra các chủ đề tốt hơn: Phương pháp này khả thi khi có một lượng lớn các

văn bản, vì mô hình hoá chủ đề là phương pháp học không giám sát và số lượng văn bản

nhỏ sẽ không đủ để cung cấp số liệu thống kê tin cậy cho mô hình.

(2) Yêu cầu người dùng cung cấp tri thức miền quá khứ: Phương pháp này yêu

cầu người dùng hoặc một chuyên gia miền cung cấp một số tri thức miền quá khứ. Tri

thức có thể ở dạng must-links hay cannot-links. Tuy nhiên trong thực tế, việc yêu cầu

người dùng cung cấp tri thức quá khứ là một vấn đề không đơn giản, bởi người dùng có

thể không biết tri thức nào để cung cấp hoặc không phải tất cả tri thức do người dùng

cung cấp đề đúng, đồng thời nó làm cho phương pháp này không được tự động.

(3) Sử dụng mô hình chủ đề suốt đời: Phương pháp này sử dụng LML trong

mô hình hoá chủ đề. Thay vì yêu cầu người dùng cung cấp tri thức, tri thức quá khứ

được học và tích lũy một cách tự động trong quá trình mô hình hóa chủ đề của các nhiệm

vụ quá khứ. Đây cũng là phương pháp được sử dụng trong khoá luận.

9

2.1.2. Mô hình chủ đề suốt đời

Một số mô hình chủ đề cô lập như LDA[8], pLSA[9] được sử dụng rộng rãi trong

việc trích xuất chủ đề từ các văn bản. Tuy nhiên, các mô hình này có một số hạn chế của

học không giám sát được trình bày ở phần trước, trong đó có yêu cầu một lượng lớn dữ

liệu để cung cấp các số liệu thống kê tin cậy. Trong thực tế, có rất ít tập dữ liệu lớn. Do

đó, đòi hỏi một phương pháp mô hình hóa chủ đề có thể hoạt động tốt hơn, thậm chí trên

các tập dữ liệu nhỏ - phương pháp mô hình hóa chủ đề suốt đời.

Ý tưởng của mô hình hóa chủ đề suốt đời là trích xuất tri thức từ các chủ đề kết

quả của các miền dữ liệu hoặc nhiệm vụ quá khứ, sử dụng cho quá trình mô hình hóa

chủ đề của miền dữ liệu hoặc nhiệm vụ hiện tại. Mô hình hóa chủ đề suốt đời bao gồm

các bước chính:

Bước 1. Cho N tập dữ liệu D = {𝐷𝑖|i=1, 2, …, N} từ N miền, chạy một mô hình

chủ đề cô lập (ví dụ: LDA) trên mỗi tập 𝐷𝑖 thuộc D sinh ra tập các chủ đề tương ứng

𝑇𝑜𝑝𝑖𝑐𝑠𝑖 . Các chủ đề này được gọi là các p-chủ đề (chủ đề quá khứ).

Bước 2. Một KB gồm tập các tri thức quá khứ được khai phá từ tất cả các p-chủ

đề trong S=∪𝑖 𝑆𝑖.

Bước 3. Tri thức quá khứ trong KB được sử dụng để giúp sinh chủ đề cho tập dữ

liệu hiện tại. Các chủ đề kết quả tiếp tục được khai phá và tích hợp trong KB để sử dụng

cho các nhiệm vụ mô hình hoá chủ đề tiếp theo trong tương lai.

2.1.3. Must-Links và Cannot-Links

Must-links và cannot-links là hai dạng tri thức trong mô hình chủ đề suốt đời.

Must-links và cannot-links được sinh ra từ các mô hình chủ đề quá khứ, lưu trữ trong

KB và sử dụng trong mô hình chủ đề mới, giúp sinh ra các chủ đề chặt chẽ hơn. Một

must-link có nghĩa là hai từ nên thuộc cùng một chủ đề, ví dụ “giá” và “đắt”. Một cannot-

link có nghĩa là hai từ không nên thuộc cùng một chủ đề, ví dụ “máy_tính” và “mưa”.

Cho một ví dụ các đánh giá thuộc ba miền. Một mô hình chủ đề cô lập được sử

dụng để sinh các tập chủ đề ở mỗi miền. Mỗi miền có một chủ đề giả sử là dịch vụ. Dưới

đây là top bốn từ có xác suất cao nhất trong chủ đề dịch vụ của từng miền:

- Miền 1: lễ_tân, xa, ngon, nhân_viên

- Miền 2: nhân_viên, chu_đáo, lễ_tân, phong_phú

- Miền 3: nhân_viên, cũ, chu_đáo, thân_thiện

10

Nếu chúng ta chú ý tới những từ xuất hiện cùng nhau ở ít nhất hai miền, ta sẽ tìm

thấy các tập:

{lễ_tân, nhân_viên}, {nhân_viên, chu_đáo}.

Các từ trong mỗi tập trên dường như thuộc cùng một chủ đề, khi đó các tập trên

được gọi là must-links. Vì vậy, must-links là một tập các từ có liên hệ nhau về mặt ngữ

nghĩa, thường xuyên xuất hiện cùng nhau trong một chủ đề, đồng thời ta cũng có thể

thấy cannot-links là một khái niệm ngược lại chỉ tập các từ không có liên hệ về mặt ngữ

nghĩa, ví dụ máy tính và mưa.

2.2. Mô hình chủ đề ẩn LDA

LDA là mô hình xác suất sinh mẫu của một tập văn bản. Ý tưởng cơ bản là trong

LDA, các văn bản được biểu diễn dưới dạng hỗ hợp ngẫu nhiên các chủ đề ẩn, trong đó

mỗi chủ đề được đặc tả bởi một phân phối từ.

Quá trinh sinh mẫu của LDA cho mỗi văn bản w thuộc tập văn bản D được biểu

diễn như sau [8]:

(1) Chọn N ~ Poisson(𝜉)

(2) Chọn 𝜃 ~ Dir(𝛼)

(3) Với mỗi từ 𝑤𝑛 trong N words:

(a) Chọn một chủ đề 𝑧𝑛 ~ Đa thức(𝜃)

(b) Chọn một từ 𝑤𝑛 từ p(𝑤𝑛|𝑧𝑛, 𝛽), một xác suất đa thức ở trạng thái chủ đề 𝑧𝑛

Trong đó:

- N là độ dài của văn bản

- 𝜃 = (𝜃1, 𝜃2, … , 𝜃𝑘) là xác suất mà một từ được chọn ngẫu nhiên trong w thuộc

chủ đề i, i = {1, 2, …, k}

- Poisson(𝜉) là phân phối Poisson với tham số 𝜉 (𝜉: số thực dương)

- Dir(𝛼) là phân phối Dirichlet ẩn với tham số 𝛼 (𝛼: một véc tơ các số thực dương)

Một số giả thiết đơn giản hóa được thực hiện trong mô hình cơ bản này như sau.

Kích thước k của phân phối Dirichlet (là kích thước của biến chủ đề z) được cho trước

11

và cố định. Các xác suất của từ được tham số hóa bởi một ma trận 𝛽 (k x V) chiều, 𝛽𝑖𝑗

= 𝑝(𝑤𝑗 = 1|𝑧𝑖 = 1).

Một biến Dirichlet k chiều ngẫu nhiên 𝜃 có thể nhận các giá trị trong đơn hình

(k – 1) (một k-véc tơ 𝜃 nằm trong đơn hình (k – 1) nếu 𝜃𝑖 ≥ 0, ∑ 𝜃𝑖 = 1𝑘𝑖=1 ) và có mật

độ xác suất trên đơn hình này như sau:

𝑝(𝜃|𝛼) =Γ(∑ 𝛼𝑖

𝑘𝑖=1 )

∏ Γ(𝛼𝑖)𝑘𝑖=1

𝜃1𝛼1−1

… 𝜃𝑘𝛼𝑘−1

Trong đó tham số 𝛼 là một k-véc tơ với các thành phần 𝛼𝑖 > 0, và Γ(x) là hàm

Gamma.

Cho các tham số 𝛼 và 𝛽, một phân phối chung của một hỗn hợp chủ đề 𝜃, một

tập N chủ đề z và một tập N từ w, ta có:

𝑝(𝜃, 𝑧, 𝑤|𝛼, 𝛽) = 𝑝(𝜃|𝛼) ∏ 𝑝(𝑧𝑛|𝜃)𝑝(𝑤𝑛|𝑧𝑛, 𝛽)

𝑁

𝑛=1

Trong đó, 𝑝(𝑧𝑛|𝜃) là 𝜃𝑖 với i duy nhất mà 𝑧𝑛𝑖 = 1. Tích hợp trên 𝜃 và tổng hợp

trên z, chúng ta thu được phân phối biên của một văn bản như sau:

𝑝(𝑤|𝛼, 𝛽) = ∫ 𝑝(𝜃|𝛼)(∏ ∑ 𝑝(𝑧𝑛|𝜃)𝑝(𝑤𝑛|𝑧𝑛, 𝛽))𝑑𝜃

𝑧𝑛

𝑁

𝑛=1

Cuối cùng, lấy kết quả các xác suất biên của các văn bản đơn lẻ, thu được xác

suất của một tập văn bản:

𝑝(𝐷|𝛼, 𝛽) = ∏ ∫ 𝑝(𝜃𝑑|𝛼)(∏ ∑ 𝑝(𝑧𝑑𝑛|𝜃𝑑)𝑝(𝑤𝑑𝑛|𝑧𝑑𝑛, 𝛽))𝑑𝜃𝑑

𝑧𝑑𝑛

𝑁𝑑

𝑛=1

𝑀

𝑑=1

2.3. Mô hình chủ đề suốt đời AMC

2.3.1. Tổng quan về AMC

AMC là một mô hình chủ đề suốt đời được đề xuất bởi Z.Chen và B.Liu [2].

12

Một số phương pháp mô hình chủ đề như DF-LDA [18], MC-LDA [19] có thể

sử dụng cả hai dạng tri thức must-links và cannot-links để giúp sinh các chủ đề tốt hơn.

Tuy nhiên tri thức must-links và cannot-links được sử dụng trong hai phương pháp trên

được cung cấp bởi người dung, được giả định rằng chúng đều đúng và không có xung

đột, tuy nhiên các giả định này là không chính xác [8]. LTM [20] là một mô hình chủ đề

suốt đời đầu tiên, tuy nhiên LTM mới chỉ xem xét các must-links.

AMC là phương pháp mô hình chủ đề tự động, không có sự can thiệp của con

người, do đó có thể giải quyết được vấn đề tính chính xác của tri thức do người dùng

cung cấp. AMC sử dụng tri thức thu được từ các miền dữ liệu trong quá khứ giúp mô

hình chủ đề trên miền hiện tại, vì vậy thay vì cần sử dụng một tập dữ liệu lớn (hiếm có

trong thực tiễn) như các mô hình chủ đề cô lập, AMC có thể sử dụng các tập dữ liệu nhỏ

(có nhiều trong thực tiễn). AMC xem xét đồng thời hai dạng tri thức must-links, cannot-

links, và khai phá tri thức must-links tốt hơn LTM qua việc giải quyết được một số vấn

đề khó khăn có thể gặp phải trong quá trình sinh tri thức must-links và cannot-links như

đa ngữ nghĩa: một từ có thể có nhiều nghĩa, ví dụ từ đồng có nhiều nghĩa, có thể là ruộng

đồng, đồng tiền, đồng thau…, tri thức không thích hợp: bởi không phải tất cả các must-

links đều đúng với tất cả các miền, ví dụ, một must-link {cao, rẻ} đúng trong miền giá

cả nhưng không đúng trong miền hình dạng…

AMC khai phá tri thức must-links bằng cách sử dụng thuật toán MS-FIM [21] để

tìm các tập mục thường xuyên, trong phạm vi ngữ cảnh bài toán, các tập mục thường

xuyên là các tập gồm hai từ thường xuyên xuất hiện cùng nhau trong các p-chủ đề và

các tập mục này được sử dụng như là các must-links. MS-FIM được phát triển dựa trên

kĩ thuật khai phá tập mục thường xuyên FIM, tuy nhiên nếu như FIM sử dụng một độ

hỗ trợ tối thiểu (minsupp) duy nhất thì MS-FIM sử dụng nhiều minsupp. MS-FIM được

mô tả tổng quát như sau:

Cho một tập các giao dịch T, mỗi giao dịch 𝑡𝑖 ∈ T là một tập mục từ một tập mục

toàn cục I: 𝑡𝑖 ⊆ 𝐼. Trong ngữ cảnh bài toán, 𝑡𝑖 là một véc tơ chủ đề gồm top 𝑀 từ có xác

suất xảy ra nhất của một chủ đề (không đính kèm xác suất). Khi đó, một mục trong giao

13

dịch 𝑡𝑖 là một từ trong véc tơ chủ đề 𝑡𝑖. Do vậy T chính là tập các p-chủ đề trong KB S

và I là tập các từ trong S.

Mỗi mục (từ) được cung cấp một độ hỗ trợ tập mục tối thiểu (MIS). Độ hỗ trợ tối

thiểu (minsupp) mà một tập mục cần thỏa mãn là không cố định, nó phụ thuộc vào giá

trị MIS của tất cả các mục trong một tập mục. MS-FIM cũng có một ràng buộc khác là

ràng buộc SDC – ràng buộc khác nhau về độ hỗ trợ, thể hiện yêu cầu rằng các độ hỗ trợ

của các mục trong một tập mục không được quá khác nhau.

MIS và SDC đã giải quyết được các ngược điểm của thuật toán FIM cổ điển khi

FIM chỉ sử dụng một minuspp duy nhất. Các chủ đề khác nhau có thể có tần suất rất

khác nhau. Với một minsupp duy nhất, khi đặt minsupp quá thấp, sẽ tạo các tập mục

thường xuyên giả mạo (kết quả là các must-links sai) và nếu đặt minsupp quá cao chúng

ta có thể không tìm được bất cứ must-links nào từ các chủ đề có tần suất thấp, do đó có

thể bỏ lỡ nhiều tri thức must-links.

Trong AMC, hai từ 𝑤1, 𝑤2 trong mỗi chủ đề hiện tại tạo thành một cannot-links

nếu thoả mãn hai điều kiện sau[2]:

𝑁𝑑𝑖𝑓𝑓

𝑁𝑑𝑖𝑓𝑓+ 𝑁𝑠ℎ𝑎𝑟𝑒 ≥ 𝜋𝑐

Ndiff ≥ 𝜋𝑑𝑖𝑓𝑓

Trong đó: - Ndiff là số miền quá khứ mà hai từ w1 và w2 thuộc các p-chủ đề khác nhau

- Nshare là số miền quá khứ mà w1 và w2 thuộc cùng một p-chủ đề

- Ndiff/(Nshare + Ndiff) được gọi là độ hỗ trợ

- 𝜋𝑑𝑖𝑓𝑓 và 𝜋𝑐 là hai ngưỡng cho trước.

14

2.3.2. Mô hình AMC

Hình 2.1. Mô hình AMC

Mô hình AMC được biểu diễn như Hình 2.3, và được mô tả chi tiết sau đây:

Pha 1 – Khởi tạo:

Các nhiệm vụ quá khứ 𝑇1, 𝑇2, … , 𝑇𝑛 với các tập dữ liệu tương ứng 𝐷 = {𝐷1, 𝐷2, … , 𝐷𝑛}

của n miền. Áp dụng mô hình LDA cho từng tập 𝐷𝑖 ∈ 𝐷 để sinh tập các p-chủ đề

𝑇𝑜𝑝𝑖𝑐𝑠𝑖 tương ứng. Gọi S = ∪𝑖 𝑆𝑖 là các tập p-chủ đề được sử dụng để mô hình hóa chủ

đề mới. Một tập must-links M được khai phá từ S.

Pha 2 – Học suốt đời với AMC:

Nhiệm vụ hiện tại 𝑇𝑁+1 với tập dữ liệu 𝐷𝑁+1. Pha này sử dụng AMC[2] để sinh tập các

chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 từ 𝐷𝑁+1 được gọi là các c-chủ đề (chủ đề hiện tại). Thuật toán AMC

được mô tả như sau đây, trong đó, N là số vòng lặp lấy mẫu GibbsSampling(.)

(GibbsSampling(.) được giới thiệu trong [2]).

15

AMC (Dt, S, M)

1. 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 ← GibbsSampling(𝐷𝑁+1, M, N, ∅) ; //∅: không có cannot-links

2. for r = 1 to R do

3. C ← C ∪ MineCannotLinks(S, 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1); // khai phá cannot-links

4. 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 ← GibbsSampling(𝐷𝑁+1, M, N, C);

5. end for

6. S ← Incorporate(𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1, 𝑆); // tích hợp chủ đề hiện tại 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 vào KB S

7. M ← MiningMustLinks(S); // khai phá must-links

2.4. Thuật toán phân lớp đa nhãn bán giám sát MULTICS

2.4.1. Phân lớp đa nhãn bán giám sát

Ý tưởng chính của phân lớp đa nhãn bán giám sát là sử dụng cả tập dữ liệu có

nhãn và không nhãn để tìm phân vùng C, xây dựng mô hình phân lớp f mà có thể dự

đoán các nhãn cho các phần tử không nhãn.

Trong [4], mô hình phân lớp đa nhãn bán giám sát được mô tả như sau:

Cho �̅� = �̅�𝐿 ∪ �̅�𝑈, trong đó �̅�𝐿 là tập các phần tử có nhãn, �̅�𝑈 là tập các phần tử

không nhãn. Nhiệm vụ của phân lớp đa nhãn bán giám sát là xây dựng một hàm số phân

lớp f: �̅�𝐿 ∪ �̅�𝑈 → 2𝐿. Mục tiêu xây dựng bộ phân lớp là tìm một phân vùng C từ �̅�, sao

cho C = {𝐶1, 𝐶2, … , 𝐶𝑚}, trong đó, 𝐶𝑖 = {𝑑1(𝑖)

, … , 𝑑𝐶𝑖

(𝑖)} (1≤ 𝑖 ≤ 𝑚), ∪1≤𝑖≤𝑚 𝐶𝑖 = �̅� và

𝐶𝑖 ∩ 𝐶𝑗 = ∅ (1≤ 𝑖 ≠ 𝑗 ≤ 𝑚). Tất cả các phần tử trong cụm 𝐶𝑖 được gán cùng một tập

nhãn không rỗng 𝑙𝐶𝑖 (được gọi là nhãn cụm).

Sau khi thu được phân vùng C, khi có một phần tử không nhãn 𝑑𝑢 ∈ 𝐷𝑈, f sử

dụng giải thuật láng ghiềng gần nhất để tìm cụm gần nhất 𝐶𝑗 = arg𝐶𝑝

𝑚𝑖𝑛 𝑑𝑖𝑠(𝑑𝑢, 𝑐𝑝),

trong đó 𝑐𝑝 là tâm của cụm 𝐶𝑝 và 𝑑𝑖𝑠(𝑑𝑢, 𝑐𝑝) là khoảng cách giữa 𝑑𝑢, 𝑐𝑝 (khoảng cách

từ 𝑑𝑢 tới tâm cụm). Khi đó nhãn cụm của 𝐶𝑝 được gán cho 𝑑𝑢: 𝑙(𝑑𝑢) = 𝑙𝑐𝑗

2.4.2. Thuật toán phân lớp đa nhãn bán giám sát MULTICS

Trong [4] cung cấp một giải thuật phân lớp đa nhãn bán giám sát cho miền dữ

liệu tiếng Việt gồm một số bước làm giàu đặc trưng được thể hiện trong Hình 2.4:

16

(i) một giai đoạn làm giàu đặc trưng bằng cách sử dụng mô hình chủ đề ẩn LDA

để khai thác thông tin ngữ nghĩa của văn bản.

(ii) một giai đoạn trích chọn đặc trưng với MI [22] để giữ lại các đặc trưng có

liên quan nhất và loại bỏ các đặc trưng không liên quan.

(iii) một giai đoạn sử dụng thuật toán phân lớp đa nhãn bán giám sát MULTICS

Hình 2.2. Khung phân lớp đa nhãn bán giám sát với việc giảm và làm giàu đặc

trưng

Thuật toán MULTICS hồm hai pha: (i) pha học: MULTICSLearn(.) và (ii) pha

phân lớp: MULTICSClassifier(.)

Pha học sử dụng thuật toán phân cụm bán giám sát để xác định các thành phần

(các cụm) từ các phần tử có nhãn và không nhãn dựa trên nhãn nổi bật. Pha phân lớp

xác định cụm gần nhất để gán nhãn cho phần tử không nhãn. Thuật toán

MULTICSLearn(.) và MULTICSClassifier(.) được trình bày như sau [4]:

17

𝑪 ← MULTICSLearner(�̅�, 𝑳𝟏, 𝑳𝟐)

Đầu vào:

�̅�: một tập các văn bản có nhãn (�̅�𝐿) và không nhãn (�̅�𝑈)

𝐿1: một tập nhãn ngầm định sẵn có cho mọi phần tử trong �̅�𝐿

𝐿2: một tập nhãn có thể thêm vào cho các phần tử trong �̅�𝐿

Đầu ra:

𝐶: một tập các cụm văn bản đã được gán nhãn

Thủ tục:

1. Gọi 𝜆 là nhãn trong 𝐿2 có tần suất xuất hiện lớn nhất trong �̅�𝐿

2. Tạo một tập nhãn mới 𝐿∗ gồm ba nhãn phụ:

𝜆1 ← 𝐿1 ∪ {𝜆}

𝜆2 ← 𝐿1 ∪ {𝜆} ∪ {𝛽|𝛽 ∈ 𝐿2}

𝜆3 ← 𝐿2\{𝜆}

𝐷′̅̅ ̅ ← 𝐴𝑛𝑛𝑜𝑡𝑎𝑡𝑒(�̅�, { 𝜆1, 𝜆2, 𝜆3}) ; 𝐶∗ ← 𝑇𝐸𝑆𝐶(𝐷′̅̅ ̅, 𝐿∗)

3. Chia �̅� thành ba tập con của các văn bản không nhãn và có nhãn liên quan

đến phân vùng 𝐶∗:

a. 𝐷1̅̅ ̅: tập con của các văn bản không nhãn, và văn bản có nhãn được gán

nhãn 𝜆1

b. 𝐷2̅̅ ̅: tập con của các văn bản không nhãn, và văn bản có nhãn được gán

nhãn 𝜆2

c. 𝐷3̅̅ ̅: tập con của các văn bản không nhãn, và văn bản có nhãn được gán

nhãn 𝜆3

4. Trên 𝐷1̅̅ ̅:

𝐶 ← 𝐶 ∪ 𝑇𝐸𝑆𝐶(𝐷1̅̅ ̅, 𝐿1 ∪ {𝜆})

5. Trên 𝐷2̅̅ ̅:

a. if tất cả phần tử trong 𝐷2̅̅ ̅ có cùng một nhãn 𝐿3 then:

𝐶 ← 𝐶 ∪ 𝑇𝐸𝑆𝐶(𝐷2̅̅ ̅, 𝐿3)

b. else:

// các phần tử trong 𝐷2̅̅ ̅ chưa đồng nhất nhãn

// chuyển 𝜆 từ 𝐿2 sang 𝐿1

𝐶 ← 𝐶 ∪ 𝑀𝐴𝑆𝑆𝐿𝑒𝑎𝑟𝑛(𝐷2̅̅ ̅, 𝐿1 ∪ {𝜆}, 𝐿2{𝜆})

6. Trên 𝐷3̅̅ ̅:

18

a. if tất cả phần tử trong 𝐷3̅̅ ̅ có cùng một nhãn 𝐿4 then:

𝐶 ← 𝐶 ∪ 𝑇𝐸𝑆𝐶(𝐷3̅̅ ̅, 𝐿4)

b. else:

// các phần tử trong 𝐷3̅̅ ̅ chưa đồng nhất nhãn

// xóa 𝜆 khỏi 𝐿2

𝐶 ← 𝑀𝐴𝑆𝑆𝐿𝑒𝑎𝑟𝑛(𝐷3̅̅ ̅, 𝐿1, 𝐿2{𝜆})

7. return 𝐶

𝑳𝑼 ← MULTICSClassifier(C, 𝑫𝑼)

Đầu vào:

C: một tập các cụm văn bản có nhãn C = {𝐶1, 𝐶2, … , 𝐶𝑚}

𝐷𝑈: một tập các văn bản không nhãn

Đầu ra:

𝑳𝑼: một tập các nhãn để gán cho các văn bản không nhãn trong 𝐷𝑈

Thủ tục:

1. for each 𝑑𝑢 ∈ 𝐷𝑈 do:

2. 𝐶𝑡𝑒𝑚𝑝 ← 𝐶0 // 𝐶0 là cụm đầu tiên trong 𝐶

3. 𝑙𝑑𝑢 ← 𝑙𝐶𝑡𝑒𝑚𝑝 // 𝑙𝐶𝑡𝑒𝑚𝑝

là nhãn của cụm 𝐶𝑡𝑒𝑚𝑝

4. for each 𝐶𝑗 𝜖 𝐶 do:

5. 𝐷𝑖𝑠(𝑑𝑢, 𝐶𝑗) ← ‖𝑑𝑢 − 𝐶𝑗‖ //sử dụng khoảng cách Euclidean

6. If 𝐷𝑖𝑠(𝑑𝑢, 𝐶𝑡𝑒𝑚𝑝) > 𝐷𝑖𝑠(𝑑𝑢, 𝐶𝑗) then:

7. 𝐶𝑡𝑒𝑚𝑝 ← 𝐶𝑗

8. end if

9. end for

10. 𝑙𝑑𝑢 ← 𝑙𝐶𝑡𝑒𝑚𝑝

11. Add 𝑙𝐶𝑡𝑒𝑚𝑝 to 𝐿𝑈

12. end for

13. return 𝐿𝑈

2.5. TF-IDF

TF-IDF là một số liệu thống kê phản ánh mức độ quan trọng của từ trong một

văn bản, văn bản đang xét thuộc một tập văn bản. Một trong những phát biểu nổi tiếng

19

nhất của Geogre Kingsley Zipf: Trong văn bản ngôn ngữ con người, từ thứ n phổ biến

nhất xảy ra với một tần số tỉ lệ nghịch với n. Có nghĩa là, luôn có một tập các từ mà tần

số xuất hiện, sử dụng nhiều hơn các từ khác. Vì vậy, cần một phương pháp để cân bằng

mức độ quan trọng giữa các từ - phương pháp TF-IDF.

TF-IDF gồm hai số liệu thống kê: TF và IDF, được tính bằng công thức:

TF-IDF = TF*IDF

Trong khoá luận này, tôi sử dụng TF-IDF để xác định top các từ có xác suất

xuất hiện cao nhất trong một tập văn bản để tính toán một độ đo miền gần.

2.5.1. TF (term-frequency)

TF dùng để ước tính tần suất xuất hiện của một từ t trong một văn bản d:

TF(t, d) = (số lần xuất hiện của t trong d)/(tổng số từ trong d)

Do đó TF chỉ mức độ phổ biến của một từ trong văn bản.

2.5.2. IDF (inverse document frequency)

Các từ quan trọng là những từ chỉ xuất hiện nhiều trong một số văn bản, vì nó

đặc trưng cho văn bản chứa nó, các từ xuất hiện nhiều trong nhiều văn bản thì không

quan trọng, ví dụ như các từ dừng. Do đó, cần giảm giá trị các từ không quan trọng và

tăng giá trị của các từ quan trọng bằng cách sử dụng IDF. Do đó IDF dùng để ước lượng

mức độ quan trọng của một từ t trong văn bản d thuộc tập văn bản D.

IDF(t, D) = 𝑙𝑜𝑔𝑒(tổng số văn bản d trong D/số văn bản d chứa t)

Tóm tắt chương

Chương 2 đã trình bày những nội dung cơ bản và trọng tâm nhất về các lý thuyết

và công nghệ được sử dụng trong bài toán: mô hình hóa chủ đề suốt đời, mô hình chủ

đề ẩn LDA, mô hình chủ đề suốt đời AMC, giải thuật phân lớp đa nhãn bán giám sát

MULTICS.

Chương tiếp theo sẽ tập trung đi vào chi tiết phương pháp đề xuất trong khóa luận.

20

CHƯƠNG 3. PHƯƠNG PHÁP ĐỀ XUẤT

3.1. Xây dựng bài toán

Cho 𝑇1, 𝑇2, … , 𝑇𝑁 là N nhiệm vụ mô hình hoá chủ đề đã được thực hiện trong quá

khứ (gọi là các nhiệm vụ quá khứ) và 𝐷𝑖 , 𝑉𝑖 , 𝑇𝑜𝑝𝑖𝑐𝑠𝑖 lần lượt là tập dữ liệu, từ vựng,

mô hình chủ đề của 𝑇𝑖 với i = 1, 2, .., N. Các 𝑡𝑜𝑝𝑖𝑐𝑠𝑖 được xây dựng bởi mô hình chủ

đề ẩn hoặc mô hình chủ đề suốt đời. Gọi S là một KB, lưu trữ tất cả các thông tin, tri

thức từ N nhiệm vụ quá khứ (S = ∅ khi N = 0).

𝑇𝑁+1 là nhiệm vụ hiện tại (hay nhiệm vụ mới) với các tập dữ liệu 𝐷𝑁+1, từ vựng

𝑉𝑁+1. Bài toán đặt ra là xây dựng một mô hình chủ đề suốt đời 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 dựa trên tri

thức của các miền gần với miền hiện tại từ S. Mô hình chủ đề suốt đời 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 được

sử dụng để xây dựng đặc trưng cho các văn bản trong phân lớp đa nhãn, kết quả phân

lớp dùng để đánh giá ảnh hưởng của phương pháp đề xuất tới hiệu suất của phân lớp đa

nhãn (Hình 1.1).

Phương pháp đề xuất được tiến hành theo các bước:

Bước 1. Xác định các miền gần với miền hiện tại bằng phương pháp xác định

miền gần được giới thiệu trong phần 3.2

Bước 2. Khi có được các miền gần, ta sử dụng tri thức của các miền đó để giúp

mô hình hóa chủ đề cho miền hiện tại

Bước 3. Kết quả mô hình chủ đề của miền hiện tại được sử dụng để xây dựng

đặc trưng trong phân lớp đa nhãn

3.2. Xác định miền gần

3.2.1. Độ đo tương tự của hai túi từ

Cho hai túi từ A = {(𝑤𝑎𝑖 , 𝑝𝑎𝑖)}, B = {(𝑤𝑏𝑖 , 𝑝𝑏𝑖)}, trong đó 𝑤𝑎𝑖 , 𝑤𝑏𝑖 là các từ,

𝑝𝑎𝑖 , 𝑝𝑏𝑖 là trọng số của từ tương ứng, C là tập từ vựng của các từ trong A và B, khi đó

C = {𝑤𝑎𝑖} ∪ {𝑤𝑏𝑖}. Gọi 𝑣𝑎 , 𝑣𝑏 là các véc tơ trọng số của A và B xây dựng dựa trên C.

Độ đo tương tự của A và B, gọi là similarity(A, B), được định nghĩa là độ đo cosine giữa

hai véc tơ 𝑣𝑎, 𝑣𝑏:

Similarity(A, B) = cosine(𝑣𝑎 , 𝑣𝑏), (1)

21

Ví dụ, có hai túi từ A = {(trang_phục, 0.034586), (mũ, 0.024568), (đắt,

0.045683)} và B = {(mũ, 0.012648), (đẹp, 0.021345), (áo, 0.048588)}. Khi đó C =

{trang_phục, mũ, đắt, đẹp, áo}. Véc tơ trọng số của A và B có dạng: 𝑣𝑎 = (0.034586,

0.024568, 0.045683, 0, 0), 𝑣𝑏 = (0, 0.012648, 0, 0.021345, 0.048588). Độ tương tự của

A và B được tính như sau: Similarity(A, B) = cosine(𝑣𝑎 , 𝑣𝑏) = 0.09136.

3.2.2. Chủ đề gần

Cho hai chủ đề A, B từ hai tập chủ đề khác nhau, hai chủ đề A và B được coi là

gần nếu:

Similiaty(𝑇𝑜𝑝𝑀(𝐴), 𝑇𝑜𝑝𝑀(𝐵)) ≥ 𝜃, (2)

Trong đó, 𝑡𝑜𝑝𝑀(𝐴) và 𝑡𝑜𝑝𝑀(𝐵) là tập M từ có xác suất xảy ra cao nhất trong A

và B, 𝜃 là một ngưỡng được chọn trước.

Similiaty(𝑇𝑜𝑝𝑀(𝐴), 𝑇𝑜𝑝𝑀(𝐵)) được gọi là độ đo chủ đề gần. Độ đo chủ đề gần được sử

dụng để xác định các miền gần.

3.2.3. Xác định miền gần

Cho hai tập dữ liệu 𝐷𝑖 , 𝐷𝑗 của các nhiệm vụ 𝑇𝑖 , 𝑇𝑗. 𝑉𝑖 , 𝑉𝑗 và 𝑇𝑜𝑝𝑖𝑐𝑠𝑖 , 𝑇𝑜𝑝𝑖𝑐𝑠𝑗 lần

lượt là hai tập từ vựng và chủ đề tương ứng của 𝐷𝑖 , 𝐷𝑗. Miền của tập 𝐷𝑗 được gọi là gần

với miền của tập 𝐷𝑖 nếu thỏa mãn tất cả các điều kiện sau:

(i) Mức từ vựng:

|𝑉𝑖∩𝑉𝑗|

|𝑉𝑗|+


|𝑉𝑖| ≥ 𝜃1 (3)

Thành phần |𝑉𝑖∩𝑉𝑗|

|𝑉𝑗| (


|𝑉𝑖| ) biểu thị mức độ 𝑉𝑗 (𝑉𝑖) có trong 𝑉𝑖 (𝑉𝑗). Trong thuật

ngữ truy vấn thông tin, mức độ một miền quá khứ 𝑉𝑖 thuộc một miền hiện tại 𝑉𝑗 có ý

nghĩa như độ chính xác, mức độ một miền hiện tại 𝑉𝑗 thuộc miền quá khứ 𝑉𝑖 có ý nghĩa

như độ đo hồi tưởng.

(ii) Mức từ:

Similarity(𝑇𝑜𝑝𝑀(𝑉𝑖), 𝑇𝑜𝑝𝑀(𝑉𝑗)) ≥ 𝜃2 (4)

22

Trong đó, 𝑇𝑜𝑝𝑀(𝑉𝑖), 𝑇𝑜𝑝𝑀(𝑉𝑗) là tập M từ có xác suất cao nhất trong 𝑉𝑖 và 𝑉𝑗,

được xác định bởi phương pháp TF-IDF.

(iii) Mức chủ đề: Số các chủ đề trong 𝑇𝑗 tương tự với chủ đề trong 𝑇𝑖 chia cho số chủ

đề của 𝑇𝑗 lớn hơn hoặc bằng một ngưỡng cho trước:

|{𝑡1∈𝑇𝑜𝑝𝑖𝑐𝑠(𝑇𝑖)}|{{𝑡2∈𝑇𝑜𝑝𝑖𝑐𝑠(𝑇𝑗)}⋀𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦(𝑡2,𝑡1)≥𝜃3|

|𝑇𝑜𝑝𝑖𝑐𝑠(𝑇𝑗)|≥ 𝜃4 (5)

Các giá trị 𝜃1, 𝜃2, 𝜃3, 𝜃4 là các ngưỡng dương cho trước.

Như vậy, 𝐷𝑖, i = 1, 2, …, N, quá trình xác định miền gần giữa 𝐷𝑖 và 𝐷𝑁+1 gồm

ba bước: (i) bước đầu tiên được thực hiện trên mức từ vựng, chuyển sang bước (ii) nếu

điều kiện (3) thỏa mãn, (ii) bước thứ hai được thực hiện trên mức top các từ, chuyển

sang bước (iii) nếu thỏa mãn điều kiện (4), (iii) bước thứ ba được thực hiện trên mức

chủ đề, nếu thỏa mãn điều kiện (5) chứng tỏ miền của 𝐷𝑖 gần với 𝐷𝑁+1, do đó tri thức

học được từ 𝐷𝑖 được sử dụng để học trên 𝐷𝑁+1.

3.3. Phương pháp mô hình hóa chủ đề suốt đời đề xuất

Phương pháp đề xuất được mô tả trong Hình 3.1.

Hình 3.1. Mô hình chủ đề suốt đời đề xuất

Chi tiết mô hình đề xuất được trình bày như sau:

23

Bước 1. Cho N tập dữ liệu 𝐷1, 𝐷2, … , 𝐷𝑁 của N nhiệm vụ mô hình chủ đề đã thực

hiện trong quá khứ 𝑇1, 𝑇2, … , 𝑇𝑁. 𝐷𝑁+1 là tập dữ liệu của nhiệm vụ hiện tại 𝑇𝑁+1.

Bước 2. Áp dụng mô hình LDA cho tập 𝐷𝑁+1, sinh ra tập các chủ đề ẩn.

Nếu S rỗng (trong S chưa có tri thức quá khứ), có nghĩa là 𝑇𝑁+1 là nhiệm vụ đầu tiên,

thêm toàn bộ tập các chủ đề ẩn của 𝑇𝑁+1 vào S.

Nếu S không rỗng (trong S đã có tri thức quá khứ), chuyển sang thực hiện bước 3

Bước 3. Gọi S* là một KB tạm thời chứa tất cả các tri thức của các miền quá khứ

gần với miền hiện tại từ S. Các miền gần là các miền thỏa mãn các điều kiện trong phần

3.2.2.

Bước 4. Bước này áp dụng thuật toán AMC [2] để tinh chỉnh các chủ đề, tuy

nhiên chỉ sử dụng tri thức từ S*.

Bước 5. Các chủ đề kết quả được tích hợp vào S, sử dụng cho các nhiệm vụ mô

hình chủ đề trong tương lai.

Kết quả từ pha này được sử dụng trong pha phân lớp đa nhãn.

3.4. Phân lớp đa nhãn văn bản tiếng Việt áp dụng chủ đề suốt đời

Để tận dụng được các lợi ích của dữ liệu không nhãn, phương pháp đề xuất sử

dụng mô hình phân lớp đa nhãn bán giám sát MULTICS[]. Trong MULTICS[], mô hình

chủ đề ẩn LDA được sử dụng để xây dựng các đặc trưng. Khóa luận này đề xuất sử dụng

mô hình chủ đề suốt đời đề xuất thay vì mô hình chủ đề LDA (Hình 3.2)

24

Hình 3.2. Mô hình phân lớp đa nhãn văn bản tiếng Việt sử dụng chủ đề suốt đời

Các chủ đề 𝑇𝑁+1 (𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1) sử dụng cho pha phân lớp đa nhãn là các chủ đề

thu được từ pha mô hình hóa chủ đề suốt đời. Các chủ đề trên được sử dụng để xây dựng

các đặc trưng cho các văn bản: gọi 𝑝(𝑑, 𝑗) là xác suất mà một văn bản d thuộc chủ đề

𝑗 ∈ 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1, véc tơ (𝑝(𝑑, 1), 𝑝(𝑑, 2), … , 𝑝(𝑑, 𝑘)) (trong đó k là số chủ đề) được gọi

là véc tơ đặc trưng chủ đề ẩn. Các đặc trưng này được sử dụng trong MULTICS để xây

dựng một bộ đặc trưng cho phân lớp.

Để tránh các rò rỉ ngoại lệ trong tương lai, tập dữ liệu kiểm thử 𝐷𝑡𝑒𝑠𝑡 không được

sử dụng để xây dựng tập chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1. Điều này có ý nghĩa vô cùng quan trọng

trong học máy suốt đời, bởi các tập dữ liệu mới (hay tập dữ liệu kiểm thử) nên được

xem như đến từ tương lai.

Tóm tắt chương

Chương 3 đã trình bày chi tiết về bài toán đề xuất trong khóa luận.

Nội dung chương tiếp theo trình bày về kết quả thực nghiệm và đánh giá phương pháp

đề xuất.

25

CHƯƠNG 4. THỰC NGHIỆM VÀ KẾT QUẢ

4.1. Tập dữ liệu

Khóa luận thực nghiệm hiệu suất của phương pháp đề xuất trên bốn tập dữ liệu

về đánh giá của người dùng thuộc bốn miền khác nhau, bao gồm ba tập dữ liệu không

nhãn và một tập dữ liệu có nhãn.

Tập dữ liệu có nhãn được sử dụng làm tập dữ liệu hiện tại trong pha mô hình hóa

chủ đề để sinh tập các chủ đề (không sử dụng nhãn) và pha phân lớp đa nhãn để đánh

giá hiệu suất của phương pháp đề xuất trong phân lớp đa nhãn (sử dụng nhãn). Tập dữ

liệu không nhãn chỉ sử dụng trong pha mô hình hóa chủ đề.

Bảng 4.1. Các tập dữ liệu thực nghiệm

Tập dữ liệu Số đánh giá Miền

𝐷1 26800 Các đánh giá trên miền du lịch

𝐷2 6479 Các đánh giá trên miền bảo tàng

𝐷3 1441 Các đánh giá trên miền điện thoại

𝐷4 1493 Các đánh giá trên miền khách sạn

Bốn tập dữ liệu được mô tả như trong Bảng 4.1. Tập dữ liệu 𝐷1, 𝐷2, 𝐷3 là các tập

dữ liệu không nhãn. Tập dữ liệu 𝐷4 là tập dữ liệu có nhãn, mỗi đánh giá trong 𝐷4 có thể

có một hoặc nhiều nhãn: vị trí và giá cả: bao gồm các đánh giá về sự tiện ích của vị trí

cũng như giá cả của khách sạn, nhân viên: các đánh giá về tính chuyên nghiệp, thái độ

của nhân viên, nhân viên vệ sinh, nhân viên bảo vệ…, đồ ăn: các đánh giá về đồ ăn, đồ

uống tại khách sạn, trang thiết bị : các đánh giá về tiện ích và nội thất của khách sạn,

chất lượng phòng: các đánh giá về chất lượng phòng, chất lượng khách sạn.

Tập 𝐷4 do đó được sử dụng làm tập dữ liệu hiện tại, 𝐷1, 𝐷2, 𝐷3 là tập dữ liệu quá

khứ. Chia 𝐷4 thành hai phần: 𝐷4𝑡𝑒𝑠𝑡 và 𝐷4𝑡𝑟𝑎𝑖𝑛. 𝐷4𝑡𝑒𝑠𝑡 gồm 300 đánh giá được dùng làm

tập dữ liệu kiểm thử cho pha phân lớp; 𝐷4𝑡𝑟𝑎𝑖𝑛 gồm 1000 đánh giá, chia thành năm tập

dữ liệu huấn luyện 𝐷4𝑎 , 𝐷4𝑏 , 𝐷4𝑐 , 𝐷4𝑑 , 𝐷4𝑒 tương ứng với năm tập dữ liệu hiện tại trong

pha mô hình hoá chủ đề, với các kích thước tương ứng là 100, 200, 400, 600, 1000 đánh

giá.

26

4.2. Các kịch bản thực nghiệm và đánh giá

Tiến hành ba kịch bản thực nghiệm với mỗi tập dữ liệu hiện tại 𝐷𝑁+1 trong

{𝐷4𝑎 , 𝐷4𝑏 , 𝐷4𝑐 , 𝐷4𝑑 , 𝐷4𝑒 }:

(i) Kịch bản thực nghiệm 1: Học cô lập: áp dụng mô hình chủ đề LDA trên tập 𝐷𝑁+1

sinh tập chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1

(ii) Kịch bản thực nghiệm 2: Học suốt đời: áp dụng mô hình chủ đề suốt đời AMC [2]

trên mỗi tập 𝐷𝑁+1 sinh tập chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1

(iii) Kịch bản thực nghiệm 3: Học suốt đời: áp dụng mô hình chủ đề suốt đời đề xuất

trong khóa luận trên mỗi tập 𝐷𝑁+1 sinh tập chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1. Các giá trị tham số để

xác định miền gần trong công thức (1) – (5) là: 𝜃 = 0.1, 𝜃1 = 0.8, 𝜃2 = 0.1, 𝜃3 = 0.1, 𝜃4

= 0.2, M = 20 cho cả hai công thức (2) và (4).

Với mỗi kịch bản, sau khi sinh tập chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1, tiến hành hai kịch bản đánh

giá:

(i) Kịch bản đánh giá 1 - Đánh giá chất lượng chủ đề của mô hình đề xuất với chủ đề

của các mô hình LDA, AMC

Đánh giá chất lượng chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 được sinh ra từ ba kịch bản thực nghiệm

bằng độ đo topic cohenrence được giới thiệu trong [23]. Topic cohenrence là một chỉ số

đánh giá chất lượng của chủ đề mà không sử dụng các tập dữ liệu tham chiếu bên ngoài,

bởi [23] chỉ ra rằng, các chủ đề tiêu chuẩn không sử dụng đầy đủ các thông tin sẵn có,

do đó không cần một tập dữ liệu tham chiếu bên ngoài. Độ lớn giá trị của topic

cohenrence tỉ lệ thuận với chất lượng của chủ đề. Công thức tính topic cohenrence [23]

như sau:

𝐶(𝑡; 𝑉(𝑡)) = ∑ ∑ log𝐷(𝑣𝑚

(𝑡), 𝑣𝑙

(𝑡)) + 1

𝐷(𝑣𝑙

(𝑡))

𝑚−1

𝑙=1

𝑀

𝑚=2

Trong đó, 𝑉(𝑡) = (𝑣1(𝑡)

, … , 𝑣𝑚(𝑡)

) là danh sách top 𝑀 từ có xác suất xảy ra nhất của

chủ đề 𝑡.

Thực nghiệm cho kịch bản đánh giá 1 được thực hiện với số lượng chủ đề 10, 15,

20, 25 và top M = 20 từ trên mỗi chủ đề.

(ii) Kịch bản đánh giá 2 – Đánh giá hiệu suất phân lớp đa nhãn sử dụng mô hình chủ

đề đề xuất với các mô hình chủ đề LDA, AMC

27

Áp dụng mô hình phân lớp đa nhãn được mô tả trong Hình 3.2 trên mỗi tập dữ

liệu huấn luyện 𝐷𝑁+1 cùng với tập chủ đề tương ứng 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 được sinh ra từ ba kịch

bản thực nghiệm để so sánh hiệu suất phân lớp đa nhãn.

Đánh giá hiệu suất phân lớp đa nhãn trong khoá luận sử dụng ba chỉ số precision,

recall, 𝐹1 được tính như sau:

Precision(𝑇𝑃𝑗 , 𝐹𝑃𝑗 , 𝑇𝑁𝑗 , 𝐹𝑁𝑗) = 𝑇𝑃𝑗

𝑇𝑃𝑗 + 𝐹𝑃𝑗

Recall(𝑇𝑃𝑗 , 𝐹𝑃𝑗 , 𝑇𝑁𝑗 , 𝐹𝑁𝑗) = 𝑇𝑃𝑗

𝑇𝑃𝑗 + 𝐹𝑁𝑗

𝐹1 = 2(𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛∗𝑟𝑒𝑐𝑎𝑙𝑙

𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙)

Trong đó:

- TP (true positive): mẫu mang nhãn dương được phân lớp đúng vào lớp dương

- FN (false negative): mẫu mang nhãn dương được phân lớp sai vào lớp âm

- FP (false positive): mẫu mang nhãn âm được phân lớp sai vào lớp dương

- TN (true negative): mẫu mang nhãn âm được phân lớp đúng vào lớp âm

Trong phân lớp đa nhãn, giá trị các chỉ số trên càng cao thì hiệu suất phân lớp của

mô hình càng tốt, giá trị đối đa của các chỉ số đánh giá là 1.

Trong [4, 5] chỉ ra rằng hiệu suất của thuật toán MULTICS mang lại kết quả tốt nhất

với số lượng chủ đề là 15 và 25, cho nên thực nghiệm cho kịch bản đánh giá 2 được thực

hiện với số lượng các chủ đề là 10, 15, 20, 25.

4.3. Kết quả thực nghiệm và đánh giá

Đầu tiên cần xác định các miền gần từ các tập dữ liệu quá khứ với tập dữ liệu

hiện tại. Bảng 4.2 thống kê ra kết quả tính toán trên các tập dữ liệu 𝐷1, 𝐷2 và 𝐷3 với

𝐷4𝑎 , 𝐷4𝑏 , 𝐷4𝑐 , 𝐷4𝑑 và𝐷4𝑒.

Kết quả cho thấy có năm cặp miền gần: (𝐷1, 𝐷4𝑎), (𝐷1, 𝐷4𝑏), (𝐷1, 𝐷4𝑐),

(𝐷1, 𝐷4𝑑), (𝐷1, 𝐷4𝑒). Do đó, chỉ có một tập dữ liệu 𝐷1 được sử dụng để tinh chỉnh mô

hình chủ đề trên các miền dữ liệu hiện tại 𝐷𝑁+1 {𝐷4𝑎 , 𝐷4𝑏 , 𝐷4𝑐 , 𝐷4𝑑, 𝐷4𝑒}.

28

Bảng 4.2. Số liệu kiểm tra miền gần

Tập dữ

liệu

D1 D2 D3

V W T C V W T C V W T C

D4a 0.95 0.34 0.33 Y 0.86 0 0.13 N 0.41 0.03 0.06 N

D4b 0.97 0.25 0.33 Y 0.86 0.03 0.13 N 0.46 0 0.06 N

D4c 0.96 0.38 0.6 Y 0.84 0.03 0.13 N 0.45 0 0 N

D4d 0.95 0.34 0.27 Y 0.82 0.03 0.13 N 0.44 0 0.13 N

D4e 0.95 0.38 0.4 Y 0.81 0.03 0.13 N 0.44 0 0.06 N

(V: mức từ vựng, W: mức top từ, T: mức chủ đề, C: gần hay không, Y: có, N: không)

4.1.1. Đánh giá chất lượng chủ đề của mô hình đề xuất với chủ đề của các mô hình

LDA, AMC

4.1.2. Đánh giá hiệu suất phân lớp đa nhãn sử dụng mô hình chủ đề đề xuất với

các mô hình chủ đề LDA, AMC

Tập chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 được sử dụng để biểu diễn đặc trưng cho phân lớp đa

nhãn. Kết quả của các kịch bản thực nghiệm: phương pháp LDA cô lập, phương pháp

học máy suốt đời AMC và phương pháp đề xuất trong khóa luận được đưa ra ở Bảng

4.2. Các so sánh về hiệu suất của các mô hình được trình bày với các trường hợp số

lượng chủ đề khác nhau: 5, 10, 15, 20 chủ đề.

Trong hầu hết các kịch bản, tất cả hệ thống có kết quả tốt hơn khi tăng kích thước

tập dữ liệu huấn luyện từ 100 (𝐷4𝑎) lên 1000 (𝐷4𝑒).

Trong kịch bản học LDA cô lập, kết quả tốt nhất là 77.64% trong trường hợp

thực nghiệm với số chủ đề bằng 20 trên tập dữ liệu huấn luyện 1000 đánh giá (𝐷4𝑒).

Hiệu suất của các mô hình được cải thiện trong hầu hết trường hợp với kịch bản

thực nghiệm thứ hai: phương pháp AMC [2] và trong tất cả trường hợp với kịch bản thứ

ba: phương pháp đề xuất trong khóa luận. Khi kích thước tập dữ liệu huấn luyện nhỏ

(𝐷4𝑎 , 𝐷4𝑏), độ cải thiện khoảng 2%, điều này có ý nghĩa lớn trong học máy suốt đời.

Phương pháp đề xuất thậm chí mang lại kết quả tốt hơn AMC [2] trong tất cả các

thực nghiệm. Trong mọi trường hợp, độ cải thiện tăng khoảng 1%. Các biểu diễn chỉ ra

29

rằng, kích thước của tập dữ liệu hiện tại có ảnh hướng tới hiệu suất phân lớp. Cụ thể,

mô hình của phương pháp đề xuất hoạt động tốt hơn khi thực hiện trên một lượng nhỏ

các đánh giá trong tập dữ liệu huấn luyện. Điều đó có nghĩa là các đặc trưng được xây

dựng từ cách tiếp cận đề xuất cung cấp sự hỗ trợ tốt nhất cho việc phân lớp.

Bảng 4.3. Kết quả các kịch bản thực nghiệm

Các phương

pháp

Học cô lập

LDA

Học suốt đời

AMC[2]

Học suốt đời

Phương pháp đề xuất

NoT TDS P

%

R

%

F1

%

P

%

R

%

F1

%

P

%

R

%

F1

%

10

𝐷4𝑎 63.26 50.38 56.09 65.19 52.42 58.11 62.94 54.72 58.54

𝐷4𝑏 70.68 55.24 62.01 74.68 58.52 65.62 75.32 59.03 66.19

𝐷4𝑐 80.72 67.43 73.48 82.5 67.18 74.05 83.07 67.43 74.44

𝐷4𝑑 82.42 68.96 75.09 84.38 68.7 75.74 85.05 69.47 76.47

𝐷4𝑒 82.31 71.5 76.53 83.58 71.25 76.92 83.28 72.99 77.8

15

𝐷4𝑎 62.94 50.13 55.81 63.14 52.72 57.46 62.18 53.64 57.59

𝐷4𝑏 71.13 54.76 61.88 73.7 57.76 64.76 73.7 58.36 65.14

𝐷4𝑐 84.01 68.19 75.28 84.01 68.19 75.28 84.01 69.19 75.89

𝐷4𝑑 84.47 69.21 76.08 84.74 69.21 76.19 84.74 69.21 76.19

𝐷4𝑒 82.26 72.11 76.58 83.58 71.25 76.92 84.52 72.26 77.91

20

𝐷4𝑎 62.94 50.13 55.81 63.14 51.27 56.59 62.5 52.62 57.14

𝐷4𝑏 72.7 55.76 63.11 73.7 57.76 64.76 74.03 58.02 65.05

𝐷4𝑐 84.01 68.19 75.28 84.01 68.19 75.28 84.01 68.19 75.28

𝐷4𝑑 84.47 69.21 76.08 84.74 69.21 76.19 84.78 69.47 76.36

𝐷4𝑒 84.23 72.01 77.64 83.58 73.68 78.32 84.82 73.52 78.77

𝐷4𝑎 61.18 49.17 54.53 63.14 50.13 55.89 62.5 51.62 56.54

𝐷4𝑏 72.43 54.7 62.33 73.7 57.76 64.76 73.38 57.51 64.48

30

25 𝐷4𝑐 83.93 67.12 74.59 84.01 68.19 75.28 84.01 68.19 75.28

𝐷4𝑑 84.35 69.42 76.16 84.74 69.21 76.19 84.78 69.47 76.36

𝐷4𝑒 83.93 71.52 77.23 83.58 71.25 76.92 84.82 72.52 78.19

(NoT: số lượng chủ đề, TDS: tập dữ liệu huấn luyện, P: precision, R: recall)

Mặt khác, mô hình đề xuất mang lại kết quả tốt nhất là 78.77% khi thực nghiệm

trong trường hợp số chủ đề là 20. Khi số lượng chủ đề là 25, hiệu suất của hệ thống theo

ba cách tiếp cận (tương ứng với ba kịch bản thực nghiệm) dường như đều giảm. Tình

huống này có thể được giải thích rằng với số lượng chủ đề lớn gây ra những tác động

tới mối quan hệ giữa các chủ đề và độ gần giữa hai miền, hoặc có thể do chính tập dữ

liệu của các mô hình.

Tóm tắt chương

Chương 4 đã trình bày các kịch bản thực nghiệm trong khoá luận và đánh giá, so sánh

hiệu suất của phương pháp đề xuất với các phương pháp LDA, AMC[2]. Kết quả cho

thấy phương pháp đề xuất mang lại kết quả tốt hơn so với các phương pháp được so

sánh.

31

KẾT LUẬN

Kết luận

Trong khóa luận này tôi đã đưa ra những kiến thức tổng quan về học máy suốt

đời và phân lớp đa nhãn, đồng thời trình bày các công nghệ, cơ sở lí thuyết được sử dụng

trong bài toán như: mô hình chủ đề suốt đời, mô hình chủ đề ẩn LDA, mô hình chủ đề

suốt đời AMC, phương pháp phân lớp đa nhãn bán giám sát MULTICS. Cuối cùng là

giới thiệu một phương pháp mô hình hóa chủ đề suốt đời, ứng dụng vào phân lớp đa

nhãn văn bản tiếng Việt. Phương pháp đề xuất gồm hai pha chính: mô hình hóa chủ đề

suốt đời dựa trên phương pháp AMC và phân lớp đa nhãn dựa trên phương pháp

MULTICS. Chúng tôi khai thác ảnh hưởng của các miền gần trong mô hình chủ đề suốt

đời và sử dụng chủ đề suốt đời để biểu diễn các đặc trưng trong phân lớp văn bản. Các

thực nghiệm cho thấy rằng, phương pháp đề xuất mang lại một kết quả tốt hơn so với

các phương pháp được so sánh là LDA, AMC [2].

Các công việc trong tương lai

Trong tương lai, chúng tôi sẽ tiến hành các thực nghiệm trên các miền dữ liệu

khác, cùng với những tùy chỉnh về số chủ đề, ngưỡng 𝜃, kích thước các tập dữ liệu 𝐷𝑁+1

(có thể nhỏ hơn kích thước 100) nhằm khai thác các ảnh hưởng của các thông số này

trong thuật toán đề xuất và đánh giá mô hình.

32

TÀI LIỆU THAM KHẢO

[1] Zhiyan Chen and Bing Liu, “Lifelong Machine Learning”, Synthesis Lectures on

Artificial Intelligence and Machine Learning, Morgan & Claypool Publishers, 2006,

Vol. 10, pp. 1- 11

[2] Zhiyan Chen and Bing Liu, “Mining Topics in documents: standing on the shoulders

of big data”, In KDD 2014, pp. 1116-1125

[3] Richard J. Haier and Loyd G. Humphreys, “Intelligence A Multidisciplinary

Journal", Vol. 3, 1979, pp. 105-120

[4] Thi-Ngan Pham, Van-Quang Nguyen, Van-Hien Tran, Tri-Thanh Nguyen, and

Quang-Thuy Ha, “A semi-supervised multi-label classification framework with feature

reduction and enrichment”, Journal of Information anf Telecommunication, 2017, pp.

[5] Thi-Ngan Pham, Van-Quang Nguyen, Duc-Trong Dinh, Tri-Thanh Nguyen, and

Quang-Thuy Ha, “MASS: a Semi-supervised Multi-label Classification Algorithm With

specific Feature”, Studies in Computational Intelligence, Vol 170 (ACIIDS 2017), pp.

37-47, 2017

[6] Sebastian Thrun and Tom M. Mitchell, “Lifelong robot learning”, Robotics and

Autonomous Systems, 1995, pp. 25-46

[7] Sebastian Thrun, “Explanation-Based Neural Network Learning: A Lifelong

Learning Approach”, Springer US, 1996

[8] David M. Blei, Andrew Y. Ng and Michael I. Jordan, “Latent Dirichlet Allocation”,

Journal of Machine Learning Research, 2003, P. 994 - 997

[9] T. Hofmann, “Probabilistic Latent Semantic Analysis”, Uncertainly in Artificial

Intelligence (UAI), 1999

[10] Grigorios Tsoumakas and Ioannis Katakis, “Multi-Label Classification: An

Overview”, Dept. of Informatics, Aristotle University of Thessaloniki, pp. 1-2

[11] M.-L. Z. S.-J. H. a. Y.-F. L. Zhi-Hua Zhou, “Multi-Instance Multi-Label Learning

with Application to Scene Classification”, National Key Laboratory for Novel Software

Technology, pp. 2291-2320, 2012.

[12] Eva Gibaja and Sebastián Ventura, “A Tutorial on Multi-Label Learning”, ACM

Computing Surveys (CSUR), vol. 3, p. 52, 2015.

33

[13] Nguyen Van Quang, “An algorithm adaptation multi-label classification method

and expriments on Vietnamese text”, Graduation Thesis, University of Engineering and

Technology - VNUH, 2017, pp. 13-14 .

[14] Geli Fei, Shuai Wang, and Bing Liu, “Learning Cumulatively to Become More

Knowledgeable”, In KDD, 2016.

[15] Lei Shu, Hu Xu, and Bing Liu, “Lifelong Learning CRF for Supervised Aspect

Extraction”, Proceedings of Annual Meeting of the Association for Computational

Linguistics, 2017

[16] Lei Shu, Hu Xu, and Bing Liu, “DOC: Deep Open Classification of Text

Documents”, Proceedings of 2017 Conference on Empirical Methods in Natural

Language Processing, 2017

[17] J. K. Pritchard, M. Stephens and P. Donnelly, “Inference of population structure

using multilocus genotype data”, Vol. 155

[18] D. Andrzejewski, X. Zhu và M. Craven, “Incorporating domain knowledge into

topic modeling via Dirichlet Forest priors”, ICML, pp.25-32, 2009

[19] Z. Chen, A. Mukherjee, B.Liu, M.Hsu, M.Castellanos and R. Ghosh, “Exploiting

Domain Knowledge in Aspect Extraction”, EMNLP, pp.1655-1667, 2013

[20] Z. Chen and B. Liu, “Topic Modeling using Topics from Many Domains, Lifelong

Learning and Big Data”, ICML, 2014

[21] B. Liu, W. Hsu và Y. Ma, “Mining association rules with multiple minimum

supports”, KDD, pp. 337-341, 1999

[22] Gauthier Doquire and Michel Verleysen, “Feature Selection with Mutual

Information for Uncertain Data”, 2011

[23]