xÂy dỰng mÔ hÌnh dỰ ĐoÁn khÁch hÀng tiỀm

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐOÀN VĂN TÂM

XÂY DỰNG MÔ HÌNH DỰ ĐOÁN KHÁCH HÀNG TIỀM

NĂNG CHO CÁC GÓI CƯỚC TRONG MẠNG DI ĐỘNG

Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thống thông tin

Mã Số: 8480104.01

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS. TRẦN TRỌNG HIẾU

Hà nội – 12/2019

i

MỤC LỤC

LỜI CẢM ƠN.......................................................................................... ii

LỜI CAM ĐOAN .................................................................................. iii

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .......................... iv

DANH MỤC HÌNH VẼ .......................................................................... v

DANH MỤC BẢNG .............................................................................. vi

Chương 1: Giới thiệu khai phá dữ liệu trong lĩnh vực viễn thông ... 1

1.1 Giới thiệu ................................................................................ 1

1.2 Khai phá dữ liệu trong lĩnh vực viễn thông ........................... 3

1.3 Nhóm bài toán về quản lý trải nghiệm khách hàng ............... 4

1.4 Lựa chọn bài toán ................................................................. 11

Chương 2: Bài toán dự đoán khách hàng tiềm năng ....................... 12

2.1 Phát biểu bài toán dự đoán khách hàng tiềm năng ............... 12

2.2 Phương pháp cây quyết định ................................................ 13

2.3 Phương pháp SVM ............................................................... 15

2.4 Phương pháp kNN (k người láng giếng gần nhất) ............... 17

2.5 Phương pháp ghép nối các mô hình học máy ...................... 17

2.6 Phương pháp đánh giá .......................................................... 18

Chương 3: Mô hình đề xuất ................................................................. 20

3.1 Mô hình đề xuất.................................................................... 20

3.2 Tập dữ liệu và tiền xử lý dữ liệu .......................................... 21

3.3 Tiền xử lý và trích xuất đặc trưng ........................................ 27

Chương 4: Thực nghiệm và đánh giá ................................................. 33

4.1 Môi trường và các công cụ thực nghiệm.............................. 33

4.2 Kịch bản thực nghiệm .......................................................... 34

4.3 Kết quả thực nghiệm và đánh giá ......................................... 34

KẾT LUẬN ............................................................................................ 40

TÀI LIỆU THAM KHẢO .................................................................... 41

ii

LỜI CẢM ƠN

Trước tiên tôi xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo

TS. Trần Trọng Hiếu – người đã hướng dẫn, khuyến khích, chỉ bảo và tạo cho

tôi những điều kiện tốt nhất từ khi bắt đầu cho tới khi hoàn thành công việc

của mình.

Tôi xin dành lời cảm ơn chân thành tới các thầy cô giáo khoa Công nghệ

thông tin, trường Đại học Công nghệ, ĐHQGHN đã tận tình đào tạo, cung

cấp cho tôi những kiến thức vô cùng quý giá và đã cho tôi điều kiện tốt nhất

trong suốt quá trình học tập, nghiên cứu tại trường.

Cuối cùng, tôi xin cảm ơn tất cả những người thân yêu trong gia đình

cùng toàn thể bạn bè, đồng nghiệp những người đã luôn giúp đỡ, động viên

tôi học tập và nghiên cứu chương trình thạc sĩ tại Đại học Công nghệ,

ĐHQGHN.

Luận văn này được tài trợ bởi đề tài cấp ĐHQGHN mã số QG19.23.

iii

LỜI CAM ĐOAN

Tôi xin cam đoan rằng luận văn thạc sĩ Công nghệ thông tin “Xây dựng

mô hình dự đoán khách hàng tiềm năng cho các gói cước trong mạng di

động” là công trình nghiên cứu của riêng tôi, không sao chép lại của người

khác. Trong toàn bộ nội dung của luận văn, những điều đã được trình bày

hoặc là của chính cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài liệu.

Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp pháp.

Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo

quy định cho lời cam đoan này.

Hà Nội, ngày …. tháng 12 năm 2019

iv

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Chữ viết tắt Ý nghĩa

KPDL Khai phá dữ liệu

CSDL Cơ sở dữ liệu

Viettel Tập đoàn Công nghiệp – Viễn thông Quân đội Viettel

VLR Tổng đài ghi nhận đăng nhập mạng của thuê bao

di động (Visitor Location Register)

GSM Mạng thông tin di động (Global System for

Mobile Communications)

CDR Lịch sử cuộc gọi (Call Data Record)

ARPU Doanh thu trung bình trên một khách hàng

(Average revenue per user)

SMS Tin nhắn ngắn (Short Message Services)

Telesale Bán hàng qua điện thoại

CEM Quản lý trải nghiệm khách hàng

v

DANH MỤC HÌNH VẼ

Hình 1: Số liệu thuê bao di động theo các nhà mạng tháng 01-04/2019 .. 1

Hình 2: Thị phần di động của các nhà mạng ............................................ 2

Hình 3: Ví dụ mô tả cây quyết định ........................................................ 13

Hình 4: Siêu phẳng H chia dữ liệu huấn luyện thành 2 lớp với khoảng

cách biên lớn nhất (Các điểm gần H nhất nằm trên H1 và H2 là vector hỗ trợ).

......................................................................................................................... 16

Hình 5: Quy tắc k-NN trên không gian đặc trưng 2-chiều với k=5. ...... 17

Hình 6: Mô hình dự đoán khách hàng tiềm năng cho các gói cước ....... 20

Hình 7: Phân bố gói cước trong tập dữ liệu ............................................ 23

Hình 8: Lược đồ xử lý dữ liệu và trích xuất đặc trưng ........................... 30

Hình 6: Giao diện công cụ khai phá dữ liệu Knime ............................... 33

vi

DANH MỤC BẢNG

Bảng 1: Thuật toán xây dựng cây quyết định ......................................... 14

Bảng 2: Mô tả các trường của tập dữ liệu thuê bao ................................ 21

Bảng 3: Mô tả các gói cước là nhãn dự báo ........................................... 23

Bảng 4: Bảng danh sách các trường thông tin tổng hợp kết quả ............ 27

Bảng 5: Bảng danh sách các nhóm đặc trưng được trích xuất ............... 31

Bảng 6: Các công cụ thực nghiệm .......................................................... 33

Bảng 7: Môi trường thực nghiệm ........................................................... 34

Bảng 8: Kết quả thực nghiệm sử dụng thuật toán kNN.......................... 34

Bảng 9: Kết quả thực nghiệm sử dụng thuật toán SVM ......................... 35

Bảng 10: Kết quả thực nghiệm sử dụng thuật toán cây quyết định ........ 37

Bảng 11: Kết quả thực nghiệm sử dụng kết hợp các mô hình ................ 38

1

Chương 1: Giới thiệu khai phá dữ liệu trong lĩnh

vực viễn thông

1.1 Giới thiệu

Hiện nay, thị trường dịch vụ viễn thông di động tại Việt Nam đã đạt mức

bão hòa và cuộc cạnh tranh giữa các nhà mạng bước qua một giai đoạn mới:

đó là cạnh tranh về chất lượng các chương trình khuyến mại, chất lượng dịch

vụ và chăm sóc khách hàng, chất lượng mạng và vùng phủ sóng. Do đó, yếu

tố quan trọng nhất trong cạnh tranh ở giai đoạn này, các nhà mạng ngoài việc

tập trung giữ chân các thuê bao cũ, giảm lượng khách hàng rời mạng và

khuyến khích khách hàng tăng lượng sử dụng dịch vụ, phát triển chất lượng

dịch vụ, cải tiến và cung cấp thêm nhiều dịch vụ giá trị gia tăng đáp ứng nhu

cầu ngày càng lớn của khách hàng, cần phải phân tích và so sánh với đối thủ

cạnh tranh để có thể tung ra thị trường các sản phẩm/dịch vụ theo nhu cầu.

Một trong những chiến lược hàng đầu của các nhà mạng là ứng dụng các kỹ

thuật khai phá dữ liệu trên nền tảng dữ liệu lớn vào các hoạt động sản xuất

kinh doanh.

Hinh 1: Số liệu thuê bao di động theo các nhà mạng tháng 01-04/2019

(nguồn: Nội bộ)

2

Hinh 2: Thị phần di động của các nhà mạng

(nguồn: Nội bộ)

Tại Việt Nam, các nhà mạng lớn như Viettel, MobiFone, VinaPhone đã

ứng dụng khai phá dữ liệu vào trong hoạt động kinh doanh và phân tích dữ

liệu thuê bao, cụ thể như các giải pháp Viettel Customer 3601, vRTAP2,

DataMon, Viettel BI của nhà mạng Viettel giúp phân tích hành vi và chân

dung khách hàng phục vụ công tác điều hành và kinh doanh dữ liệu; giải pháp

IVRS3 của nhà mạng MobiFone sử dụng công nghệ khai phá dữ liệu trên nền

tảng dữ liệu lớn phục vụ truyền thông trúng mục tiêu. Hầu hết các giải pháp

1 http://kenh14.vn/muc-tieu-cung-nam-2020-va-tuong-lai-nam-2025-cua-viettel-telecom-ra-sao-

20191023171327738.chn 2 https://vietteldanang.com.vn/viettel-va-qualcomm-ky-thoa-thuan-su-dung-ban-quyen-cong-nghe-3g-

4g/ 3

http://www.vinasa.org.vn/Default.aspx?sname=vinasa&sid=4&pageid=3076&catid=4213&id=11676

http://kenh14.vn/muc-tieu-cung-nam-2020-va-tuong-lai-nam-2025-cua-viettel-telecom-ra-sao-20191023171327738.chn

http://kenh14.vn/muc-tieu-cung-nam-2020-va-tuong-lai-nam-2025-cua-viettel-telecom-ra-sao-20191023171327738.chn

https://vietteldanang.com.vn/viettel-va-qualcomm-ky-thoa-thuan-su-dung-ban-quyen-cong-nghe-3g-4g/

https://vietteldanang.com.vn/viettel-va-qualcomm-ky-thoa-thuan-su-dung-ban-quyen-cong-nghe-3g-4g/

http://www.vinasa.org.vn/Default.aspx?sname=vinasa&sid=4&pageid=3076&catid=4213&id=11676

3

và ứng dụng trên đã mang lại những hiệu quả về mặt kinh tế cũng như tối ưu

chi phí vận hành đối với các nhà mạng Việt Nam.

1.2 Khai phá dữ liệu trong lĩnh vực viễn thông

Các nhà mạng viễn thông sở hữu một lượng dữ liệu vô cùng lớn thông

tin của người dùng (thuê bao) từ thông tin nhân khẩu học đến thông tin hành

vi sử dụng dịch vụ viễn thông, tất cả các dữ liệu đều được lữu trữ một cách

chi tiết phục vụ các hoạt động kinh doanh và vận hành hàng ngày. Lượng dữ

liệu được lưu trữ trên tiềm ẩn những tri thức hết sức quí báu về thị trường,

khách hàng, sản phẩm… Sử dụng các kỹ thuật phân tích, khai phá dữ liệu

cùng các các thuật toán và mô hình toán học máy cho phép các nhà mạng đưa

ra các quyết định hiệu quả và kịp thời. Có khá nhiều các bài toán phân tích

(use case) trong lĩnh vực viễn thông phục vụ cho các hoạt động điều hành và

kinh doanh [16,24]. Qua khảo sát các tài liệu liên quan, luận văn đưa ra 4

nhóm bài toán chính về khai phá trong lĩnh vực viễn thông:

- Quản lý trải nghiệm khách hàng (CEM): Quản lý trải nghiệm khách

hàng là quá trình quản lý tất cả các điểm tiếp xúc với khách hàng

nhằm đảm bảo mối quan hệ tích cực giữa khách hàng với thương

hiệu. CEM được hiểu là việc “chủ động thiết kế và quản trị tất cả các

trải nghiệm khách hàng từ các trải nghiệm về thương hiệu, trải

nghiệm mua sản phẩm dịch vụ, trải nghiệm sử dụng sản phẩm dịch

vụ đến các trải nghiệm dịch vụ sau bán hàng trên tất cả các kênh, mọi

điểm tiếp xúc để đáp ứng các kỳ vọng của khách hàng nhằm gia tăng

sự hài lòng, trung thành và ủng hộ của khách hàng”.

- Tối ưu mạng lưới (Network optimization): Các phương pháp tiếp cận

phân tích dữ liệu lớn đang bắt đầu xuất hiện trong lĩnh vực mạng viễn

thông để giải quyết các thách thức của ảo hóa (NFV Network

Function Visualization) và điện toán đám mây (Cloud Computing).

Sự phức tạp gia tăng trong các ứng dụng mạng viễn thông đang thúc

đẩy nhu cầu tự động hóa mạng lưới. Các nền tảng tự động hóa mạng

lưới dựa trên phân tích dữ liệu lớn kết hợp các kỹ thuật khai phá dữ

liệu để hỗ trợ các hoạt động quản lý hiệu quả, kịp thời và đáng tin

cậy. Ví dụ về các ứng dụng tập trung vào mạng lưới bao gồm:

4

o Phát hiện bất thường trong khai thác, quản trị, bảo trì mạng

lưới

o Giám sát và tối ưu hóa hiệu suất sử dụng mạng

o Tối ưu cảnh báo mạng lưới.

o Khuyến nghị hành động xử ly lỗi mạng.

o Tự động xử ly lỗi mạng.

o Dự đoán lỗi mạng

o Quy hoạch dung lượng mạng (thông qua dự báo nghen mạng)

- Phân tích vận hành (Operations Analysis): Trong ngành viễn thông

thì việc rất quan trọng là phát hiện gian lận và hành vi sử dụng bất

thường nhằm giảm thiểu thất thoát doanh thu. Bài toán phát hiện dấu

hiệu bất thường và phòng chống gian lận để phát hiện các hành vi

gian lận của khách hàng và các bất thường của hành vi sử dụng. Phân

tích dữ liệu lớn chủ yếu sử dụng các công cụ phân lớp, phân tích

hành vi.

- Kinh doanh dữ liệu (Data monetization): Các công ty cũng như các tổ

chức viễn thông đang lữu trữ một lượng lớn dữ liệu liên tục. Nhiều

công ty đã hiểu rằng dữ liệu này có thể được sử dụng và nó có thể có

giá trị lớn khi được sử dụng đúng. Vấn đề là làm thế nào để biến dữ

liệu đó thành tiền - làm thế nào để kiếm tiền từ dữ liệu. Một cách để

kiếm tiền từ dữ liệu là chia nó thành hai loại: kiếm tiền từ nội bộ và

kiếm tiền từ bên ngoài. Kiếm tiền nội bộ có nghĩa là làm tăng doanh

thu của công ty với việc sử dụng dữ liệu. Có nhiều cách để làm như

có thể tăng lên bằng cách cải thiện dịch vụ sản phẩm và hiểu nhu cầu

của khách hàng. Hoặc doanh thu có thể đạt được bằng cách tăng

cường doanh số với các hoạt động như như chăm sóc khách hàng, lập

kế hoạch bán hàng qua kênh hiệu quả. Ngoài ra, phương pháp tối ưu

hóa và tăng cường sản xuất và bảo trì có thể mang lại khoản tiết kiệm

lớn cho doanh nghiệp. Kiếm tiền từ dữ liệu bên ngoài có thể bao gồm

bán dữ liệu, bán thông tin phân tích nghiên cứu hoặc dự đoán chẳng

hạn.

1.3 Nhóm bài toán về quản lý trải nghiệm khách hàng

5

Hầu hết các nhà mạng Việt Nam tập trung nhiều vào nhóm bài toán phân

tích và nâng cao trải nghiệm khách hàng vì đây là nhóm giúp tăng doanh thu

tiêu dùng viễn thông của các khách hàng một cách rõ rệt nhất. Các mục dưới

đây liệt kê một số bài toán khai phá dữ liệu viễn thông phổ biến nhất.

a) Dự đoán khách hàng tiềm năng cho các dịch vụ viễn thông

Trước đây, hầu hết doanh nghiệp không xác định được nhu cầu thực sự

của khách hàng mà chỉ tập trung vào quảng bá tràn lan sản phẩm – dịch vụ

của mình có, không nắm rõ vấn đề của khách hàng là gì, đưa ra hàng loạt đề

xuất gói cước mà không biết khách hàng có cần thiết hay không, không biết

điều gì – sản phẩm – dịch vụ gì là tốt nhất cho khách hàng của mình. Vì vậy,

việc xác định đúng tập khách hàng tiềm năng (nhu cầu của khách hàng) có ý

nghĩa lớn trong các chương trình truyền thông, chiến dịch quảng cáo của mỗi

đơn vị kinh doanh, giúp tiết kiệm được phần lớn chi phí và không ảnh

hưởng/làm phiền khách hàng. Mô hình xác định tập khách hàng tiềm năng

mua các gói cước viễn thông dựa trên kết quả phân tích nhà mạng áp dụng

các chương trình khuyến mại hay các chiến dịch truyền thông bán gói cước

phù hợp đến tập khách hàng tiềm năng [17, 19].

Mục đích:

- Giúp tăng doanh thu tiêu dùng gốc cho nhà mạng bằng cách dự đoán

đúng nhu cầu của khách hàng, tư vấn và giúp khách hàng đưa ra lựa

chọn chính xác gói cước có mức tiêu dùng cao hơn mức hiện tại

nhưng khách hàng được sử dụng dịch vụ thoải mái hơn.

- Dự đoán đúng và đưa ra tư vấn đúng/trúng nhu cầu của khách hàng

giúp đưa ra các chiến dịch truyền thông (sms, telesale,…) phù hợp

đến tập khách hàng tiềm năng, tránh được việc quảng cáo không

đúng đối tượng làm giảm hiệu quả chương trình, tăng chi phí và đặc

biệt là gây phản cảm với khách hàng, làm cho khách hàng cảm giác

bị làm phiền và khó chịu.

Để giải quyết bài toán này các nghiên cứu liên quan tập trung vào hai

hướng tiếp cận chính là hướng tiếp cận dựa trên luật liên kết và hướng tiếp

cận dựa trên phân loại thuê bao. Tác giả Zhang và các công sự đã đề xuất một

phương pháp phân loại thuê bao có khả năng thích các nhóm gói cước tiềm

6

năng dựa trên sự tương tự của các đặc trưng [24]. Các gói cước se được đo sự

tương tự dựa trên các đặc trưng là danh sách các thuê bao đã đăng ky gói

cước, tập các gói cước tương tự se được gom thành một nhóm, danh sách các

thuê bao tương tác nhiều se được lấy ra để đại diện cho cụm. Để dự đoán một

thuê bao có thích gói cước hay không, nghiên cứu se so sánh thông tin của

thuê bao đấy với các thuê bao khác để tìm ra tập thuê bao tương tự, các gói

cước phổ biến mà tập thuê bao tương tự đại diện se được gán cho thuê bao

cần được đánh giá. Tác giả Li tiếp cận giải quyết bài toán này ở một hướng

khác khi sử dụng luật liên kết để tìm ra các tập gói cước hay được mua cùng

nhau để dự đoán một thuê bao có thể mua một gói cước mới khi đã từng mua

những gói cước nào [17].

b) Dự đoán thuê bao rời mạng

Trong môi trường kinh doanh viễn thông cạnh tranh khốc liệt như ở Việt

Nam hiện nay. Thị trường di động đã ở mức bão hòa, doanh thu di động tăng

trưởng chững lại và việc phát triển thuê bao mới hết sức khó khăn thì chăm

sóc và gìn giữ khách hàng cũ trên hệ thống trở nên hết sức quan trọng, nó

không chỉ giúp nhà mạng phát triển bền vững mà còn ngăn chặn đối thủ phát

triển thuê bao mới. Đây là bài toán quan trọng đối với các công ty hoạt động

trong lĩnh vực viễn thông và cũng là một trong những bài toán khó khi dữ liệu

thực tế có tỷ lệ mất cân bằng lớn [4, 18].

Thu thập dữ liệu từ các nguồn sẵn có của nhà mạng như dữ liệu CDR từ

tổng đài, dữ liệu thông tin khách hàng, dữ liệu lịch sử dụng dịch vụ và khuyến

mại, dữ liệu lịch sử khiếu nại … Các dữ liệu này đều được các hệ thống tác

nghiệp của nhà mạng xử ly và đã được lưu trữ trong CSDL.

Xử lý và trích xuất dữ liệu thực hiện tiền xử lý và trích xuất dữ liệu để

đưa vào mô hình phân tích. Dựa vào kinh nghiệm quản lý dữ liệu khách hàng

cũng như tham khảo các chuyên gia trong lĩnh vực chăm sóc khách hàng để

chọn lọc ra những dữ liệu có liên quan nhất với bài toán.

Mô hình phân tích thực hiện mô hình hóa các dữ liệu đã được xử lý từ

bước trước để xây dựng các mô hình dữ liệu.

Mục đích:

7

- Giảm thuê bao rời mạng bằng việc đưa ra các chiến dịch khuyến mãi

đến các khách hàng có giá trị cao. Ví dụ: Thuê bao di động đang có

hành vi sử dụng bình thường, hàng ngày phát sinh cuộc gọi đi/đến, có

thông tin register trên mạng, tuy nhiên 3 ngày liên tiếp thuê bao

không phát sinh cuộc gọi hoặc tần suất sử dụng dịch vụ giảm dần,

thường xuyên mất thông tin register, chứng tỏ khách hàng đang giảm

dần hành vi sử dụng hoặc đã đang bị đối thủ lôi kéo bằng các chương

trình khuyến mại hấp dẫn hơn. Cần thực hiện tiếp xúc ngay và đưa ra

các chương trình đủ mạnh để giữ chân khách hàng.

- Dự báo các thuê bao lâu năm có khả năng rời mạng đúng thời điểm

giúp nhà mạng tiếp xúc, chăm sóc và giữ chân khách hàng, tránh việc

tụt giảm thuê bao và doanh thu, mất khách hàng vào tay đối thủ cạnh

tranh.

Để giải quyết bài toán dự đoán thuê bao rời mạng các nghiên cứu hầu

hết đều tiếp cận theo hướng sử dụng phân loại tự động bằng các kỹ thuật học

máy khác nhau. Masoud và các cộng sự [18] đưa ra phương án giải quyết

bằng các kỹ thuật học máy khác nhau trên tập đặc trưng là thông tin tiêu dùng

viễn thông hàng tháng như thời gian gọi, số lượng phút gọi,… kết quả đạt

được tại độ đo F là 0.98 đối với toàn bộ các nhãn mô hình. Almana và các

cộng sự [4] cũng đưa ra tổng quan đánh giá các kỹ thuật học máy khác nhau

trong việc giải quyết bài toán dự đoán khách hàng rời dịch vụ như kỹ thuật

mạng neural, kỹ thuật học máy thống kê với các phương pháp hồi quy

logistic, Naïve bayes,… hay kỹ thuật phân loại dựa trên cây quyết định.

Trong các kỹ thuật trên Almana và các cộng sự cũng đánh giá các kỹ thuật

dựa trên cây quyết định được sử dụng nhiều trong các bài toán viễn thông nói

chung và bài toán dự đoán thuê bao rời mạng nói riêng.

c) Định danh/phân đoạn thuê bao

Hiện nay, tại mỗi doanh nghiệp các bộ phận kinh doanh được tổ chức

theo mô hình nhóm đối tượng khách hàng. Mỗi nhóm khách hàng khác nhau

cần được phát hiện và đối xử, chăm sóc khác nhau, như đúng phương trâm

của Viettel đã lựa chọn “Xem mỗi khách hàng là một cá thể riêng biệt” để

phục vụ. Vì vậy việc phân loại khách hàng thành các nhóm (phân đoạn) là bài

8

toán quan trọng giúp nhà mạng có thể phân tích vào từng phân khúc để hiểu

thêm hành vi, thói quen của khách hàng nhằm đưa ra các chiến lược theo từng

nhóm khách hàng. Mô hình phân tích của bài toán này thường sử dụng kỹ

thuật gom cụm để tự động phân nhóm khách hàng và đưa ra các thông tin đặc

trưng của từng nhóm [15, 13, 22].

Từ các nguồn dữ liệu sẵn có như dữ liệu lịch sử sử dụng dịch vụ bao

gồm apru tiêu dùng hàng tháng, hướng dịch vụ khách hàng thường xuyên sử

dụng như cuộc gọi, sms nội – ngoại mạng, hành vi sử dụng data, roaming …

Xử lý và trích xuất dữ liệu để phân đoạn theo lớp hành vi tiêu dùng theo

hướng sử dụng dịch vụ, theo lưu lượng.

Mô hình phân tích thực hiện mô hình hóa các dữ liệu đã được xử lý từ

bước trước để xây dựng các mô hình dữ liệu, cắt ra các lớp khách hàng khác

nhau.

Mục đích:

- Từ dữ liệu khách hàng sử dụng dịch vụ, chúng ta xây dựng các kinh

bản kinh doanh khác nhau cho từng nhóm khách hàng. Ví dụ: Những

khách hàng đang sử dụng tổng tiêu dùng trong tháng 200.000đ, sử

dụng 100 phút gọi nội mạng, 50 phút gọi ngoại mạng và 1GB data,

xây dựng và đề xuất cho khách hàng gói cước di động khuyến mại

hàng tháng trọn gói 250.000đ, se được sử dụng 500 phút gọi nội

mạng miễn phí, 100 phút gọi ngoại mạng và 5GB lưu lượng data

miễn phí. Với từng đối tượng khách hàng sử dụng mức cước khác

nhau, se gợi ý các chương trình để kích thích tăng arpu khách hàng.

- Bài toán nền cho các bài toán về phân tích khách hàng. Từ bài toán

này, phân loại được các lớp khách hàng khác nhau là đầu vào cho các

bài toán phân tích khách hàng khác.

Hầu hết các phương pháp phân đoạn khách hàng đều áp dụng thuật toán

gom cụm tự động. Jansen trong tài liệu kỹ thuật của nhà mạng Vodafone đã

áp dụng các kỹ thuật phân cụm khác nhau nhằm giải quyết bài toán phân đoạn

khách hàng [15], các kỹ thuật sử dụng ở đấy như Kmeans, K-medoid, Fuzzy

C-Means,…và kết quả của Fuzzy C-Means cho kết quả tốt nhất với hầu hết

các thực nghiệm. Tương tự như Jansen, Ye và các cộng sự cũng sử dụng

9

phương pháp phân đoạn khách hàng thành 8 nhóm dựa trên phân cụm phẳng

K-means [22]. Bên cạnh các kỹ thuật gom cụm, một số nghiên cứu sử dụng

một số kỹ thuật khác như trong luận án của Tianyuan [23] kỹ thuật dùng để

phân đoạn khách hàng được sử dụng là rời rác bằng phương pháp Bayesian

với rất nhiều đặc trưng đại diện cho thuê bao như nhân khẩu học và hành vi

thuê bao.

d) Khuyến mại mục tiêu

Mỗi nhà mạng sở hữu lượng lớn khách hàng trung thành, việc xây dựng

các thuật toán xác định sản phẩm/dịch vụ tiếp tục sử dụng của khách hàng se

giúp nhà mạng đưa ra những đề xuất chính xác, tiếp tục bán được sản

phẩm/dịch vụ cho khách hàng cũ tốt hơn nhiều so với việc tìm kiếm và phát

triển trên khách hàng mới. Vì vậy việc xác định các sản phẩm/dịch vụ/gói

cước được mua cùng nhau, hoặc mua tuần tự trong một khoảng thời gian của

thuê bao dựa trên những thông tin được phân tích đưa ra các gói bán chéo

hoặc gợi ý sản phẩm mà khách hàng có thể có nhu cầu hết sức quan trọng với

mỗi nhà cung cấp dịch vụ trong thời điểm hiện tại [13, 21].

Mục đích:

- Từ dữ liệu thông tin khách hàng sử dụng dịch vụ, chúng ta đưa ra các

chiến dịch quảng cáo (sms, telesale,…) đến tập khách hàng đang có

nhu cầu. Ví dụ: Khách hàng đang dùng các dòng thiết bị đời thấp

không hỗ trợ sử dụng data. Khi khách hàng có hành vi thực hiện đổi

máy điện thoại sang sử dụng smart phone, ngay lập tức nhà mạng

phát hiện được thông tin và đưa ra chương trình khuyến mại do dùng

thử data miễn phí, tạo ra khách hàng data mới, mang lại nguồn doanh

thu mới.

- Tăng doanh thu bán chéo, bán thêm các dịch vụ, nâng hiệu quả của

các chiến dịch truyền thông. Ví dụ: Từ dữ liệu thông tin khách hàng

cũ đã đang sử dụng dịch vụ internet, nhà mạng phân tích dữ liệu và

thực hiện truyền thông và đề xuất khuyến mại các gói cước truyền

hình internet.

Nhóm bài toán này giải quyết bằng nhiều kỹ thuật khác nhau như luật

liên kết, phân loại tự động, gom cụm tự động. Insani và Soemitro [13] áp

10

dụng kỹ thuật luật liên kết để xác định các nhóm dịch vụ phổ biến hay đi cùng

nhau để đưa ra các gói chiến dịch truyền thông phù hợp với nhu cầu của

khách hàng, các khách hàng có cùng tập luật hoặc đã từng mua các sản phẩm

nằm trong trong luật se được gợi ý các sản phẩm tương ứng. Russell và

Lodwick [21] sử dụng phương pháp gom cụm mờ để phân tích các khách

hàng sẵn có của nhà mạng, qua đấy các đặc trưng nổi trội đại diện cho hành vi

của nhóm thuê bao hay dịch vụ se được thể hiện qua các cụm cụ thể. Các

chiến dịch truyền thông se tìm kiếm các thuê bao có đặc trưng tương tự với

các đặc trưng nổi trội nhằm tăng tỷ lệ chuyển đổi.

e) Dự đoán giá trị thuê bao

Nắm bắt được mức tiền tiêu dùng của khách hàng cho mỗi loại dịch vụ

có nghĩa hết sức quan trọng trong việc đưa ra các chương trình chăm sóc và

giữ chân khách hàng, vì vậy nhà mạng muốn biết khách hàng đã đóng góp

(tiêu dùng) giá trị như thế nào đối với dịch vụ trong N năm tới (3-5 năm).

Dựa trên giá trị dự đoán có thể biết được mức độ tiêu dùng dịch vụ viễn thông

của khách hàng là bao nhiêu, qua đấy đưa đến cho khách hàng những dịch vụ

phù hợp với nhu cầu tại thời điểm đấy, giúp tăng doanh thu và giữ chân được

khách hàng tiềm năng [14, 20].

Mục đích:

- Từ dữ liệu lịch sử sử dụng dịch vụ của khách hàng, xác định giá trị

của một khách hàng để bán thêm các dịch vụ khách hàng. Ví dụ:

Khách hàng VIP thường xuyên có mức tiêu dùng cao hàng tháng

trung bình 500.000. Cần có chương trình chăm sóc đặc biệt để giữ

chân khách hàng.

- Tăng doanh thu tiêu dùng gốc bằng cách xác định được giá trị thuê

bao, tập trung chăm sóc và hỗ trợ khàng hàng theo quy luật 20 – 80.

20 % số lượng khách hàng lớn nhất đem lại 80% doanh thu cho nhà

mạng.

Để giải quyết bài toán dự đoán giá trị thuê bao có hai hướng tiếp cận

chính là sử dụng kỹ thuật hồi quy và gom cụm phân tích tiêu dùng. Wang và

các cộng sự [14] áp dụng kỹ thuật mạng neural vào việc dự đoán giá trị mang

lại của khách hàng trong lĩnh vực viễn thông, mô hình sử dụng các biến dữ

11

liệu liên quan đến các đặc trưng liên quan đến tỷ lệ tăng trưởng, tỷ lệ rời dịch

vụ, tỷ lệ giữ chân khách hàng để đưa ra mô hình dự đoán giá trị mang lại của

thuê bao. Độ chính xác của mô hình dự đoán đạt 96.5% trên tập dữ liệu 12005

bản ghi. Kim và các cộng sự [20] sử dụng kỹ thuật gom cụm để gom nhóm

các thuê bao thành các tập dữ liệu có cùng nhóm giá trị, việc gom cụm dựa

trên các tiêu chí về giá trị mang lại, giá trị tiềm năng và độ trung thành của

thuê bao. Kết quả dự đoán được sinh ra theo từng cụm và là kết quả phân tích

chi tiết dựa trên mỗi cụm.

1.4 Lựa chọn bài toán

Trong phạm vi của luận văn, học viên lựa chọn giải quyết bài toán dự

đoán khách hàng tiềm năng cho các gói cước trong mạng di động, đây là

một bài có tính thời sự đối với các công ty viễn thông nói chung và với Tập

đoàn Công nghiệp – Viễn thông Quân đội Viettel nói riêng. Việc giải quyết

được bài toán với độ chính xác cao se giúp tăng doanh thu và tiết kiệm chi phí

trên nhiều mảng khác nhau như:

- Doanh thu gói cước thoại

- Doanh thu gói cước sms

- Doanh thu gói cước data

- Doanh thu gói VAS

- Tiêu dùng gốc

- Giảm chi phí truyền thông

- Tránh gây khó chịu/làm phiền với thuê bao

- Giảm thuê bao rời dịch vụ

- Tăng tính trung thành của thuê bao

Bên cạnh yếu tố ứng dụng thì đây cũng là một bài toán có tính nghiên

cứu cao khi phải xử lý và phân tích một lượng dữ liệu lớn với độ mất cân

bằng cao về mặt phân bố giữa các lớp khác nhau.

Trong chương tiếp theo luận văn đi sâu vào việc phát biểu bài toán và

mô tả các kỹ thuật nhằm giải quyết bài toán.

12

Chương 2: Bài toán dự đoán khách hàng tiềm

năng

2.1 Phát biểu bài toán dự đoán khách hàng tiềm năng

Tại Việt Nam, doanh thu mang lại chủ yếu cho các nhà mạng là từ việc

bán các gói cước viễn thông như gói cước thoại, dữ liệu, tin nhắn, chỉ cần

10% số lượng thuê bao đăng ky mua một gói cước thì doanh thu mang lại

cũng lên đến hàng trăm tỷ đồng mỗi tháng cho nhà mạng. Việc tăng số lượng

người mua gói cước là mục tiêu quan trọng trong chiến lược kinh doanh của

mỗi một nhà mạng viễn thông, tuy nhiên việc tiếp cận các khách hàng đúng

mục tiêu, đúng thời điểm, không làm phiền là một bài toán phức tạp đòi hỏi

việc phân tích chuyên sâu từ các kỹ thuật khai phá dữ liệu. Với các phân tích

trên học viên đã lựa chọn bài toán dự đoán khách hàng tiềm năng cho các gói

cước là chủ đề nghiên cứu chính của luận văn. Bài toán này được phát biểu cụ

thể như sau:

Đầu vào:

- Thông tin của khách hàng bao gồm thông tin nhân khẩu học và thông

tin hành vi sử dụng dịch vụ viễn thông như số lượng cuộc gọi, tiêu

dùng hàng tháng, vị trí phát sinh cước nhiều nhất,…

- Danh sách các gói cước viễn thông

Đầu ra:

- Mô hình khai phá dự đoán khách hàng có phải là khách hàng tiềm

năng hay không

Trong mô tả về bài toán trong mục 1.3.a, bài toán có hai hướng tiếp cận

giải quyết bài toán chính là phân lớp dữ liệu và luật liên kết [17, 19]. Hướng

tiếp cận dựa trên phân lớp tận dụng tốt hơn các thông tin chi tiết của thuê bao

khi đi sâu vào việc phân tích nhu cầu của khách hàng dựa trên các yếu tố về

nhân khẩu học và hành vi sử dụng dịch vụ viễn thông, trong khi hướng tiếp

cận luật liên kết chỉ sử dụng các đặc trưng về sự tương quan của các dịch vụ.

Qua các phân tích trên luận văn đánh giá hướng tiếp cận dựa trên phân lớp

phù hợp với phát biểu của bài toán hơn là tiếp cận còn lại. Luận văn se giải

13

quyết bài toán này dưới dạng một bài toán phân loại dữ liệu đa lớp đơn nhãn,

với đầu ra se là nhãn gói cước phù hợp nhất với khác hàng.

Trong phần tiếp theo luận văn, học viên se giới thiệu một số kỹ thuật

phân lớp dữ liệu kinh điển thường được sử dụng trong các bài toán phân loại

dữ liệu viễn thông.

2.2 Phương pháp cây quyết định

Học bằng cây quyết định là phương pháp học có giám sát. Quá trình học

chính là quá trình xây dựng một cây định hướng. Nút gốc và mỗi nút trong

cây se được dán một nhãn có giá trị là một từ có trong tài liệu và mỗi nhánh

xuất phát từ chúng được dán một nhãn tương ứng với giá trị của từ đó trong

tài liệu. Các lá được dán nhãn là giá trị phân loại mà ta cần thu được. Cây

quyết định được xây dựng bằng cách sử dụng chiến lược “chia để trị”. Mỗi

nút trong của cây được liên kết với một tập các trường hợp. Mỗi nút se tương

ứng với một tập các ví dụ học. Gốc là toàn bộ dữ liệu học.

Hinh 3: Ví dụ mô tả cây quyết định

Giải thuật học dựa trên cây quyết định hoạt động trên tập dữ liệu được

biểu diễn bằng các giá trị rời rạc, trong trường hợp dữ liệu được biểu diễn

bằng các thuộc tính có giá trị liên tục thì ta cần thực hiện các bước rời rạc

hóa. Các giải thuật phần lớn đều áp dụng cách tiếp cận tham ăn để xây dựng

cây theo chiều từ trên xuống. Tập dữ liệu huấn luyện se được chia thành các

tập nhỏ hơn trong quá trình xây dựng cây chia để trị.

14

Dưới đây là mã giả của thuật toán xây dựng cây quyết định được lấy

nguồn từ tài liệu [2].

Bảng 1: Thuật toán xây dựng cây quyết định

Thuật toán xây dựng cây quyết định

Đầu vào: Tập D chứa dữ liệu huấn luyện attribute_list chứa danh sách

các thuộc tính ứng cử

Đầu ra: Cây quyết định Generate_decision_tree(D, attribute_list)

1. Tạo một nút gốc N cho cây quyết định

2. If toàn bộ dữ liệu trong D đều thuộc lớp C, return nút N là nút lá có

nhãn C

3. If attribute_list là rỗng, return nút N với nhãn là lớp xuất hiện nhiều

nhất trong D

4. splitting_attribute = attribute_selection_method(D, attribute_list)

Tìm thuộc tính phân chia tốt nhất

5. Gán cho nút N nhãn là splitting_attribute

6. attribute_list ← attribute_list \ {splitting_attribute} (loại bỏ thuộc tính

splitting_attribute khỏi attribute_list)

7. For each giá trị j của thuộc tính splitting_attribute

7.1. Gọi Dj là tập chứa các phần tử dữ liệu mà thuộc tính

splitting_attribute có giá j

7.2. If Dj là rỗng thì thêm một nút là Nj cho nút N có nhãn là nhãn phổ

biến nhất xuất hiện trong D

7.3. Else gắn cây trả về bởi Generate_decision_tree(D, attribute_list)

vào nút N

8. return N

15

Điểm quan trọng nhất trong giải thuật xây dựng cây quyết định phía

trên là hàm lựa chọn thuộc tính tốt nhất để phân chia dữ liệu. Có một số độ đo

được dùng để đánh giá “chất lượng” của các thuộc tính.

Sau khi xây dựng cây, cây này có thể chứa nhiều nhánh phản ánh sự

bất thường của dữ liệu huấn luyện. Điều này se gây ra hệ quả là hiện tượng

cây thu được phù hợp trội (overfitting). Để giải quyết vấn đề này, ta có thể sử

dụng phương pháp tỉa cây để loại bỏ đi các nhánh ít tin cậy nhất.

2.3 Phương pháp SVM

Giải thuật máy vector hỗ trợ (SVMs) được giới thiệu bởi Vapnik và

cộng sự [5], dựa trên nguyên lý cực tiểu hóa rủi ro cấu trúc (Structural Risk

Minimization) trong lý thuyết thống kê. SVMs rất hiệu quả để giải quyết các

bài toán với dữ liệu có số chiều lớn như các vector biểu diễn văn bản. Ban

đầu, SVMs chỉ được thiết kế để giải quyết các bài toán phân lớp nhị phân.

Hiện nay, SVMs được đánh giá là bộ phân lớp chính xác nhất cho bài toán

phân lớp văn bản.

Xét bài toán phân lớp văn bản thành các lớp mẫu dương và mẫu âm:

D = {(xi, yi) i = 1, 2,…, N, xi Rn, y = 1 }

Trong đó mẫu là các vector đối tượng được phân lớp thành các mẫu

dương và âm:

- Các mẫu dương là các mẫu xi được gán nhãn yi = 1

- Các mẫu âm là các mẫu xi được gán nhãn yi = -1

Thực chất phương pháp này là một bài toán tối ưu, mục tiêu là tìm ra

siêu phẳng quyết định H sao cho sai số phân lớp là thấp nhất. Trong trường

hợp này, tập phân lớp SVMs là mặt siêu phẳng phân tách các mẫu dương

khỏi các mẫu âm với độ chênh lệch cực đại, trong đó độ chênh lệch – còn gọi

là Lề (margin) xác định bằng khoảng cách giữa các mẫu dương và các mẫu

âm gần mặt siêu phẳng nhất. Mặt siêu phẳng này được gọi là mặt siêu phẳng

lề tối ưu.

Một siêu phẳng trong không gian có thể được biểu diễn như sau: w.x + b

= 0 trong đó w là vector trọng số, w = (w1, w2,…, wn) với n là số đặc trưng, b

là độ lệch.

16

Bộ phân lớp SVMs được định nghĩa như sau: f(x) = sign(w.x + b)

Trong đó:

sign(x) = 1 nếu x 0

sign(x) = -1 nếu x < 0

Nếu f(x) = 1 thì x thuộc về lớp dương, ngược lại nó thuộc về lớp âm.

Khoảng cách từ mỗi điểm trong tập mẫu đến siêu phẳng bằng:

Mi = ||

).(

w

bw xy ii

Suy ra lề của siêu phẳng là

M = i

min Mi = i

min||||

).(

w

bw xy ii

Các vector nằm trên hai siêu phẳng H1 và H2 song song với siêu phẳng

H và cách một khoảng M gọi là vector hỗ trợ (support vector).

Hinh 4: Siêu phẳng H chia dữ liệu huấn luyện thành 2 lớp với khoảng

cách biên lớn nhất (các điểm gần H nhất nằm trên H1 và H2 là vector hỗ

trợ).

Bài toán tìm siêu phẳng có lề lớn nhất có thể phát biểu như một bài

toán tối ưu hóa Mbw ,,

max M với các ràng buộc ).( bw xy ii M||w||, i = 1,…, N

17

Một số hàm nhân thường dùng như:

- RBF Kernel: k(xi, xj) = exp(

2

2

2

|||| xx ji )

- Kernel tuyến tính: k(xi, xj) = xi.xj

- Kernel đa thức: k(xi, xj) = (xiTxj + c)d

2.4 Phương pháp kNN (k người láng giếng gần nhất)

Đối với bài toán học có giám sát, có một phương pháp cục bộ đơn giản

để phân lớp đó là dùng quy tắc k – láng giềng gần nhất.

Giả sử ta có tập mẫu đã biết nhãn là D và số k cho trước. Với mỗi mẫu

đặc trưng x thuộc D, ta tìm k đối tượng trong D gần với nó nhất và gán nhãn

của lớp có nhiều phần tử nhất trong k đối tượng này. Phương pháp kNN tuy

đơn giản về giải thuật nhưng lại đòi hỏi chi phí tính toán cao.

Hình 2 được lấy từ tài liệu [1], mô tả việc áp dụng quy tắc kNN trên một

không gian đặc trưng 2 chiều với k=5 để gán nhãn cho điểm x.

Hinh 5: Quy tắc k-NN trên không gian đặc trưng 2-chiều với k=5.

2.5 Phương pháp ghép nối các mô hình học máy

Phương pháp lai ghép các mô hình từ lâu đã nhận được nhiều quan tâm

từ cộng đồng nghiên cứu. Có khá nhiều tác giả đã sử dụng phương pháp này

18

cho các nghiên cứu nhằm giải quyết và cải thiện chất lượng bài toán của họ,

chẳng hạn [6, 7, 8, 9]

Liên quan tới việc áp dụng phương pháp lai ghép cho bài toán phân

lớp, nhóm các tác giả Wei Wu, Zheng Liu và Yan He đã sử dụng phương

pháp này cho bài toán phân loại lỗi của đường ống xử ly nước thải một cách

tự động [2]. Trong công trình này, nhóm tác giả đã chứng minh tính hiệu quả

của việc sử dụng phương pháp kết hợp bốn mô hình: AdaBoost, Rừng ngẫu

nhiên (Random Forest), Rừng xoay (Rotation Forest), và RotBoost trong bài

toán phát hiện tự động lỗi có thể thay thế sức người. Michiel van Wezel cùng

cộng sự [14] đưa ra cách cải thiện bài toán dự đoán trong các lựa chọn của

khách hàng sử dụng phương pháp lai ghép. Sajid Yousuf Bhat cùng cộng sự

[20] thì sử dụng phương pháp này cho bài toán phát hiện thư rác. Trong bài

báo này, tác giả đánh giá việc thực hiện một số phương pháp học kết hợp sử

dụng đặc điểm cấu trúc dựa vào nội dung của thư nhằm phát hiện thư rác trên

các trang mạng xã hội trực tuyến. Các tác giả đánh giá hiệu suất của ba bộ

phân loại bao gồm J48 (cây quyết định), IBK (kNN sử dụng k = 5 hàng xóm

gần nhất), và NaïveBayes sau đó sử dụng các kỹ thuật bagging, boosting và

stacking để đánh giá hiệu quả.

Đánh giá kết quả thu được, các học viên nhận xét rằng việc kết hợp

các bộ phân loại hỗ trợ rất nhiều trong việc cải thiện chất lượng bài toán

xác định ý định người dùng.

2.6 Phương pháp đánh giá

Việc đánh giá các thuật toán phân lớp thường sử dụng độ chính xác, độ

hồi tưởng, độ đo F-score (F1) để tính hiệu năng của mô hình học máy, trong

luận văn này các độ đo này cũng được sử dụng để đánh giá mô hình, cụ thể:

Độ hồi tưởng (Recall): Số dữ liệu do mô hình dự đoán đúng / Tổng số

dữ liệu thực tế.

Độ chính xác (Precision): Số dữ liệu do mô hình dự đoán đúng / Tổng số

dữ liệu do mô hình dự đoán ra.

F-score (F1): Độ đo hài hòa giữa độ chính xác và độ hồi tưởng.

19

Công thức: F1 = Recall +Precision

Recall ×Precision × 2

Phương pháp thường được sử dụng để đánh giá là kiểm thử chéo (cross

validation). Phương pháp này tiến hành chia ngẫu nhiên tập dữ liệu thành N

phần bằng nhau, mỗi một thực nghiệm se tiến hành học trên N-1 phần và

đánh giá mô hình học trên phần còn lại. Kết quả cuối cùng se được thống kê

từ N thực nghiệm ở trên.

20

Chương 3: Mô hình đề xuất

3.1 Mô hình đề xuất

Chương 2 đã trình bày các kiến thức cơ bản về các phương pháp khai

phá dữ liệu nhằm tiếp cận để giải quyết các bài toán phân tích dữ liệu viễn

thông. Tiếp thu các nghiên cứu đã có, luận văn đưa ra cách tiếp cận dựa trên

phân lớp dữ liệu để giải quyết bài toán dự đoán khách hàng tiềm năng cho các

gói cước trong mạng di động. Kỹ thuật được đề xuất dựa trên việc kết hợp

nhiều phương pháp học máy (ensemble models) cũng như việc trích xuất các

đặc trưng nổi trội cho các hành vi tiêu dùng viễn thông nhằm làm tăng độ

chính xác của mô hình dự đoán. Đây là một kỹ thuật cho phép kết quả mô

hình có thể tận dụng được các ưu điểm của các mô hình phân lớp thành phần

để cho ra hiệu quả tốt hơn so với các bộ phân lớp thành phần. Tương tư như

trong các nghiên cứu của Almana và các công sự [4] cũng như luận án của Li

[17] các bộ phân lớp thành phần cũng sử dụng các kỹ thuật kinh điển như

phân loại sử dụng cây quyết định, SVM và kNN. Mô hình phân loại được

thực hiện theo mô hình truyền thống gồm bước huấn luyện mô hình và kiểm

thử mô hình.

Hinh 6: Mô hình dự đoán khách hàng tiềm năng cho các gói cước

21

Mô hình đề xuất bao gồm hai pha chính:

- Pha huấn luyện mô hình: thực hiện việc huấn luyện mô hình dự đoán

nhóm khách hàng tiềm năng bằng các kỹ thuật học máy là SVM, cây

quyết định và kNN (k người láng giềng gần nhất).

- Pha kiểm thử mô hình: pha này thực hiện việc kiểm chứng hiệu quả

của mô hình, dữ liệu kiểm thử được đưa qua các mô hình dự đoán,

kết quả dự đoán của 3 thuật toán SVM, cây quyết định và kNN se

được kết hợp bằng kỹ thuật bình chọn (voting) cho ra kết quả dự

đoán cuối cùng.

3.2 Tập dữ liệu và tiền xử lý dữ liệu

Tập dữ liệu gồm 40.122 thuê bao, dữ liệu được thu thập trong 6 tháng từ

tháng 5/2018 đến tháng 10/2018, dữ liệu bao gồm 5 bảng cơ sở dữ liệu thô

với tổng số dữ liệu hơn 1 triệu dữ liệu thô được mô tả theo các trường cụ thể

trong bảng 2 dưới đây.

Bảng 2: Mô tả các trường của tập dữ liệu thuê bao

STT Trường thông tin Mô tả

A VOICE OUT Dữ liệu gọi điện

1 isdn Số thuê bao

2 from_phone_number Số điện thoại gọi thực hiện cuộc gọi

3 to_phone_number Số điện thoại nhận cuộc gọi

4 start_time Thời gian bắt đầu gọi

5 call_duration Số giây gọi

6 imei Mã định danh của máy điện thoại

7 cell_id_cl Thông tin trạm phát sóng nơi thuê bao đang

gọi hoặc nhận cuộc gọi

B CELL Thông tin các trạm

1 cell_id Mã trạm

2 province_name Tên tỉnh

22


3 district_name Tên quận, huyện

C VAS PRE Dữ liệu VAS


2 vas_service Dịch vụ VAS đăng ky

3 sta_datetime Thời gian bắt đầu đăng ky

4 tot_charge Tổng số cước đã thu đối với dịch vụ

5 description Mô tả

D TIEUDUNG PRE Dữ liệu tiêu dùng của thuê bao trả trước

1 thang_tieudung Tuổi đời thuê bao tính theo tháng


3 tong_tdg Tổng tiêu dùng trong tháng

4 tdg_thoai Tổng tiêu dùng thoại

5 tdg_sms Tổng tiêu dùng sms

6 tdg_vas Tổng tiêu dùng VAS

7 tdg_data Tổng tiêu dùng dữ liệu data

E TIEUDUNG POST Dữ liệu tiêu dùng của thuê bao trả sau

1 thang_tieudung Tuổi đời thuê bao tính theo tháng


3 tongpsinh Tổng cước phát sinh trong tháng

4 tongps_tru_kmdc Tổng cước phát sinh trong tháng trừ khuyến

mại

5 tdg_sms Tổng tiêu dùng thoại

6 tdg_thoai Tổng tiêu dùng sms

7 tdg_vas Tổng tiêu dùng VAS

23


8 tdg_data Tổng tiêu dùng dữ liệu data

Nhãn của bài toán dự đoán tương ứng với nhãn product_code gồm 163

tên các gói cước viễn thông. Do có 153 gói cước có số lượng thuê bao đăng

ký thấp (nhỏ hơn 700 thuê bao), học viên tiến hành loại bỏ các gói cước có số

lượng thấp, dữ liệu còn 31.122 dữ liệu thuê bao với 10 nhóm gói cước.

Phân bố các gói cước được mô tả trong hình dưới đây:

Hinh 7: Phân bố gói cước trong tập dữ liệu

Bảng 3: Mô tả các gói cước là nhãn dự báo

STT Gói cước Chính sách

1 TOM690

Gói cước Tom690 dành cho khách hàng ít di chuyển ra

khỏi địa bàn tỉnh/TP, với mức phí 690đ/phút - rẻ hơn

40% so với gói cước thông thường.

Cước phí được tính theo phạm vi tỉnh (zone tỉnh) và

không phân biệt giá cước nội mạng hay ngoại mạng.

*Lưu y: giá cước áp dụng cho thuê bao hòa mạng mới

7513

4429 44093367 3365 2840

21851528

768 7180

1000

2000

3000

4000

5000

6000

7000

8000

PHÂN BỐ GÓI CƯỚC

24


2 TOM50

Gói cước Tomato là gói cước đại chúng nhất của

Viettel, đặc biệt dành cho nhóm khách hàng mong

muốn sử dụng điện thoại di động nhưng ít có nhu cầu

gọi mà nghe là chủ yếu. Gói cước không giới hạn thời

gian sử dụng, với mức cước hàng tháng bằng không.

Giá cước

- Giá cước thoại nội: 1590đ/p

- Giá cước thoại ngoại: 1790đ/p

- Giá cước SMS nội: 200đ/sms

- Giá cước SMS ngoại: 250đ/sms

3 TOM11






Giá cước





4 POBAS

Gói cước Basic+ là gói cước trả sau thông dụng của

Viettel dành cho cá nhân.

- Giá cước gọi nội mạng: 890 đ/phút

- Giá cước gọi ngoại mạng: 990 đ/phút

- Giá cước nhắn tin nội mạng: 300 đ/tin

- Giá cước nhắn tin ngoại mạng: 350 đ/tin

25


5 EXSTUDENT

Gói cước sinh viên là gói cước trả trước dành riêng cho

các thuê bao sinh viên của Viettel với những ưu đãi đặc

biệt và vô cùng hấp dẫn:

- Cộng 25.000đ/ tháng trong suốt thời sinh viên khi

thuê bao có tiêu dùng data tối thiểu 10.000đ trong tháng

liền trước

- Miễn phí tất cả các cuộc gọi dưới 10 phút (tối đa

1.000 phút/30 ngày) giữa các thuê bao trong cộng đồng

(là các thuê bao có đăng ky tính năng cộng đồng Sinh

viên).

- Data MimaxSV siêu khủng: chỉ 50.000đ có ngay 3GB

tốc độ cao trong 30 ngày. Hết lưu lượng tốc độ cao,

truy cập tốc độ thông thường. Soạn MIMAXSV gửi

191,bấm gọi *098# hoặc truy cập My Viettel.

- Giảm ngay 20.000đ khi đăng ky các gói data:

Mimax70, Mimax90, Mimax125, Mimax200,

Umax300. (Ngừng áp dụng giảm 20.000đ gói Umax300

cho thuê bao kích hoạt mới từ ngày 15/11/2018).

- Ưu đãi theo ngày – đăng ky KMSV5 chỉ 5.000đ/ngày

có 300SMS nội mạng, 300MB data và gọi nội mạng

giảm còn 300đ/phút. Soạn KMSV5 gửi 109, bấm gọi

*098# hoặc truy cập My Viettel.

6 ECO50

Economy là gói cước trả trước đơn giản, thuận tiện và

dễ sử dụng nhất của Viettel Telecom. Gói cước

Economy có cước thoại thấp, dành cho khách hàng cá

nhân gọi nhiều với mức sử dụng dưới 150.000 đ/tháng.

Giá cước:

- Giá cước thoại nội: 1.190 đ/p

- Giá cước thoại ngoại: 1.390 đ/p


- Giá cước SMS ngoại: 350đ/sms.

26


7 TOMA1






Giá cước





8 TOMCD






Giá cước





9 ECD50

Economy là gói cước trả trước đơn giản, thuận tiện và

dễ sử dụng nhất của Viettel Telecom. Gói cước

Economy có cước thoại thấp, dành cho khách hàng cá

nhân gọi nhiều với mức sử dụng dưới 150.000 đ/tháng.

Giá cước:

- Giá cước thoại nội: 1.190 đ/p

- Giá cước thoại ngoại: 1.390 đ/p


- Giá cước SMS ngoại: 350đ/sms.

27


10 ECOM1






Giá cước





3.3 Tiền xử lý và trích xuất đặc trưng

Dữ liệu thô từ nhiều bảng dữ liệu được tổng hợp thành 37 trường thông

tin tương ứng với từng thuê bao.

Bảng 4: Bảng danh sách các trường thông tin tổng hợp kết quả

STT Thông tin Mô tả

1 sta_date Ngày bắt đầu sử dụng dịch vụ

2 product_code Mã dịch vụ

3 isdn_length Loại số thuê bao (10 hoặc 11 số)

4 type Loại thuê bao (trả trước/trả sau)

5 arpu_active_months Số tháng phát sinh cước

6 voice_cellId_mostCommon Danh sách các tọa độ phát sinh

cước nhiều nhất trong 6 tháng

7 arpu_tong_tdg_t1 Tổng tiêu dùng gốc trong tháng

5/2018


6/2018


28


7/2018


8/2018


9/2018


10/2018

13 arpu_tdg_thoai_t1 Tiêu dùng cước thoại trong tháng

5/2018


6/2018


7/2018


8/2018


9/2018


10/2018

19 arpu_tdg_sms_t1 Tiêu dùng cước sms trong tháng

5/2018


6/2018


7/2019


8/2018

29



9/2018


10/2018

25 arpu_tdg_vas_t1 Tiêu dùng cước VAS trong tháng

5/2018


6/2018


7/2018


8/2018


9/2018


10/2018

31 arpu_tdg_data_t1 Tiêu dùng cước dữ liệu trong tháng

5/2018


6/2018


7/2018


8/2018


9/2018


30


10/2018

37 product_code Mã gói cước đăng ky của thuê bao

Dữ liệu sau khi tổng hợp se được xử ly qua hai bước chính:

- Tiền xử lý dữ liệu:

o Thực hiện việc tổng hợp dữ liệu

o Loại bỏ các dữ liệu nhiễu (thiếu giá trị, sai số liệu)

o Chuẩn hóa các trường thời gian thành giá trị theo tháng

o Chuẩn hóa danh sách địa điểm về các mã tỉnh thành, quận

huyện

o Biến đổi dữ liệu qua xử lý về thành định dạng chuẩn.

- Trích xuất đặc trưng:

o Trích xuất các nhóm đặc trưng vị trí của thuê bao, qua đấy phát

hiện các hành vi của thuê bao như nơi làm việc, nơi sinh sống,

có công việc ổn định hay không,…

o Trích xuất các nhóm đặc trưng theo các mức dữ liệu (binning)

như thấp, trung bình, cao

o Chuẩn hóa các dải giá trị về biên độ 0-1 bằng thuật toán Min-

Max

o Sinh ra vector đặc trưng

Hinh 8: Lược đồ xử lý dữ liệu và trích xuất đặc trưng

31

Từ dừ liệu tổng hợp, học viên tiến hành trích xuất các đặc trưng đại diện

cho các thuê bao, số lượng đặc trưng được trích xuất là 381 đặc trưng được

chia vào các nhóm đặc trưng như sau:

Bảng 5: Bảng danh sách các nhóm đặc trưng được trích xuất

STT Mô tả

1 Thời điểm bắt đầu sử dụng SIM

2 Đầu số 10 số hay đầu số 11 số

3 Loại thuê bao trả trước hay trả sau

4 Tuổi của thuê bao theo tháng

5 Số tháng phát sinh cước

6 Các đặc trưng nơi phát sinh cước nhiều số 1, số 2, số 3 trong 6 tháng

7 Các đặc trưng tổng tiêu dùng trong tháng t1 đến t6

8 Các đặc trưng tổng tiêu dùng thoại trong tháng t1 đến t6

9 Các đặc trưng tổng tiêu dùng sms trong tháng t1 đến t6

10 Các đặc trưng tổng tiêu dùng vas trong tháng t1 đến t6

11 Các đặc trưng tổng tiêu dùng data trong tháng t1 đến t6

12 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất sau khung giờ

hành chính trong tháng t1 đến t6 mức quận

13 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trước khung giờ


14 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trong khung giờ


15 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi sáng trong

tháng t1 đến t6 mức quận

16 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi chiều trong

tháng t1 đến t6 mức quận

17 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất khung giờ nghỉ

32

STT Mô tả

trong ngày làm việc trong tháng t1 đến t6 mức quận

18 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất sau khung giờ

hành chính trong tháng t1 đến t6 mức tỉnh thành

19 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trước khung giờ


20 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trong khung giờ


21 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi sáng trong

tháng t1 đến t6 mức tỉnh thành

22 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi chiều trong

tháng t1 đến t6 mức tỉnh thành

23 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất khung giờ nghỉ

trong ngày làm việc trong tháng t1 đến t6 mức tỉnh thành

24 Các đặc trưng tổng tiêu dùng trong 6 tháng

25 Các đặc trưng tổng tiêu dùng trong 6 tháng phân theo mức

26 Các đặc trưng mức tăng hoặc giảm của tháng t so với t-1

33

Chương 4: Thực nghiệm và đánh giá

4.1 Môi trường và các công cụ thực nghiệm

Để xây dựng các mô hình được đề xuất trong chương 3, học viên sử

dụng công cụ khai phá dữ liệu Knime. Đây là một công cụ khai phá dữ liệu

được viết trên nền ngôn ngữ lập trình Java và có giao diện trực quan, hỗ trợ

khá nhiều các kỹ thuật xử lý dữ liệu cũng như khai phá dữ liệu được tích hợp

sẵn. Các bước xử lý của một quy trình khai phá dữ liệu se được biểu diễn bởi

một đồ thị có hướng, người dùng se kéo thả các thành phần xử lý dữ liệu và

cấu hình tham số cho các thành phần này qua các giao diện tùy biến.

Hinh 9: Giao diện công cụ khai phá dữ liệu Knime

Các bảng dưới đây là mô tả các phiên bản phần mềm được sử dụng và

môi trường thực nghiệm.

Bảng 6: Các công cụ thực nghiệm

STT Phần mềm Ý nghĩa Phiên bản Nguồn

1 Knime Môi trường thử

nghiệm

4.1.0 https://www.knime.com/

2 Java Ngôn ngữ lập trình 1.8.231 https://www.java.com/

34

Bảng 7: Môi trường thực nghiệm

STT Phần cứng Nguồn

1 CPU Intel Core i5-8250U 1.60GHz

2 RAM 4GB

3 Ổ cứng 1TB HDD

4 Hệ điều hành Windows 10 64bit

4.2 Kịch bản thực nghiệm

Luận văn thực hiện 4 kịch bản thực nghiệm: thực nghiệm đánh giá kết

quả phân loại dựa trên cây quyết định, thực nghiệm đánh giá kết quả phân

loại dựa trên kNN, thực nghiệm đánh giá dựa trên thuật toán SVM và thực

nghiệm kết hợp cả 3 mô hình trên. Các thực nghiệm được đánh giá trên cùng

tập dữ liệu với phương pháp kiểm thử chéo 10-folds và phương pháp đánh giá

là độ chính xác, độ hồi tưởng và độ đo F.

Các tham số của thực nghiệm được lựa chọn thông qua nhiều thực

nghiệm thay đổi tham số, kết quả được đưa ra trong các mục 4.3 là các tham

số đạt kết quả tốt nhất.

4.3 Kết quả thực nghiệm và đánh giá

a) Thực nghiệm đánh giá kết quả phân loại sử dụng thuật toán kNN

Thực nghiệm sử dụng thuật toán kNN được đánh giá thông qua kỹ thuật

kiểm thử chéo 10 folds, với tham số k được thử từ 1 đến 20, các độ đo đánh

giá sự tương tự là độ đo Cosine và độ đo Euclidean. Qua các kết quả thực

nghiệm thay đổi tham số, thực nghiệm với k=11 và độ đo sự tương tự là

Cosine cho kết quả tốt nhất với độ micro-F là 0.43.

Bảng 8: Kết quả thực nghiệm sử dụng thuật toán kNN

TẬP

MẪU

SỐ

LIỆU

ĐÚNG

MÁY DỰ

ĐOÁN

ĐƯỢC

ĐỘ

CHÍNH

XÁC

ĐỘ HỒI

TƯỞNG

KẾT

QUẢ

TOM50 7513 3456 9095 0.38 0.46 0.42

35

TẬP

MẪU

SỐ

LIỆU

ĐÚNG

MÁY DỰ

ĐOÁN

ĐƯỢC

ĐỘ

CHÍNH

XÁC

ĐỘ HỒI

TƯỞNG

KẾT

QUẢ

TOM11 4429 1506 3673 0.41 0.34 0.37

POBAS 4409 1984 2961 0.67 0.45 0.54

EXSTUDENT 3367 1044 1933 0.54 0.31 0.39

ECO50 3365 1750 2612 0.67 0.52 0.59

TOM690 2840 1278 5325 0.24 0.45 0.31

TOMA1 2185 1093 2023 0.54 0.50 0.52

TOMCD 1528 779 2361 0.33 0.51 0.40

ECD50 768 361 612 0.59 0.47 0.52

ECOM1 718 230 527 0.44 0.32 0.37

MACRO-F 0.48 0.43 0.46

MICRO-F 0.43

Kết quả thực nghiệm đạt macro-F là 0.46 và micro-F1 là 0.43 cho thấy

sự chênh lệch là không lớn cho thấy dữ liệu mặc dù có sự mất cân bằng giữa

các lớp là khá lớn (lớp thấp nhất là ECOM1 với 718 dữ liệu với lớp cao nhất

là TOM50 với 7513 dữ liệu, tỷ lệ 1/10) nhưng không gây ra ảnh hưởng cao.

Kết quả tốt nhất đạt ở lớp ECO50 với F là 0.59, độ chính xác tốt nhất là lớp

ECO50 và POBAS 0.67, độ hồi tưởng tốt nhất là lớp ECO50. Hầu hết độ

chính xác thường tốt hơn độ hồi tưởng đối với từng lớp.

b) Thực nghiệm đánh giá kết quả phân loại sử dụng thuật toán SVM

Trong thực nghiệm này, luận văn tiến hành thực nghiệm với thuật SVM

với các tham số thay đổi là C trong ngưỡng 0.1 đến 10, gamma trong ngưỡng

0.1 đến 10, nhân thử nghiệm là RBF. Qua các kết quả thực nghiệm cho thấy

với C=1 và gamma=0.8 cho kết quả tốt nhất với micro-F là 0.57.

Bảng 9: Kết quả thực nghiệm sử dụng thuật toán SVM

36

TẬP

MẪU

SỐ

LIỆU

ĐÚNG

MÁY DỰ

ĐOÁN

ĐƯỢC

ĐỘ

CHÍNH

XÁC

ĐỘ HỒI

TƯỞNG

KẾT

QUẢ

TOM50 7513 4376 8549 0.51 0.58 0.54

TOM11 4429 3452 5347 0.65 0.78 0.71

POBAS 4409 2316 3124 0.74 0.53 0.61

EXSTUDENT 3367 1594 2971 0.54 0.47 0.50

ECO50 3365 1864 2547 0.73 0.55 0.63

TOM690 2840 1755 3209 0.55 0.62 0.58

TOMA1 2185 1296 2047 0.63 0.59 0.61

TOMCD 1528 647 1968 0.33 0.42 0.37

ECD50 768 219 712 0.31 0.29 0.30

ECOM1 718 347 648 0.54 0.48 0.51

MACRO-F 0.55 0.53 0.54

MICRO-F 0.57

Kết quả thực nghiệm sử dụng SVM với macro-F là 0.54 và micro-F là

0.57 cho thấy hiệu quả hơn so với thuật toán kNN là 0.14 với độ đo micro-F.

Lớp TOM11 đạt kết quả F tốt nhất là 0.71 và độ hồi tưởng tốt nhất là 0.78,

lớp POBAS đạt kết quả độ chính xác tốt nhất 0.74. Hầu hết các lớp đều cho

kết quả tốt hơn so với việc sử dụng thuật toán kNN ngoại trừ hai lớp TOMCD

(0.37 so với 0.4) và ECD50 (0.3 so với 0.52), đây là hai lớp có số lượng dữ

liệu thấp.

c) Thực nghiệm đánh giá kết quả phân loại sử dụng thuật toán cây quyết

định

Thực nghiệm sử dụng thuật toán cây quyết định sử dụng các tham số liên

quan đến các thuật toán đánh giá và tối ưu trên cây, cụ thể:

- Độ đo đánh giá: Gini index và Gain ratio

- Tỉa cây: không tỉa cây và có tỉa cây

37

- Số lượng nút nhỏ nhất trên cây: chạy trong khoảng 2 đến 5

Kết quả thực nghiệm cho thấy kết quả tốt nhất tại độ đo đánh giá là Gini,

không tỉa cây và số lượng nút nhỏ nhất là 3. Bên cạnh đấy thuật toán này

không sử dụng kỹ thuật chuẩn hóa khoảng biên độ dữ liệu về khoảng 0-1

bằng thuật toán Min-Max mà giữ nguyên các giá trị dạng số.

Bảng 10: Kết quả thực nghiệm sử dụng thuật toán cây quyết định

TẬP

MẪU

SỐ

LIỆU

ĐÚNG

MÁY DỰ

ĐOÁN

ĐƯỢC

ĐỘ

CHÍNH

XÁC

ĐỘ HỒI

TƯỞNG

KẾT

QUẢ

TOM50 7513 4618 7914 0.58 0.61 0.60

TOM11 4429 3607 5210 0.69 0.81 0.75

POBAS 4409 3217 3487 0.92 0.73 0.81

EXSTUDENT 3367 1964 3574 0.55 0.58 0.57

ECO50 3365 2349 2741 0.86 0.70 0.77

TOM690 2840 2144 3119 0.69 0.75 0.72

TOMA1 2185 1546 2267 0.68 0.71 0.69

TOMCD 1528 1018 1684 0.60 0.67 0.63

ECD50 768 451 512 0.88 0.59 0.70

ECOM1 718 398 614 0.65 0.55 0.60

MACRO-F 0.71 0.67 0.69

MICRO-F 0.68

Kết quả thực nghiệm cho thấy việc sử dụng thuật toán cây quyết định

cho kết quả tốt hơn SVM là 0.11 với độ đo micro-F là 0.68 và macro-F là

0.69. Tất cả các lớp đều cho kết quả tốt hơn các lớp trong 2 thuật toán kNN

và SVM, lớp POBAS cho kết quả tốt nhất với độ đo F là 0.81 và độ chính xác

tốt nhất là 0.92, lớp TOM11 cho kết quả độ hồi tưởng tốt nhất là 0.81. Tuy

nhiên có một số lớp kết quả vẫn chưa tốt như EXSTUDENT, TOMCD,

TOM50 và ECOM1.

38

d) Thực nghiệm đánh giá kết quả phân loại sử dụng kết hợp các mô hình

Qua 3 thực nghiệm ở trên, kết quả của thuật toán cây quyết định cho kết

quả vượt trội hơn so với các thực nghiệm sử dụng các kỹ thuật khác. Tuy

nhiên một số lớp kết quả vẫn chưa đạt được hiệu quả cao. Trong thực nghiệm

sử dụng kết hợp các mô hình (ensemble models), luận văn tiến hành ghép nối

các mô hình theo tiêu chí sau:

- Kết quả mô hình sử dụng kNN đầu ra có giá trị là 1

- Kết quả mô hình sử dụng SVM đầu ra có giá trị là 1.5

- Kết quả mô hình sử dụng cây quyết định đầu ra có giá trị là 2

Việc đưa ra các giá trị của bộ phân lớp thành phần dựa trên mức độ hiệu

quả của các thực nghiệm ở trên (cây quyết định tốt hơn SVM và kNN). Kết

quả từ bộ phân lớp kết hợp tương ứng với nhãn lớp có tổng giá trị cao nhất.

Ví dụ 1:

- Nhãn lớp đầu ra của bộ phân lớp kNN là: TOM11 (giá trị 1)

- Nhãn lớp đầu ra của bộ phân lớp SVM là: ECOM1 (giá trị 1.5)

- Nhãn lớp đầu ra của bộ phân lớp cây quyết định: ECD50 (giá trị 2)

Nhãn lớp đầu ra của mô hình kết hợp là ECD50 (giá trị 2)

Ví dụ 2:

- Nhãn lớp đầu ra của bộ phân lớp kNN là: TOM11 (giá trị 1)

- Nhãn lớp đầu ra của bộ phân lớp SVM là: TOM11 (giá trị 1.5)

- Nhãn lớp đầu ra của bộ phân lớp cây quyết định: ECD50 (giá trị 2)

Nhãn lớp đầu ra của mô hình kết hợp là TOM11 (giá trị 2.5)

Bảng 11: Kết quả thực nghiệm sử dụng kết hợp các mô hình

TẬP

MẪU

SỐ

LIỆU

ĐÚNG

MÁY DỰ

ĐOÁN

ĐƯỢC

ĐỘ

CHÍNH

XÁC

ĐỘ HỒI

TƯỞNG

KẾT

QUẢ

TOM50 7513 4251 6049 0.70 0.57 0.63

TOM11 4429 3709 5007 0.74 0.84 0.79

POBAS 4409 3547 4158 0.85 0.80 0.83

EXSTUDENT 3367 2143 3689 0.58 0.64 0.61

39

TẬP

MẪU

SỐ

LIỆU

ĐÚNG

MÁY DỰ

ĐOÁN

ĐƯỢC

ĐỘ

CHÍNH

XÁC

ĐỘ HỒI

TƯỞNG

KẾT

QUẢ

ECO50 3365 2309 2947 0.78 0.69 0.73

TOM690 2840 2218 3642 0.61 0.78 0.68

TOMA1 2185 1688 2674 0.63 0.77 0.69

TOMCD 1528 986 1557 0.63 0.65 0.64

ECD50 768 579 694 0.83 0.75 0.79

ECOM1 718 538 705 0.76 0.75 0.76

MACRO-F 0.71 0.72 0.72

MICRO-F 0.71

Kết quả chung của thực nghiệm cho kết quả tốt nhất so với 3 thực

nghiệm còn lại với độ đo micro-F là 0.71 hơn kết quả của cây quyết định 0.68

là 0.03, SVM 0.57 là 0.14, kNN 0.43 là 0.28. Thực nghiệm ưu tiên kết quả

cây quyết định có giá trị cao hơn nên hầu hết các kết quả tương quan với mô

hình sử dụng thuật toán cây quyết định, bên cạnh đấy một số kết quả của các

mô hình còn lại cũng bổ sung thêm cho mô hình kết hợp giúp mô hình này

mang lại hiệu quả tốt hơn. Tương tự như trong thực nghiệm cây quyết định,

lớp POBAS cũng đạt kết quả tốt nhất tại độ đo F là 0.83 (hơn so với thuật

toán cây quyết định 0.81 là 0.02) và tốt nhất độ đo chính xác là 0.85, lớp

TOM11 cũng đạt độ hồi tưởng tốt nhất là 0.84. Các lớp có lượng dữ liệu thấp

như ECD50 và ECOM1 cũng tăng đáng kể hiệu quả từ 0.70 lên 0.79 và 0.6

lên 0.76.

40

KẾT LUẬN

Nội dung đã đạt được

Nghiên cứu tìm hiểu bài toán dự đoán khách hàng tiềm năng cho các gói

cước viễn thông và các hướng tiếp cận giải quyết bài toán.

Phân tích, tìm hiểu và xử lý các đặc trưng, đặc tính của dữ liệu thuê bao,

đưa ra các đặc trưng phù hợp nhất với bài toán.

Đưa ra được mô hình phân lớp dữ liệu thuê bao sử dụng các thuật toán

cây quyết định, SVM, kNN và kỹ thuật kết hợp các mô hình phân loại.

Sau khi tìm hiểu và nghiên cứu lý thuyết phân lớp dữ liệu thuê bao, thực

nghiệm phân lớp dữ liệu với dữ liệu cụ thể và đánh giá hiệu năng của các

thuật toán. Kết quả của mô hình kết hợp đạt kết quả khả quan với độ đo

micro-F là 0.71.

Hướng tiếp cận trong tương lai

Do dữ liệu lấy mẫu chưa nhiều nên số lượng gói cước đảm bảo tính phổ

biến để vào mô hình phân loại chỉ là 10 gói cước tương ứng với 10 nhãn, còn

lại 153 gói cước chưa được đưa vào mô hình. Vì vậy hướng nghiên cứu tiếp

theo của học viên là mở rộng tập dữ liệu cho các gói cước khác và đánh giá

trên một quy mô tập nhãn lớn hơn.

41

TÀI LIỆU THAM KHẢO

Tiếng Việt

1. Hoàng Xuân Huấn, Giáo trình nhận dạng mẫu, Nhà xuất bản Đại học

Quốc gia Hà Nội, 2012, tr.145-178.

2. Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy, Giáo trình khai phá

dữ liệu, Nhà xuất bản Đại học Quốc gia Hà Nội, 2012, tr.249-286

Tiếng Anh

1. Almana, A. M., Aksoy, M. S., & Alzahrani, R. (2014). A survey on data

mining techniques in customer churn analysis for telecom industry.

International Journal of Engineering Research and Applications, 45, 165-

171.

2. Bhat, Sajid Yousuf, Muhammad Abulaish, and Abdulrahman A.

Mirza. "Spammer classification using ensemble methods over structural

social network features." Proceedings of the 2014 IEEE/WIC/ACM

International Joint Conferences on Web Intelligence (WI) and Intelligent

Agent Technologies (IAT)-Volume 02. IEEE Computer Society, 2014.

3. Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine

learning, 20(3), 273-297.

4. Giacinto and F. Roli. Design of effective neural network ensembles

for image classification purposes. Image and Vision Computing, 19(9-10):

699–707, 2001.

5. Giacinto, F. Roli, and G. Fumera. Design of effective multiple

classifier systems by clustering of classifiers. In Proceedings of the 15th

International Conference on Pattern Recognition, pages 160–163,

Barcelona, Spain, 2000.

6. Giacinto, F. Roli, and L. Didaci. Fusion of multiple classifiers for

intrusion detection in computer networks. Pattern Recognition Letters,

24(12): 1795–1803, 2003so cu5so moi6

7. Giacinto, R. Perdisci, M. D. Rio, and F. Roli. Intrusion detection in

computer networks by a modular ensemble of one-class classifiers.

Information Fusion, 9(1):69–82, 2008.

42

8. Hilas, C. S., & Mastorocostas, P. A. (2008). An application of

supervised and unsupervised learning approaches to telecommunications

fraud detection. Knowledge-Based Systems, 21(7), 721-726.

9. Hilas, C. S., Kazarlis, S. A., Rekanos, I. T., & Mastorocostas, P. A.

(2014). A genetic programming approach to telecommunications fraud

detection and classification. In Proc. 2014 Int. Conf. Circuits, Syst. Signal

Process. Commun. Comput (pp. 77-83).

10. Hilas, C. S., Mastorocostas, P. A., & Rekanos, I. T. (2015). Clustering

of telecommunications user profiles for fraud detection and security

enhancement in large corporate networks: a case study. Applied

Mathematics & Information Sciences, 9(4), 1709.

11. Insani, R., & Soemitro, H. L. (2016, May). Data mining for marketing

in telecommunication industry. In 2016 IEEE Region 10 Symposium

(TENSYMP) (pp. 179-183). IEEE.

12. Jansen, S. M. H. (2007). Customer segmentation and customer

profiling for a mobile telecommunications company based on usage

behavior. A Vodafone Case Study, 66.

13. Jony, R. I., Habib, A., Mohammed, N., & Rony, R. I. (2015,

December). Big data use case domains for telecom operators. In 2015

IEEE International Conference on Smart City/SocialCom/SustainCom

(SmartCity) (pp. 850-855). IEEE.

14. Kim, S. Y., Jung, T. S., Suh, E. H., & Hwang, H. S. (2006). Customer

segmentation and strategy development based on customer lifetime value:

A case study. Expert systems with applications, 31(1), 101-107.

15. Li, Q. (2009, April). An algorithm of quantitative association rule on

fuzzy clustering with application to cross-selling in telecom industry. In

2009 International Joint Conference on Computational Sciences and

Optimization (Vol. 1, pp. 759-762). IEEE.

16. Masoud, R., & Ahmed, T. M. (2016). Using data mining in

telecommunication industry: Customer's churn prediction model. Journal

of Theoretical and Applied Information Technology, 91(2), 322.

17. Russell, S., & Lodwick, W. (1999, June). Fuzzy clustering in data

mining for telco database marketing campaigns. In 18th International

43

Conference of the North American Fuzzy Information Processing Society-

NAFIPS (Cat. No. 99TH8397) (pp. 720-726). IEEE.

18. Tianyuan, Z. (2018). Telecom customer segmentation and precise

package design by using data mining (Doctoral dissertation).

19. van Wezel, Michiel, and Rob Potharst. "Improved customer choice

predictions using ensemble methods." European Journal of Operational

Research 181.1 (2007): 436-452.

20. Wang, Y., Sanguansintukul, S., & Lursinsap, C. (2008, September).

The customer lifetime value prediction in mobile telecommunications. In

2008 4th IEEE International Conference on Management of Innovation

and Technology (pp. 565-569). IEEE.

21. Weiss, G. M. (2005). Data mining in telecommunications. In Data

Mining and Knowledge Discovery Handbook (pp. 1189-1201). Springer,

Boston, MA.

22. Wu, W., Liu, Z., & He, Y. (2015). Classification of defects with

ensemble methods in the automated visual inspection of sewer pipes.

Pattern Analysis and Applications, 18(2), 263-276.

23. Ye, L., Qiu-ru, C., Hai-xu, X., Yi-jun, L., & Zhi-min, Y. (2012, July).

Telecom customer segmentation with K-means clustering. In 2012 7th

International Conference on Computer Science & Education (ICCSE) (pp.

648-651). IEEE.

24. Zhang, Z., Lin, H., Liu, K., Wu, D., Zhang, G., & Lu, J. (2013). A

hybrid fuzzy-based personalized recommender system for telecom

products/services. Information Sciences, 235, 117-129.

xÂy dỰng mÔ hÌnh dỰ ĐoÁn khÁch hÀng tiỀm

Documents