tỔ chỨc vÀ tÍch hỢp hỆ thỐng phÂn tÍch dӴ liỆu lỚn...

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN CHUNG THÀNH HƯNG

TỔ CHỨC VÀ TÍCH HỢP

HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN

PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2019

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN CHUNG THÀNH HƯNG

TỔ CHỨC VÀ TÍCH HỢP

HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN

PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG

Chuyên ngành: Hệ thống thông tin

Mã số: 8480104.01

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Can bộ hương dân: PGS. TS Phan Xuân Hiếu

Hà Nội - 2019

LỜI CẢM ƠN

Tôi xin trân trọng cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã tạo

điều kiện cho học viên lơp cao học K24CNTT một môi trường học tập thuận lơi,

đông thời truyền đạt cho tôi một vốn kiến thức quý báu, một tư duy khoa học để

phục vụ cho quá trình học tập và công tác của tôi.

Đặc biệt, tôi xin đươc bày tỏ lòng biết ơn sâu sắc đến PGS.TS. PHAN XUÂN

HIÊU đã tận tình chỉ bảo cho tôi trong suốt quá trình học tập và nghiên cứu, giúp

tôi có nhận thức đúng đắn về kiến thức khoa học, tác phong học tập và làm việc.

Tôi xin gửi lời cảm ơn đến các bạn trong lơp Cao học Hệ thống Thông tin

K24CNTT khóa 2016- 2018 đã giúp đỡ tôi trong suốt thời gian học tập. Cuối

cùng, tôi xin đươc gửi lời cảm ơn tơi gia đình, đông nghiệp, người thân đã động

viên, giúp đỡ tôi trong quá trình hoàn thành luận văn.

Do vốn kiến thức lý luận và kinh nghiệm thực tiễn còn ít nên luận văn không

tránh khỏi những thiếu sót. Tôi xin trân trọng tiếp thu các ý kiến của các thầy, cô,

bạn bè để luận văn đươc hoàn thiện.

Trân trọng cám ơn.

LỜI CAM ĐOAN

Tôi xin cam đoan các kết quả nghiên cứu, thực nghiệm đươc trình bày trong

luận văn này do tôi thực hiện dươi sự hương dân của PGS.TS Phan Xuân Hiếu

và đươc thực hiện trong quá trình hơp tác nghiên cứu giữa Tập đoàn Công nghiệp

- Công nghệ Cao Viettel và đối tácra.

Tât cả những tham khảo tư các nghiên cứu liên quan đều đươc nêu nguôn gốc

một cách ro ràng tư danh mục tài liệu tham khảo của luận văn. Trong luận văn,

không co việc sao chep tài liệu, công trình nghiên cứu của người khác mà không

chỉ ro về tài liệu tham khảo.

Ha nôi, ngay 12 thang 11 năm 2019.

Hoc viên

Nguyên Chung Thanh Hưng.

MỤC LỤC

LỜI CẢM ƠN .................................................................................................................. i

LỜI CAM ĐOAN ............................................................................................................ i

MỤC LỤC ....................................................................................................................... i

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIÊT TẮT ................................................... iv

DANH MỤC CÁC BẢNG .............................................................................................. i

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ....................................................................... iii

MỞ ĐẦU ........................................................................................................................ 1

CHƯƠNG 1. TÔNG QUAN .......................................................................................... 5

1.1. CÁC KHÁI NIỆM CƠ BẢN ................................................................................ 5

1.1.1. Khái niệm chung về dữ liệu lơn ...................................................................... 5

1.1.2. Các khái niệm lưu trữ dữ liệu lơn ................................................................... 6

1.1.3 Các khái niệm về xử lý dữ liệu lơn ................................................................ 10

1.1.4. Cái khái niệm phân tich dữ liệu và các loại hình phân tich dữ liệu .............. 13

1.2. Hệ thống phân tích dữ liệu lơn ............................................................................ 17

1.2.1. Công nghệ lưu trữ dữ liệu trong BigData ..................................................... 17

1.2.1.1. Công nghệ lưu trữ trên đĩa cứng ............................................................ 17

1.2.1.2. Công nghệ lưu trữ trong bộ nhơ (In-Memory Databases)...................... 19

1.2.2. Xử lý dữ liệu trong BigData ......................................................................... 22

1.2.2.1. Xử lý dữ liệu vơi mô hình Map-Reduce ................................................ 22

1.2.2.2. Các tác vụ Map và Reduce ..................................................................... 23

1.2.3. Kỹ thuật phân tich bigdata hiện nay. ............................................................ 25

1.3. Các BAI TOÁN PHÂN TICH DƯ BÁO ............................................................ 28

1.3.1. Bài toán phân tich dự báo ............................................................................. 28

1.3.2. Các mô hình dự báo cơ bản. ......................................................................... 28

1.3.2.1. Mô hình dự báo dựa trên thuật toán cây quyết đinh: ............................. 28

1.3.2.2. Mô hình dự báo Gradient Boosting. ....................................................... 30

1.3.3. Các kỹ thuật phân tich dự báo ...................................................................... 31

1.3.3.1. Tạo biến đặc trưng .................................................................................. 31

1.3.3.2. Kỹ thuật lựa chọn đặc trưng ................................................................... 32

1.3.3.3. Huân luyện và xác thực trong các mô hình dự báo ................................ 34

1.3.3.4. Đánh giá mô hình dự báo ....................................................................... 35

1.3.4. Giơi thiệu công cụ phân tích Rapidminer ..................................................... 42

CHƯƠNG 2. ................................................................................................................. 44

PHƯƠNG PHÁP TÔ CHƯC VA TICH HƠP DỮ LIỆU LƠN ................................... 44

2.1. CÁC HỆ THỐNG PHÂN TICH DỮ LIỆU LƠN TRONG VIÊN THÔNG ...... 44

2.1.1. Một số ứng dụng hệ thống phân tich dữ liệu lơn phô biến hiện nay ............ 44

2.1.1.1. Quản lý trải nghiệm khách hàng (Customer Experience Mgmt) ........... 45

2.1.1.2. Giám sát, quản lý và tối ưu mạng lươi (Network OAM) ....................... 47

2.1.1.3. Phân tich hoạt động (Operation Analytics) ............................................ 48

2.1.1.4. Kiếm tiền tư dữ liệu (Data Monetization) .............................................. 50

2.1.2. Hiện trạng của Viettel ................................................................................... 50

2.1.2.1. Các nguôn dữ liệu lơn tại Viettel ........................................................... 50

2.1.2.2. Các hệ thống phân tich dữ liệu lơn của Viettel ...................................... 51

2.2.1.1. Tầng Data Ingestion ............................................................................... 53

2.2.1.2. Tầng Data Processing ............................................................................. 53

2.2.1.3. Tầng Data Analysis Layer ...................................................................... 54

2.2.1.4. Tầng Data Visualization ......................................................................... 54

2.2.1.5. Tầng Data Repository ............................................................................. 54

2.2.1.6. Tầng Data Govenance ............................................................................ 55

2.2.2. Mô hình tô chức thực tế hệ thống BigData tại Viettel .................................. 55

2.2.2.1. Tầng lưu trữ và xử lý dữ liệu. ................................................................. 56

2.2.2.2. Tầng truy xuât dữ liệu ............................................................................ 57

2.2.3. Các công nghệ nền tảng về hệ thống dữ liệu lơn. ......................................... 57

2.2.4. Các phân hệ cài đặt của Cloudera BigData Enterprise flatform: .................. 60

CHƯƠNG 3. ................................................................................................................. 62

THƯC NGHIỆM TÍCH HƠP HỆ THỐNG ................................................................. 62

DƯ BÁO THUÊ BAO RỜI MẠNG ............................................................................ 62

3.1. NỘI DUNG THƯC NGHIỆM ............................................................................ 62

3.1.1. Đinh nghĩa thuê bao rời mạng. ..................................................................... 62

3.1.2. Bài toán yêu cầu ............................................................................................ 62

3.1.3. Các bươc thực nghiệm. ................................................................................. 63

3.2. TRIÊN KHAI HỆ THỐNG THƯC NGHIỆM ................................................... 63

3.2.1. Xây dựng hệ thống phân tich BigData thực nghiệm. ................................... 63

3.2.1.1. Mô hình triển khai Logic ........................................................................ 63

3.2.1.2. Mô hình triển khai vật lý và thông số hệ thống ...................................... 64

3.2.1.3. Cài đặt, câu hình các thành phần hệ thống thực nghiệm ........................ 65

3.2.1.4. Nguôn dữ liệu ......................................................................................... 67

3.2.1.5. Luông xử lý và khai phá dữ liệu............................................................. 68

3.2.2. Xây dựng mô hình dự báo TBRM. ............................................................... 69

3.3. CÁC KÊT QUẢ THƯC NGHIỆM MÔ HINH DƯ BÁO. ................................. 70

3.3.1. Khám phá dữ liệu và tạo các biến đặc trưng. ............................................... 70

3.3.1.1. Bảng dữ liệu gọi đi của thuê bao (VOICE_OG) .................................... 70

3.3.1.2. Dữ liệu gọi đến của thuê bao (VOICE_IC). ........................................... 71

3.3.1.3. Dữ liệu nhắn tin đi của thuê bao (SMS_OG) ......................................... 71

3.3.1.4. Dữ liệu nhắn tin đến của thuê bao (SMS_IC) ........................................ 72

3.3.1.5. Dữ liệu về sử dụng Data của thuê bao (GPRS) ...................................... 72

3.3.1.6. Dữ liệu tiêu dùng hàng ngày của thuê bao (TOT_CHARGE_DAILY). 73

3.3.1.7. Dữ liệu về thông tin nạp tiền (TOPUP) .................................................. 73

3.3.1.8. Dữ liệu số dư tài khoản (ACCOUNT2_DAY) ....................................... 74

3.3.1.9. Dữ liệu trư cươc phí các gói sử dụng theo chu kỳ (DAILYFEE) .......... 74

3.3.1.10. Dữ liệu tông hơp charge cươc sử dụng các dich vụ VAS

(VAS_CDR_DAY) ............................................................................................. 75

3.3.1.11. Dữ liệu home (HOME_ACC) .............................................................. 75

3.3.1.12. Dữ liệu thông tin thuê bao, khách hàng (PRE-SUBS) ......................... 75

3.3.2. Lựa chọn đặc trưng và mô hình hoa ............................................................. 76

3.3.2.1. Lựa chọn các thuộc tinh quan trọng băng thuật toán Decision Tree ...... 76

3.3.2.2. Huân luyện và xác nhận mô hình rời mạng. .......................................... 79

3.3.3. Tối ưu mô hình dự báo. ................................................................................ 80

3.3.3.1. Tối ưu băng cách phân nhom khách hàng theo hành vi sử dụng. .......... 81

3.3.3.2. Tìm tỷ lệ tối ưu của xác nhận phân tách. ............................................... 81

3.3.3.3. Tìm cỡ mâu tối ưu cho huân luyện ......................................................... 82

3.3.3.4. Tối ưu mô hình băng cách lựa chọn lại các đặc trưng ........................... 82

3.3.3.5. Xác đinh lại các tham số của mô hình tối ưu ......................................... 82

3.3.3.6. Lựa chọn mô hình dự đoán tốt nhât ....................................................... 83

3.3.3.7. Chạy lại mô hình dự báo vơi thuật toán Gradien Booting. .................... 83

3.4. ĐÁNH GIÁ THU HOẠCH ................................................................................. 84

3.4.1. Kết quả đầu ra của hệ thống phân tich, dự báo thuê bao rời mạng. ............. 84

3.4.2. Tri thức thu đươc sau thực nghiệm. .............................................................. 84

KÊT LUẬN .................................................................................................................. 86

TÀI LIỆU THAM KHẢO ............................................................................................ 87

PHỤ LỤC 1.1. ĐẶC ĐIÊM CỦA THUÊ BAO DƯ BÁO RỜI MẠNG TRẢ TRƯƠC -

PHÂN THEO 4 NHÓM HÀNH VI.............................................................................. 90

PHỤ LỤC 1.2. ĐẶC ĐIÊM CỦA THUÊ BAO DƯ BÁO RỜI MẠNG TRẢ SAU-

PHÂN THEO 4 NHÓM HÀNH VI.............................................................................. 93

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

STT Ký hiệu/chữ

viết tắt Ý nghĩa

1 ACID Atomicity, Consistency, Isolation, Durability (Nguyên tắc

thiết kế ACID)

2 AUC Area Under the Curve

3 AUROC Area Under the Receiver Operating Characteristics

4 BASE Basically Available, Soft state, Eventual consistency

(Nguyên tắc thiết kế BASE)

5 BLOB Binary Large Object

6 CAP Consistency, Availability and Partition Tolerance (Nguyên

lý CAP)

7 CEM Customer Experience Management (Quản lý trải nghiệm

khách hàng)

8 CEP Complex Event Processing

9 CNN Convolutional Neural Network

10 DBM Deep Boltzmann Machine

11 DBN Deep Belief Networks

12 DT Daytype

13 ETL Extract Transform Load (Trích xuât dữ liệu)

14 FN False Negative

15 FP False Positive

16 FPR False Positive Rate/Fall-out

17 GBM Gradient Boosting Machines

18 GBRT Gradient Boosting Regression Trees

19 ID3 Interactive Dichotomizer 3

20 IG Information Gain (Độ tăng thông tin)

21 IMDB In-Memory Databases (Cơ sở dữ liệu trong bộ nhơ)

22 IMDG In-Memory Data Grids (Công nghệ lưu trữ dữ liệu trong bộ

nhơ)

23 IOB In-of-bag

24 IoT Internet Of Things

25 LS Learning Set (Tập huân luyện)

26 M2M Machine to Manchine

27 MDA Mean Decrease Accuracy (Độ chính xác giảm bình quân

cho mỗi biến)

STT Ký hiệu/chữ

viết tắt Ý nghĩa

28 MDG Mean Decrease Gini (Sự giảm bình quân hệ số Gini đối vơi

mỗi biến)

29 OOB Out-of-bag

30 POD Period of Day

31 QC Quality Call

32 RDBMS Relation DB Management Systems (Hệ thống lưu trữ cơ sở

dữ liệu quan hệ)

33 RF Random Forest

34 ROC Receiver Operating Characteristics

35 S/N Signal/Noise (Tỷ lệ tín hiệu trên nhiễu)

36 SVM Support Vector Machines

37 TB Thuê bao

38 TBRM Thuê bao rời mạng

39 TN True Negative

40 TP True Positive

41 TPR True Positive Rate/Sentivity/Recall

42 WFLD Weeks Before Last Date

DANH MỤC CÁC BẢNG

STT Chương Mục Bảng Tên bảng

1 1 1.3.3.1 Bảng 1.1

Các thuộc tinh vi dụ Ngày và Khách truy

cập và thuộc tinh đươc trích xuât IsWeek-

endDayfDayg

2 1 1.3.3.2 Bảng 1.2 Các phương pháp trích chọn thuộc tính

3 3 3.2.1.2 Bảng 3.1 Câu hình hệ thống phân tích BigData thực

nghiệm

4 3 3.2.1.4 Bảng 3.2 Nguôn dữ liệu hệ thống phân tích BigData

thực nghiệm

5 3 3.3.1.1 Bảng 3.3 Các biến đặc trưng cho dữ liệu gọi đi của

thuê bao

6 3 3.3.1.2 Bảng 3.4 Các biến đặc trưng cho dữ liệu gọi đến của

thuê bao

7 3 3.3.1.3 Bảng 3.5 Các biến đặc trưng cho dữ liệu nhắn tin đi

của thuê bao

8 3 3.3.1.4 Bảng 3.6 Các biến đặc trưng cho dữ liệu nhắn tin đi

của thuê bao

9 3 3.3.1.5 Bảng 3.7 Các biến đặc trưng cho dữ liệu sử dụng Data

của thuê bao

10 3 3.3.1.6 Bảng 3.8 Các biến đặc trưng cho dữ liệu tiêu dùng

hàng ngày của thuê bao

11 3 3.3.1.7 Bảng 3.9 Các biến đặc trưng cho dữ liệu nạp tiền của

thuê bao

12 3 3.3.1.8 Bảng 3.10 Các biến đặc trưng cho dữ liệu số dư tài

khoản của thuê bao

13 3 3.3.1.9 Bảng 3.11 Các biến đặc trưng cho dữ liệu cươc phí các

gói sử dụng theo chu kỳ của thuê bao

14 3 3.3.1.10 Bảng 3.12

Các biến đặc trưng cho dữ liệu tông hơp

charge cươc sử dụng các dich vụ VAS của

thuê bao

15 3 3.3.1.11 Bảng 3.13 Các biến đặc trưng cho dữ liệu home của

thuê bao

16 3 3.3.1.12 Bảng 3.14 Các biến đặc trưng cho dữ liệu thông tin

thuê bao, khách hàng

17 3 3.3.2.1 Bảng 3.15 Lựa chọn các thuộc tinh quan trọng băng

thuật toán Decision Tree

18 3 3.3.2.2 Bảng 3.16 Validation of the Training Data Set (80% of

Total)

19 3 3.3.2.2 Bảng 3.17 Validation of the Testing Data Set (20% of

Total)

STT Chương Mục Bảng Tên bảng

20 3 3.3.2.2 Bảng 3.18 Sử dụng Logistic Regression

21 3 3.3.2.2 Bảng 3.19 Sử dụng Naïve Bayes

22 3 3.3.2.2 Bảng 3.20 So sánh các kết quả

23 3 3.3.3.1 Bảng 3.21 Kết quả phân cụm băng thuật toán K-mean

24 3 3.3.3.1 Bảng 3.22 Kết quả chi tiết phân cụm băng thuật toán

K-mean

25 3 3.3.3.4 Bảng 3.23 Tối ưu mô hình băng cách lựa chọn lại các

đặc trung

26 3 3.3.3.6 Bảng 3.24 Lựa chọn mô hình dự đoán tốt nhât

27 3 3.3.3.7 Bảng 3.25 Mô hình dự báo vơi thuật toán Gradien

Booting

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

STT Chương Mục Hình Tên hình vẽ

1 1 1.1.1.4 Hình 1.1 Một ví dụ về lưu trữ dạng Key-value

2 1 1.1.1.4 Hình 1.2 Một ví dụ về lưu trữ dạng Document

3 1 1.1.1.4 Hình 1.3 Một ví dụ về lưu trữ dạng Column-

family

4 1 1.1.1.4 Hình 1.4 Một ví dụ về lưu trữ dạng Graph

5 1 1.1.1.4 Hình 1.5 Sơ đô Venn tóm tắt đinh lý CAP

6 1 1.1.1.5 Hình 1.6

Một quy trình ETL có thể trích xuât dữ

liệu tư nhiều nguôn và chuyển đôi nó

để tải vào một hệ thống đich duy nhât

7 1 1.1.1.5 Hình 1.7

Một tác vụ có thể đươc chia thành ba

tác vụ phụ đươc thực thi song song trên

ba bộ xử lý khác nhau trong cùng một

máy

8 1 1.1.1.5 Hình 1.8 Một ví dụ về xử lý dữ liệu phân tán

9 1 1.1.1.5 Hình 1.9 Hadoop là một khung đa năng cung câp

cả khả năng xử lý và lưu trữ

10 1 1.1.2 Hình 1.10 Giá tri và độ phức tạp tăng tư phân tích

mô tả đến phân tich đề xuât

11 1 1.2.1.2 Hình 1.11

Thiết bi lưu trữ trong bộ nhơ có tốc độ

truyền dữ liệu nhanh hơn 80 lần so vơi

thiết bi lưu trữ trên đĩa

12 1 1.2.1.2 Hình 1.12 Một ví dụ mô tả việc truy xuât dữ liệu

tư IMDG

13 1 1.2.1.2 Hình 1.13 Một ví dụ về lưu trữ IMDG xử lý vơi

một truy vân liên tục

14 1 1.2.1.2 Hình 1.14 Một ví dụ mô tả việc truy xuât dữ liệu

tư IMDB

15 1 1.2.1.2 Hình 1.15 Một ví dụ về lưu trữ IMDB đươc câu

hình vơi một truy vân liên tục

16 1 1.2.2.2 Hình 1.16 Một minh họa về công việc

MapReduce

17 1 1.2.2.2 Hình 1.17 Một ví dụ về MapReduce đang hoạt

động

18 1 1.3.2.1 Hình 1.18 Biểu diễn cây quyết đinh cơ bản

19 1 1.3.2.1 Hình 1.19 Cây quyết đinh cho việc chơi Tennis

20 1 1.3.2.3 Hình 1.20 Biểu đô hàm Sigmoid (Ảnh: Tạp chí

Analytics Ấn Độ)

21 1 1.3.2.3 Hình 1.21 Biểu đô hàm chi phí


22 1 1.3.2.3 Hình 1.22 Mô phỏng Gradient Descent

23 1 1.3.2.4 Hình 1.23 Sơ đô Cây quyết đinh (Nguôn: Basten

K., 2016)

24 1 1.3.2.5 Hình 1.24 Mô hình mạng nơron nhiều lơp

25 1 1.3.2.5 Hình 1.25 Tiến trình học

26 1 1.3.3.3 Hình 1.26 Vai trò của mô hình và tưng tập dữ liệu

27 1 1.3.3.4 Hình 1.27 Overfitting, Underfitting

28 1 1.3.3.4 Hình 1.28 Confusion Matrix

29 1 1.3.3.4 Hình 1.29 Phương pháp Bias & Variance

30 1 1.3.3.4 Hình 1.30 Phương pháp đường cong AUC-ROC

31 1 1.3.3.4 Hình 1.31

Đánh giá mô hình qua chỉ số AUC.

Trường hơp tốt nhât khi 2 đường cong

không chông lên nhau

32 1 1.3.3.4 Hình 1.32


Trường hơp khi 2 đường cong có chông

lên nhau

33 1 1.3.3.4 Hình 1.33


Trường hơp tệ nhât khi 2 đường cong

hoàn toàn chông lên nhau

34 1 1.3.3.4 Hình 1.34 Đánh giá mô hình qua chỉ số AUC.

Trường hơp khi AUC xâp xỉ 0

35 2 2.1.1 Hình 2.1 Các lĩnh vực phân tich dữ liệu lơn trong

viễn thông

36 2 2.1.1 Hình 2.2 Mức độ ứng dụng phân tich dữ liệu lơn

trong viễn thông

37 2 2.2.1 Hình 2.3 Phương pháp tô chức hệ thống dữ liệu

lơn

38 2 2.2.2 Hình 2.4 Mô hình tô chức thực tế hệ thống

BigData tại Viettel

39 2 2.2.3.2 Hình 2.5 So sánh CDH và HDP

40 2 2.2.4 Hình 2.6 Các phân hệ cài đặt Big Data của HDP

41 3 3.2.1.1 Hình 3.1 Mô hình triển khai hệ thống BigData

thực nghiệm

42 3 3.2.1.2 Hình 3.2 Mô hình đâu nối hệ thống

43 3 3.2.1.3 Hình 3.3 Luông khai phá dữ liệu trong

Rapidminer

44 3 3.2.1.5 Hình 3.4 Luông xử lý khai phá dữ liệu

45 3 3.2.2 Hình 3.5 Mô hình dự báo thuê bao rời mạng

46 3 3.3.2.1 Hình 3.6 Phương pháp huân luyện một cây quyết

đinh cho mỗi nguôn dữ liệu


47 3 3.3.2.1 Hình 3.7 Cắt bỏ các mức thâp và trích xuât các

nút tư các câp cao hơn

48 3 3.3.2.1 Hình 3.8 Mô tả cây quyết đinh trên Rapidminer

49 3 3.3.2.1 Hình 3.9 Các thuộc tinh quan trọng sau khi cắt

bỏ

50 3 3.3.3.5 Hình 3.10 Mô hình tối ưu

1

MỞ ĐẦU

Trên thế giơi, dữ liệu lơn (BigData) đã và đang là một trong những vân đề

trung tâm, nhận đươc nhiều sự quan tâm trong cuộc cách mạng công nghiệp lần

thứ tư. BigData chính là cốt loi để sử dụng, phát triển internet vạn vật (IoT) và trí

tuệ nhân tạo (AI) [1]. Theo dự báo, cách mạng công nghiệp lần thứ tư sẽ tạo ra

một lương lơn dữ liệu, dự kiến đến năm 2020, lương dữ liệu sẽ tăng gâp 50 lần

hiện nay [4]. Thông qua thu thập, phân tích và xử lý lương dữ liệu lơn này sẽ tạo

ra những tri thức mơi, hỗ trơ việc đưa ra quyết đinh của các chủ thể trên thế giơi

(doanh nghiệp, chính phủ, người dân) [1, 4].

Trong ngành viễn thông và CNTT, dữ liệu lơn trở thành công cụ hữu hiệu cho

các nhà cung câp dich vụ viễn thông trong kinh doanh cung như công tác quản lý

vận hành khai thác dich vụ. Các doanh nghiệp viễn thông ngày nay đã chủ động

ứng dụng công nghệ mơi này đề xây dựng các hệ thống phân tich dữ liệu làm cơ

sở để giám sát, quản lý và ra các quyết đinh co tinh chiến lươc. Lĩnh vực áp dụng

dự liệu lơn trong viễn thông rât phong phú liên quan đến các công nghệ phân tich

dự báo, học máy (ML), tri tuệ nhân tạo (AI)…[2, 10]. Dựa vào các công cụ này

doanh nghiệp co thể nâng cao chât lương dich vụ cung câp, đạt hiệu quả kinh

doanh. Phạm vi ứng dụng dữ liệu lơn trong viễn thông noi riêng rât rộng, các ứng

dụng co thể kể đến như hệ thống phân tich quản lý trải nghiệm khách hàng

(Customer Experience Mgmt), hệ thống giám sát, quản lý và tối ưu mạng lươi

(Network OAM), hệ thống phân tich hoạt động doanh nghiệp (Operation

Analytics) và thương mại dữ liệu (Data Monetization) …[7, 11]

Viettel là một doanh nghiệp hàng đầu Việt Nam luôn co chiến lươc đôi mơi,

tiên phong trong công nghệ. Việc ứng dụng một cách nhanh nhât, hiệu quả nhât

các công nghệ mơi noi chung và nhât là các công nghệ liên quan đến dữ liệu lơn

noi riêng luôn là thách thức của đội ngu kỹ thuật Viettel. Một trong những ứng

dụng phô biến nhât hiện nay mà các nhà cung câp dich vụ viễn thông sử dụng đo

là hệ thống phân tich dự báo khách hàng rời mạng. Đây là hệ thống quan trọng

mà đội ngu kỹ thuật Viettel tự nghiên cứu xây dựng dựa trên tư vân của đối tác

cung câp nền tảng dữ liệu lơn Cloudera.

Bản thân là một trong những thành viên tham gia dự án xây dựng bài toán,

tôi xin giơi thiệu đề tài nghiên cứu: "TÔ CHƯC VA TICH HƠP HỆ THỐNG

2

PHÂN TICH DỮ LIỆU LƠN PHỤC VỤ CÔNG TÁC DƯ BÁO TRONG VIÊN

THÔNG". Vơi mong muốn hiểu đươc phương pháp phân tich dự báo và tự bản

thân tich hơp đươc một hệ thống dữ liệu lơn, tôi đã đặt mục tiêu nghiên cứu các

nội dung sau đây:

Tổng quan về vấn đề nghiên cứu:

Tìm hiểu về dữ liệu lơn, các công nghệ liên quan đến dữ liệu lơn (công

nghệ xử lý và lưu trữ dữ liệu), các ứng dụng cho dữ liệu lơn. Tìm hiểu về

bài toán phân tich dự báo và phương pháp dự báo thuê bao rời mạng dựa

trên hành vi tiêu dùng và thoi quen sử dụng dich vụ của khách hàng.

Xây dựng tich hơp hệ thống phân tich dữ liệu lơn phục vụ công tác dự báo

thuê bao rời mạng tại Viettel.

Mục đích nghiên cứu: Tìm hiểu dữ liệu lơn và xây dựng ứng dụng vào

thực tiễn phục vụ công tác kinh doanh của Viettel.

Đối tượng nghiên cứu:

Dữ liệu lơn (khái niệm, cách hoạt động và công nghệ hỗ trơ).

Ưng dụng dữ liệu lơn vào thực tiễn tại Viettel.

Phạm vi nghiên cứu:

Các khái niệm cơ bản về dữ liệu lơn.

Giải pháp mã nguôn mở cho BigData dựa trên Cloudera Flatform.

Xây dựng hệ thống dữ liệu lơn cho một ứng dụng phân tich dự báo cụ thể..

Phương pháp nghiên cứu:

Nghiên cứu lý thuyết về dữ liệu lơn trong hệ thống Công nghệ thông tin vơi

mục tiêu là hiểu đươc nền tảng cơ bản.

Nghiên cứu các công nghệ cho hệ thống dữ liệu lơn vơi mục tiêu là hiểu và

triển khai đươc công nghệ.

Tìm hiểu về các hệ thống dữ liệu phục vụ sản xuât kinh doanh của Viettel

phục vụ cho sản xuât kinh doanh của doanh nghiệp vơi mục tiêu nắm vững

các nguôn dữ liệu lơn đang co và triển khai việc xây dựng BigData.

3

Phương pháp thực nghiệm: Xây dựng tich hơp một hệ thống dữ liệu lơn

dựa trên nền tảng Cloudera Flatform phục vụ cho một ứng dụng cụ thể là phân

tich dự báo thuê bao rời mạng của Viettel.

Vơi các mục tiêu xác đinh cụ thể như trên, kết quả của luận văn dự kiến sẽ

cho ra đời một hệ thống phân tich dữ liệu lơn phục vụ cho công tác dự báo thuê

bao rời mạng mơi (thay thế cho hệ thống vBI cu). Hệ thống phân tich mơi này

dựa trên các thuật toán dự báo tiên tiến kết hơp vơi công nghệ xử lý dữ liệu lơn sẽ

cho ra kết quả phân tich nhanh hơn và co độ chinh xác hơn. Qua đo, công cụ này

sẽ giúp Viettel đưa ra quyết đinh kip thời và hiệu quả hơn trong việc gìn giữ khách

hàng của mình.

Luận văn đươc câu trúc như sau:

CHƯƠNG 1: TÔNG QUAN.

Chương này trình bày các khái niệm cơ bản về dữ liệu lơn, công nghệ lưu trữ

và xử lý dữ liệu lơn. Các bài toán phân tich dự báo, mô hình dự báo, giơi thiệu

các kỹ thuật phân tich dự báo và công cụ phân tich dữ liệu Rapidminer cung là

một trong những nội dung quan trọng của phần này.

CHƯƠNG 2: TÔ CHƯC MỘT HỆ THỐNG PHÂN TICH DỮ LIỆU LƠN.

Đây là chương khá quan trọng đươc chia làm 02 phần. Phần thứ nhât giơi thiệu

các ứng dụng phân tich dữ liệu lơn phô biến hiện nay, hiện trạng các nguôn dữ

liệu lơn cùng vơi các hệ thống ứng dụng phân tich dữ liệu lơn tại Viettel. Phần

con lại sẽ chia se phương pháp tô chức hệ thống dữ liệu lơn tập trung, cách thiết

kế kiến trúc hạ tầng dữ liệu lơn hiện tại của Viettel.

CHƯƠNG 3: THƯC NGHIỆM TICH HƠP HỆ THỐNG DƯ BÁO THUÊ

BAO RỜI MẠNG

Chương 3 là chương chuyển thể các kiến thức nghiên cứu đươc thành nội dung

ứng dụng thực tế. Chương này đưa ra thực nghiệm tich hơp một hệ thống phân

tich dự báo thuê bao rời mạng vơi một hệ thống xử lý dữ liệu lơn thành một công

cụ co áp dụng dự báo cụ thể. Hệ thống này bươc đầu cho ra các kết quả sơ bộ về

đặc điểm thuê bao rời mạng vơi độ chinh xác >80% sau khi tối ưu các bươc dự

báo.

Tuy nhiên, để kết quả thực nghiệm là một công cụ áp dụng hiệu quả trong thực

tế kinh doanh của Viettel, ngoài việc tối ưu lại hệ thống thì còn phải thực hiện tối

4

ưu mô hình liên tục. Kết quả thực nghiệm của chương trình này chỉ mang tính

chât tham khảo, chưa thể áp dụng trong thực tế.

Trên đây là giơi thiệu cơ bản nội dung về luận văn tốt nghiệm của bản thân.

Nội dung thực hiện chỉ mơi là quan điểm và tư duy cá nhân, sẽ còn nhiều tôn tại

và thiết sót. Do vậy, rât mong quý thầy cô, bạn học và nhât là hội đông tốt nghiệp

cho ý kiến đong gop để luận văn đươc hoàn thiện, kết quả luận văn là công cụ dự

báo đươc áp dụng hiệu quả trong thực tế.

5

CHƯƠNG 1. TỔNG QUAN

1.1. CÁC KHAI NIÊM CƠ BAN

1.1.1. Khai niệm chung về dữ liệu lơn

Bô dư liệu (Data sets)

Nhiều tập dữ liệu hay nhiều nhom dữ liệu co liên quan đến nhau đươc gọi là

bộ dữ liệu [5]. Trong đo mỗi nhom hoặc tập con dữ liệu đo co cùng thuộc tinh

giống nhau. Một số vi dụ về bộ dữ liệu ở 03 đinh dạng khác nhau:

+ Dữ liệu Tweets đươc lưu giữ trong tập tin phăng (flat file).

+ Trich xuât các hàng tư bảng dữ liệu (database table) đươc lưu giữ trong tệp

đinh dạng CSV. Bộ sưu tập ảnh đươc lưu trong thư mục.

+ Các thông tin quan sát về lich sử thời tiết đươc lưu dươi dạng XML

Đặc điểm dư liệu lớn 5V (Volume, Velocity, Variety, Veracity, Value)

Dữ liệu lơn BigData co 05 đặc điểm hay con gọi là 5V: Volume-Khối lương

lơn; Velocity-Tốc độ; Variety-Tinh đa dạng; Veracity-Tính xác thực và Value-

Mang lại giá tri. Hầu hết các đặc điểm về dữ liệu lơn đươc Doug Laney xác đinh

vào năm 2001 khi đăng bài viết về dữ liệu doanh nghiệp (Volume, Velocity,

Variety). Tinh xác thực (Veracity) đươc bô sung để tinh tỷ lệ signal-to-noise khi

so sánh dữ liệu phi câu trúc vơi dữ liệu co câu trúc. Cuối cùng, Value- để xác đinh

các kết quả phân tich dữ liệu lơn mang lại giá tri gì? [8].

Phân biệt các loại dư liệu

Dữ liệu có cấu trúc (Structured Data): Dữ liệu có câu trúc phù hơp vơi mô

hình dữ liệu đươc lưu trữ ở dạng bảng. Chúng đươc sử dụng để mô tả mối quan

hệ giữa các thực thể khác nhau và do đo thường đươc lưu trữ trong cơ sở dữ liệu

quan hệ. Dữ liệu có câu trúc thường đươc tạo bởi các ứng dụng doanh nghiệp và

hệ thống thông tin như hệ thống ERP và CRM. Ví dụ về loại dữ liệu này bao gôm

các giao dich ngân hàng, hoa đơn và hô sơ khách hàng.

Dữ liệu phi cấu trúc (Unstructured Data): Dữ liệu không phù hơp vơi mô hình

dữ liệu hoặc lươc đô dữ liệu đươc gọi là dữ liệu phi câu trúc. Người ta ươc tính

răng dữ liệu phi câu trúc chiếm tơi 80% dữ liệu trong bât kỳ doanh nghiệp nào.

Ngày nay, dữ liệu phi câu trúc có tốc độ tăng trưởng nhanh hơn dữ liệu có câu

trúc. Một số loại dữ liệu phi câu trúc phô biến như dữ liệu co dạng văn bản (text)

hoặc nhi phân (binary).

6

Dữ liệu phi câu trúc không thể đươc xử lý hoặc truy vân trực tiếp băng cơ sở

dữ liệu quan hệ SQL. Nếu muốn lưu trữ dữ liệu phi câu trúc trong cơ sở dữ liệu

quan hệ, thì phải đươc lưu trữ trong một bảng dươi dạng BLOB (Binary Large

Object). Ngoài ra, cơ sở dữ liệu NonSQL có thể đươc sử dụng để lưu trữ dữ liệu

phi câu trúc.

Dữ liệu bán cấu trúc (Semi-structured Data): Dữ liệu bán câu trúc thường là

dữ liệu co câu trúc nhưng không đông nhât. Thay vào đo, dữ liệu bán câu trúc co

dạng phân câp (hierarchical) hoặc đô thi (graphbased). Loại dữ liệu này thường

đươc lưu trữ trong các tệp có chứa văn bản. Ví dụ như các tệp XML và JSON là

các dạng phô biến của dữ liệu bán câu trúc. Do tính chât văn bản của dữ liệu này

và sự phù hơp của nó vơi một mức độ câu trúc nào đo, no dễ dàng khai thác hơn

dữ liệu phi câu trúc.

Các nguôn phô biến của dữ liệu bán câu trúc bao gôm các tệp trao đôi dữ liệu

điện tử (EDI), bảng tính, nguôn dữ liệu tư các bộ cảm biến. Dữ liệu bán câu trúc

thường có các yêu cầu lưu trữ và xử lý trươc đặc biệt, đặc biệt nếu đinh dạng cơ

bản không dựa trên văn bản. Một ví dụ về tiền xử lý dữ liệu bán câu trúc sẽ là xác

thực tệp XML để đảm bảo răng nó tuân thủ theo lươc đô của nó.

Siêu dữ liệu (Metadata): Siêu dữ liệu cung câp thông tin về các đặc điểm và

câu trúc của bộ dữ liệu. Loại dữ liệu này chủ yếu đươc tạo băng máy và có thể

đươc thêm vào dữ liệu. Việc theo dõi siêu dữ liệu rât quan trọng đối vơi việc xử

lý, lưu trữ và phân tích dữ liệu lơn vì nó cung câp thông tin về phả hệ của dữ liệu

và nguôn gốc của nó trong quá trình xử lý. Ví dụ về siêu dữ liệu bao gôm: Thẻ

XML cung cấp ngày xac thưc và ngày tạo tài liệu; Các thuôc tính cung cấp kích

thước tệp va đô phân giải của ảnh kỹ thuật số; Các giải pháp dữ liệu lớn thương

dưa trên siêu dữ liệu, đặc biệt khi xử lý dữ liệu bán cấu trúc và không cấu trúc

[5].

1.1.2. Cac khai niệm lưu trữ dữ liệu lơn

Các dữ liệu thu đươc tư các nguôn bên ngoài thường không ở đinh dạng hoặc

câu trúc co thể xử lý ngay đươc. Để khắc phục đươc tình trạng này, việc sắp xếp

lưu trữ dữ liệu là vô cùng cần thiết. Xử lý sắp xếp lưu trữ dữ liệu bao gôm các

bươc: Lọc dữ liệu, làm sạch dữ liệu và chuân bi dữ liệu. Do nhu cầu lưu trữ dữ

liệu trong BigData, nên co nhiều công nghệ tiên tiến đươc tạo ra để hương tơi việc

lưu trữ hiệu quả và co khả năng mở rộng cao [5].

7

Cụm dư liệu (Clusters)

Trong điện toán, một cụm là một tập hơp các máy chủ hoặc các nút đươc liên

kết chặt chẽ. Các máy chủ này thường có cùng phần cứng và đươc kết nối vơi

nhau thông qua một mạng để hoạt động như một đơn vi lưu trữ và xử lý dữ liệu.

Mỗi nút trong cụm có các tài nguyên riêng biệt, chăng hạn như bộ nhơ, bộ xử lý

và ô cứng. Một cụm có thể thực thi một tác vụ băng cách chia nó thành các phần

nhỏ và phân phối thực thi của chúng trên các máy tính khác nhau thuộc cụm.

Hệ thống lưu trư file, hệ thống lưu trư file phân tán

Hệ thống lưu trữ file (gọi tắt là hệ thống file) là hệ thống sử dụng phương pháp

lưu trữ và sắp xếp dữ liệu trên thiết bi lưu trữ (ô đĩa flash, DVD, ô cứng…). File

(tệp) là một đơn vi lưu trữ dữ liệu nhỏ nhât đươc quản lý bởi hệ thống file. Về mặt

logic, hệ thống file co câu trúc như một cây thư mục. Các hệ điều hành sử dụng

hệ thống file để lưu trữ và truy xuât dữ liệu cho các ứng dụng. Mỗi một hệ điều

hành co thể co một hoặc nhiều hệ thống file, vi dụ hệ thống file NTFS trên hệ điều

hành Microsoft Windows và hệ thống file EXT trên Linux.

Một hệ thống lưu trữ file phân tán (hệ thống file phân tán) là một hệ thống file

co thể lưu trữ các file (tệp) co dung lương lơn đươc phân tán đều trên các nút của

cụm dữ liệu. No cho phep các file đươc truy cập tư nhiều vi tri khác nhau. Vi dụ,

hệ thống file phân tán của Google (GFS) và hệ thống file phân tán Hadoop

(HDFS) [5].

Cơ sơ dư liệu không quan hệ (Non-SQL)

Cơ sở dữ liệu Non-SQL là CSDL không quan hệ, co khả năng mở rộng cao,

tinh chiu lỗi và đươc thiết kế đặc biệt cho dữ liệu không co câu trúc hoặc bán câu

trúc. CSDL Non-SQL này thường đươc cung câp giao diện truy vân API và co thể

đươc gọi tư bên trong ứng dụng. CSDL Non-SQL con co khả năng hỗ trơ các truy

vân co câu trúc (SQL).

CSDL Non-SQL có thể đươc phân thành bốn loại dựa trên cách chúng lưu trữ

dữ liệu, như trong Hình 1.1 – 1.4: Dạng key-value (khóa-giá tri); Dạng document

(tài liệu); Dạng column-family; Dạng graph (đô thi) [5].

8

Hình 1.1. Môt ví dụ về lưu trữ dạng Key-value.

Hình 1.2. Môt ví dụ về lưu trữ dạng Document.

Hình 1.3. Môt ví dụ về lưu trữ dạng Column-family.

Hình 1.4. Môt ví dụ về lưu trữ dạng Graph.

Phân đoạn dư liệu (Sharding)

Phân đoạn dữ liệu là quá trình phân vùng dữ liệu theo chiều ngang, tư một tập

dữ liệu lơn thành một tập hơp các bộ dữ liệu nhỏ hơn, dễ quản lý hơn đươc gọi là

phân đoạn. Các phân đoạn đươc phân phối trên nhiều nút, trong đo mỗi một nút

là máy chủ. Mỗi phân đoạn đươc lưu trữ trên một nút riêng biệt và mỗi nút chỉ

chiu trách nhiệm cho dữ liệu đươc lưu trữ trên đo. Mỗi phân đoạn co cùng một

lươc đô (schema) và tât cả các phân đoạn đều đại diện cho một bộ dữ liệu hoàn

chỉnh [5].

Việc xử lý phân đoạn dữ liệu thường trong suốt vơi các máy client, phân đoạn dữ

liệu cho phep phân phối tải xử lý trên nhiều nút (node) để co khả năng mở rộng lưu

trữ dữ liệu theo chiều ngang. Đây là phương pháp để tăng năng lực của hệ thống

9

băng cách thêm các tài nguyên (node). Khi đo mỗi một node chỉ chiu trách nhiệm

cho một phần của toàn bộ tập dữ liệu, do vậy thời gian đọc/ghi đươc cải thiện rât

nhiều. Một lơi ich khác của phân đoạn dữ liệu là khả năng chiu lỗi. Trong trường hơp

một node bi lỗi, chỉ co dữ liệu trên node đo bi ảnh hưởng [5].

Sao lưu dư liệu (Repilication)

Sao lưu dữ liệu là quá trình tạo ra nhiều bản sao cho một tập dữ liệu năm ở trên

nhiều node. Sao lưu dữ liệu cung câp khả năng mở rộng và tinh khả dụng của dữ

liệu do đươc lưu trên nhiều node khác nhau. Khả năng chiu đươc lỗi cung đươc

cải thiện do co dự phong dữ liệu – dữ liệu không bi mât đi khi một node riêng le

bi lỗi. Hiện nay, co 02 mô hình sao lưu dữ liệu là sao lưu chủ – tơ (master-slave)

và sao lưu ngang hàng (peer-to-peer) [5].

Nguyên ly CAP (Consistency, Availability, and Partition tolerance)

Nguyên lý CAP [5] con đươc

gọi là nguyên lý Brewer, thể hiện

vơi ba ràng buộc liên quan đến các

hệ thống cơ sở dữ liệu phân tán đo

là tinh nhât quán (C-Consistency),

độ khả dụng (Availability) và

ngưỡng phân vùng (Partition

tolerance). Nguyên lý noi răng một

hệ thống cơ sở dữ liệu phân tán,

chạy trên một cụm, chỉ có thể đáp

ứng hai trong ba thuộc tính sau:

Hình 1.5. Sơ đồ Venn - định lý CAP.

+ Tính nhât quán:Việc đọc tư bât kỳ nút nào đều co dữ liệu đầu ra như nhau

+ Tính khả dụng: Yêu cầu đọc/ghi sẽ luôn đươc xác nhận dươi hai dạng: thành

công hay thât bại.

+ Ngưỡng phân vùng: Hệ thống cơ sở dữ liệu có thể chiu đựng đươc mât điện

liên lạc chia cụm thành nhiều silo và vân có thể phục vụ các yêu cầu đọc/ghi.

Nguyên tăc thiêt kê ACID

ACID là một nguyên tắc thiết kế cơ sở dữ liệu liên quan đến quản lý giao dich.

Nó là tư viết tắt của tinh nguyên tử (Atomicity), tinh nhât quán (Consistency), độ

cách ly (Isolation) và độ bền (Durability)

10

ACID là một phương pháp quản lý các giao dich đông thời, kiểm soát thông

qua khoa bản ghi (record locks) để đảm bảo tính nhât quán đươc duy trì. ACID là

phương pháp truyền thống để quản lý cơ sở dữ liệu giao dich trong các hệ thống

quản lý cơ sở dữ liệu quan hệ (RDBMS).

+ Tinh nguyên tử đảm bảo răng tât cả các giao dich sẽ luôn luôn thành công

hoặc thât bại hoàn toàn. Nói cách khác, không có giao dich một phần.

+ Tính nhât quán đảm bảo răng dữ liệu phải luôn luôn phù hơp vơi đinh dạng

để co thể đươc ghi đươc vào CSDL. Một CSDL ở trạng thái nhât quán sẽ

vân ở trạng thái nhât quán sau khi giao dich thành công.

+ Độ cách ly đảm bảo răng kết quả của một giao dich đang thực hiện không

thể ảnh hưởng bởi một giao dich khác cho đến khi giao dich đo hoàn thành.

+ Độ bền đảm bảo răng kết quả của một giao dich là vĩnh viễn. Nói cách khác,

một khi giao dich đã đươc thực hiện, nó không thể đươc khôi phục dù cho

hệ thống co thể xảy ra lỗi [5].

1.1.3 Cac khai niệm về xử lý dữ liệu lơn

Xử lý giao dịch trực tuyên (OLTP)

OLTP là một hệ thống phần mềm xử lý dữ liệu theo hương giao dich. Thuật

ngữ giao dich trực tuyến dùng để chỉ các hành động xử lý theo hương thời gian

thực (real time). Dữ liệu đươc lưu giữ trong hệ thống OLTP đươc chuân hoa, cơ

bản co câu trúc và là đầu vào cho các xử lý phân tich.

Các truy vân đươc xử lý trong hệ thống OLTP bao gôm các thao tác chèn, xóa

và cập nhật đơn giản vơi thời gian phản hôi mức mili giây. Vi dụ bao gôm hệ

thống đặt vé, ngân hàng và hệ thống điểm bán hàng [5].

* Xử lý phân tích trực tuyên (OLAP)

Các hệ thống xử lý phân tích trực tuyến (OLAP) đươc sử dụng để xử lý các

truy vân phân tích dữ liệu. OLAP là một phần không thể thiếu của BI, khai phá

dữ liệu và học máy. OLAP co liên quan đến BigData ở chỗ chúng có thể đong vai

trò là nguôn dữ liệu đầu vào cung như nguôn dữ liệu đầu ra của BigData. Chúng

đươc sử dụng trong phân tích chân đoán, phân tich dự đoán và phân tich đề xuât.

Các hệ thống OLAP thực hiện các truy vân phức tạp, dài hạn đối vơi cơ sở dữ liệu

đa chiều có câu trúc đươc tối ưu hoa để thực hiện các phân tích nâng cao.

Hệ thống OLAP lưu trữ dữ liệu lich sử dươi dạng không đươc chuân hoa để

hỗ trơ khả năng báo cáo nhanh. OLAP cung co khả năng lưu trữ các dữ liệu này

11

dươi dạng câu trúc đa chiều để đáp ứng các truy vân phức tạp dựa trên mối quan

hệ dữ liệu [5].

* Trích xuất dư liệu (ETL)

Trich xuât dữ liệu (ETL - Extract Transform Load) là quá trình chuyển tải tư

hệ thống nguôn đến hệ thống đich. Hệ thống nguôn ở đây co thể là CSDL, tệp

hoặc ứng dụng. Tương tự hệ thống đich co thể là CSDL hoặc các hệ thống lưu trữ

khác. ETL là các xử lý chinh trong kho dữ liệu (Data warehouse). Trong BigData,

ETL đươc sử dụng để chuyển đôi giữa các loại dữ liệu khác nhau. Hình 1.6 cho

thây dữ liệu trich xuât đươc lây tư các nguôn khác nhau, đươc chuyển đôi trươc

khi đươc đưa vào hệ thống đich [5].

Hình 1.6. Môt quy trình ETL có thể trích xuất dữ liệu từ nhiều nguồn và chuyển

đổi nó để tải vào môt hệ thống đích duy nhất.

Xử lý dư liệu song song

Xử lý dữ liệu song song là việc chia một nhiệm vụ lơn hơn thành nhiều nhiệm vụ

nhỏ hơn chạy đông thời vơi mục tiêu là giảm thời gian thực hiện. Mặc dù cơ chế xử lý

dữ liệu song song có thể đạt đươc thông qua nhiều máy đươc nối mạng, nhưng thông

thường đươc áp dụng trong phạm vi một máy chủ co nhiều bộ xử lý hoặc loi, mỗi một

bộ xử lý sẽ thực hiện một tác vụ khác nhau (Hình 1.7) [5].

Hình 1.7. Môt tác vụ có thể được chia thành ba tác vụ phụ được thưc thi song

song trên ba bô xử lý khác nhau trong cùng môt máy.

12

Xử lý dư liệu phân tán

Xử lý dữ liệu phân tán có liên quan chặt chẽ vơi xử lý dữ liệu song song trong

đo áp dụng cùng một nguyên tắc "chia để tri". Tuy nhiên, xử lý dữ liệu phân tán

luôn đạt đươc thông qua các máy riêng biệt đươc nối mạng vơi nhau thành một

cụm. Trong Hình 1.8, một tác vụ đươc chia thành ba nhiệm vụ sau đo đươc thực

hiện trên ba máy khác nhau chia se một công tắc vật lý [5].

Hình 1.8. Môt ví dụ về xử lý dữ liệu phân tán.

Xử ly dư liệu Hadoop

Hadoop là nền tảng mã nguôn mở để lưu trữ dữ liệu quy mô lơn và xử lý dữ liệu

tương thich vơi phần cứng. Hadoop đã trở thành một nền tảng công nghiệp thực sự

cho các giải pháp BigData. Nó có thể đươc sử dụng như một công cụ trich xuât,

chuyển đôi và lưu trữ dữ liệu ETL (Extract, Tranformation, Loading). Ngoài ra con

là một công cụ phân tich để xử lý một lương lơn dữ liệu có câu trúc, bán câu trúc và

không câu trúc. Hadoop thiết lập cơ chế MapReduce để xử lý dữ liệu (Hình 1.9) [5].

Hình 1.9. Hadoop là môt khung đa năng cung cấp cả khả năng xử lý

va lưu trữ.

Xử ly dư liệu Workload

13

Việc xử lý dữ liệu trong BigData đươc phân biệt theo khối lương và tính chât

của dữ liệu đươc xử lý trong một khoảng thời gian nhât đinh. Hiện co 02 hình

thức xử lý dữ liệu trong BigData:

+ Xử lý dữ liệu theo lô (batch processing), con đươc gọi là xử lý ngoại tuyến

(offline), là việc xử lý dữ liệu vơi số lương lơn, co độ trễ xử lý cao. Hình

thức xử lý này thường liên quan đến một lương lơn dữ liệu vơi việc đọc/ghi

tuần tự hoặc chỉ đọc/chỉ ghi. Các truy vân có thể phức tạp và liên quan đến

nhiều phep nối. Các hệ thống chạy cơ chế OLAP như BI hay các công cụ

phân tich đươc đinh hương theo lô vì chúng là các tác vụ đoi hỏi nhiều khả

năng đọc vơi khối lương dữ liệu lơn.

+ Xử lý giao dịch (transaction processing) con đươc gọi là xử lý trực tuyến

(online) là xử lý tương tác dữ liệu co độ trễ thâp. Hình thức xử lý dữ liệu

này liên quan đến một lương nhỏ dữ liệu vơi việc đọc và ghi ngâu nhiên.

Khối lương công việc giao dich bao gôm đọc/ghi ngâu nhiên co số phep nối

(joins) it hơn so vơi xử lý dữ liệu theo lô [5].

Xử ly dư liệu theo cụm (Cluster)

Theo cùng cách mà các cụm cung câp hỗ trơ cần thiết để tạo ra các giải pháp

lưu trữ có thể mở rộng theo chiều ngang, các cụm cung cung câp cơ chế cho phép

xử lý dữ liệu phân tán vơi khả năng mở rộng tuyến tính. Vì các cụm có khả năng

mở rộng cao, chúng cung câp một môi trường lý tưởng để xử lý Dữ liệu lơn vì các

bộ dữ liệu lơn có thể đươc chia thành các bộ dữ liệu nhỏ hơn và sau đo đươc xử

lý song song theo cách phân tán. Khi tận dụng một cụm, bộ dữ liệu BigData có

thể là chế độ hàng loạt (batch) hoặc chế độ thời gian thực (real time).

Một lơi ích bô sung của các cụm là chúng cung câp dự phòng và khả năng chiu

lỗi vốn có, vì chúng bao gôm các nút riêng biệt về mặt vật lý. Dự phòng và khả

năng chiu lỗi cho phép xử lý và phân tích khả năng phục hôi xảy ra nếu xảy ra lỗi

mạng hoặc nút. Do sự biến động của nhu cầu xử lý đươc đặt trong môi trường Dữ

liệu lơn, tận dụng các dich vụ cơ sở hạ tầng máy chủ đám mây hoặc môi trường

phân tích sẵn sàng làm xương sống của cụm, có thể cảm nhận đươc do tính linh

hoạt và mô hình tính toán dựa trên tiện ích của nó [5].

1.1.4. Cai khai niệm phân tich dữ liệu va cac loai hình phân tich dữ liệu

Phân tich dữ liệu (Data Analysis) là quá trình xử lý dữ liệu để tìm ra các sự

kiện, các mối quan hệ, mâu (patterns) dữ liệu, hiểu biết dữ liệu và xu thế. Mục

tiêu của phân tich dữ liệu là để hỗ trơ cho việc ra quyết đinh tốt hơn.

14

Xử lý phân tich dữ liệu (Data Analytics) là một thuật ngữ rộng hơn khái niệm

phân tich dữ liệu (Data Analysis). Quá trình này là việc quản lý vong đời dữ liệu,

bao gôm: Thu thập dữ liệu; Làm sạch dữ liệu; Tô chức dữ liệu; Lưu trữ dữ liệu;

Phân tich và quản lý dữ liệu. Trong lĩnh vực BigData, phân tich dữ liệu con cho

phep phát triển các phương pháp dựa trên nền tảng và công nghệ phân tán co khả

năng mở rộng cao. No co khả năng phân tich một khối lương dữ liệu lơn tư các

nguôn khác nhau.

Hình 1.10.Giá trị va đô phức tạp tăng từ phân tích mô tả đến đề xuất

Phân tich dữ liệu cho phep ra quyết đinh dựa trên dữ liệu thực tế co khoa học,

no không chỉ đơn thuần dựa vào kinh nghiệm và trực giác trong quá khứ. Co thể

phân thành 04 loại phân tich dữ liệu: Phân tich mô tả (descriptive analytics); Phân

tich chân đoán (diagnostic analytics); Phân tich dự báo (predictive analytics);

Phân tich đề xuât (prescriptive analytics) [5].

Phân tích mô ta:

Các thống kê cho thây răng co khoảng 80% kết quả phân tich đươc dươi dạng

phân tich mô tả. Đây là dạng phân tich co giá tri thâp nhât, chỉ cần yêu cầu kỹ

năng phân tich tương đối cơ bản. Phân tich mô tả đươc thực hiện để trả lời các sự

kiện đã xảy ra, các câu hỏi mâu để phân tich mô tả co dạng như sau:

+ Doanh số bán hàng trong 12 tháng đã qua là bao nhiêu?

+ Hoa hông hàng tháng kiếm đươc tư mỗi đại lý bán hàng?

Phân tich mô tả thường đươc thực hiện thông qua báo cáo hoặc dươi dạng bảng

Dashboard (đô thi hoặc biểu đô). Các truy vân đươc thực hiện tư kho dữ liệu của

doanh nghiệp. Vi dụ như hệ thống quản lý khách hàng CRM, hệ thống hoạch đinh

nguôn lực ERP [5].

Phân tích chân đoán:

15

Phân tich chân đoán nhăm xác đinh nguyên nhân của hiện tương xảy ra trong

quá khứ băng cách sử dụng các câu hỏi tập trung vào lý do xảy ra sự kiện. Các

dạng câu hỏi mâu như:

+ Tại sao doanh thu Quý 2 thâp hơn doanh thu Quý 1.

+ Tại sao co tỷ lệ gia tăng sự cố mạng trong ba tháng qua.

Phân tich chân đoán cung câp nhiều thông tin giá tri hơn phân tich mô tả, do

vậy no yêu cầu kỹ năng phân tich cao hơn. Kết quả phân tich chân đoán thông qua

các công cụ trực quan giúp người dùng xác đinh đươc xu thế. Các truy vân dữ liệu

trong phân tich chân đoán cung phức tạp hơn so vơi phân tich mô tả, no đươc thực

hiện trên dữ liệu đa chiều đươc lưu giữ trong các hệ thống phân tich [5].

Phân tích dự báo (dự đoán):

Phân tich dự đoán dùng để xác đinh kết quả của một sự kiện nào đo sẽ xảy ra

trong tương lai. Noi một cách chinh xác hơn, phân tich dự đoán là mô hình dựa

vào sự kiện đã xảy ra trong quá khứ vơi một điều kiện cụ thể để xác đinh sự kiện

tương tự xảy ra trong tương lai. Nếu các điều kiện cơ bản này thay đôi thì mô hình

dự báo phải đươc cập nhật. Các câu hỏi mâu cho phân tich dự báo co dạng what-

if, vi dụ:

+ Tỷ lệ sống của bệnh nhân sẽ là bao nhiêu nếu Thuốc B đươc dùng thay vì

Thuốc A?

+ Nếu khách hàng đã mua Sản phâm A và B, cơ hội mà họ cung sẽ mua Sản

phâm C là gì?

Loại phân tich này liên quan đến việc sử dụng các bộ dữ liệu lơn và các kỹ

thuật phân tích dữ liệu khác nhau. Nó cung câp thông tin co giá tri hơn và đoi hỏi

một bộ kỹ năng nâng cao hơn so vơi phân tich mô tả và phân tich chân đoán. Các

công cụ thường sử dụng cho phân tich dự đoán phức tạp, trưu tương tuy nhiên co

thể cung câp giao diện thân thiện vơi người dùng [5, 9].

Phân tích đề xuất:

Phân tich đề xuât đươc xây dựng dựa trên kết quả của phân tich dự báo băng

cách liệt kê các hành động cần phải thực hiện. Phân tich này không chỉ tập trung

vào việc lựa chọn hành động nào là tốt nhât mà con trả lời câu hỏi tại sao? Do đo,

loại phân tich này thường đươc sử dụng để đạt đươc các lơi thế và giảm thiểu các

rủi ro của doanh nghiệp. Các dạng câu hỏi mâu cho loại phân tich này như:

+ Trong số ba loại thuốc, loại thuốc nào mang lại kết quả tốt nhât?

16

+ Khi nào là thời điểm tốt nhât để giao dich một cô phiếu cụ thể?

Phân tich đề xuât cung câp tri thức nhiều giá tri nhât trong các loại phân tich

kể trên, do vậy no yêu cầu các kỹ năng phân tich tiên tiến kết hơp vơi các phần

mềm, công cụ chuyên dụng. Co thể noi phân tich đề xuât đã chuyển dich tư việc

giải thich nguyên nhân sang tư vân hành động và no co thể mô phỏng nhiều kich

bản xảy ra khác nhau.

Loại phân tích này kết hơp dữ liệu nội bộ vơi dữ liệu bên ngoài. Dữ liệu nội

bộ có thể bao gôm dữ liệu bán hàng hiện tại và lich sử, thông tin khách hàng, dữ

liệu sản phâm và quy tắc kinh doanh. Dữ liệu bên ngoài có thể bao gôm dữ liệu

truyền thông xã hội, dự báo thời tiết và dữ liệu nhân khâu học do chính phủ sản

xuât. Phân tich đề xuât liên quan đến việc sử dụng các quy tắc kinh doanh và một

lương lơn dữ liệu bên trong và bên ngoài để mô phỏng các kết quả và đinh hương

hành động tốt nhât [5].

17

1.2. HÊ THỐNG PHÂN TÍCH DỮ LIÊU LỚN

1.2.1. Công nghệ lưu trữ dữ liệu trong BigData

1.2.1.1. Công nghê lưu trữ trên đĩa cưng

Lưu trữ trên đĩa thường sử dụng ô đĩa cứng chi phí thâp để lưu trữ lâu dài. Lưu

trữ trên đĩa co thể đươc thực hiện thông qua hệ thống tệp phân tán hoặc cơ sở dữ

liệu.

Hệ thống lưu trư tệp phân tán

Các hệ thống tệp phân tán hỗ trơ lưu trữ dữ liệu không co lươc đô (schema-less,

cung câp khả năng dự phòng và tính sẵn sàng cao băng cách sao chép dữ liệu vào

nhiều vi trí khác nhau. Một thiết bi lưu trữ đươc triển khai vơi hệ thống tệp phân

tán cung câp khả năng truy cập nhanh, có khả năng lưu trữ các bộ dữ liệu lơn vơi

dữ liệu bán câu trúc và không câu trúc. Đông thời, nó cung câp khả năng đọc/ghi

nhanh, giải quyết đặc tính vận tốc của Dữ liệu lơn.

Một hệ thống tệp phân tán không lý tưởng cho các bộ dữ liệu có số lương lơn

tệp nhỏ vì điều này tạo ra hoạt động tìm kiếm đĩa quá mức, làm chậm quá trình

truy cập dữ liệu tông thể. Do những hạn chế này, hệ thống tệp phân tán hoạt động

tốt nhât vơi ít tệp hơn nhưng lơn hơn đươc xử lý tuần tự. Nhiều tệp nhỏ hơn thường

đươc kết hơp thành một tệp lơn duy nhât để cho phep lưu trữ và xử lý tối ưu. Điều

này cho phép các hệ thống tệp phân tán có hiệu suât tăng khi dữ liệu phải đươc

truy cập trong chế độ truyền phát mà không co đọc và ghi ngâu nhiên.

Thiết bi lưu trữ hệ thống tệp phân tán phù hơp vơi bộ dữ liệu lơn của dữ liệu

thô. Ngoài ra, đây là lựa chọn lưu trữ it tốn kem để lưu trữ lương lơn dữ liệu trong

một khoảng thời gian dài cần duy trì trực tuyến. Điều này là do có thể bô sung các

bộ đĩa cứng vào cụm mà không cần giảm tải dữ liệu để lưu trữ dữ liệu ngoại tuyến.

Cần lưu ý răng các hệ thống tệp phân tán không cung câp khả năng tìm kiếm nội

dung của các tệp dươi dạng tiêu chuân [5].

Hệ thống lưu trư CSDL quan hệ RDBMS

Các hệ thống quản lý RDBMS (Relational DB management systems) rât tốt để

xử lý khối lương công việc giao dich liên quan đến một lương nhỏ dữ liệu vơi các

thuộc tinh đọc/ghi ngâu nhiên. Các RDBMS tuân thủ nguyên tắc thiết kế ACID,

do vậy các hệ thống RDBMS (chiu giơi hạn bởi một nút) không hỗ trơ tinh dự

phòng và khả năng chiu lỗi [5].

18

Để xử lý khối lương lơn dữ liệu đến vơi tốc độ nhanh, cơ sở dữ liệu quan hệ

thường cần phải mở rộng quy mô. Tuy nhiên các hệ thống RDBMS chỉ co cơ chế

phân chia theo chiều dọc, không chia tỷ lệ theo chiều ngang, đây là một nhươc

điểm lơn. Điều này làm cho các RDBMS không lý tưởng để lưu trữ dữ liệu lâu

dài đươc tich luy theo thời gian. Mặt khác, CSDL quan hệ thường yêu cầu dữ liệu

tuân thủ lươc đô. Do đo, các hệ thống RDBMS khi lưu trữ dữ liệu bán câu trúc và

không co câu trúc phải thực hiện gián tiếp. Điều này phát sinh độ trễ cao, độ trễ

này làm cho CSDL quan hệ không lý tưởng để lưu trữ dữ liệu tốc độ cao trong khi

cần một thiết bi lưu trữ CSDL có tính sẵn sàng cao vơi khả năng ghi dữ liệu nhanh.

Do những nhươc điểm đo, RDBMS truyền thống thường không hữu ich như thiết

bi lưu trữ chinh trong môi trường giải pháp Dữ liệu lơn [5].

Hệ thống lưu trư CSDL Non-SQL

Sự xuât hiện của các hệ thống lưu trữ Non-SQL chủ yếu đáp ứng cho các tinh

chât đặc trưng của BigData (Volume, Velocity, Variety). Yêu cầu lưu trữ của khối

lương dữ liệu ngày càng tăng yêu cầu sử dụng cơ sở dữ liệu có khả năng mở rộng

cao trong khi vân giảm chi phí cho doanh nghiệp để duy trì tính cạnh tranh. Các

hệ thống lưu trữ Non-SQL đáp ứng yêu cầu này băng cách cung câp khả năng mở

rộng quy mô trong khi sử dụng các máy chủ hàng hóa re tiền.

Dòng dữ liệu nhanh đoi hỏi cơ sở dữ liệu vơi khả năng ghi dữ liệu truy cập

nhanh. Các hệ thống lưu trữ Non-SQL cho phép ghi nhanh băng cách sử dụng

nguyên tắc lươc đô khi đọc thay vì nguyên tắc ghi trên lươc đô. Có tính sẵn sàng

cao, các hệ thống này co thể đảm bảo độ trễ khi xảy ra lỗi node/mạng. Hệ thống

lưu trữ cần xử lý các đinh dạng dữ liệu khác nhau bao gôm tài liệu, email, hình

ảnh và video và dữ liệu không đầy đủ. Hệ thống lưu trữ Non-SQLcó thể lưu trữ

các dạng khác nhau dữ liệu bán câu trúc và không câu trúc. Ngoài ra, hệ thống

này con hỗ trơ cho dữ liệu không co lươc đô.

Căn cứ vào dạng dữ liệu lưu trữ, hệ thống lưu trữ dữ liệu Non-SQL đươc phân

chia thành 4 loại: Hệ thống lưu trữ dữ liệu dạng Key-Value, Document, Column-

family và Graph [5].

Hệ thống lưu trư CSDL NewSQL

Các thiết bi lưu trữ Non-SQL có khả năng mở rộng cao, khả dụng, chiu lỗi và

nhanh chóng cho các hoạt động đọc/ghi. Tuy nhiên, chúng không cung câp cùng

một giao dich và hỗ trơ nhât quán như đươc thể hiện bởi các RDBMS tuân thủ

19

ACID. Theo mô hình BASE, các thiết bi lưu trữ Non-SQL chỉ cung câp tính nhât

quán ở trạng thái xử ly cuối cùng thay vì tính nhât quán ngay lập tức. Do đo, chúng

không thích hơp để sử dụng khi thực hiện các hệ thống giao dich quy mô lơn.

Các thiết bi lưu trữ NewQuery kết hơp các nguyên tắc thiết kế ACID của

RDBMS vơi khả năng mở rộng và khả năng chiu lỗi đươc cung câp bởi các thiết

bi lưu trữ Non-SQL. Ngoải ra, các cơ sở dữ liệu New SQL thường hỗ trơ cú pháp

tuân thủ SQL cho quá trình thao tác dữ liệu và chúng thường sử dụng mô hình dữ

liệu quan hệ logic để lưu trữ dữ liệu.

Cơ sở dữ liệu New SQL có thể đươc sử dụng để phát triển các hệ thống OLTP

vơi khối lương giao dich rât lơn, ví dụ như một hệ thống ngân hàng. Chúng cung

có thể đươc sử dụng cho các phân tích thời gian thực, ví dụ như phân tich hoạt

động, vì một số triển khai tận dụng lưu trữ trong bộ nhơ. So vơi hệ thống lưu trữ

Non-SQL, thiết bi lưu trữ New SQL cung câp quá trình chuyển đôi dễ dàng hơn

tư RDBMS truyền thống sang cơ sở dữ liệu có khả năng mở rộng cao do hỗ trơ

SQL. Ví dụ về cơ sở dữ liệu NewSQL bao gôm VoltDB, NuoDB và InnoDB [5].

1.2.1.2. Công nghê lưu trữ trong bộ nhớ (In-Memory Databases)

Một thiết bi lưu trữ trong bộ nhơ thường sử dụng RAM, bộ nhơ chính của máy

tinh, làm phương tiện lưu trữ để cung câp truy cập dữ liệu nhanh. Dung lương

ngày càng tăng và chi phi RAM giảm, cùng vơi tốc độ đọc/ghi ngày càng tăng của

ô cứng, đã giúp phát triển các giải pháp lưu trữ dữ liệu trong bộ nhơ. Lưu trữ dữ

liệu trong bộ nhơ giúp loại bỏ độ trễ của I/O của đĩa và thời gian truyền dữ liệu

giữa bộ nhơ chính và ô cứng. Việc giảm tông thể độ trễ đọc/ghi dữ liệu này giúp

xử lý dữ liệu nhanh hơn nhiều. Dung lương thiết bi lưu trữ in-memory có thể đươc

tăng lên một cách ô ạt băng cách mở rộng theo chiều ngang của cụm đang lưu trữ

thiết bi lưu trữ trong bộ nhơ.

Bộ nhơ dựa trên cụm cho phep lưu trữ một lương lơn dữ liệu, bao gôm cả bộ

dữ liệu BigData, có thể đươc truy cập nhanh hơn đáng kể khi so sánh vơi thiết bi

lưu trữ trên đĩa. Điều này làm giảm đáng kể thời gian thực hiện chung của phân

tích Dữ liệu lơn, do đo cho phep phân tich Dữ liệu lơn theo thời gian thực.

Hình 1.11 minh họa một so sánh thời gian truy cập giữa các thiết bi lưu trữ

trong bộ nhơ và đĩa cứng. Việc đọc tuần tự 1 MB dữ liệu tư thiết bi lưu trữ trong

bộ nhơ mât khoảng 0,25 ms, trong khi cùng một lương dữ liệu tư thiết bi lưu trữ

20

trên đĩa mât khoảng 20 ms. Điều này chứng tỏ răng việc đọc dữ liệu tư bộ lưu trữ

bộ nhơ trong nhanh hơn khoảng 80 lần so vơi lưu trữ trên đĩa.

Hình 1.11. Thiết bị lưu trữ trong bô nhớ có tốc đô truyền dữ liệu nhanh hơn 80

lần so với thiết bị lưu trữ trên đĩa.

Thiết bi lưu trữ trong bộ nhơ cho phép phân tích trong bộ nhơ, dùng để phân

tích dữ liệu trong bộ nhơ. Phân tích trong bộ nhơ cho phép phân tích hoạt động

và BI hoạt động thông qua thực hiện nhanh các truy vân và thuật toán.

Về cơ bản, lưu trữ trong bộ nhơ cho phép hiểu đươc luông dữ liệu nhanh trong

môi trường Dữ liệu lơn (đặc tính vận tốc) băng cách cung câp phương tiện lưu trữ

tạo điều kiện cho việc tạo thông tin chi tiết theo thời gian thực. Điều này hỗ trơ

đưa ra quyết đinh nhanh chong để giảm thiểu đe dọa hoặc tận dụng cơ hội.

Thiết bi lưu trữ trong bộ nhơ Dữ liệu lơn đươc triển khai trên một cụm, cung

câp tính sẵn sàng và dự phong cao. Do đo, khả năng mở rộng theo chiều ngang có

thể đạt đươc băng cách thêm nhiều nút hoặc bộ nhơ. Khi so sánh vơi thiết bi lưu

trữ trên đĩa, thiết bi lưu trữ trong bộ nhơ đắt tiền vì chi phí bộ nhơ cao hơn so vơi

thiết bi lưu trữ dựa trên đĩa.

Mặc dù máy 64 bit có thể sử dụng 16 exabyte bộ nhơ, do các giơi hạn vật lý

của máy, chăng hạn như số lương khay nhơ, bộ nhơ đươc cài đặt it hơn đáng kể.

Để nhân rộng ra, nó không chỉ là việc bô sung thêm bộ nhơ mà còn là sự bô sung

các nút đươc yêu cầu mười một giơi hạn bộ nhơ cho mỗi nút. Điều này làm tăng

chi phi lưu trữ dữ liệu.

Ngoài việc đắt tiền, các thiết bi lưu trữ trong bộ nhơ không cung câp cùng mức

hỗ trơ cho việc lưu trữ dữ liệu lâu bền. Yếu tố giá ảnh hưởng hơn nữa đến khả

năng co thể đạt đươc của thiết bi trong bộ nhơ khi so sánh vơi thiết bi lưu trữ trên

đĩa. Do đo, chỉ có dữ liệu cập nhật và mơi nhât có giá tri nhât đươc lưu trong bộ

nhơ, dữ liệu cu đo đươc thay thế băng dữ liệu mơi hơn, mơi hơn.

21

Tùy thuộc vào cách no đươc triển khai, một thiết bi lưu trữ trong bộ nhơ có thể

hỗ trơ lưu trữ không co lươc đô hoặc lưu trữ nhận thức lươc đô. Hỗ trơ lưu trữ

không co lươc đô đươc cung câp thông qua lưu trữ dữ liệu dựa trên khóa-giá tri.

Các thiết bi lưu trữ trong bộ nhơ có thể đươc triển khai như: Công nghệ lưu

trữ IMDG và công nghệ lưu trữ IMDB. Mặc dù cả hai công nghệ này đều sử dụng

bộ nhơ làm phương tiện lưu trữ dữ liệu cơ bản, nhưng điều làm cho chúng khác

biệt là cách lưu trữ dữ liệu trong bộ nhơ [5].

Công nghệ lưu trư dư liệu IMDG (In-Memory Data Grids) lưu trữ dữ liệu

trong bộ nhơ dươi dạng cặp giá tri khóa trên nhiều nút trong đo các khoa và giá

tri có thể là bât kỳ đối tương kinh doanh hoặc dữ liệu ứng dụng nào ở dạng tuần

tự. Điều này hỗ trơ lưu trữ dữ liệu không co lươc đô thông qua lưu trữ dữ liệu bán

câu trúc hoặc không co câu trúc. Truy cập dữ liệu thường đươc cung câp thông

qua API như trong hình 1.12 [5].

Hình 1.12. Môt ví dụ mô tả việc truy xuất dữ liệu từ IMDG.

Công nghệ lưu trư dư liệu IMDB (In-Memory Databases) sử dụng công

nghệ cơ sở dữ liệu và tận dụng hiệu năng của RAM để khắc phục các vân đề về

độ trễ thời gian chạy gây ra cho các thiết bi lưu trữ trên đĩa như trong hình 1.14:

Hình 1.14. Môt ví dụ mô tả việc truy xuất dữ liệu từ IMDB.

22

IMDB có thể để lưu trữ dữ liệu có câu trúc (IMDB quan hệ) hoặc có thể tận

dụng công nghệ Non-SQL (IMDB không quan hệ) để lưu trữ dữ liệu bán câu trúc

và không câu trúc.

Không giống như IMDG, cung câp quyền truy cập dữ liệu thông qua API,

IMDB quan hệ sử dụng ngôn ngữ SQL nên quen thuộc hơn, hỗ trơ các nhà phân

tích dữ liệu hoặc nhà khoa học dữ liệu không có kỹ năng lập trình nâng cao. Các

IMDB dựa trên Non-SQL thường cung câp quyền truy cập dựa trên API, có thể

đơn giản như các thao tác đặt, nhận và xóa. Tùy thuộc vào việc triển khai cơ bản,

một số IMDB mở rộng quy mô, trong khi một số khác mở rộng quy mô, để đạt

đươc khả năng mở rộng.

IMDB quan hệ thường có khả năng mở rộng it hơn IMDG, vì IMDB quan hệ

cần hỗ trơ các truy vân và giao dich phân tán trên toàn cụm. Một số triển khai

IMDB có thể đươc hưởng lơi tư việc nhân rộng, giúp giải quyết độ trễ xảy ra khi

thực hiện các truy vân và giao dich trong môi trường mở rộng. Ví dụ bao gôm

Aerospike, MemQuery, Altibase HDB, eXtreme DB và Pivotal GemFire XD [5].

1.2.2. Xử lý dữ liệu trong BigData

1.2.2.1. Xư ly dữ liêu với mô hinh Map-Reduce

MapReduce là một mô hình đươc sử dụng rộng rãi cho cơ chế xử lý theo lô.

Nó có khả năng mở rộng cao và đáng tin cậy dựa trên nguyên tắc “chia để tri”,

cung câp khả năng chiu lỗi và dự phòng tích hơp. Nó phân chia một vân đề lơn

thành một tập hơp các vân đề nhỏ hơn co thể đươc giải quyết nhanh chóng.

MapReduce có nguôn gốc tư cả hai mô hình xử lý phân tán và song song. Đây là

một công cụ đươc sử dụng để xử lý các bộ dữ liệu lơn theo mô hình xử lý song

song đươc triển khai trên các cụm phần cứng.

MapReduce không yêu cầu dữ liệu đầu vào phù hơp vơi bât kỳ mô hình dữ

liệu cụ thể nào. Do đo, no co thể đươc sử dụng để xử lý các bộ dữ liệu không có

lươc đô. MapReduce dựa trên tài liệu nghiên cứu của Google, đươc xuât bản vào

đầu năm 2000.

Công cụ xử lý MapReduce hoạt động khác so vơi mô hình xử lý dữ liệu truyền

thống. Trong mô hình truyền thống, xử lý dữ liệu yêu cầu di chuyển dữ liệu tư nút

lưu trữ sang nút xử lý chạy thuật toán xử lý dữ liệu. Cách tiếp cận này hoạt động

tốt cho các bộ dữ liệu nhỏ hơn; Tuy nhiên, vơi các bộ dữ liệu lơn, việc di chuyển

dữ liệu có thể tốn nhiều chi phi hơn so vơi việc xử lý dữ liệu hiện tại. Vơi

23

MapReduce, thuật toán xử lý dữ liệu sẽ đươc chuyển đến các nút lưu trữ dữ liệu.

Thuật toán xử lý dữ liệu thực thi song song trên các nút này, do đo loại bỏ sự cần

thiết phải di chuyển dữ liệu. Điều này không chỉ tiết kiệm băng thông mạng mà

còn giúp giảm đáng kể thời gian xử lý cho các bộ dữ liệu lơn, vì việc xử lý các

khối dữ liệu nhỏ hơn song song nhanh hơn nhiều.

MapReduce thường không phù hơp để xử lý Dữ liệu lơn theo thời gian thực.

MapReduce không thể xử lý dữ liệu theo kiểu tăng dần và chỉ có thể xử lý bộ dữ

liệu hoàn chỉnh. Do đo, no yêu cầu tât cả dữ liệu đầu vào phải có sẵn toàn bộ trươc

khi thực hiện công việc xử lý dữ liệu. Tuy nhiên, có một số giải pháp co thể cho

phép sử dụng MapReduce trong các tình huống xử lý Dữ liệu lơn gần vơi thời

gian thực [5].

1.2.2.2. Cac tac vu Map va Reduce

Một lần xử lý duy nhât của công cụ xử lý MapReduce đươc gọi là công việc

MapReduce. Mỗi công việc MapReduce bao gôm một nhiệm vụ Map và một

nhiệm vụ Reduce và mỗi nhiệm vụ bao gôm nhiều giai đoạn. Hình 1.16 cho thây

tác vụ map và reduce, cùng vơi các giai đoạn riêng le của chúng [5].

Hình 1.16. Môt minh họa về công việc MapReduce

* Các tác vụ Map:

- Tac vụ Map (ham map): Giai đoạn đầu tiên của MapReduce đươc gọi là Map,

trong đo bộ dữ liệu đươc chia thành nhiều phần nhỏ hơn. Mỗi phần đươc phân

tách thành các bản ghi và đươc gán cho một cặp khóa-giá tri (key-value). Trong

đo khoa thường là vi trí thứ tự của bản ghi và giá tri là bản ghi hiện tại.

24

- Tac vụ Combine: Noi chung, đầu ra của hàm Map đươc xử lý trực tiếp bởi hàm

Reduce. Tuy nhiên thực tế các tác vụ map và các tác vụ reduce chủ yếu chạy

trên các nút khác nhau. Điều này đoi hỏi co sự di chuyển dữ liệu giữa các tiến

trình mapper và reducer. Quá trình trao đôi dữ liệu này có thể tiêu thụ rât nhiều

băng thông và trực tiếp góp phần gây ra trễ xử lý nhât là đối vơi các bộ dữ liệu

lơn. Vì lý do này, công cụ MapReduce cung câp một hàm combine (tùy chọn)

để tom tắt đầu ra của trình mapper trươc khi no đươc vào xử lý bởi bộ reducer.

- Tac vụ Partition: Trong thực tế, nếu có nhiều hơn tác vụ reducer tham gia, tác

vụ phân vùng sẽ phân chia đầu ra tư bộ mapper hoặc bộ combiner (nếu co)

thành các phân vùng theo reducer. Trong đo, số lương phân vùng sẽ băng số

lương reducer. Hàm partition là giai đoạn cuối cùng của tác vụ Map. Nó trả về

đia chỉ của reducer mà một phân vùng cụ thể sẽ đươc gửi đến xử lý. [5]

* Các tác vụ Reduce:

- Tác vụ Shuffle and Sort (Xáo trôn và săp xêp): Đây là giai đoạn đầu tiên của

tác vụ Reduce, đầu ra của tiến trình Partition thông qua mạng đến các node

Reduce dựa trên cặp khoa-giá tri. Tiếp theo, công cụ MapReduce tự động

nhóm và sắp xếp các cặp khóa-giá tri theo các khoa để đầu ra chứa một danh

sách đươc sắp xếp của các khoa đầu vào và các giá tri của chúng có cùng các

khóa xuât hiện cùng nhau. Cách thức mà các khoa đươc nhóm và sắp xếp có

thể đươc tùy chỉnh. Sự hơp nhât này tạo ra một cặp khóa-giá tri duy nhât cho

nhóm, trong đo khoa là khoa nhom và giá tri là danh sách của tât cả các giá tri

nhóm. [5]

- Tác vụ Reduce: Reduce là giai đoạn cuối cùng của tác vụ Reduce. Tùy thuộc

vào logic do người dùng xác đinh, tác vụ Reducer sẽ tiếp tục tóm tắt đầu vào

của nó hoặc sẽ phát ra đầu ra mà không thực hiện bât kỳ thay đôi nào. Trong

cả hai trường hơp, đối vơi mỗi cặp khóa-giá tri bi Reduce, danh sách các giá

tri đươc lưu trữ trong phần giá tri của cặp đươc xử lý và một cặp khóa-giá tri

khác đươc tạo ra. Số lương Reducer có thể đươc tùy chỉnh. Cung co thể có một

công việc MapReduce mà không cần Reducer, ví dụ như khi thực hiện lọc dữ

liệu. Lưu ý răng chữ ký đầu ra (khoa-giá tri) của hàm Map phải khơp vơi chữ

ký đầu vào (khoa-giá tri) của hàm Reducer/ Combiner. [5]

* Môt ví dụ MapReduce đơn gian

Các bươc sau đây đươc hiển thi trong Hình 1.17 [5]:

+ Bước 1: Đầu vào (sales.txt) đươc chia thành hai phần.

25

+ Bước 2: Hai tác vụ ánh xạ chạy trên hai nút khác nhau, Nút A và Nút B,

trích xuât sản phâm và số lương tư các bản ghi phân tách tương ứng. Đầu

ra tư mỗi chức năng bản đô là một cặp khóa-giá tri trong đo sản phâm là

khóa trong khi số lương là giá tri.

+ Bước 3: Bộ kết hơp sau đo thực hiện tông kết cục bộ số lương sản phâm.

+ Bước 4: Vì chỉ có một tác vụ giảm, không co phân vùng đươc thực hiện.

+ Bước 5: Đầu ra tư hai tác vụ ánh xạ sau đo đươc sao chép sang nút thứ ba,

Node C, chạy giai đoạn xáo trộn như một phần của tác vụ rút gọn.

+ Bước 6: Giai đoạn sắp xếp sau đo nhom các số lương giống nhau của cùng

một sản phâm thành một danh sách.

+ Bước 7: Giống như bộ kết hơp, hàm giảm sau đo tông hơp số lương của

tưng sản phâm duy nhât để tạo đầu ra.

Hình 1.17. Môt ví dụ về MapReduce đang hoạt đông

1.2.3. Kỹ thuật phân tich bigdata hiện nay.

Phân tích định lượng (Quantiative)

Phân tich đinh lương là một kỹ thuật phân tích dữ liệu tập trung vào việc đinh

lương các mâu và mối tương quan đươc tìm thây trong dữ liệu. Dựa trên thực tiễn

thống kê, kỹ thuật này liên quan đến việc phân tích một số lương lơn các quan sát

tư bộ dữ liệu. Vì kich thươc mâu lơn, kết quả có thể đươc áp dụng một cách tông

quát cho toàn bộ tập dữ liệu. Kết quả phân tich đinh lương là số liệu tuyệt đối và

do đo co thể đươc sử dụng để so sánh. Ví dụ, một phân tich đinh lương về doanh

số bán kem có thể phát hiện ra răng nhiệt độ tăng 5 độ làm tăng doanh số bán kem

lên 15% [5].

26

Phân tích định tính (Quanliative)

Phân tich đinh tinh là một kỹ thuật phân tích dữ liệu tập trung vào việc mô tả

băng tư ngữ các phâm chât dữ liệu khác nhau. So vơi phân tích dữ liệu đinh lương,

phân tich đinh tinh co mâu phân tích nhỏ hơn nhưng co chiều sâu hơn. Các kết

quả phân tích này không thể đươc khái quát cho toàn bộ tập dữ liệu do kich thươc

mâu nhỏ. Chúng cung không thể đươc đo băng số hoặc đươc sử dụng để so sánh

số. Ví dụ, một phân tích về doanh số bán kem có thể tiết lộ răng số liệu bán hàng

của tháng 5 không cao như tháng 6. Các kết quả phân tích chỉ nói răng các số liệu

"không cao băng" và không cung câp sự khác biệt về con số [5].

Khai thác dư liệu (Data mining)

Khai thác dữ liệu con đươc gọi là khai phá dữ liệu, là một hình thức phân tích

dữ liệu chuyên biệt nhắm vào các bộ dữ liệu lơn. Liên quan đến phân tích dữ liệu

lơn, khai thác dữ liệu đề cập đến các kỹ thuật tự động, dựa trên phần mềm, sàng

lọc qua các bộ dữ liệu lơn để xác đinh các mâu và xu hương. Cụ thể, nó liên quan

đến việc trích xuât các mâu ân hoặc chưa biết trong dữ liệu vơi mục đich xác đinh

các mâu chưa biết trươc đo. Khai thác dữ liệu là cơ sở cho các phân tích dự đoán

và kinh doanh thông minh (BI). [5]

Phân tích thống kê (Statistical Analysis)

Phân tich dữ liệu thống kê sử dụng các phương pháp thống kê dựa trên các

công thức toán học như một phương tiện để phân tích dữ liệu. Phân tích thống kê

thường là đinh lương, nhưng cung co thể là đinh tính. Loại phân tich này thường

đươc sử dụng để mô tả các bộ dữ liệu thông qua tóm tắt, chăng hạn như cung câp

giá tri trung bình, phương sai hoặc phương thức thống kê liên quan đến tập dữ

liệu. No cung co thể đươc sử dụng để suy ra các mâu và mối quan hệ trong tập dữ

liệu, chăng hạn như hôi quy và tương quan. Co ba loại phân tích thống kê là Thử

nghiệm A/B (A/B Testing), Tương quan (Correlation) va Hồi quy (Regression)[5].

Học máy (Machine Learning)

Con người rât giỏi trong việc phát hiện các mô hình và mối quan hệ trong dữ

liệu. Tuy nhiên, con người không thể xử lý một lương lơn dữ liệu. Mặt khác, máy

móc rât giỏi trong việc xử lý một lương lơn dữ liệu một cách nhanh chong, nhưng

chỉ khi chúng biết cách. Nếu kiến thức của con người có thể đươc kết hơp vơi tốc

độ xử lý của máy móc, máy móc sẽ có thể xử lý một lương lơn dữ liệu mà không

cần nhiều sự can thiệp của con người. Đây là khái niệm cơ bản của máy học. Hiện

27

tại co thể phân thành 04 loại kỹ thuật học máy như Kỹ thuật phân loại

(Classification), Kỹ thuật phân cụm (Clustering), Kỹ thuật xử lý dữ liệu ngoại lai

(Outlier Detection) va Kỹ thuật xử lý lọc dữ liệu (Filtering).

Phân tích ngư nghĩa (Semantic Analysis)

Một đoạn dữ liệu văn bản hoặc lời nói có thể mang những ý nghĩa khác nhau

trong các ngữ cảnh khác nhau, trong khi một câu hoàn chỉnh có thể giữ nguyên

nghĩa của nó, ngay cả khi đươc câu trúc theo những cách khác nhau. Để các máy

trích xuât thông tin có giá tri, dữ liệu văn bản và lời nói cần đươc các máy hiểu

theo cách tương tự như con người. Phân tích ngữ nghĩa để trích xuât thông tin có

ý nghĩa tư dữ liệu văn bản và lời nói. Hiện co các loại phân tích ngữ nghĩa sau:

Xử lý ngôn ngữ tự nhiên (Natural Language Processing); Phân tich văn bản (Text

Analytics); Phân tích tình cảm (Sentiment Analysis).[5]

Phân tích trực quan (Visual Analysis)

Phân tích trực quan là một hình thức phân tích dữ liệu liên quan đến biểu diễn

dữ liệu đô họa để cho phép hoặc nâng cao nhận thức trực quan của nó. Dựa trên

tiền đề răng con người có thể hiểu và rút ra kết luận tư đô họa nhanh hơn tư văn

bản, phân tích trực quan đong vai tro như một công cụ khám phá trong lĩnh vực

Dữ liệu lơn. Mục tiêu là sử dụng các biểu diễn đô họa để phát triển sự hiểu biết

sâu sắc hơn về dữ liệu đươc phân tích. Cụ thể, no giúp xác đinh và làm nôi bật các

mô hình ân, mối tương quan và sự bât thường. Phân tích trực quan cung liên quan

trực tiếp đến phân tích dữ liệu khám phá vì nó khuyến khích việc xây dựng các

câu hỏi tư các goc độ khác nhau. Hiện co các loại phân tích trực quan sau đây:

Bản đô nhiệt (Heat Maps); Lô thời gian (Time Series Plots); Đô thi mạng

(Network Graphs); Ánh xạ dữ liệu không gian (Spatial Data Mapping).[5]

28

1.3. CÁC BAI TOAN PHÂN TICH DƯ BAO

1.3.1. Bai toan phân tich dư bao

Khi noi về các mô hình dự báo, hiện co 02 bài toán chinh cần giải quyết:

- Bai toán hồi quy (Regression): Là những vân đề mà bạn đang cố gắng dự

đoán hoặc giải thích một hiện tương (biến phụ thuộc) băng cách sử dụng những

hiện tương khác (biến độc lập) vơi đầu ra liên tục, ví dụ giá chính xác của một

cô phiếu vào ngày hôm sau [2].

- Bai toán phân lớp (Classification): Cố gắng xác đinh một nhom hiện tương

băng cách lây xác suât, ví dụ. giá cô phiếu sẽ tăng/giảm hoặc sẽ không thay

đôi vào ngày hôm sau. Các thuật toán như SVM (Support Vector Machines)

và KNN tạo ra một đầu ra lơp. Các thuật toán như Logistic Regression,

Random Forest, Gradient Boosting, Adaboost…, đưa ra kết quả xác suât.

Chuyển đôi đầu ra xác suât thành đầu ra lơp chỉ là vân đề tạo xác suât ngưỡng

[16, 19].

1.3.2. Cac mô hình dư bao cơ bản.

Các mô hình dự báo phô biến hiện nay dựa trên các thuật toán Decision Tree,

Logistic Regression, Naïve Bayes, Random Forest, Gradient Boosted, Deep

Learning (Neural Nets) và mô hình dự báo dựa trên các thuật toán kết hơp

Ensemble. Trong khuôn khô của luận văn này sẽ đề cập đến 02 mô hình cơ bản là

Decision Tree (hay con gọi là cây quyết đinh) và Gradient Boosted (nhom Tree)

[17, 19].

1.3.2.1. Mô hinh dư bao dưa trên thuât toan cây quyêt đinh:

Cây quyết đinh (Decision Tree) là một câu trúc biểu diễn dươi dạng cây. Trong

đo, mỗi nút trong biểu diễn một thuộc tính, mỗi nhánh biểu diễn giá tri co thể có

của thuộc tính, mỗi lá biểu diễn các lơp quyết đinh và đỉnh trên cùng của cây gọi

là gốc.

Hình 1.18. Biểu diễn cây quyết định cơ bản

29

Trong lĩnh vực học máy, cây quyết đinh là một kiểu mô hình dự báo, nghĩa là

một ánh xạ tư các quan sát về một sự vật/hiện tương tơi các kết luận về giá tri mục

tiêu của sự vật/hiện tương. Mỗi nút trong tương ứng vơi một biến, đường nối giữa

nó vơi nút con của nó thể hiện giá tri cụ thể cho biến đo. Mỗi nút lá đại diện cho

giá tri dự đoán của biến mục tiêu, cho trươc các giá tri dự đoán của các biến đươc

biểu diễn bởi đường đi tư nút gốc tơi nút lá đo. Kỹ thuật học máy dùng trong cây

quyết đinh đươc gọi là học băng cây quyết đinh, hay chỉ gọi vơi cái tên ngắn gọn

là cây quyết đinh. Một vi dụ cho cây quyết đinh là bài toán dự báo “một người có

chơi tennis hay không”?

Hình 1.19. Cây quyết định cho việc chơi Tennis

Cây quyết đinh là một cây phân câp có câu trúc đươc dùng để phân lơp các đối

tương dựa vào dãy các luật. Các thuộc tính của đối tương (ngoại trư thuộc tính

phân lơp) có thể thuộc các kiểu dữ liệu khác nhau (Binary, Nominal, ordinal,

quantitative values) trong khi đo thuộc tính phân lơp phải có kiểu dữ liệu là Binary

hoặc Ordinal [19].

Tóm lại, cho dữ liệu về các đối tương gôm các thuộc tính cùng vơi lơp của nó,

cây quyết đinh sẽ sinh ra các luật để dự đoán lơp của các đối tương chưa biết. So

vơi các phương pháp KPDL khác, cây quyết đinh là một trong những hình thức

mô tả dữ liệu tương đối đơn giản, trực quan, dễ hiểu đối vơi người dùng nhưng

lại hiệu quả nên đươc sử dụng nhiều. Trong những năm qua, nhiều mô hình phân

lơp dữ liệu đã đươc các nhà khoa học trong nhiều lĩnh vực khác nhau đề xuât như

mạng notron, mô hình thống kê tuyến tính bậc 2, cây quyết đinh, mô hình di

truyền... Trong số những mô hình đo, cây quyết đinh đươc đánh giá là một công

30

cụ mạnh, phô biến, đặt biệt là thích hơp cho DM nói chung và cho phân lơp dữ

liệu nói riêng.

Có rât nhiều giải thuật đã đươc cài đặt sẵn như: CART (Breiman), C4.5

(Quinlan), ID3…

1.3.2.2. Mô hinh dư bao Gradient Boosting.

Boosting là một phương pháp làm cho một mô hình dự đoán yếu thành một

mô hình dự báo mạnh. Gradient boosting là một nhom thuật toán sử dụng cho các

vân đề hôi quy và phân loại. No tạo ra một mô hình dự đoán dươi dạng mô hình

kết hơp các mô hình dự đoán yếu, điển hình là các cây quyết đinh. Nó xây dựng

mô hình theo kiểu tưng bươc giống như các phương pháp boosting khác, và no

khái quát hóa chúng băng cách cho phép tối ưu hoa một hàm mât mát (loss

function) [16, 18].

Thuật toán Gradient Boosting huân luyện nhiều mô hình theo cách thêm tham

số dần dần, và tuần tự. Ý tưởng chính của boosting là thêm các mô hình mơi vào

nhóm liên tục. Ở mỗi lần bô sung như vậy, một mô hình huân luyện yếu mơi đươc

đào tạo liên quan đến lỗi của toàn bộ đoàn đã học cho đến nay

Gradient Boosting thực hiện huân luyện băng cách sử dụng độ dốc của hàm

mât mát (y = ax + b + e, e là tham số lỗi). Trong đo, Hàm mât mát là thươc đo cho

biết các hệ số mô hình phù hơp như thế nào vơi dữ liệu phân tich. Vi dụ: Nếu

chúng ta đang cố gắng dự đoán giá bán băng cách sử dụng hôi quy, thì hàm mât

mát sẽ đươc dựa trên lỗi giữa giá thực tế và và giá dự đoán. Tương tự, nếu mục

tiêu của chúng tôi là phân loại tín dụng, thì hàm mât mát sẽ là thươc đo mức độ

dự báo tốt của mô hình dự đoán của chúng tôi trong việc phân loại các khoản nơ

xâu.

Một vi dụ điển hình cho mô hình dự báo Gradient Boosting là việc kết hơp các

thuật toán Random Forest (Breiman, 2001) vơi neutra network - mạng lươi thần

kinh (Hansen và Salamon, 1990). Sự kết hơp này đã co nhiều ứng dụng thành

công trong các lĩnh vực khác nhau (Liu et al., 2004; Shu và Burn, 2004; Fanelli

và cộng sự, 2012; Qi, 2012) [16, 17, 18].

31

1.3.3. Cac kỹ thuật phân tich dư bao

1.3.3.1. Tao biên đăc trưng

Tạo biến đặc trưng (Feature generation) là quá trình xây dựng các thuộc tinh

mơi tư dữ liệu thô, tạo ánh xạ để chuyển đôi các thuộc tinh gốc sang các thuộc

tinh mơi (đặc trưng) hoặc tạo các thuộc tinh mơi tư một hoặc nhiều thuộc tinh

khác. Trong ngữ cảnh của luận văn này, việc tạo biến đươc hiểu là quá trình tạo

ra các thuộc tinh mơi tư một hoặc nhiều thuộc tinh.

Hai mục tiêu của việc tạo biến là giảm kich thươc dữ liệu và cải thiện độ chính

xác. Khi mục tiêu của phương thức tạo biến là giảm kich thươc, thì kết quả sẽ là

không gian thuộc tinh sẽ chứa it thuộc tinh hơn không gian thuộc tinh ban đầu.

Tuy nhiên, khi mục tiêu là cải thiện độ chinh xác, không gian thuộc tinh mơi rât

có thể sẽ chứa nhiều thuộc tinh hơn không gian thuộc tinh ban đầu.

Luận văn này chủ yếu quan tâm đến các phương pháp tạo biến vơi mục tiêu là

cải thiện độ chính xác của công cụ dự đoán. Việc giảm kich thươc không có mức

độ ưu tiên cao trong giai đoạn tạo biến, vì kết quả của việc tạo biến sẽ đươc đưa

vào giai đoạn trich chọn thuộc tinh (feature selection) - đây mơi là giai đoạn nhăm

mục đich giảm tính chiều của không gian thuộc tinh. Mặc dù quá trình tạo biến

không phải giảm kich thươc, nhưng chắc chắn phải cân thận để không tạo ra một

số lương lơn các thuộc tinh mơi [13].

Để minh họa tầm quan trọng của việc tạo biến, hãy xem xet vi dụ sau trong

Bảng 1.1. Ở đây chúng ta co thể thây thuộc tinh ban đầu Date và thuộc tinh phụ

thuộc Visitors. Đây là hai thuộc tinh biểu diễn ngày và số lương khách truy cập

tương ứng. Nếu chỉ nhìn vào các thuộc tinh này, dường như không co một quan

hệ ro ràng nào để dự đoán dựa vào các thuộc tinh phụ thuộc. Vơi thuộc tinh tạo

mơi, chúng tôi co thể trích xuât và phân loại ngày nào, đươc hiển thi trong cột

IsWeekendDay. Điều này cho chúng ta biết ngày đo co phải là một ngày cuối tuần

hay không. Bây giờ chúng ta có thể thây ro ràng răng số lương khách truy cập vào

ngày cuối tuần cao hơn đáng kể so vơi các ngày trong tuần.

Bảng 1.1. Cac thuôc tính ví dụ Ngày và Khách truy cập va thuôc tính được trích

xuất IsWeek-endDayfDayg

32

Một tình huống khác mà việc tạo biến co thể cải thiện hiệu suât là khi co sự

tương tác thuộc tinh. Trong đo, hai (hoặc nhiều) thuộc tinh không liên quan hoặc

tương quan vơi thuộc tinh phụ thuộc của riêng chúng, nhưng nếu cùng nhau chúng

có ảnh hưởng (cao) đến thuộc tinh phụ thuộc. Ví dụ: lây thuộc tinh giá cả và chât

lương của sản phâm. Nếu tách biệt, họ sẽ không đưa ra nhiều dâu hiệu cho thây

một sản phâm đươc mua thường xuyên. Nhưng nếu kết hơp thi chúng co mối

tương quan nhiều đến việc mua sản phâm. Nếu giá thâp và chât lương cao, thì sản

phâm sẽ đươc mua thường xuyên. Tuy nhiên, giá thâp hoặc chât lương cao mà

không biết giá tri khác không thể đảm bảo răng sản phâm sẽ đươc mua thường

xuyên. Nếu cả giá cả và chât lương đều thâp thì sản phâm sẽ không đươc nhiều

khách hàng mua. Điều tương tự có thể đươc nói khi cả giá cả và chât lương đều

cao.

1.3.3.2. Ky thuât lưa chon đăc trưng

Lựa chọn đặc trưng (feature selection) hay con gọi là trich chọn thuộc tinh là

nhiệm vụ rât quan trọng giai đoạn tiền xử lý dữ liệu khi triển khai các mô hình

khai phá dữ liệu. Một vân đề gặp phải là các dataset dùng để xây dựng các Data

Mining Models thường chứa nhiều thông tin không cần thiết (thậm chí gây nhiễu)

cho việc xây dựng mô hình. Chăn hạn, một dataset gôm hàng trăm thuộc tinh dùng

để mô tả về khách hàng của một doanh nghiệp đươc thu thập, tuy nhiên khi xây

dựng một Data mining model nào đo chỉ cần khoảng 50 thuộc tinh tư hàng trăm

thuộc tinh đo. Nếu ta sử dụng tât cả các thuộc tinh này của khách hàng để xây

dựng mô hình thì ta cần nhiều CPU, nhiều bộ nhơ trong quá trình Training model,

thậm chí các thuộc tinh không cần thiết đó con làm giảm độ chính xác của mô

hình và gây kho khăn trong việc phát hiện tri thức [13].

Các phương pháp trich chọn thuộc tinh thường tính trọng số (score) của các

thuộc tinh và sau đo chỉ chọn các thuộc tinh có trọng số tốt nhât để sử dụng cho

mô hình. Các phương pháp này cho phep bạn hiệu chỉnh ngưỡng (threshold) để

lây ra các thuộc tinh co Score trên ngưỡng cho phép. Quá trình trích chọn thuộc

tinh luôn đươc thực hiện trươc quá trình Training Model.

33

Có rât nhiều phương pháp để lựa chọn thuộc tinh tùy thuộc vào câu trúc của dữ

liệu dùng cho mô hình và thuật toán đươc dùng để xây dựng mô hình. Sau đây là

một số phương pháp phô biến dùng trong trích chọn thuộc tinh:

- Interestingness score: Đươc sử dụng để xếp hạng (rank) các thuộc tinh đối

vơi các thuộc tinh có kiểu dữ liệu liên tục (continuous). Một thuộc tinh đươc

xem là Interesting nếu nó mang một vài thông tin hữu ích. Để đo lường mức

độ interestingness, người ta thường dựa vào entropy. Một thuộc tinh vơi phân

bố ngâu nhiên có entropy cao hơn và co information gain (độ lơi thông tin)

thâp hơn vì vậy các thuộc tinh đo gọi là less interesting.

Entropy của một thuộc tinh nào đo sẽ đươc so sánh vơi entropy của tât cả các

thuộc tinh còn lại theo công thức sau:

Interestingness(Attr) = - (m - Entropy(Attr))*(m - Entropy(Attr))

Trong đo: Attr = Attribute là thuộc tinh, m đươc gọi là entropy trung tâm

(Central entropy- entropy của toàn bộ tập thuộc tinh)

- Shannon's Entropy: Đươc sử dụng đối vơi các dữ liệu kiểu rời rạc (discretized

data). Shannon's entropy đo lường độ bât đinh (uncertainty) của biến ngâu nhiên

đối vơi một kết quả cụ thể (particular outcome). Ví dụ, entropy của việc tung một

đông xu có thể biểu diễn băng một hàm của xác suât của khả năng xuât hiện mặt

sâp hay ngửa. Shannon's entropy đươc tính theo công thức sau:

H(X) = -∑ P(xi) log(P(xi))

Ngoài interestingness score và Shannon's entropy, một số phương pháp khác

cung thường đươc sử dụng trong lựa chọn thuộc tinh như Bayesian with K2 Prior,

Bayesian Dirichlet Equivalent with Uniform Prior. Bảng 1.2 dươi đây là các

phương pháp trich chọn thuộc tinh đươc triển khai.

Bảng 1.2. Cac phương phap trích chọn thuôc tính

34

1.3.3.3. Huân luyên va xac thưc trong cac mô hinh dư bao

Phân chia training set/validation set là một trong những bươc quan trọng nhât của

một mô hình dự báo. Để làm điều này chúng ta thường sử dụng các thư việc có sẵn

để phân chia ngâu nhiên 2 tập dữ liệu này dựa trên một tỉ lệ nào đo.

* Vai trò của mô hình và từng tập dư liệu:

Hình 1.26. Vai trò của mô hình và từng tập dữ liệu

- Training set

Training set bao gôm dữ liệu đầu vào và nhãn. Vơi training set, mô hình có thể

nhìn thây cả dữ liệu và nhãn. Nó sử dụng dữ liệu này để tối ưu loss function thông

qua việc điều chỉnh parameter.

- Validation set

Validation set cung co dữ liệu giống như traning set. Nhưng mô hình không

hề nhìn thây nhãn. Mô hình đơn thuần dùng dữ liệu đầu vào của validation set để

tinh toán ra output. Sau đo no so sánh vơi nhãn để tính loss function. Parameter

hoàn toàn không đươc điều chỉnh ở bươc này.

Validation set là bộ dữ liệu để chúng ta giám sát mô hình. Chúng ta sử dụng

kết quả của mô hình ở training set và validation set để đưa ra các quyết đinh như

điều chỉnh hyperparameter, bô sung thêm dữ liệu... Mô hình cần phải dự đoán tốt

ở validation set. Tức là nó phải làm tốt vơi những dữ liệu mà no chưa tưng nhìn

thây.

- Test set

Test set chỉ có dữ liệu đầu vào mà không có nhãn. Nó giống như những dữ liệu

đến tư tương lai mà cả mô hình và chúng ta đều không biết đươc kết quả. Hiệu

quả của mô hình khi dự đoán test set là thươc đo xem mô hình co thực sự tốt trong

thực tế hay không. Nếu mô hình chỉ làm tốt ở training set và validaiton set mà

không tốt ở test set thì việc sử dụng mô hình trong thực tế không có nhiều ý nghĩa.

35

1.3.3.4. Đanh gia mô hinh dư bao

Làm gì cung vậy, đều co công đoạn mang tên là đánh giá. Dự báo cung không

có ngoại lệ, khi xây dựng mô hình(model) co rât nhiều mô hình ta co thể sử dụng.

Câu hỏi đặt ra là model này có tốt không. Một model tốt sẽ cho kết quả chính xác

khi dự đoán kết quả vơi dữ liệu mơi. Nên việc đánh giá model là một bươc rât

quan trọng để có thể xác đinh model có thể sử dụng đươc không. Tư đo co thể

tiếp tục tiến hành điều chỉnh tham số (tuning parameter), chọn lựa lại thuộc tinh

(feature selection) hay sử dụng mô hình khác…

Không có model nào là tốt nhât vơi tât cả các hoàn cảnh, nó phụ thuộc vào đặc

trưng của model, đặc trưng của dữ liệu, nên việc thử data của mình trên nhiều loại

model là cần thiết. Để đánh giá mô hình, có 2 khái niệm rât quan trọng chính là

Overfitting và Underfit.

* Khái niệm Overfitting, Underfitting:

Hình 1.27. Overfitting, Underfitting

Như trên hình 1.27 (bài toán đang phân loại O và X), bạn có thể dùng mô hình

Logistic Regression để giải quyết. Theo thứ tự tư trái sang phải lần lươt là ví dụ

về Underfitting, bình thường và Overfitting.

- Trong trường hơp Underfitting, model quá đơn giản nên rât nhiều X không

đươc phân loại nên độ chính xác ngay cả trên tập Training Data rât tệ.

- Ngươc lại vơi trường hơp Overfitting thì khi nhìn vào hình, bạn có thể thây

model lại quá phức tạp, mô tả cả noise data (2 dâu X năm trong phần O) nên

độ chính xác trên tập Training là 100% nhưng thực tế vơi data mơi (không có

trong tập Training Data) thì độ chính xác rât tôi tệ.

Do vậy 1 model lý tưởng là model không quá đơn giản, không quá phức tạp

và không dễ bi ảnh hưởng do nhiễu.

36

* Phương pháp đánh giá Cross Validation:

Đầu tiên phải kể đến phương pháp cross validation, đươc đánh giá là phương

pháp nôi tiếng nhât. Thông thường chúng ta chia data thành 2 phần, Training Data

và Test Data. Tiến hành dùng Training Data để tạo model, dùng Test Data để dự

đoán rôi xác đinh tỷ lệ đoán thành công. Thông thường tỷ lệ khi chia data Training:

Test = 70:30

Tuy nhiên, có trường hơp một model cho cross validation tốt nhưng áp dụng vơi

data mơi thì kết quả lại không đươc như ý muốn. Giả dụ trường hơp Overfitting, là

hiện tương mô hình tìm đươc quá khơp vơi dữ liệu training. Khơp quá nên mô hình

co xu hương mô tả cả nhiễu, thành ra khi cho test data vào toạch vô số kể. Thường

xảy ra khi lương data quá nhỏ so vơi độ phức tạp của model. Độ phức tạp của mô

hình có thể đươc coi là bậc của đa thức cần tìm.

Tóm lại, việc chia data làm 2 phần Training Data và Test Data thì vân chưa thể

đưa ra kết luận chinh xác cho model đươc. Vậy nên chúng ta khắc phục băng cách

sau:

Ở bươc chia dữ liệu, không chỉ chia làm 2 phần Training, Test mà chia thêm

1 phần là cross validation. Tỷ lệ thông thường: 60:20:20.

Sử dụng Training Data để tìm tham số và tạo mô hình.

Sử dụng Cross validation để đánh giá độ chính xác của mô hình. Nếu độ

chính xác thâp, điều chỉnh tham số để nâng cao độ chính xác của mô hình.

Sau khi thu đươc mô hình cuối cùng thì tiến hành đánh giá độ chính xác

vơi Test data.

* Phương pháp sử dụng Precision & Recall (Confusion Matrix):

Cách đánh giá này thường đươc áp dụng cho các bài toán phân lơp có hai lơp

dữ liệu. Cụ thể hơn, trong hai lơp dữ liệu này có một lơp nghiêm trọng hơn lơp

kia và cần đươc dự đoán chinh xác.

Hình 1.28. Confusion Matrix

37

Một vi dụ như việc xác đinh mail spam, việc nhầm mail quan trọng thành mail

spam nguy hiểm hơn là bỏ sót mail spam. Trong những bài toán này, người ta

thường đinh nghĩa lơp dữ liệu quan trọng cần đươc xác đinh đúng là lơp Positive

(P-dương tính), lơp còn lại đươc gọi là Negative (N-âm tinh). Ta đinh nghĩa True

Positive (TP), False Positive (FP), True Negative (TN), False Negative (FN) dựa

trên confusion matrix như trên. Tỷ lệ chính xác (Precision) và tỷ lệ tái hiện

(Recall) đươc tinh theo công thức:

Trong đo, tỷ lệ chinh xác (Precision) và tỷ lệ tái hiện (Recall) co giá tri càng

cao, các tốt [17].

* Phương pháp đánh giá Bias & Variance:

Như đã đề cập, một mô hình lý tưởng là mô hình co cả Training Set, Cross

Validation Set, Test Set co độ lỗi thâp. Lúc này mô hình đươc xem là Underfit

hay con gọi là High Bias. Trường hơp mô hình co Training Set lỗi thâp nhưng

trên Cross Validation, Test Set lỗi lơn thì đươc gọi là Overfit hoặc High variance.

Lỗi của một mô hình đươc tinh theo công thức sau:

Trong đo, hθ(x) là giá tri dự báo, m là số data samples, θ là tham số (parameter)

để training, y là giá tri thực tế tại các data point.

Bài toán đặt ra ở đây là tìm kiếm giá tri tham số θ sao cho J(θ) nhỏ nhât nhưng để

không xảy ra tình trạng Overfitting. Để thực hiện chúng ta sẽ sử dụng thêm tham số

chuân hoa λ (regularization parameter) đưa vào công thức sau:

Băng cách này sẽ tránh đươc trường hơp giá tri θ lơn sẽ kho tìm đươc J(θ) nhỏ

nhât, sẽ tránh đươc overfitting (high variance). Câu hỏi đặt ra là lựa chọn λ như

thế nào là hơp lý? Vơi câu hỏi trên, giả sử trục tung là độ lỗi, trục hoành là λ, biểu

diễn trên đô thi ta sẽ đươc câu trả lời.

38

Hình 1.29. Phương phap Bias & Variance

Do λ nhỏ quá thì sẽ bi overfitting (high variance), Jtrain(θ) của Training Data

sẽ nhỏ, độ lỗi Jcv của Cross Validation Set trở nên lơn. Ngươc lại λ lơn quá model

sẽ bi Underfit hoặc high bias. Cả 2 độ lỗi của Training Data, Cross Validation Set

sẽ cùng trở nên lơn. Do vậy chọn λ tại điểm khoanh đỏ sẽ cho JCV(θ) nhỏ nhât.

Tom lại, qua các phân tich noi trên để tránh đươc các hiện tương Underfitting

và Overfitting, chúng ta co những phương pháp sau:

Phương phap khăc phục Underfitting (High bias):

Tìm kiếm biến đặc trưng (feature) khac.

Thêm vao cac đặc trưng dạng (x21, x22, x1x2)

Giảm tham số chuân hóa λ.

Phương phap khăc phục Overfitting (High variance)

Tăng số lượng dữ liệu Training Data

Giảm số lượng biến đặc trưng (feature)

Tăng đô lớn của tham số chuân hóa λ

Như biểu đô trên, khi High Variance thì độ lỗi trên tập train sẽ thâp nhưng khi

đo trên Test Data độ lỗi lơn chính là hiện tương Overfitting. Ngươc lại khi High

Bias thì độ lỗi trên Training Data lơn và đương nhiên độ lỗi trên Test Data cung

sẽ lơn. Cung chinh là hiện tương Underfitting [17].

* Phương pháp đương cong AUC-ROC:

Trong lĩnh vực Machine Learning, việc tính toán hiệu suât của mô hình là một

điều rât quan trọng. Trong các bài toán phân loại, ngoài phương pháp phô biến là

sử dụng Confusion Matrix thì còn phải nhắc đến một phương pháp rât quan trọng

khác, đo là đường cong AUC – ROC [17]

AUC - ROC là một phương pháp tinh toán hiệu suât của một mô hình phân

loại theo các ngưỡng phân loại khác nhau. Giả sử vơi bài toán phân loại nhi phân

(2 lơp) sử dụng hôi quy logistic (logistic regression), việc chọn các ngưỡng phân

loại [0...1] khác nhau sẽ ảnh hưởng đến khả năng phân loại của mô hình và ta cần

39

tinh toán đươc mức độ ảnh hưởng của các ngưỡng. AUC là tư viết tắt của Area

Under the Curve còn ROC viết tắt của Receiver Operating Characteristics. ROC

là một đường cong biểu diễn xác suât và AUC biểu diễn mức độ phân loại của mô

hình. AUC-ROC con đươc biết đến dươi cái tên AUROC (Area Under the

Receiver Operating Characteristics) [19].

Ý nghĩa của AUROC có thể diễn giải như sau: Là xác suât răng một mâu dương

tinh đươc lây ngâu nhiên sẽ đươc xếp hạng cao hơn một mâu âm tinh đươc lây

ngâu nhiên. Biểu diễn theo công thức, ta có AUC = P(score(x+) > score(x-)). Chỉ

số AUC càng cao thì mô hình càng chính xác trong việc phân loại các lơp.

Hình 1.30. Phương phap đương cong AUC-ROC

Đường cong ROC biểu diễn các cặp chỉ số (TPR, FPR) tại mỗi ngưỡng vơi

TPR là trục tục và FPR là trục hoành. Các chỉ số sử dụng trong AUC – ROC bao

gôm:

TPR (True Positive Rate/Sentivity/Recall): Biểu diễn tỷ lệ phân loại chính

xác các mâu dương tinh trên tât cả các mâu dương tinh, đươc tính theo công

thức:

TPR càng cao thì các mâu dương tinh càng đươc phân loại chính xác.

Specificity: Biểu diễn tỷ lệ phân loại chính xác các mâu âm tính trên tât cả

các mâu âm tinh, đươc tính theo công thức:

FPR (False Positive Rate/Fall-out): Biểu diễn tỷ lệ gắn nhãn sai các mâu

âm tính thành dương tinh trên tât cả các mâu âm tinh, đươc tính theo công

thức:

40

Có thể thây Specificity tỷ lệ nghich vơi FPR. FPR càng cao thì Specificity càng

giảm và số lương các mâu âm tính bi gắn nhãn sai càng lơn. Đây chinh là các chỉ

số dùng để tính toán hiệu suât phân loại của mô hình. Để hơp chúng lại thành 1

chỉ số duy nhât, ta sử dụng đường cong ROC để hiển thi tưng cặp (TPR, FPR) cho

các ngưỡng khác nhau vơi mỗi điểm trên đường cong biểu diễn 1 cặp (TPR, FPR)

cho 1 ngưỡng, sau đo tinh chỉ số AUC cho đường cong này. Chỉ số AUC chính là

con số thể hiện hiệu suât phân loại của mô hình.

Sentivity và Specificity là 2 chỉ số tỷ lệ nghich vơi nhau. Khi chỉ số Sentivity

tăng thì chỉ số Specificity giảm và ngươc lại. Khi ta tăng ngưỡng phân loại, số lương

mâu đươc gắn nhãn âm tính sẽ tăng lên, tư đo chỉ số Specificity tăng và chỉ số

Sentivity giảm. Điều ngươc lại cung đúng. Vì Sentivity/TFP và FPR đều tỉ lệ nghich

vơi Specificity nên TFP tỷ lệ thuận vơi FPR.

- Đanh gia mô hình qua chỉ số AUC:

Như đã noi ở trên, chỉ số AUC càng gần 1 thì mô hình càng phân loại chính

xác. AUC càng gần 0.5 thì hiệu suât phân loại càng tệ còn nếu gần 0 thì mô hình

sẽ phân loại ngươc kết quả (phân loại dương tinh thành âm tinh và ngươc lại). Giờ

ta sẽ biểu diễn các trường hơp này qua các đô thi trong hình 1.31 – 1.34. Đương

cong mau đỏ biểu diễn phân phối của các mẫu dương tính, đương cong màu xanh

lá biểu diễn phân phối của các mẫu âm tính.

Trương hợp 1 - Hình 1.31: Đây la trương hợp tốt nhất. Mô hình phân loại

hoan toan chính xac khi 2 đương cong không chồng lên nhau. Tuy nhiên

trương hợp này rất khó xảy ra và chỉ tồn tại trên lý thuyết.

Hình 1.31. Trương hợp tốt nhất khi 2 đương cong không chồng lên nhau.

Trương hợp 2 – Hình 1.32: Khi 2 đương cong chồng lên nhau, việc phân

loại sẽ xảy ra 2 dạng lỗi đó la FP (Type 1 Error) va FN (Type 2 Error). Ta

có thể thay đổi giá trị của 2 chỉ số lỗi này bằng cach thay đổi ngưỡng. Có

41

thể thấy đương cong ROC đã hạ xuống môt chút, tuy nhiên nó vẫn nằm ở

góc trên bên trái của đồ thị, tức là hiệu suất phân loại vẫn ổn định.

Hình 1.32. Trương hợp khi 2 đương cong có chồng lên nhau.

Trương hợp 3 – Hình 1.33: Đây la trương hợp tệ nhất. Mô hình hoàn toàn

không có khả năng phân loại giữa 2 lớp. Đương cong ROC ở trương hợp

này là môt đương thẳng tạo với Ox môt góc 45 đô, biểu diễn môt mô hình

phân loại môt cách ngẫu nhiên. Mô hình phân loại ngẫu nhiên thương được

sử dụng như môt đương cơ sở để so sánh giữa các mô hình.

Hình 1.33. Trương hợp tệ nhất khi 2 đương cong hoàn toàn chồng lên nhau.

Trương hợp 4 - Hình 1.34: Khi AUC xâp xỉ 0, mô hình phân loại ngược

hoàn toàn 2 lớp với việc phân loại âm tính thanh dương tính - dương tính

thanh âm tính. Để sửa điều này ta chỉ cần đảo ngược đầu ra của mô hình.

Hình 1.34. Trương hợp AUC xấp xỉ 0.

42

1.3.4. Giơi thiệu công cụ phân tích Rapidminer

Rapid Miner là một nền tảng phần mềm khoa học dữ liệu cung câp một môi

trường tích hơp để chuân bi dữ liệu, học máy, học sâu, khai thác văn bản và phân

tích dự đoán. Đây là một trong những hệ thống mã nguôn mở hàng đầu cho khai

thác dữ liệu. Chương trình đươc viết hoàn toàn băng ngôn ngữ lập trình Java.

Chương trình cung câp một tùy chọn để thử xung quanh vơi một số lương lơn các

toán tử tùy ý có thể lông đươc chi tiết trong các tệp XML và đươc thực hiện vơi

sự can thiệp của người dùng đô họa của người khai thác nhanh.

Rapidminer là một mã nguôn mở, là một môi trường cho Machine learning và

Data mining và đươc viết băng ngôn ngữ lập trình Java. Chúng sử dụng mô hình

Client/Server vơi máy chủ là on-premise hoặc public cloud hoặc private cloud [6].

Rapidminer cung câp các lươc đô Learning Schemas, các mô hình và các thuật toán,

và có thể đươc mở rộng băng ngôn ngữ R và Python.

Các thuật toán trong Data mining được chia thành 2 loại:

- Thuật toán Learning đươc giám sát: Là các thuật toán yêu cầu đã co đầu ra

Output (hoặc gọi là Label hay Target). Một số mô hình thuộc thuật toán này

có thể kể đến như: Naïve Bayes, cây quyết đinh (Decision Tree), mạng thần

kinh (Neural Networks), SVM (Support Vector Machine), mô hình hôi quy

(Logistic Regression), [19]...

- Thuật toán Learning không đươc giám sát: Là các thuật toán không bắt buộc

phải biết trươc đầu ra Output nhưng co thể tìm kiếm các khuôn mâu hoặc các

xu hương mà không có Label hoặc Target, như mô hình K-Mean Clustering,

Anomaly Detection, Association Mining.

Với Rapidminer, có thể giúp bạn:

- Tải và chuyển đôi dữ liệu (Extract, Transform, Load (ETL))

- Xử lý dữ liệu và trực quan dữ liệu

- Xây dựng các mô hình dự báo và phân tích thống kê

- Đánh giá và triển khai dữ liệu

* Môt số thuật ngư trong Rapidminer:

Thuôc tính (Attribute): mô tả thông tin của các yếu tố trong 1 kịch bản. Thuôc

tính là các côt của bảng dữ liệu. Ví dụ: giới tính, đô tuổi, phương thức thanh

toán, mức đô tương tac, churn (mất khách hàng)

Tập dư liệu (Data set): Training set được sử dụng để khám phá ra mối quan

hệ va cac mô hình đao tạo. Test set là dữ liệu được sử dụng để kiểm tra đô

43

chính xac va ý nghĩa của mô hình dư bao (được phát hiện bằng cách sử dụng

tập huấn luyện – training set)

Exmaple: đặc trưng bới các thuôc tính của nó, môt example có thể được so

sánh với các example khác. Example là các dòng của môt bảng dữ liệu. Ví dụ

1 tập data về customer – churn bao gồm 993 example nói cách khác là 993

dòng. Chúng được xac định bởi số dòng mà Rapidminer prepend.

Example set: bảng được tạo ra từ các attribute (column) và các example

(row). Còn được gọi là data hoặc data set. Ví dụ: example set được sử dụng

ở đây la customer-churn, lấy từ file excel customer-churn.xlsx

Label: thuôc tính nhận diện liên quan đến câu hỏi hiện tại. Mục tiêu la để biết

hoặc tìm giá trị của thuôc tính (label’s) hoặc tìm hiểu các nguyên tăc để…

Đôi khi được gọi là biến mục tiêu hoặc thuôc tính mưc tiêu, đây la điều kiện

để đưa ra dư đoan cho cac example chư được mô tả. Mỗi data set chỉ có 1

label. Ví dụ ‘churn’ la label của data customer-churn

Model (mô hình): phương phap khai thac dữ liệu hoặc hướng dẫn dư đoan.

Môt mô hình giải thích các quy luật được phát hiện và (hoặc) dư đoan cac

tình huống ở hiện tại hoặc tương lai. Ví dụ, ban tạo ra môt mô hình dư báo

môt khach hang đặt hàng có hủy bỏ hay không. Mô hình sẽ trả về kết quả cho

bạn là tỷ lệ ngươi đó đặt hàng hay không.

Operator: các khổi xây dưng được nhóm lại theo chức năng, được sử dụng để

tạo ra cac tiến trình của Rapidminer. Môt operator có cổng input và cổng

output. Hanh đông đầu vào sẽ dẫn đến kết quả của đầu ra. Các tham số

(parameter) của operator sẽ kiểm soát những hanh đông đó. Hiện có hơn 1500

operator trong Rapidminer. Trong hướng dẫn này, bạn sử dụng Retrieve (lấy

ra tập dữ liệu) cho toán tử ‘Filter Examples’.

44

CHƯƠNG 2.

PHƯƠNG PHAP TỔ CHỨC VÀ TICH HỢP DỮ LIỆU LỚN

2.1. CAC HÊ THỐNG PHÂN TICH DỮ LIÊU LỚN TRONG VIÊN THÔNG

2.1.1. Một số ưng dụng hệ thống phân tich dữ liệu lơn phô biến hiện nay

Là một ngành công nghiệp vơi khối lương dữ liệu cần xử lý rât lơn, ngành

công nghiệp viễn thông đã nhanh chong phát triển tư cung câp dich vụ điện thoại

cố đinh để cung câp nhiều dich vụ thông tin liên lạc toàn diện khác. Chúng bao

gôm di động, điện thoại thông minh, truy cập Internet, email, tin nhắn văn bản,

hình ảnh, máy tính và truyền dữ liệu web và các dữ liệu giao thông. Sự hội nhập

của viễn thông, mạng máy tính, Internet và nhiều phương tiện truyền thông khác

đã đươc tiến hành, thay đôi bộ mặt của viễn thông và điện toán. Điều này đã tạo

ra một nhu cầu lơn về khai thác dữ liệu để giúp hiểu số liệu kinh doanh, xác đinh

mô hình viễn thông, xác đinh các hoạt động gian lận, sử dụng tốt hơn các nguôn

lực và cải thiện chât lương dich vụ [7, 8].

Hình 2.1. Cac lĩnh vưc phân tích dữ liệu lớn trong viễn thông.

Bài toán khai thác dữ liệu trong viễn thông co điểm tương đông vơi những

người trong ngành công nghiệp bán le. Bài toán thường gặp bao gôm xây dựng

kho dữ liệu quy mô lơn, thực hiện biểu diễn đa chiều trực quan, OLAP và phân

tích chuyên sâu về các xu hương, mâu của khách hàng và các mâu tuần tự. Các

bài toán này góp phần cải thiện kinh doanh, giảm chi phí, duy trì khách hàng, phân

tích gian lận và tìm hiểu về đối thủ cạnh tranh. Có rât nhiều bài toán phân tich dữ

45

liệu lơn cùng vơi các công cụ khai thác dữ liệu cho viễn thông đã đươc biết đến

và sẽ đong vai tro ngày càng quan trọng trong kinh doanh ngày nay. Một số bài

toán cụ thể như sau [7, 12]:

- Quản lý trải nghiệm khach hang (Customer Experience Mgmt):

- Giám sát, quản lý va tối ưu mạng lưới (Network OAM)

- Phân tích hoạt đông (Operation Analytics).

- Kiếm tiền từ dữ liệu (Data Monetization)

Hình 2.2. Mức đô ứng dụng phân tích dữ liệu lớn trong viễn thông.

Source: Heavy Reading Survey - Thought Leadership Council (n=12), Nov.2017

2.1.1.1. Quan ly trai nghiêm khach hang (Customer Experience Mgmt)

Quản lý trải nghiệm khách hàng là quá trình quản lý tât cả các điểm tiếp xúc

vơi khách hàng nhăm đảm bảo mối quan hệ tích cực giữa khách hàng vơi thương

hiệu. CEM đươc hiểu là việc “chủ động thiết kế và quản tri tât cả các trải nghiệm

khách hàng tư các trải nghiệm về thương hiệu, trải nghiệm mua sản phâm dich vụ,

trải nghiệm sử dụng sản phâm dich vụ đến các trải nghiệm dich vụ sau bán hàng

trên tât cả các kênh, mọi điểm tiếp xúc để đáp ứng các kỳ vọng của khách hàng

nhăm gia tăng sự hài lòng, trung thành và ủng hộ của khách hàng”.

Ngoài ra, dựa vào các điểm tiếp xúc khách hàng đo, phân tich dữ liệu lơn kết

hơp các kỹ thuật AI/ML là những công cụ thiết yếu để nhà mạng viễn thông hiểu

đươc sức khỏe của mạng lươi của mình và chât lương dich vụ cung câp cung câp

cho khách hàng. Thông qua đo, nhà mạng sẽ đưa ra các hành động tối ưu nâng

cao chât lương mạng lươi và dich vụ [11].

Hiện nay co 03 bài toán ứng dụng phân tich dữ liệu lơn về quản lý trải nghiệm

khách hàng là: Phân tich dự báo rời mạng (Predict Churn Analytic), Chăm soc

46

khách hàng chủ động (Proactive Care), Khách hàng mục tiêu, maketing mục tiêu

(Targeted Maketing/ Personalization) [7, 8, 9].

* Phân tích về lòng trung thành của khách hang, Phân tích dự báo rơi mạng

Chúng ta có thể sử dụng thông tin khách hàng trung thành để đăng ký trình tự

mua hàng của khách hàng cụ thể. Lòng trung thành của khách hàng và xu hương

mua hàng có thể đươc phân tích một cách co hệ thống. Hàng hóa mua tại giai đoạn

khác nhau của cùng một khách hàng có thể đươc nhóm lại thành chuỗi. Tuần tự

khai thác mô hình sau đo co thể đươc sử dụng để điều tra những thay đôi trong

tiêu dùng của khách hàng hoặc long trung thành và đề nghi điều chỉnh về giá cả

và sự đa dạng của hàng hoa để giúp giữ chân khách hàng và thu hút những người

mơi [9].

Phân tich dữ liệu lơn kết hơp AI co thể dự báo và giảm thiểu khách hàng rời

mạng. Nghiên cứu của một nhom co tên là Wise Athena đã điều tra việc sử dụng

DL để dự đoán sự rời mạng của khách hàng trong viễn thông. Họ tìm thây phương

pháp chinh xác hơn các phương pháp trươc đo dựa trên các thuật toán phân loại

ML đươc giám sát. Phân tich dữ liệu lơn giúp phân tich dự báo khách hàng rời

mạng để tư đo đề nghi điều chỉnh về giá cả và sự đa dạng của hàng hoa để giúp

giữ chân khách hàng [7, 8].

* Chăm soc khách hang chủ đông (Proactive Care)

Cho đến nay, một trong những ứng dụng chính của phân tich dữ liệu lơn trong

lĩnh vực viễn thông là kết hơp AI/ML để tạo ra các chat-bot hỗ trơ hoặc thay thế

các trung tâm chăm soc khách hàng (Call center). Vi dụ, công ty Telstra ươc tính

răng 30% các cuộc gọi trong nươc đến một trung tâm liên lạc có thể đươc giải

quyết băng các chatbot AI. Vân có một vai trò cho các tác nhân của con người tại

Telstra (hiện co 11.000), nhưng vơi sự trơ giúp của AI, O'Meara ươc tính răng họ

có thể làm việc hiệu quả hơn 20 - 35% [7]. Các ví dụ khác về việc sử dụng phân

tich dữ liệu kết hơp AI trong dich vụ hỗ trơ khách hàng bao gôm:

+ Thiết lập công kiến thức điện tử và trơ lý ảo, tối ưu hoa trung tâm chăm soc

khách hàng.

+ Phân tích tình cảm (cảm xúc) của khách hàng - Telstra đang xem xet sử

dụng phân tich này để tăng cường hiệu quả nhắn tin và trò chuyện.

* Khách hang mục tiêu, Maketing mục tiêu

47

Ngành viễn thông noi riêng và dich vụ bán le nói chung cần nhìn cái nhìn đa

chiều về doanh thu bán hàng, lơi nhuận, sản phâm ... nên việc phân tích dữ liệu

đa chiều rât cần thiết giúp cho những người quản lý nắm bắt đươc tình hình kinh

doanh và thi trường cùng các thông tin hữu ích khác.

Hiện các chương trình khuyến mại và sản phâm của ngành viễn thông liên tục

đươc thay đôi, để đánh giá hiệu quả các chương trình khuyến mại là bài toán rât

quan trọng của các mạng viễn thông. Phân tich dữ liệu lơn kết hơp AI co thể đươc

áp dụng cho CRM trong các lĩnh vực như quảng cáo đến tưng khách hàng, chỉ ra

các cơ hội bán cheo và bán sản phâm đươc nhiều hơn [7, 8].

2.1.1.2. Giám sát, quan ly va tôi ưu mang lưới (Network OAM)

Các phương pháp tiếp cận phân tich dữ liệu lơn đang bắt đầu xuât hiện trong

lĩnh vực mạng viễn thông để giải quyết các thách thức của ảo hóa (NFV Network

Function Visualization) và điện toán đám mây (Cloud Computing) [6]. Sự phức

tạp gia tăng trong các ứng dụng mạng viễn thông đang thúc đây nhu cầu tự động

hóa mạng lươi. Các nền tảng tự động hóa mạng lươi dựa trên phân tich dữ liệu

lơn kết hơp các kỹ thuật AI/ML để hỗ trơ các hoạt động quản lý hiệu quả, kip thời

và đáng tin cậy. Ví dụ về các ứng dụng tập trung vào mạng lươi bao gôm:

+ Phát hiện bât thường trong vận hành khai thác, quản tri, bảo trì mạng lươi

+ Giám sát và tối ưu hoa hiệu suât sử dụng mạng

+ Tối ưu cảnh báo mạng lươi.

+ Khuyến nghi hành động xử lý lỗi mạng.

+ Tự động xử lý lỗi mạng.

+ Dự đoán lỗi mạng

+ Quy hoạch dung lương mạng (thông qua dự báo nghẽn mạng)

Phân tich dư liệu lơn kết hơp ML co thể hỗ trơ vận hành khai thác mạng lươi để

phát hiện các sự cố - ví dụ: lỗi, các vi phạm thỏa thuận câp dich vụ (SLA) - trong

thời gian thực, chân đoán nguyên nhân gốc, xác đinh tương quan nhiều nguôn sự

kiện, lọc cảnh báo (cảnh báo giả) và đề xuât giải pháp khắc phục lỗi. Mặc dù một

số giải pháp này đươc xây dựng để bảo đảm cho các dich vụ hiện co, nhưng chúng

có thể phải làm lại vơi việc chuyển sang 5G và các công nghệ liên quan như NFV.

Do mức độ trưu tương trong thiết kế mạng tăng lên, dân đến việc làm tăng độ phức

tạp trong khi phân tich tương quan [11].

48

Phân tich dữ liệu lơn kết hơp AI/ML co thể sử dụng kỹ thuật phân cụm để tìm

mối tương quan giữa các cảnh báo mà trươc đây không bi phát hiện. Ngoài ra co

thể sử dụng kỹ thuật phân loại để huân luyện hệ thống đưa ra các cảnh báo ưu

tiên. Tương quan các cảnh báo sẽ đươc dựa trên quy luật (rule) truyền thống do

đo phải chiu một sức ep lơn để duy trì quy luật. Thay vào đo, vơi ML, chúng ta

có thể huân luyện một hệ thống để đưa ra các quy luật riêng dựa trên một tập hơp

dữ liệu đầu vào nhât đinh.

Phân tich dữ liệu lơn kết hơp ML co thể đươc ứng dụng trong việc cam kết

chât lương dich vụ qua việc tự động hoa xử lý các sự cố thông thường. Hệ thống

có thể đươc nhân viên vận hành lập trình cách xử lý các sự cố thông thường này,

tuy nhiên vân cần có sự châp thuận của con người trươc khi thực hiện lệnh. Về

lâu dài, khi con người trở nên thuần thục hơn vơi công nghệ ML, họ có thể để nó

hoạt động vơi sự tự chủ ngày càng tăng.

Giáo sư Maziar Nekovee, Đại học Sussex, đã xác đinh các trường hơp sử dụng

tiềm năng sau đây vơi phân tich dữ liệu lơn kết hơp thuật toán AI và ML trong

mảng di động trong viễn thông như sau :

- AI tại mạng vô tuyến (RAN): truy cập và chuyển giao thông minh; lập lich

động; tối ưu hoa tài nguyên.

- AI ở mạng loi (Core): Ảo hoa tỷ lệ in/out, up/down, cung câp độ co giãn; quản

lý phân chia mạng thông minh, ưu tiên dich vụ và chia se tài nguyên; dự đoán

và đinh vi lỗi thông minh

- AI ở mạng Fronthaul: ươc tính và dự đoán lưu lương truy cập; phân chia chức

năng linh hoạt

- Các ứng dụng AI khác (RAN, mạng lõi hoặc mạng đầu cuối): Điều chỉnh năng

lương sử dụng hiệu quả theo lưu lương vô tuyến động, v.v.; Điều phối và đảm

bảo chât lương dich vụ đầu cuối (ví dụ: SLA tùy chỉnh); ưu tiên và tối ưu hoa

dich vụ đầu cuối.

Ngoài ra, các ứng dụng phân tich dữ liệu lơn con giúp tạo ra các công cụ hữu

ich như: Dự báo dung lương quy hoạch mạng (Proactive Capacity Planning); Phân

tich mạng Real time (Real-time Network Analytics); Quy hoạch và đầu tư mạng

lươi (Network Investment & Planning) [7, 9, 11].

2.1.1.3. Phân tich hoat động (Operation Analytics)

* Phong chống gian lận trong viên thông (Telco Fraud)

49

Trong ngành viễn thông thì việc rât quan trọng là phát hiện gian lận và hành

vi sử dụng bât thường nhăm giảm thiểu thât thoát doanh thu. Bài toán phát hiện

dâu hiệu bât thường và phòng chống gian lận để phát hiện các hành vi gian lận

của khách hàng và các bât thường của hành vi sử dụng. Phân tich dữ liệu lơn dụng

chủ yếu sử dụng các công cụ phân lơp, phân tích hành vi.

Theo Hiệp hội kiểm soát gian lận truyền thông, gian lận gây thiệt hại cho ngành

viễn thông toàn cầu 38 tỷ đô la hàng năm, trong đo lưa đảo chuyển vùng chiếm

10,8 tỷ đô la [7].

* Đam bao doanh thu/thất thoát (Revenue Leakage/Assurance)

Ở ngành viễn thông và bán le nói chung thì việc tư vân cho khách hàng rât

quan trọng nhăm tăng doanh thu. Vân đề ở đây là phát hiện nhu cầu của khách

hàng để có thể tư vân và gơi ý cho khách hàng đúng nhu cầu, thời gian và đia

điểm. Các ứng dụng của việc phân tich dữ liệu lơn ở đây bao gôm việc phân tích

hành vi khách hàng, phân lơp, … [8]

* Phân tích an ninh mạng (Cyber Security)

Các công nghệ bảo mật truyền thống dựa trên các luật mã hoa và chữ ký để

tìm ra các mối đe dọa tư bên ngoài. Nhưng những thông tin này co thể sơm trở

nên lỗi thời. Chiến thuật của hacker đang phát triển nhanh chóng, và số lương các

mối đe dọa mơi và chưa đươc biết đến nhắm vào các mạng viễn thông không

ngưng gia tăng. Việc phân tich dữ liệu lơn sử dụng các thuật toán AI/ML có thể

đươc huân luyện để thích ứng vơi bối cảnh thay đôi này để tư đo đưa ra các quyết

đinh xử lý.

Qua việc theo doi thi trường bảo mật viễn thông, các kỹ thuật AI như mạng

thần kinh và ML đã đươc sử dụng trong nhiều năm để cải thiện việc phát hiện mã

độc và các mối đe dọa khác trong viễn thông. Và AI có tiềm năng tiến xa hơn,

chăng hạn như tự động thực hiện các hành động khắc phục hoặc đưa ra quyết đinh

hoặc khuyến nghi. Một lĩnh vực hoạt động nóng gần đây là cơ sở cho hành vi của

các thiết bi đươc kết nối vơi Internet of Things (IoT). Tại đây, nhiều nhà cung câp

đươc thành lập và các công ty khởi nghiệp AI đang phát triển các giải pháp sẽ

giúp các CSP quản lý các thiết bi và dich vụ IoT an toàn hơn, sử dụng câu hình tự

động của các thiết bi đo [7, 8].

50

2.1.1.4. Kiêm tiên tư dữ liêu (Data Monetization)

Các công ty như các tô chức viễn thông đang sản xuât một lương lơn dữ liệu

liên tục. Nhiều công ty đã hiểu răng dữ liệu này có thể đươc sử dụng và nó có thể

có giá tri khi đươc sử dụng đúng. Vân đề là làm thế nào để biến dữ liệu đo thành

tiền - làm thế nào để kiếm tiền tư dữ liệu.

Một cách để kiếm tiền tư dữ liệu là chia nó thành hai loại: kiếm tiền tư nội bộ

và kiếm tiền tư bên ngoài. Kiếm tiền nội bộ co nghĩa là làm tăng doanh thu của

công ty vơi việc sử dụng dữ liệu. Có nhiều cách để làm như co thể tăng lên băng

cách cải thiện dich vụ sản phâm và hiểu nhu cầu của khách hàng. Hoặc doanh thu

có thể đạt đươc băng cách tăng cường doanh số vơi các hoạt động như như chăm

sóc khách hàng, lập kế hoạch bán hàng qua kênh hiệu quả. Ngoài ra, phương pháp

tối ưu hoa và tăng cường sản xuât và bảo trì có thể mang lại khoản tiết kiệm lơn

cho doanh nghiệp. Kiếm tiền tư dữ liệu bên ngoài có thể bao gôm bán dữ liệu, bán

thông tin phân tích nghiên cứu hoặc dự đoán chăng hạn.

Hiện nay một số mảng phân tich dữ liệu lơn trong lĩnh vực kiếm tiền tư dữ liệu

hay đươc sử dụng phô biến như: Phân tich dữ liệu dich vụ (Data Analytics as a

Service); Phân tich dich vụ IoT (IoT Service & Analytics); Phân tich M2M

(Machine to machine Analytic) [7, 8].

2.1.2. Hiện trang cua Viettel

2.1.2.1. Cac nguôn dữ liêu lớn tai Viettel

* Nguồn dư liệu về khách hang

- Viettel là một nhà cung câp dich vụ viễn thông lơn hàng đầu Việt Nam, co thi

phần chiếm 60% … do vậy các dữ liệu về khách hàng

- Các nguôn dữ liệu rât phong phú liên quan đến thông tin thuê bao, hành vi tiêu

dùng, lich sử hoạt động của khách hàng… Các dữ liệu này rât quan trọng trong

việc phân tich hỗ trơ cho công tác chăm soc khách hàng, nhìn thây chât lương

dich vụ tơi tưng người dùng. Để tư đo nâng cao chât lương dich vụ, phục vụ yêu

cầu ngày càng cao của khách hàng.

- Hệ thống lưu trữ và xử lý: vBI, Datamon/Csmon.

* Nguồn dư liệu từ mạng lưới (network)

Vơi quy mô quản lý khai thác mạng lươi ở phạm vi rộng, không những tại Việt

Nam mà con kể đến 10 thi trường nươc ngoài mà Viettel đầu tư. Do vậy, nguôn

dữ liệu tư mạng lươi của Viettel cung đươc xem là một nguôn dữ liệu lơn quan

51

trọng. Các dữ liệu liên quan đến mạng lươi liên quan đến các hệ thống lưu trữ và

xử lý đáng kể như:

Hệ thống NCMS 2.0: hệ thống thu thập gần 2 tỷ tham số mạng lươi tại Việt

Nam & thi trường. Trơ giúp cho các ứng dụng tự động hóa, thông minh hóa

tại VTNet.

Hệ thống GeoLocation: Hệ thống dùng dữ liệu event di động của hàng chục

triệu thuê bao để tự đo kiểm và xây dựng bản đô vùng phủ, bản đô chât

lương dich vụ.

Hệ thống NPMS 2.0: Hệ thống thu thập toàn bộ dữ liệu thô counter tại Việt

Nam và thi trường, xử lý ở mức sâu hơn, đầy đủ hơn so vơi các hệ thống

của vendor.

Hệ thống Viettel SON: Hệ thống tự động phân tích liên tục, hàng loạt counter,

KPI, alarm, event trên mạng lươi. Tư đo ra quyết đinh tối ưu (tự động tích hơp

trạm mơi, tự động cân băng tải, tự động tối ưu relation)

2.1.2.2. Cac hê thông phân tich dữ liêu lớn cua Viettel

Để đáp ứng cho xu hương của thế giơi cung như đảm bảo cho kinh doanh của

Tập đoàn. Cho đến thời điểm hiện tại, Viettel đã co nhiều hệ thống phân tich dữ

liệu lơn đươc áp dụng cho cả lĩnh vực kinh doanh và kỹ thuật. Ngoài các hệ thống

phân tich dữ liệu lơn truyền thống phục vụ kinh doanh như vBI (Viettel Business

Intelligent), CEM (Customer Experient Management). Viettel con tự xây dựng

các hệ thống phân tich phục vụ trong công tác quản lý điều hành kỹ thuật đáng kể

như:

* Hệ thống giám sát mạng lưới (NocPro, AOM):

Hệ thống này triển khai các thuật toán học máy (machine learning), trí tuệ nhân

tạo (artificial intelligence) để giải quyết các bài toán như: gộp cảnh báo tương

quan (alarm correlation), dự báo sự cố xảy ra dựa trên chuỗi các sự kiện (event)

xuât hiện trong mạng lươi. Đặc trưng của các bài toán này là cần xử lý theo luông

sự kiện (event streaming) vơi yêu cầu xử lý trong thời gian thực nên mô hình dự

báo cần co độ chinh xác tương đối cao nhưng lại phải đủ đơn giản về mặt tính

toán.

* Hệ thống giám sát va khăc phục sự cố giao dịch ngươi dùng:

Tư trươc đến nay các hệ thống giám sát mơi chỉ tập trung vào các lỗi nhìn thây

trong cảnh báo phát sinh tư các phần tử mạng. Vơi yêu cầu mơi cần phải giám sát

52

tơi mức dich vụ, tơi tưng khách hàng do vậy hệ thống đã đươc cải tiến để thu thập

tư các nguôn dữ liệu mơi như sau:

Mã lỗi trích xuât tư các bản tin báo hiệu trao đôi trên mạng vô tuyến, mạng

loi và mạng IP

Mã lỗi trong các bản tin trả về của các giao thức ứng dụng HTTP, DNS,

FTP đươc ghi nhận thông qua hệ thống probe của hệ thống

Datamon/CSMon

Mã lỗi đươc log ra tư các ứng dụng công nghệ thông tin.

Các thông tin mã lỗi này sẽ bô sung đầu vào cho phân hệ quản lý sự kiện (Event

Management) quyết đinh việc tạo cảnh báo, sinh ticket giao việc cho lực lương

vận hành khai thác xử lý hoặc tự đưa ra hành động sửa chữa, phục hôi dich vụ

theo các luật đươc đinh nghĩa trươc. Hệ thống này cung đoi hỏi xử lý theo thời

gian thực để đảm bảo yêu cầu giám sát, xử lý sự cố.

* Hệ thống phân tích tối ưu mạng lưới theo trai nghiệm ngươi dùng:

Hệ thống dựa trên việc giám sát các chỉ số KQI phản ánh chât lương dich vụ

toàn trình (end-to-end) nhăm chỉ ra các khách hàng hay khu vực có sự suy giảm

về chât lương. Đi sâu hơn, hệ thống giúp chỉ ra nguyên nhân của các hiện tương

suy giảm này dựa trên việc liên kết chúng vơi các thông tin câu hình tham số cung

như các KPI phản ánh dung lương (capacity) và hiệu suât (performance) của các

phần tử mạng tham gia vào việc cung câp dich vụ toàn trình. Hệ thống này đoi hỏi

dữ liệu đươc tông hơp tư nhiều mảng khác nhau, ví dụ như: dữ liệu probe tư

Datamon/CSMon, dữ liệu vô tuyến lây tư bản tin trace, thông tin về đường đi dich

vụ trên mạng IP/MPLS, dữ liệu tư các hệ thống giám sát (NocPro, IMPS,

AOM…). Việc kết hơp các nguôn dữ liệu này đươc thực hiện chủ yếu là offline,

không đoi hỏi cao về tính real-time nhưng khối lương tính toán, xử lý lại rât lơn.

Bên cạnh đo, kể đến con co các hệ thống phân tich dữ liệu lơn của các đơn vi bên

ngoài tập đoàn như các các nhà cung câp nội dung số (Content Provider).

2.2. PHƯƠNG PHAP TÔ CHƯC HÊ THỐNG PHÂN TICH DỮ LIÊU LỚN

2.2.1. Phương pháp tô chức hệ thống dữ liệu lơn

53

Hình 2.3. Phương phap tổ chức hệ thống dữ liệu lớn.

2.2.1.1. Tầng Data Ingestion

Tầng Data Ingestion chiu trách nhiệm trong việc tích hơp dữ liệu tư các hệ

thống nguôn về nền tảng lưu trữ BigData và thực hiện lưu trữ/ format dữ liệu dươi

các đinh dạng đông nhât. Các chức năng chinh đươc hỗ trơ bởi tầng này bao gôm:

Tích hợp: Cho phép kết nối, tạo ra các flow dữ liệu tư hệ thống nguôn về

kho dữ liệu BigData.

Import dư liệu: Cho phep import & đánh dâu dữ liệu đươc import vào hệ

thống tư hệ thống dữ liệu nguôn.

Định dạng dư liệu: Cho phep đông nhât đinh dạng dữ liệu, đảm bảo các

dữ liệu giống nhau lây về tư các nguôn khác nhau sẽ có cùng một đinh dạng.

2.2.1.2. Tầng Data Processing

Tầng xử lý dữ liệu là tập hơp các action đươc thực hiện trên dữ liệu bao gôm

các bươc tư transformation, correlation, enrichment … để đảm bảo chât lương dữ

liệu & đưa ra các dữ liệu theo mong muốn. Chi tiết các loại action này bao gôm:

Transformation: Ánh xạ tư dữ liệu thô (raw data) thành các đinh dạng dữ

liệu nhât đinh giúp dữ liệu co ý nghĩa và co thể sử dụng đươc. Các nhóm

hàm transformation này có thể ví dụ như: Hàm so sánh, hàm logical, hàm

Date& time …

Enrichment: Kết hơp nhiều nguôn dữ liệu khác nhau để làm giàu dữ liệu,

đưa ra một view trọn vẹn hơn về thực thể (entity)

Các action liên quan đên thay đổi dư liệu: như các phep toán tử join,

sorting, filtering, aggregate …

54

2.2.1.3. Tầng Data Analysis Layer

Chứa các bươc về phân tích, dự báo xu hương dựa trên các model học máy.

Việc dự đoán và phân tích này có thể đươc thực hiện theo các mức như batch (xử

lý theo lô), streaming và real-time. Các chức năng chinh trong tầng này bao gôm

có:

- Các model theo mức Descriptive/ Predictive/ Prescriptive: ứng vơi các mức

về mô tả dữ liệu trong quá khứ/ dự đoán tương lai và đưa ra lựa chọn tốt nhât.

- Xử lý các sự kiện phức tạp (Complex Event Processing - CEP): Đươc chia

sâu hơn thành hai nhom chinh:

Xử lý theo mức tưng sự kiện đơn le online

Phân tich pattern và xác đinh sự kết hơp của tô hơp các sự kiện. CEP đươc

khai thác để đưa ra các Alert/Trigger phục vụ cho việc đưa ra các Action.

- Xây dựng các báo cáo: Cho phép phân tích/ tông hơp dữ liệu và đưa ra các kết

quả phục vụ cho việc lên các báo cáo phân tích dữ liệu.

2.2.1.4. Tầng Data Visualization

Sử dụng các công cụ trình diễn dữ liệu: Báo cáo, biểu đô, Bảng biểu … để mô

tả dữ liệu, giúp người dùng có thể hiểu/ đánh giá và phân tich đươc xu hương dữ

liệu. Giúp việc nắm bắt các dữ liệu phức tạp đươc thực hiện một cách thông suốt

và dễ dàng hơn.

2.2.1.5. Tầng Data Repository

Tầng lưu trữ dữ liệu lơn (hay con đươc đề cập đến như Analytics BigData

Repository – ABDR) là một tầng phục vụ cho việc lưu trữ hội tụ tât cả các đối

tương/ thực thể dữ liệu dươi dạng dữ liệu ‘raw’ hoặc đã qua xử lý và ở mức trung

gian. Dữ liệu lưu trữ trên Data Repository đươc chia thành hai thành phần chính

đo là:

Dữ liệu MetaData: Là các loại dữ liệu mô tả; dùng để cung câp thông tin về

một hoặc nhiều đặc tính khác nhau của dữ liệu. Giúp cho việc sử dụng, khai

thác dữ liệu đươc trở nên thuận tiện hơn. VD: dữ liệu Metadata dùng để mô

tả câu trúc của các bảng dữ liệu; dữ liệu mô tả thông tin câu hình trên hệ

thống …

Dữ liệu Data Domain: Là tât cả các loại dữ liệu đươc chứa trong các thực

thể dữ liệu đươc lưu trữ và khai thác, tính toán trên hệ thống. VD: Thông

tin lich sử giao dich của khách hàng, thông tin profile khách hàng …

55

Dữ liệu lưu trữ trên tầng này đươc lưu trữ dươi các đinh dạng:

Unstructured Data: Các loại dữ liệu không co model đinh nghĩa trươc để

mô tả câu trúc dữ liệu; VD: dữ liệu text, dữ liệu audio …

Structured Data: Là các loại dữ liệu có câu trúc đinh nghĩa trươc, VD: dữ

lệu CDR, dữ liệu dạng bảng đươc đông bộ tư các hệ thống khác về …

Semi-structured Data: Các loại dữ liệu có câu trúc (Đươc đinh nghĩa bởi

các tag dữ liệu) tuy nhiên không tuân theo một đinh dạng chuân về

structured data (VD: Ko theo một câu trúc bảng nào trong RDBMS) VD:

Dữ liệu json, xml …

2.2.1.6. Tầng Data Govenance

Đáp ứng đươc việc quản tri dữ liệu xuyên suốt trên toàn bộ hạ tầng BigData

vơi 4 nhóm mục tiêu chính:

Đam bao Quality & tính nhất quán của dư liệu: Trả lời câu hỏi v/v dữ

liệu co đảm bảo về chât lương và tính nhât quán xuyên suốt trên toàn hệ

thống để người dùng (data scientist, business team) khai thác hay không.

Quan ly được các policy về quyền truy xuất & security: Cung câp cơ chế

phân quyền tập trung, cho phép quản lý đươc quyền truy xuât tơi tưng user/

nhom user đến các tầng lưu trữ dữ liệu của cả hệ thống

2.2.2. Mô hình tô chưc thưc tế hệ thống BigData tai Viettel

56

Hình 2.4. Mô hình tổ chức thưc tế hệ thống BigData tại Viettel.

Tông thể kho dữ liệu BigData sẽ đươc tô chức thành 2 tầng chính:

Tầng lưu trư và xử lý dư liệu: bao gôm 2 hệ thống lơn là Data Warehouse

và Data Lake. 2 hệ thống này sẽ chiu trách nhiệm thu thập, giải mã, làm

sạch, làm giàu, chuyển đôi, chuân hóa, tô chức lưu trữ, sử dụng và phân

phối dữ liệu. Tầng này giao tiếp vơi các nguôn dữ liệu và làm nền tảng cho

tầng truy xuât dữ liệu

Tầng truy xuất dư liệu: cung câp các cơ chế giúp người dùng cuối hoặc

các hệ thống ứng dụng truy xuât đươc vào cả Data Warehouse và Data

Lake. Tầng này tận dụng các cơ chế lưu trữ, tinh toán phia dươi và cung

câp, hiển thi kết quả đầu ra.

2.2.2.1. Tầng lưu trữ va xư ly dữ liêu.

Tầng lưu trư và xử lý dư liệu: bao gôm 2 hệ thống lơn là Data Warehouse và

Data Lake. 2 hệ thống này sẽ chiu trách nhiệm thu thập, giải mã, làm sạch, làm

giàu, chuyển đôi, chuân hóa, tô chức lưu trữ, sử dụng và phân phối dữ liệu. Tầng

này giao tiếp vơi các nguôn dữ liệu và làm nền tảng cho tầng truy xuât dữ liệu.

Các thành phần chinh trong tầng này như sau:

- Tầng thu thập dư liệu (Data Ingestion): Nifi, Kafka, Flume, Kylo

- Tầng lưu trư dư liệu (Data Management) - Sử dụng công nghệ lưu trữ

Hadoop, cụ thể:

Hệ thống tệp lưu trữ của Hadoop còn gọi là HDFS (Hadoop File System)

Một cluster Hadoop thường gôm 1 Active namenode + Nhiều standby

namenodes + Nhiều datanodes

- Tầng quan lý tài nguyên RAM + CPU (Data Operating System): Sử dụng

công nghệ YARN.

- Tầng truy cập và xử lý dư liệu (Data Access): Sử dụng các công nghệ tương

ứng: Batch (Spark), SQL (Hive), NoSQL (Hbase, Mongo), Streaming (Spark,

Flink), In-memory (Redis); Search (Elastic Search Solr).

- Tầng bao mật và phân quyền (Security): Sử dụng các công nghệ tương ứng

Sentry (Cloudera), Ranger (HDP).

- Tầng lưu trư dư liệu đa qua xử ly (Data Warehouse): Hbase, Hive

Data mode: Star Schema; Flowsnake Schema

OLAP Cube: Xử lý phân tich dữ liệu đa chiều

57

Data Marts: Apache Kylin; Atscale

2.2.2.2. Tầng truy xuât dữ liêu

Tầng truy xuất dư liệu: cung câp các cơ chế giúp người dùng cuối hoặc các

hệ thống ứng dụng truy xuât đươc vào cả Data Warehouse và Data Lake. Tầng

này tận dụng các cơ chế lưu trữ, tinh toán phia dươi và cung câp, hiển thi kết quả

đầu ra. Các thành phần chinh trong tầng này như sau:

- Hệ thống hiển thị dư liệu (BI, Reporting & Data Visualization): Sử dụng các

công cụ như Tableau, Qlik, Splunk… Tầng này dành cho lơp quản lý theo doi

(để ra quyết đinh), lơp kỹ sư và nhân viện CSKH (để hỗ trơ xử lý nghiệp vụ).

- Modul giao diện kêt nối ra bên ngoai (Data API): Sử dụng các công cụ

SOAP, Web service, Restul… Modul này sử dụng làm đầu vào cho các ứng

dụng nghiệp vụ của Viettel.

- Hệ thống phân tích dư liệu (Data Analytics Tool): Sử dụng các công cụ như

Knime, Rapidminer… Hệ thống này đươc quản lý bởi các chuyên gia về dữ

liệu, các hệ thống này co thể truy xuât trực tiếp vào tầng lưu trữ và xử lý dữ

liệu (Data Lake, Data Warehouse).

- Hệ thống trung gian xử ly dư liệu (Mediation): Sử dụng các công cụ như

Kafka, FTP… Hệ thống này đươc tạo ra để cho các bên thứ 3 vào khai thác dữ

liệu như vBI, CI, Nokia CEM.

2.2.3. Các công nghệ nền tảng về hệ thống dữ liệu lơn.

Hiện nay trên thế giơi co nhiều ứng dụng Platform mã nguôn mở nhăm giúp

cho các doanh nghiệp, tô chức xây dựng hệ thống BigData một cách linh hoạt, dễ

dàng tích hơp các thành phần mã nguôn mở, quản lý khối lương và đa dạng dữ

liệu nhanh chong gia tăng trong doanh nghiệp. Các sản phâm và giải pháp này cho

phép chúng ta có thể triển khai, quản lý Apache Hadoop và các Apaches mã nguôn

mở khác nhăm giúp thao tác truy vân, phân tích dữ liệu, và giữ cho dữ liệu luôn

luôn đươc an toàn và đươc bảo vệ.

Một trong những nền tảng lưu trữ, xử lý dữ liệu lơn như IBM InfoSphere

BigInsights, Hortonworks và MapR. Cloudera là những sản phâm co đầu tiên kể

tư khi xuât hiện giải pháp lưu trữ dữ liệu Hadoop, HortonWorks đến sau này.

Trong khi Cloudera và HortonWorks là 100 % mã nguôn mở, thì hầu hết các phiên

bản của MapR đi kèm vơi module độc quyền. Đối ngươc vơi sản phâm mã nguôn

mở thì IBM InfoSphere BigInsights là một nền tảng phần mềm dich vụ đươc thiết

58

kế để giúp các doanh nghiệp phát hiện và phân tích những hiểu biết kinh doanh

ân trong khối lương lơn dữ liệu. Sản phâm IBM InfoSphere BigInsights kết hơp

một số dự án mã nguôn mở (bao gôm Apache Hadoop) và một số công nghệ của

IBM phát triển. Mỗi nhà cung câp, phân phối có sức mạnh độc đáo và những điểm

yếu riêng trong tưng sản phâm của mình.

Cloudera Inc đươc thành lập bởi những thiên tài dữ liệu lơn tư Facebook,

Google, Oracle và Yahoo vào năm 2008. Đây là công ty đầu tiên phát triển và

phân phối phần mềm Apache Hadoop và có số lương người dùng lơn nhât vơi hầu

hết khách hàng. Mặc dù cốt lõi của phân phối dựa trên Apache Hadoop, no cung

cung câp một công cụ quản lý Cloudera Suite độc quyền để tự động hóa quá trình

cài đặt và cung câp dich vụ khác để nâng cao sự tiện lơi của người sử dụng trong

đo bao gôm việc giảm thời gian triển khai và đơn giản quá trình vận hành, sử

dụng.

Hortonworks, đươc thành lập vào năm 2011, đã nhanh chong nôi lên như một

trong những nhà cung câp hàng đầu của Hadoop. Việc phân phối cung câp nền

tảng mã nguôn mở dựa trên Apache Hadoop cho việc phân tich, lưu trữ và quản

lý dữ liệu lơn. Hortonworks là nhà cung câp thương mại duy nhât để phân phối

hoàn toàn mã nguôn mở Apache Hadoop mà không cần phần mềm độc quyền bô

sung. Các sản phâm Hortonworks Distribution HDP có thể đươc tải về trực tiếp

tư trang web của họ miễn phí và rât dễ dàng để cài đặt.

MapR là một tiêu chuân phiên bản mã nguôn mở, phần mềm Apache Hadoop

đi kèm vơi một số hạn chế và đươc khắc phục qua các vân đề trong bản tiêu chuân

qua các module độc quyền có phí.

Trong việc xây dựng hệ thống BigData, 2 sản phâm Cloudera và Hortonworks

đươc biết đến nhiều nhât vơi giây phép 100% mã nguôn mở và có nhiều tinh năng

mạnh mẽ trong việc lưu trữ dữ liệu lơn, quản lý và tìm kiếm dữ liệu theo kỹ thuật

Hadoop. Cloudera cung như Hortonworks đều đươc xây dựng trên cùng một lõi

của Apache Hadoop. Như vậy họ có nhiều điểm tương đông hơn là khác biệt.

+ Cả hai đều cung câp và phân phối sản phâm Hadoop ở câp độ doanh nghiệp

(enterprise-ready Hadoop). Các bản phân phối đã đươc trải nghiệm qua thời

gian của người tiêu dùng, bảo đảm tính an ninh và ôn đinh. Bên cạnh đo,

họ cung câp dươi hình thức đào tạo có trả tiền và dich vụ cho những người

mơi bươc theo con đường của BigData và Analytics.

59

+ Cả hai hãng đã thành lập và xây dựng những cộng đông để giúp đỡ các vân

đề gặp phải và những ví dụ minh hoạ khi xây dựng BigData Vơi các sản

phâm mã nguôn mở của hãng.

+ Cả hai hãng đều sử dụng kiến trúc master - slave và tính toán trên những hạ

tầng máy tính không chia se.

+ Quan trọng hơn cả là cả hai đều hỗ trơ phương thức MapReduce cung như

YARN trong cách lưu trữ dữ liệu.

Hình 2.5. So sanh CDH va HDP.

Về ưu điểm và sự khác biệt thì Cloudera co ưu thế hơn so vơi các sản phâm

khác bởi các lý do như sau:

+ Cloudera là sản phâm đầu tiên xây dựng dựa trên nền tảng Apache Hadoop

và hiện tại có số lương người dùng lơn nhât vơi hầu hết khách hàng.

+ Cloudera có một phần mềm quản lý độc quyền Cloudera Manager, hỗ trơ

truy vân dạng SQL xử lý truy vân giao diện Impala, cung như Cloudera

Search dễ dàng và truy cập dữ liệu.

+ Cloudera đã co tên tuôi nhât trên thi trường, vơi hơn 350 khách hàng và co

một số phần mềm doanh nghiệp phủ lên trên các bản phân phối mã nguôn

mở của mình để hỗ trơ người tiêu dùng.

+ Có nhiều công cụ mạnh mẽ trong việc lưu trữ các loại dữ liệu như xử lý

batch job, ngôn ngữ phân tích truy vân dữ liệu SQL, kỹ năng tìm kiếm

NoSQL, xử lý stream... Giải pháp nền tảng mã nguôn mở CDH đươc đánh

giá cao trong việc lưu trữ, xử lý dữ liệu lơn và điển hình có sản phâm Oracle

BigData Appliance (BDA) sử dụng toàn bộ giải pháp nền tảng CDH tích

hơp trọn gói trong việc lưu trữ xử lý dữ liệu .

Trong phạm vi nghiên cứu của luận văn này sẽ sử dụng nền tảng Cloudera

BigData Enterprise flatform để xây dựng thực nghiệm.

60

2.2.4. Cac phân hệ cai đăt cua Cloudera BigData Enterprise flatform:

Cloudera cung câp những sản phâm và công cụ dươi dạng cài đặt như sau :

+ CDH (Cloudera Distribution Of Apache Hadoop): Là một phân phối của

Apache Hadoop và các apaches mã nguôn mở liên quan bao gôm Cloudera

Impala và Cloudera Search, CDH còn cung câp bảo mật và tích hơp vơi rât

nhiều giải pháp phần cứng và phần mềm khác. CDH hiện tại bao gôm

Apache Hadoop, Apache HBase, Apache Hive, Apache Pig, Apache

Sqoop, Apache Flume, Apache Zookeeper, Apache Oozie, Apache Mahout

và Hue. Hiện phiên bản mơi nhât của CDH là 5.x.x

+ Cloudera Impala là một SQL engine phục vụ các xử lý song song vơi lương

dữ liệu lơn nhăm phân tích trong BigData. Việc tối ưu hoa kiến trúc trong

Cloudera Impala giúp cho lý tưởng, phù hơp vơi các truy vân truyền thống

băng cách phân nhỏ thành các truy vân Con Cloudera Impla có thể truy vân

các file dữ liệu tư dữ liệu Hadoop tư nhiều nguôn khác nhau như kết quả tư

MapReduce hoặc kết quả tư các bảng cơ sở dữ liệu Hive. Chúng ta có thể

quản lý Impala cùng các thành phần khác của Hadoop thông qua giao diện

của Cloudera Manager.

+ Cloudera Search - Cung câp truy vân gần thời gian thực đến dữ liệu đươc

lưu trữ xong hoặc đang đươc nạp vào Hadoop và HBase Cloudera Search

cung câp gắn thời gian thực việc lập chỉ mục, lập chỉ mục hàng loạt, truy

vân toàn văn bản, thực hiện một cách đơn giản, giao diện văn bản đầy đủ

mà không đoi hỏi kỹ năng SQL hoặc lập trình, Cloudera Search đươc tích

hơp đầy đủ trong nền tảng xử lý dữ liệu , tìm kiếm sử dụng hệ thống lưu trữ

linh hoạt, khả năng mở rộng, và mạnh mẽ bao gôm vơi CDH. Điều này giúp

loại bỏ sự cần thiết phải di chuyển các tập dữ liệu lơn trên cơ sở hạ tầng để

thực hiện nhiệm vụ phân tích kinh doanh.

+ Cloudera Manager - Một ứng dụng tinh vi dùng để triển khai, quản lý, giám

sát và chân đoán các vân đề vơi các triển khai CDH. Cloudera Manager

cung câp giao diện đô họa Admin Console, một giao diện người dùng dựa

trên web mà làm cho chính quyền của dữ liệu doanh nghiệp của bạn đơn

giản và dễ hiểu. No cung bao gôm các API quản lý Cloudera, mà bạn có

thể sử dụng để co đươc thông tin sức khỏe cụm và số liệu, cung như câu

hình Cloudera Manager.

61

+ Cloudera Navigator - Một công cụ quản lý dữ liệu end-to-end cho nền tảng

CDH, Cloudera Navigator cho phép quản tri, quản lý dữ liệu và các nhà

phân tich để khám phá những lương lơn dữ liệu trong Hadoop. Việc kiểm

tra dữ liệu mạnh mẽ, quản lý dữ liệu, và quản lý vong đời dữ liệu trong

Cloudera Navigator cho phép các doanh nghiệp tuân thủ nghiêm ngặt và

yêu cầu quy đinh trong việc phân bố dữ liệu vào hệ thống Cloudera .

Cloudera có nhiều phiên bản, trong đo phiên bản miễn phí CDH cung câp đầy

đủ tinh năng và các mã nguôn mở đươc tích hơp vào nhăm phục vụ cho một công

ty startup có thể dễ dàng xây dựng nền tảng BigData. Ngoài phiên bản miễn phí

còn có một phiên bản có hỗ trơ support tư các chuyên gia của Cloudera, thêm các

tinh năng mạnh mẽ hơn và phải trả phí là Cloudera Enterprise.

62

CHƯƠNG 3.

THỰC NGHIỆM TÍCH HỢP HỆ THỐNG

DỰ BAO THUÊ BAO RỜI MẠNG

3.1. NÔI DUNG THƯC NGHIÊM

3.1.1. Đinh nghĩa thuê bao rơi mang.

Rời mạng “Churn” co nguôn gốc tư change (sự thay đôi) và turn (chiều hương).

Tỷ lệ “churn” trung bình trong một nhà cung câp dich vụ di động là khoảng 2%

mỗi tháng (Berson, Smith, và Thearling, 2000). Việc mât khách hàng đông nghĩa

vơi việc mât doanh thu trong tương lai và mât chi phi đầu tư để có lại những khách

hàng này. Trong thực tế, chi phi để phát triển một thuê bao mơi lơn 5-10 lần chi

phi để giữ chân khách hàng. Churn chia làm 3 nhom chinh:

+ (1). Thuê bao bi buộc rời khỏi mạng do nơ cươc, gian lận…

+ (2). Nhóm chủ động rời mạng sang nhà cung câp khác, nguyên nhân do nhà

mạng cu co chât lương dich vụ kem, giá cươc, hỗ trơ kh không tốt…

+ (3). Nhóm khách hàng rời mạng bât ngờ mà ko co mục đich chuyển sang

nhà cung câp khác: Do di chuyển công việc, nơi ở … sang vi tri mơi mà

không co sự phục vụ của nhà mạng.

Trong phạm vi luận văn chỉ nghiên cứu nhom 2.

3.1.2. Bai toan yêu câu

Triển khai cài đặt phần cứng hệ thống dự báo thuê bao rời mạng (TBRM) đươc

tich hơp giữa công cụ Cloudera BigData Enterprise flatform và công cụ phân tich

Rapidminer. Xây dựng và tich hơp luông phân tích dự báo thuê bao rời mạng dựa

trên tập 4,5 triệu khách hàng Viettel có doanh thu (ARPU) cao.

Hệ thống đươc tich hơp để phân tich dữ liệu lich sử tiêu dùng 6 tháng (tư 1-

6/2016) của các TBRM ở 3 tháng tiếp theo (tư 7-10/2016), mô hình dự báo học

đươc sẽ đươc sử dụng để dự báo TBRM cho 3 tháng kế tiếp (11-12/2016 và

1/2017).

Đầu vao của hệ thống là dữ liệu của tập thuê bao VIP co doanh thu (ARPU)

trung bình 6 tháng >=200.000 vnđ (tư 1-6/2016). Số lương thuê bao phân tich

gôm 4,5 triệu thuê bao trả trươc và 1,1 thuê bao trả sau. Dung lương dữ liệu đưa

vào hệ thống phân tich là ~12 Tera byte.

63

Đầu ra của hệ thống la kết quả dự báo mong muốn bao gôm danh sách thuê

bao dự báo rời mạng cùng vơi đặc điểm, nguyên nhân rời mạng. KPI độ chinh xác

đối vơi mô hình dự báo của hệ thống yêu cầu là độ chinh xác (accuracy) đạt 85%,

độ nhạy (recall) đạt 75%.

3.1.3. Cac bươc thưc nghiệm.

* Bước 1: Triển khai cai đặt hệ thống dự báo TBRM.

- Cài đặt cụm dữ liệu CDH, thực hiện kiểm tra dữ liệu sử dụng, chèn dữ liệu sử

dụng công cụ SPARK. Kiểm tra chât lương dữ liệu ban đầu (vd, số hàng, loại

dữ liệu ở cột…).

- Xây dựng quy trình (luông) xử lý lọc khách hàng VIP tư bảng dữ liệu đầy đủ

hàng tháng

* Bước 2: Khám phá dư liệu va tạo các biên đặc trưng

- Hiểu sâu dữ liệu băng kinh nghiệm và các quy tắc kinh doanh. Kiểm tra chât

lương dữ liệu câp 2, áp dụng các logic làm sạch dữ liệu, chuyển đôi sơ bộ dữ

liệu.

- Tạo biến (features generation) cho 13 nguôn dữ liệu thuê bao.

* Bước 3: Mô hinh hoa / Modeling

- Cài đặt kiểm thử trên Hadoop, lây mâu và huân luyện mô hình dự báo (sử dụng

các biến thuộc bảng dữ liệu voice_og tháng thứ 6

- Lựa chọn đặc trưng (feature selection), mô hình hoa dự báo TBRM.

- Tiếp tục sử dụng các phương pháp kỹ thuật, thay đôi thuật toán để tối ưu mô

hình dự báo.

3.2. TRIÊN KHAI HÊ THỐNG THƯC NGHIÊM

3.2.1. Xây dưng hệ thống phân tich BigData thưc nghiệm.

3.2.1.1. Mô hinh triên khai Logic

- Hệ thống phân tích: vận hành gôm 02 khối:

Khối lưu trư và xử lý dư liệu: Sử dụng hệ thống Cloudera BigData

Enterprise platform vơi 6 nodes (3 Namenodes, 3 Datanodes).

64

Khối phân tích dư liệu: Sử dụng công cụ Rapidminer (Quandatics – partner

do Cloudera đề xuât).

- Công nghệ sử dụng: phiên bản “Enterprise Edition” của Cloudera. Cơ bản

hoạt động giống phiên bản mã nguôn mở, co đong goi và bô sung thêm các

ứng dụng giúp cài đặt, quản lý dễ dàng hơn.

- Công cụ sử dụng phân tích: Rapidminer - đươc đong goi sẵn các hàm thống

kê, thuật toán phân tích, cung câp giao diện đô họa cho người dùng cuối thực

hiện các nghiệp vụ mà không cần phải lập trình (coding).

Hình 3.1. Mô hình triển khai hệ thống BigData thưc nghiệm.

3.2.1.2. Mô hinh triên khai vât ly va thông sô hê thông

* Tổ chức đấu nối hệ thống:

65

Hình 3.2. Mô hình đấu nối hệ thống.

* Cấu hinh hệ thống:

Bảng 3.1. Cấu hình hệ thống phân tích BigData thưc nghiệm.

TT Node mang Câu hình hệ thống

1 3 x Master

Nodes

- Intel(R) Xeon(R) CPU E5-2670 v3 @ 2.30GHz

- 128GB Ram; 2* 10 Gbps, 2* 1 Gbps port; 1*300 GB SSD

2 3 x Data

Nodes

- Intel(R) Xeon(R) CPU E5-2670 v3 @ 2.30GHz

- 128GB Ram; 2* 10 Gbps, 2* 1 Gbps port; 1*300 GB SSD

3 1 x Sand

Storage

- Model: Cisco MDS 9148; Dual controller

- 4x400 GB SSD 50x2 TB HDD SAS 7.2 K RPM

4 2 x Mining

Workstation

- Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz

- 32 GB Ram; 4*300 GB SSD

3.2.1.3. Cai đăt, câu hinh cac thanh phần hê thông thưc nghiêm

* Cai đặt Cloudera Bigdata Enterprise platform:

Hương dân cài đặt Cloudera Bigdata Enterprise platform - CDH đươc thể hiện

ở phụ lục 3. Các modules đươc cài đặt bao gôm:

+ Cloudera Manager: Công cụ quản lý do Cloudera phát triển

+ Hadoop: Lưu trữ dữ liệu

+ Map Reduce: Framework xử lý dữ liệu của Hadoop

+ Zookeeper: Quản lý các luông công việc (Workflow) và các nodes trong

Hadoop

+ Yarn: Quản lý resource câp phát cho các tác vụ xử lý dữ liệu.

+ Hue: Cung câp giao diện đô họa để làm việc vơi Hadoop, Hive, …

+ Hive: Hạ tầng kho dữ liệu cho Hadoop, hỗ trơ truy vân dữ liệu trên Hadoop.

+ Sqoop: Cung câp việc truyền dữ liệu hai chiều giữa Hadoop và cơ sở dữ

liệu quan hệ.

66

Hình 3.1. Giao diện module Cloudera Manager.

* Tích hợp công cụ phân tích Rapidminer:

Công cụ Rapidminer sau khi đươc cài đặt đươc thể hiện ở hình 3.2. Xây dựng

và tich hơp luông phân tích trong Rapidminer đươc mô tả ở hình 3.3.

Trong thực nghiệm việc xử lý dữ liệu đươc thực hiện chủ yếu sử dụng Map-

Reduce của Hadoop (trên Cloudera platform). Dữ liệu đươc lưu trữ trong Hadoop

và người dùng tương tác vơi dữ liệu thông qua Hive thuận tiện kết nối và xử lý dữ

liệu.

67

Hình 3.2. Giao diện công cụ phân tích Rapidminer.

Hình 3.3. Luồng khai pha dữ liệu trong Rapidminer.

3.2.1.4. Nguôn dữ liêu

Nguôn dữ liệu của tập thuê bao di động sử dụng trong thực nghiệm đươc lây

tư 13 bảng dữ liệu lơn đươc thể hiện như bảng 3.2.

Bảng 3.2. Nguồn dữ liệu hệ thống phân tích BigData thưc nghiệm

STT Bảng dữ liệu Nguôn dữ liệu

1 Dữ liệu thoại - chiều đến MSC, RNC, OCS

2 Dữ liệu thoại - chiều đi MSC, RNC, OCS

3 Dữ liệu SMS - chiều đến MSC, RNC, OCS

4 Dữ liệu SMS - chiều đi MSC, RNC, OCS

5 Dữ liệu Data MSC, RNC, OCS

6 Tông hơp tiêu dùng theo ngày OCS, Provisioning

68

STT Bảng dữ liệu Nguôn dữ liệu

7 Dữ liệu nạp the (Cho thuê bao trả trươc) MSC, OCS

8 Dữ liệu số dư tài khoản (Cho thuê bao trả trươc) MSC, OCS

9 Dữ liệu trư cươc phí các gói sử dụng theo chu kỳ (ngày/

tuần/ tháng) OCS

10 Dữ liệu tông hơp charge cươc sử dụng các dich vụ VAS OCS, VAS

11 Dữ liệu home OCS, MSC, BCCS

12 Dữ liệu thông tin thuê bao thuê bao, khách hàng OCS, BCCS

13 Thông tin thanh toán cươc phi OCS

3.2.1.5. Luông xư ly va khai pha dữ liêu

Hình 3.4. Luồng xử lý khai pha dữ liệu.

Toàn bộ quy trình xử lý, khai phá dữ liệu cho thực nghiệm đươc xử lý qua 6

bươc: Làm sạch dư liệu -> chọn thuôc tính quan trọng -> phân nhóm TB ->

chạy thuật toán dự báo -> đề xuất churn score -> tra kêt qua đầu ra.

- Bước 1: Xử lý, làm sạch dư liệu:

+ 13 bảng dữ liệu lơn (modeling table) -> chi tiết thành 1.273 thuộc tính dữ

liệu đầu vào.

+ Dùng hàm phân tích thống kê để kiểm tra, chuân hóa dữ liệu.

+ Làm sạch dữ liệu (loại bỏ dữ liệu lỗi, sai, trùng lặp).

- Bước 2: Chọn thuôc tính quan trọng: tư 1.273 thuộc tinh đầu vào -> chọn

703 thuộc tính quan trọng, liên quan nhât vơi hành vi TBRM thực tế (băng

thuật toán Decision Tree).

- Bước 3: Phân lớp thuê bao: thành 4 segment để phân tích sâu (0.Sử dụng

nhiều thoại, 1. Sử dụng đều Thoại/SMS/Data, 2.Sử dụng nhiều data, 3.Sử dụng

nhiều SMS).

69

- Bước 4: Chạy thuật toán dự báo: dùng đông thời 3 thuật toán (Decision Tree,

Gradien Booting, Random Forest) -> chọn 1 thuật toán tốt nhât (Gradien

Booting) để dự báo cho tưng phân lơp.

- Bước 5: Đề xuất churn score: các ngưỡng cắt rời mạng (churn score), độ nhạy

dự báo (recall), độ chính xác (precision).

- Bước 6: Tra kêt qua đầu ra: danh sách ISDNs các thuê bao dự báo rời mạng.

3.2.2. Xây dưng mô hình dư bao TBRM.

* Bai toán cụ thể:

Đầu vào là các dữ liệu quá khứ về lich sử tiêu dùng và thông tin thuê bao (TB)

trong 10 tháng (tháng 1-10/2016) chi tiết đến tưng thuê bao. Trong đo:

Số liệu của 6 tháng đầu tiên (1/2016 đến 6/2016) đươc sử dụng để phân tích

xây dựng mô hình huân luyện (Training model), mô hình này sẽ dự báo thuê

bao rời mạng trong giai đoạn 3 tháng tiếp theo (7/2016 - 9/2016);

Kết quả dự báo sẽ đươc so sánh vơi tập thuê bao đã rời mạng thực tế trong 3

tháng nêu trên (7/2016 – 9/2016) để kiểm chứng và đánh giá (Testing).

Kết quả dự báo của tháng thứ 10 đươc Viettel triển khai để chăm soc khách

hàng chủ động cho khoảng 5000 khách hàng. Đảm bảo giảm tỉ lệ thuê bao có

ARPU cao rời mạng trên tập khách hàng mâu.

Hình 3.5. Mô hình dư bao thuê bao rơi mạng.

Ngoai ra thực nghiệm cung được áp dụng mô hinh dự báo liên tục, trong đo

mô hinh nay được phát triển và chuân hoa trươc khi cho ra kết quả dự báo cuối

cùng, gôm các bươc:

Xây dựng: Dữ liệu 06 tháng (1-6/2016) đươc dùng để xây dựng mô hình dự

báo TBRM trong 03 tháng (7-8-9).

Kiểm thử: Đối chiếu kết quả dự báo vơi TBRM thực tế 04 tháng (7-8-9-10)

để chọn ra các thuộc tính quan trọng, loại trư các thuộc tính nhiễu, tiếp tục

hoàn thiện mô hình.

70

Hoàn thiện: tiếp tục bô sung, phân tích dữ liệu 06 tháng (5-10/2016) để dự

báo TBRM 03 tháng (11/2016-1/2017).

3.3. CAC KÊT QUA THƯC NGHIÊM MÔ HINH DƯ BAO.

3.3.1. Kham pha dữ liệu va tao cac biến đăc trưng.

Đây là giai đoạn tạo các bảng dữ liệu đầu vào và các biến tương ứng.

3.3.1.1. Bang dữ liêu goi đi cua thuê bao (VOICE_OG)

- Thông tin lây tư dữ liệu thô: Chi tiết thông tin cuộc gọi đi của một thuê bao.

- Tạo các biến (đặc trưng) cho dữ liệu gọi đi của thuê bao như trong bảng 3.3.

Bảng 3.3. Các biến đặc trưng cho dữ liệu gọi đi của thuê bao

STT Tên biến Ý nghĩa

1 Number of calls overall Tông số lương cuộc gọi.

2 Total call duration overall Tông thời gian gọi

3 Average call duration Thời gian trung bình một cuộc gọi

4 No of distinct province Mã số tỉnh/Tp

5 No of distinct district Mã số quận/huyện

6 No of distinct to_phone_num Số lương thuê bao gọi đi

7 No of distinct imei Số imei của thuê bao

8 Total call duration by POD Tông thời gian gọi theo POD

9 Max call duration by POD Cuộc gọi dài nhât theo POD

10 Avg call duration by POD Thời gian TB các cuộc gọi theo POD

11 Total no. of calls by POD Tông số cuộc gọi theo POD

12 Total no. of calls by QualityCall Tông số cuộc gọi co chât lương tốt (Y/N)

13 Total no. of calls by og-call-to Tông số cuộc gọi đi

14 Avg call duration by og-call-to Thời gian trung bình các cuộc gọi đi

15 Total no. of calls by DayType Tông số cuộc gọi theo DT

16 Avg call duration by DayType Thời gian trung bình cuộc gọi theo DT.

17 Total no. of calls by WFLD Tông cuộc gọi băng WFLD

18 Avg call duration by WFLD Thời gian trung bình cuộc gọi băng WFLD

19 Number of dropped calls overall Tông số cuộc gọi rơt mạng.

Trong đo:

Period of Day (POD): Khoảng thời gian trong ngày, đươc phân thành 04

khoảng thời gian (pod_1 từ 0h đến 6h sang; pod_2 từ 7h -12h; pod_3 từ 13h -

18h; pod_4 từ 19h-24h).

Daytype (DT): Phân loại theo ngày (Ngay đi lam: wd; ngay nghỉ: we).

71

Location (province & district): Vi tri thuê bao (theo tỉnh/Tp, quận/huyện).

Og_call_to: Cuộc gọi đi.

QualityCall (QC): Cuộc gọi chât lương

WeeksBeforeLastDate (WFLD): Tuần trươc ngày cuối cùng của chu kỳ thanh

toán.

3.3.1.2. Dữ liêu goi đên cua thuê bao (VOICE_IC).

- Thông tin dữ liệu thô: Chi tiết các cuộc gọi đi

- Tạo các biến cho dữ liệu gọi đến của thuê bao như trong bảng 3.4.

Bảng 3.4. Các biến đặc trưng cho dữ liệu gọi đến của thuê bao


1 Number of calls overall Tông số lương cuộc gọi.

2 Total call duration overall Tông thời gian gọi

3 Average call duration Thời gian trung bình một cuộc gọi

4 No. of distinct from_phone_num Số lương thuê bao gọi đến

5 Total call duration by POD Tông thời gian gọi theo POD

6 Max call duration by POD Cuộc gọi dài nhât theo POD

7 Avg call duration by POD Thời gian trung bình các cuộc gọi theo POD

8 No. of call by POD Tông số cuộc gọi theo POD

9 No. of call by QualityCall Tông số cuộc gọi co chât lương tốt

10 Avg call duration by QualityCall Thời gian trung bình của các cuộc gọi tốt

11 No. of call by ic_call_from Số lương cuộc gọi đến

12 Avg call duration by ic_call_from Thời gian trung bình các cuộc gọi đến

13 No. of call by Daytype Tông số cuộc gọi theo DT

14 Avg call duration by Daytype Thời gian trung bình các cuộc gọi theo DT

15 No. of call by WFLD Tông số cuộc gọi theo WFLD

16 Avg call duration by WFLD Thời gian trung bình cuộc gọi theo WFLD

Trong đo: Ic_call_from: Cuộc gọi đến.

3.3.1.3. Dữ liêu nhăn tin đi cua thuê bao (SMS_OG)

- Thông tin dữ liệu thô: Chi tiết dữ liệu tin nhắn đi

- Tạo các biến cho dữ liệu nhắn tin đi của thuê bao như trong bảng 3.5.

Bảng 3.5. Các biến đặc trưng cho dữ liệu nhăn tin đi của thuê bao


1 Number of sms overall Tông số lương tin nhắn

2 Number of distinct to_phone_num Số lương thuê bao nhắn đi

3 Number of sms by og_sms_to Số lương tin nhăn đi

4 Number of sms by Daytype Số lương tin nhắn theo DT

72


5 Number of sms by wfld Số lương tin nhắn theo WLFD

6 Number of sms by POD Số lương tin nhắn theo POD

Trong đo: og_sms_to: Tin nhắn đi.

3.3.1.4. Dữ liêu nhăn tin đên cua thuê bao (SMS_IC)

- Thông tin dữ liệu thô: Chi tiết dữ liệu tin nhắn đến

- Tạo các biến cho dữ liệu nhắn tin đến của thuê bao như trong bảng 3.6.

Bảng 3.6. Các biến đặc trưng cho dữ liệu nhăn tin đi của thuê bao.


1 Number of sms overall Tông số lương tin nhắn

2 Number of distinct from_phone_num Số lương thuê bao nhắn đến

3 Number of sms by ic_sms_from Số lương tin nhăn đến

4 Number of sms by Daytype Số lương tin nhắn theo DT

5 Number of sms by WFLD Số lương tin nhắn theo WLFD

6 Number of sms by POD Số lương tin nhắn theo POD

Trong đo: ic_sms_from: Tin nhắn đến.

3.3.1.5. Dữ liêu vê sư dung Data cua thuê bao (GPRS)

- Thông tin dữ liệu thô: Chi tiết tưng phiên kết nối dữ liệu data.

- Tạo các biến cho dữ liệu sử dụng Data của thuê bao như trong bảng 3.7.

Bảng 3.7. Các biến đặc trưng cho dữ liệu sử dụng Data của thuê bao


1 No. of data sessions Tông số phiên kết nối.

2 Total up-down-volume

3 Average volume per session Lương dữ liệu trung bình của một phiên

4 Max session volume Lương dữ liệu lơn nhât của một phiên.

5 Min session volume Lương dữ liệu nhỏ nhât của một phiên.

6 Std. dev. In session volume

7 Total volume by POD Tông dữ liệu tiêu dùng theo POD

8 Max volume by POD Lương dữ liệu Max theo POD

9 Avg volume by POD Lương dữ liệu trung bình theo POD

10 Total volume by Daytype Tông dữ liệu tiêu dùng theo DT

11 Max volume by Daytype Lương dữ liệu Max theo DT

12 Avg volume by Daytype Lương dữ liệu trung bình theo DT

13 Total volume by WFLD Tông dữ liệu tiêu dùng theo WFLD

14 Avg volume by WFLD Lương dữ liệu Max theo WFLD

15 Max volume by WFLD Lương dữ liệu trung bình theo WFLD

73

3.3.1.6. Dữ liêu tiêu dung hang ngay cua thuê bao (TOT_CHARGE_DAILY)

- Thông tin dữ liệu thô: Chi tiết tiêu dùng hàng ngày

- Tạo các biến như trong bảng 3.8.

Bảng 3.8. Các biến đặc trưng cho dữ liệu tiêu dùng hàng ngày của thuê bao


1 Number of days that charges were

incurred Số ngày phát sinh cươc

2 Total org charges Tông số cươc phát sinh tiêu dùng gốc

3 Ratio of total org charges by daytype Tỷ lệ phát sinh cươc tiêu dùng gốc theo DT

4 Ratio of total voice org charge (over

total org charges)

Tỷ lệ cươc thoại tiêu dùng gốc (trên tông số

cươc).

5 Ratio of total sms org charge Tỷ lệ cươc phát sinh tiêu dùng gốc SMS

6 Ratio of total data org charge Tỷ lệ cươc phát sinh tiêu dùng gốc DATA

7 Ratio of total mms org charge Tỷ lệ cươc phát sinh tiêu dùng gốc MMS

8 Subscribed data pkg (Y/N) Thuê bao co sử dụng data (C/K).

9 Ratio of total vas_voice org charge Tỷ lệ cươc phát sinh tiêu dùng gốc

vas_voice

10 Ratio of total vas_sms org charge Tỷ lệ cươc phát sinh tiêu dùng gốc vas_sms

11 Ratio of total vas_data org charge Tỷ lệ cươc phát sinh tiêu dùng gốc vas_data

12 Ratio of total vas_others org charge Tỷ lệ cươc phát sinh tiêu dùng gốc

vas_others

13 Ratio of total org charges (over total

charges)

Tỷ lệ cươc tiêu dùng gốc (so sánh vơi tông

cươc phát sinh).

14 Total RS charges Tông cươc RS

15 Total RV charges Tông cươc RV

16 Total free voice duration Tông thời lương thoại miễn phi.

17 Total free sms times Tông thời lương sms miễn phi.

18 Total free data volume Tông thời lương data miễn phi.

3.3.1.7. Dữ liêu vê thông tin nap tiên (TOPUP)

- Thông tin dữ liệu thô: Chi tiết nạp tiền tài khoản tiêu dùng.


Bảng 3.9. Các biến đặc trưng cho dữ liệu nạp tiền của thuê bao


1 Total count of refill times Tông số lần nạp tiền.

2 Total topup amount Tông số tiền nạp

3 Maximum amount after topup Số tiền tối đa sau khi nạp

74


4 Minimum amount before topup Số tiền tối thiểu sau khi nạp

5 Maximum refill amount Số tiền nạp tối đa

6 Avg refill amount Số tiền trung bình các lần nạp

7 Avg amount after topup Số tiền trung bình sau khi nạp

8 Avg amount before topup Số tiền trung bình trươc khi nạp

9 No. of distinct province topup is done Số tỉnh đươc nạp tiền

10 No. of distinct district topup is done Số quận đươc nạp tiền

11 Count of refill times by Daytype Số lần nạp tiền theo DT.

12 Total topup amount by daytype Tông số tiền nạp theo DT

13 Ratio of refill times by daytype Tỷ lệ số lần nạp tiền theo DT

14 Ratio of refill amount by daytype Tỷ lệ số lương nạp tiền theo DT

15 Refill_diff_province (Y/N) Co nạp khác tỉnh không (C/K)

16 Refill_diff_district (Y/N) Co nạp khác quận không (C/K)

3.3.1.8. Dữ liêu sô dư tai khoan (ACCOUNT2_DAY)

- Thông tin dữ liệu thô: Chi tiết tiêu dùng tài khoản hàng ngày của tưng thuê bao.

Tạo các biến như trong bảng 3.10.

Bảng 3.10. Các biến đặc trưng cho dữ liệu số dư tai khoản của thuê bao


1 Min basic account balance Số dư tài khoản tối thiểu

2 Max basic account balance Số dư tài khoản tối đa

3 Avg basic account balance Số dư trung bình của tài khoản

4 Std dev. basic account balance

5 Avg promotion account balance Số dư tài khoản khuyến mãi trung bình.

3.3.1.9. Dữ liêu trư cước phí các gói sư dung theo chu kỳ (DAILYFEE)

- Thông tin dữ liệu thô: Hô sơ chi tiết khoản khâu trư phí gói dữ liệu. Tạo các biến

như trong bảng 3.11.

Bảng 3.11. Các biến đặc trưng cho dữ liệu cước phí các gói sử dụng theo chu kỳ

của thuê bao


1 Level of account balance after each

dailyfee deduction (Low/OK/NA)

Mức tài khoản sau mỗi lần khâu trư

hàng ngày (Thâp / OK / NA)

75

3.3.1.10. Dữ liêu tổng hợp charge cước sư dung các dich vu VAS (VAS_CDR_DAY)

- Thông tin dữ liệu thô: Chi tiết về đăng ký / sử dụng dich vụ vas. Tạo các biến

như trong bảng 3.12.

Bảng 3.12. Các biến đặc trưng cho dữ liệu tổng hợp charge cước sử dụng các

dịch vụ VAS của thuê bao


1 Total count of chargeable vas Tông số cươc VAS

2 Total count of non-chargeable vas Tông số cươc VAS không tinh ph.i.

3 Total count of each chargeable vas by

vas_type Tông số cươc VAS theo vas_type

Trong đo:

chargeable_vas (charge_type = 1),

non_chargeable_vas (charge_type = -1 and total_charge < 0)

3.3.1.11. Dữ liêu home (HOME_ACC)

- Thông tin dữ liệu thô: Chi tiết vi tri thuê bao thường xuyên theo ngày. Tạo các

biến như trong bảng 3.13.

Bảng 3.13. Các biến đặc trưng cho dữ liệu home của thuê bao


1 Number of distinct home locations over the

month Số vi tri của thuê bao trong tháng

3.3.1.12. Dữ liêu thông tin thuê bao, khách hàng (PRE-SUBS)

- Thông tin dữ liệu thô: Thông tin chi tiết tưng thuê bao


Bảng 3.14. Các biến đặc trưng cho dữ liệu thông tin thuê bao, khách hàng


1 Age Tuôi

2 Sex (3 categories) Giơi tinh (theo 3 loại)

3 Data package subscribed Goi Data đăng ký

4 Dcom flag (1 or 0) Co phải thuê bao Dcom không (1/0)

76

3.3.2. Lưa chon đăc trưng va mô hình hoa

3.3.2.1. Lưa chon cac thuộc tinh quan trong băng thuât toan Decision Tree

- Băng cách huân luyện một cây quyết đinh cho mỗi nguôn dữ liệu. Ở đây, thực

nghiệm đã sử dụng Cây quyết đinh (độ phức tạp cao) để phù hơp vơi dữ liệu

huân luyện, vơi mục đich xác đinh tât cả các thuộc tinh co liên quan đến kết

quả rời mạng.

- Trích xuât các thuộc tính quan trọng tư Cây quyết đinh theo thứ tự. Mục đich

là tối ưu toàn bộ 1270 biến thành một tập hơp con nhỏ hơn để xử lý mô hình

huân luyện nhanh hơn. Kết quả thu gọn thành 703 thuộc tinh, bao gôm các

nhom như trong bảng 3.15.

Bảng 3.15. Lưa chon cac thuôc tinh quan trong băng thuât toan Decision Tree

Data Source Initial Number

of Attributes

New Number

of Attributes

VOICE_OG 286 210

VOICE_IC 268 90

SMS_OG 92 64

SMS_IC 92 68

GPRS 196 92

TOTAL_CHARGE_DAILY 108 44

TOPUP 120 57

ACCOUNT2_DAY 30 30

DAILYFEE 6 6

VAS_CDR_DAY 66 32

HOME_ACC 6 6

PRE-SUBS 4 4

Total 1274 703

77

Hình 3.6. Phương phap huấn luyện 1 cây quyết định cho mỗi nguồn dữ liệu.

Hình 3.7. Căt bỏ cac mức thấp và trích xuất các nút từ các cấp cao hơn

78

Hình 3.8. Mô tả cây quyết định trên Rapidminer.

79

Hình 3.9. Cac thuôc tính quan trọng sau khi căt bỏ.

3.3.2.2. Huân luyên va xac nhân mô hinh rơi mang.

- Trong số ~ 4,5 triệu khách hàng, chúng tôi đã lây mâu ngâu nhiên ~ 500.000

khách hàng không rời mạng và kết hơp vơi no vơi ~ 500.000 khách hàng rời

mạng đã biết trươc, chúng tôi co một bộ dữ liệu theo mô hình học máy của ~

1 triệu khách hang

- Phân chia quá trình xác nhận, về cơ bản chia ~ 1 triệu khách hàng thành 2

phần: 80% và 20%. Trong đo 80% dữ liệu khách hàng và các thuộc tinh tương

ứng đươc sử dụng để huân luyện cây quyết đinh, 20% con lại đươc sử dụng để

kiểm tra cây quyết đinh sau khi đươc huân luyện. Cây quyết đinh sau khi đươc

huân luyện sử dụng 703 thuôc tính (như đa noi ơ trên).

Bảng 3.16. Validation of the Training Data Set (80% of Total)

True (No Churn) True (Churn) Precision

Predict (No Churn) 318.587 113.905 0.74

Predict (Churn) 83.809 280.781 0.77

Recall 0.79 0.71

Bảng 3.17. Validation of the Testing Data Set (20% of Total).


Predict (No Churn) 79.328 28.895 0.73

80

Predict (Churn) 21.117 70.696 0.77

Recall 0.79 0.71

* Sử dụng đồng thơi các mô hinh khác cho kêt qua:

- Logistic Regression: Validation of the Testing Data Set (20% of Total)

Bảng 3.18. Sử dụng Logistic Regression


Predict (No Churn) 63003 20296 0.76

Predict (Churn) 37982 78469 0.67

Recall 0.62 0.79

- Naïve Bayes: Validation of the Testing Data Set (20% of Total)

Bảng 3.19. Sử dụng Naïve Bayes


Predict (No Churn) 81614 73281 0.53

Predict (Churn) 19548 23782 0.55

Recall 0.81 0.25

Kêt luận:

So sánh các kết quả cho ta thây sử dụng mô hình dự báo theo cây quyết đinh

cho ta kết quả chinh xác hơn. Tuy nhiên các yêu cầu về độ chinh xác vân chưa đạt

theo KPI yêu cầu đặt ra của đề bài. Độ chinh xác của mô hình tốt nhât chỉ đạt 75%

(so vơi đề bài là 85%), độ nhạy đạt 73% (so vơi 75%) thể hiện ở bảng 3.20. Do

đo cần phai tối ưu mô hinh dự báo.

Bảng 3.20. So sánh các kết quả

Độ đo Decision Tree Logistic Regression Naïve Bayes

Đô chính xác Accuracy 0.75 0.71 0.53

Ty lệ lôi Error rate 0.25 0.29 0.47

Đô nhạy Recall 0.73 0.76 0.53

Đô hiệu dụng Precision 0.79 0.62 0.81

3.3.3. Tối ưu mô hình dư bao.

Tiếp tục kế thưa bươc lựa chọn các thuộc tinh quan trọng băng thuật toán

Decision Tree, qua đo giảm số thuộc tính tư 1274 xuống 704

81

3.3.3.1. Tôi ưu băng cach phân nhom khach hang theo hanh vi sư dung.

Phân cụm khách hàng thành 4 nhóm sử dụng thuật toán K-mean, sử dụng một số

thuộc tinh liên quan đến: vog, vic, sog, sin và gprs. Kết quả ta tìm thây 4 cụm và

profile tưng thuê bao trong 4 nhóm sử dụng như trong bảng 3.21 – 3.22.

Bảng 3.21. Kết quả phân cụm bằng thuật toan K-mean.

Bảng 3.22. Kết quả chi tiết phân cụm bằng thuật toan K-mean

TT Phân lơp tiêu dung Số lương Ty lệ (%) Ghi chu

- Tra trước 4,516,047

1 Thoại nhiều 3.082.885 68,3% Cluster_0

2 SMS nhiều 823.704 18,2% Cluster_3

3 Data nhiều 87.168 11,6% Cluster_2

4 Dùng đều thoại, data, SMS 522. 290 1,9% Cluster_1

- Tra sau 1,111,019

1 Thoại nhiều 566.561 48,9% Cluster_0

2 SMS nhiều 253.207 21,8% Cluster_3

3 Data nhiều 286.133 24,7% Cluster_2

4 Dùng đều thoại, data, SMS 51.180 4,4% Cluster_1

Trên cơ sở phân cụm dữ liệu thuê bao thành 4 nhom theo hành vi người dùng

noi trên, ta lựa chọn 630k (200k cho mỗi cụm 0,1,3 và 30k cho cụm 2, đươc lây

mâu ngâu nhiên) trong tông số 4,5 triệu thuê bao. Các tập dữ liệu này đươc sử

dụng để mô hình hoa & xác nhận, mức phân chia 70:30. Trong đo:

+ Theo phân phối lớp ban đầu trong toan bô thuê bao (ví dụ: cluster0 ở

~90:10). Không lấy mẫu lên/xuống

+ Mỗi môt cụm chúng ta sẽ lấy 1 bô đặc trưng.

+ Mỗi cụm sử dụng môt mô hình.

3.3.3.2. Tìm tỷ lê tôi ưu cua xác nhân phân tach.

Cách tiếp cận đươc đề xuât rât đơn giản, thực nghiệm sẽ giữ cố đinh 20% bộ

kiểm tra, và sau đo thay đôi bộ huân luyện tư 80% đến 70% đến 60%, giảm dần

xuống 20% (bươc giảm 10%) và quan sát độ chinh xác. Ở mỗi một giai đoạn, giả

82

sử ở mức 40%, mô hình sẽ có hiệu suât giảm mạnh, do đo tỷ lệ xác thực phân tách

là 40: 20, tương đương vơi 67%: 33%

3.3.3.3. Tìm cỡ mẫu tôi ưu cho huân luyên

Cách tiếp cận đươc đề xuât rât đơn giản, đối vơi mô hình đào tạo, vi dụ mâu

10% của 4,5 triệu, tiếp theo là 20% và tiếp theo (bươc tăng 10%), cho mỗi lần, sẽ

cho một độ chính xác của mô hình. Ở một giai đoạn nào đo, độ chính xác sẽ đạt

đến giơi hạn và đo chinh là là kich thươc tối ưu.

3.3.3.4. Tôi ưu mô hinh băng cach lưa chon lai cac đăc trưng

Băng cách chạy lựa chọn (trong bộ nhơ) cho mỗi cụm để giữ tối đa 50 đặc

trưng. Kết quả trả về tối đa 13 thuộc tính cho một trong các cụm, số này không lý

tưởng, vì vậy thực nghiệm vân gắn các mâu của tưng cụm vào cây quyết đinh.

Các đặc trưng quan trọng của cây đươc trích xuât và kết hơp vơi các thuộc tính

đươc trích xuât tư việc lựa chọn đặc trưng noi trên. Kết quả: 32 thuộc tinh cho

cluster 0; 37 thuộc tinh cho cluster 1; 15 thuộc tinh cho cluster 2; 31 thuộc tinh

cho cluster 3

Bảng 3.23. Tối ưu mô hình bằng cách lưa chọn lại cac đặc trưng

TT Phân loai cụm Lưa chon đăc trưng

1 Cluster_0 Thoại nhiều 32 thuộc tinh quan trọng

2 Cluster_3 SMS nhiều 37 thuộc tinh quan trọng

3 Cluster_2 Data nhiều 15 thuộc tinh quan trọng

4 Cluster_1 Dùng đều thoại, data, SMS 31 thuộc tinh quan trọng

3.3.3.5. Xac đinh lai cac tham sô cua mô hinh tôi ưu

Đầu tiên, thực nghiệm sẽ huân luyện cây quyết đinh, sử dụng các độ phức tạp

khác nhau để kiểm tra các mô hình. Mô hình phức tạp tốt nhât đươc chọn dựa trên

giá tri AUC của bộ kiểm tra khi kiểm tra xác thực phân tách.

Độ phức tạp tối ưu này đươc sử dụng trong xử lý huân luyện mô hình sau vơi

thuật toán random forest. Chạy no trên cluster0 (Thoại nhiều), ta tim thấy các

tham số tốt nhất nên được đặt là:

Đô sâu = 20

Kích thước lá tối thiểu = 4

Mức tăng tối thiểu = 0,0145

83

Hình 3.10. Mô hình tối ưu.

3.3.3.6. Lưa chon mô hinh dư đoan tôt nhât

- Các mô hình huân luyện & đánh giá đươc lựa chọn: Deep Learning, Random

Forest (các tham số cây tuân theo các giá trị được mô tả trong slide cuối

cùng), mô hình Gadient Boosting và mô hình Ensemble. Trong đo, mô hình

huân luyện theo mô hình ensemble sử dụng phương pháp lây trung bình điểm

tin cậy.

- Kiểm tra AUC (bộ huân luyện & bộ kiểm tra) cho tưng mô hình cho thây mô

hình hoạt động tốt nhât đươc tìm thây là mô hình Gadient Boosting.

Bảng 3.24. Lưa chọn mô hình dư đoan tốt nhất.

3.3.3.7. Chay lai mô hinh dư bao với thuât toan Gradien Booting.

Sau khi đã tối ưu mô hình, kết quả dự báo theo thuật toán Gradien Booting đối

vơi mâu 200k – cluster 0 đã cho kết quả dự báo vơi độ chinh xác hơn là 81% đạt

yêu cầu bài toán đặt ra:

Bảng 3.25. Mô hình dư báo với thuật toán Gradien Booting

TT Tập thuê bao Thuê bao rơi mang

Chi tiêu KPI Dự báo Thực tế

84

1 Trả trươc 209.425 169.789 Đô chính xác: 81,1%

Đô nhạy: 60,3%

2 Trả sau 46.073 41.051 Độ chính xác: 89,1%

Độ nhạy: 75,6%

3.4. ĐANH GIA THU HOACH

3.4.1. Kết quả đâu ra cua hệ thống phân tich, dư bao thuê bao rơi mang.

- Danh sách TB có khả năng RM phân 04 nhom tiêu dùng theo hương hành vi

sử dụng: Thoại, SMS, Data và hỗn hơp.

- Dâu hiệu nhận biết TBRM, so sánh hành vi của thuê bao có và không RM.

Trong đo, co 11 dâu hiệu có thể nhận biết đươc vào tháng trươc khi rời mạng,

có 2 dâu hiệu có thể nhận biết đươc trươc 2-3 tháng, 17 dâu hiệu nhận biết

đươc trươc RM 4 tháng.

3.4.2. Tri thưc thu đươc sau thưc nghiệm.

- Thiết kế hệ thống: Học đươc cách tô chức tối ưu, hơp lý cụm Hadoop theo mô

hình backup dữ liệu để xây cụm cho VBI.

- Xử lý dữ liệu: cách nhìn, phát hiện các biến mơi, có vai trò quan trọng cho

model dự báo, làm kỹ phần variables transformation, lọc biến khi xây và chuân

hóa model. Sử dụng đông thời nhiều thuật toán, sàng lọc kỹ các tham số trươc

khi chọn ra thuật toán tối ưu.

Kinh nghiệm rút ra khi xử lý phân tich dữ liệu:

- Về cách làm: Làm bài bản và rât kỹ phần chuyển hóa dữ liệu, sàng lọc các

biến quan trọng, ảnh hưởng nhât đến model dự báo (chiếm 70% thành công

của bài toán phân tích), kết quả đầu ra đươc chứng minh băng rât nhiều thông

tin quan trọng tư dữ liệu thô ban đầu.

- Cách nhìn mới về thuôc tính dư liệu: phát hiện các biến chưa tưng nhìn trươc

đây như: nhìn hành vi tiêu dùng tại nhiều thời điểm/khung giờ khác nhau trong

một ngày (0g-12g-18g); phân biệt giữa ngày làm việc (Thứ Hai-Thứ Sáu) vơi

cuối tuần (T7-CN); nhìn dữ liệu theo tưng tuần... Kết quả đầu ra cho thây, rât

nhiều biến mơi khi đưa vào model dự báo cung là những biến quan trọng, thể

hiện ro đặc điểm hành vi của TBRM.

86

KẾT LUẬN

Nhưng đong gop của luận văn:

Vơi mục tiêu "TÔ CHƯC VÀ TÍCH HƠP HỆ THỐNG PHÂN TÍCH DỮ

LIỆU LƠN PHỤC VỤ CÔNG TÁC DƯ BÁO TRONG VIÊN THÔNG". Luận

văn đã nghiên cứu tông quan về dữ liệu lơn, các đinh nghĩa, đặc trưng và kiến trúc

của BigData, nghiên cứu mô hình dữ liệu lơn và thực nghiệm cho việc xây dựng

công cụ phân tich dự báo TBRM.

Nhưng kêt qua chính đa đạt được trong luận văn:

- Khái quát đươc một số vân đề về kiến trúc BigData, các mô hình dữ liệu lơn,

các mô hình phân tich dự báo.

- Nêu đươc phương pháp tô chức, cách triển khai hệ thống BigData và xây dựng

kich bản thực nghiệm phân tich dự báo TBRM vơi dữ liệu của Viettel.

Hướng phát triển của luận văn:

- Hoàn thiện công cụ và triển khai thực tế hệ thống phân tich dự báo TBRM, sử

dụng co hiệu quả trong việc chăm soc và giữ gìn thuê bao của Viettel.

- Tich hơp công cụ này vào hệ sinh thái BigData tông thể của Viettel, xem đây

là một trong những công cụ chinh trong hệ thống chăm soc khách hàng chủ

động (CEM). Ngoài ra, thường xuyên tối ưu mô hình dự báo để công cụ dự

báo hoạt động vơi tỷ lệ ngày càng chinh xác hơn.

87

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1]. Lo Thi Phương Nhung & Nguyễn Mai Phương, BigData: Tac đông va xu

hướng phat triển, Tạp chi Khoa học công nghệ Việt Nam, số 7 năm 2017.

[2]. Vu Đức Thi, Công nghệ tri thức, Nhà xuât bản khoa học tự nhiên và công

nghệ, Hà Nội, tr 17-20.

[3]. Nguyễn Thanh Thủy, Hà Quang Thụy, Phan Xuân Hiếu, Nguyễn Tri Thành

- Trí tuệ nhân tạo trong thơi đại số: Bối cảnh thế giới va liên hệ với Việt Nam –

Báo Công thương, (2018).

Tiếng Anh.

[4]. Marek Obitko, Industry 4.0 and BigData, http://www. stech.cz/ Portals/0/

Konference/ 2015/ 03%20Industry-/ PDF/03_ obitko.pdf

[5]. Thomas Erl, Wajid Khattak, and Paul Buhler, BigData Fundamentals,

Concepts, Drivers & Techniques (2016)

[6]. E Zeydan, E Bastug, M Bennis, BigData caching for networking: Moving

from cloud to edge, (2016).

[7]. E Baştuğ, M Bennis, E Zeydan - Big Data meets telcos: A proactive

caching perspective, (2015).

[8]. DZ Yazti, S Krishnaswamy, Mobile big data analytics: research, practice,

and opportunities, (2014).

88

[9]. Y Huang, F Zhu, M Yuan, K Deng, Y Li, B Ni, Telco churn prediction

with big data, (2015)

[10]. I Malaka, I Brown, Challenges to the organisational adoption of big data

analytics: a case study in the South African telecommunications industry, (2015)

[11]. M Matti, T Kvernvik - Ericsson Review [PDF], Applying big-data

technologies to network architecture, (2012).

[12]. Y Chen, C Xu, W Rao, H Min - Octopus: Hybrid big data integration

engine, (2015)

[13]. A Idris, M Rizwan, A Khan - Computers & Electrical Engineering, Churn

prediction in telecom using Random Forest and PSO based data balancing in

combination with various feature selection strategies, (2012)

[14]. A Idris, A Khan, YS Lee - Applied intelligence, Intelligent churn

prediction in telecom: employing mRMR feature selection and RotBoost based

ensemble classification, (2013).

[15]. D Zhang, M Chen, M Guizani, H Xiong, Mobility prediction in telecom

cloud using mobile calls, (2014)

[16]. A Idris, A Khan, YS Lee, Genetic programming and adaboosting based

churn prediction for telecom, (2012)

[17]. V Mahajan, R Misra, R Mahajan, Review of data mining techniques for

churn prediction in telecom, (2015).

89

[18]. N Lu, H Lin, J Lu, G Zhang, A customer churn prediction model in telecom

industry using boosting (2012)

[19]. PK Dalvi, SK Khandge, A Deomore, Analysis of customer churn prediction

in telecom industry using decision trees and logistic regression, (2016).

90

PHỤ LỤC 1.1. ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI

MẠNG TRẢ TRƯỚC - PHÂN THEO 4 NHÓM HÀNH VI

Nhom 1: Thoai la chu yếu

Số cuộc gọi đi tuần cuối cùng trươc khi rời mạng (tức tuần tư 24/6-

1/7/2016): <= 3 cuộc/tuần

Số ngày phát sinh cươc của tháng 1/2016: <=16 ngày/th

Số tin nhắn nhận đươc tuần cuối trươc khi RM (tuần tư 24/6-1/7/2016):

<=15 SMS/tuần

Số cuộc gọi đi trong khoảng thời gian tư 18g00-0g00 của tháng 4/2016:

Không có nhiều khác biệt về nguy cơ rủi ro RM giữa các phân lơp có số

cuộc gọi đi khác nhau. Nguy cơ rủi ro RM đều ~ 50%.

Số tin nhắn gửi đi trong những ngày làm việc (thứ Hai-thứ Sáu) của tháng

1/2016: <=11 SMS/th (5 ngày/tuần: Mon-Fri)

Độ lệch chuân của số dư tài khoản gốc (biên độ dao động trong số dư tài

khoản gốc trong ngày - xác đinh tại thời điểm cuối mỗi ngày) của tháng

5/2016: Không có nhiều khác biệt về nguy cơ rủi ro RM giữa các TK có số

dư dao động khác nhau. Nguy cơ RM đều ~50%.

Số cuộc gọi nhận đươc tuần cuối cùng trươc khi rời mạng: <=1 cuộc/tuần

Số lương dich vụ vas cơ bản sử dụng trong tháng 5/2016: Không có nhiều

khác biệt về nguy cơ rủi ro RM giữa các phân lơp tiêu dùng VAS khác

nhau. Nguy cơ RM đều ở mức ~50%

Số lương thuê bao tư các cuộc gọi đến trong tháng 1/2016: <=10 số thuê

bao/th

Số dư trung bình tài khoản gốc (thời điểm cuối mỗi ngày) của tháng 1/2016:

<=2.500đ/ngày

Nhom 2: Hôn hơp (dung đều thoai, data, SMS)


1/7/2016): <= 1 cuộc/tuần


Số tin nhắn nhận đươc tuần cuối trươc khi RM (tuần tư 24/6-1/7/2016):

<=12 SMS/tuần

Số cuộc gọi đi trong khoảng thời gian tư 18g00-0g00 của tháng 4/2016:

Không có nhiều khác biệt nguy cơ rủi ro RM giữa các phân lơp. Nguy cơ

RM của các nhóm có số lương cuộc gọi khác nhau đều ~40%.

Độ lệch chuân của số dư tài khoản gốc (biên độ dao động trong số dư tài

khoản gốc trong ngày - xác đinh tại thời điểm cuối mỗi ngày) của tháng

91

5/2016: Không có nhiều khác biệt về nguy cơ rủi ro RM giữa các TK có số

dư dao động khác nhau. Nguy cơ RM các phân lơp khác nhau đều <50%.

Số cuộc gọi nhận đươc tuần cuối cùng trươc khi rời mạng: <=1 cuộc/tuần

Số lương dich vụ vas cơ bản sử dụng trong tháng 5/2016: Không có nhiều

khác biệt nguy cơ rủi ro RM giữa các phân lơp. Nguy cơ RM của các nhóm

sử dụng số lương dich vụ VAS khác nhau đều <50%.

Số cuộc gọi đi tuần cuối cùng trươc khi rời mạng (thời điểm phân tích: tuần

tư 24/6-1/7/2016): <=1 cuộc/tuần

Tông cươc gốc của tháng 1/2016: <=52k/th

Số cuộc gọi nhận đươc tuần cuối cùng trươc khi rời mạng (tuần tư 24/6-

1/7/2016): <=1 cuộc/tuần

Số cuộc gọi đến co độ dài >1 giây trong tháng 4/2016: Không có nhiều khác

biệt nguy cơ rủi ro RM giữa các phân lơp có số cuộc gọi đến dài >1 giây.

Nguy cơ RM đều <50%.

Số tin nhắn gửi đi trong khoảng thời gian tư 12g00-18g00 của tháng 1/2016:

<= 4 SMS/th

Nhom 3: Data la chu yếu.


tông lưu lương data sử dụng trong tuần (tư 8/4-15/4/2016): Không có nhiều

khác biệt nguy cơ rủi ro RM giữa các phân lơp tiêu dùng data khác nhau,

nguy cơ RM đều <50%.

Số lần nạp the trong tháng 1/2016: <=1 lần/th

Số lần sử dụng các dich vụ vas có tính phí trong tháng 2/2016: Không có

nhiều khác biệt nguy cơ rủi ro RM giữa các phân lơp sử dụng số lương dich

vụ VAS co tinh phi khác nhau, nguy cơ RM đều <30%.

Tông lưu lương cuộc gọi đến trong khoảng thời gian tư 6g00:12g00 trong

tháng 5/2016: Không có nhiều khác biệt nguy cơ rủi ro RM giữa các phân

lơp có tông lưu lương cuộc gọi đến khác nhau, nguy cơ RM đều <30%.

Đăng ký goi data trong tháng 1/2016 (Co/Không): Không

Lưu lương trung bình các cuộc gọi đến trong tháng 1/2016 (chỉ tính những

ngày làm việc: thứ Hai-thứ Sáu): <=1 phút/th

Số lần sử dụng các dich vụ vas không tính phí trong tháng 5/2016: Không

có nhiều khác biệt nguy cơ rủi ro RM giữa các phân lơp sử dụng các dich

vụ VAS không tinh phi khác nhau, nguy cơ RM đều <30%.

Thuê bao Dcom (Có/Không): Tât cả đều không phải thuê bao Dcom, nguy

cơ RM đều <30%

Lưu lương trung bình các cuộc gọi đi trong tuần (tư 5/2 - 12/2/2016): Không

có nhiều khác biệt nguy cơ rủi ro RM giữa các phân lơp co lưu lương trung

bình các cuộc gọi đi khác nhau, nguy cơ RM đều <30%.

92

Nhom 4: SMS la chu yếu.


1/7/2016): <=1 cuộc/tuần

Số tin nhắn nhận đươc tuần cuối trươc khi RM (tuần tư 24/6-1/7/2016): <=7

SMS/tuần

Tông cươc gốc của tháng 1/2016: <=68k/th

Tông lưu lương data sử dụng tuần cuối cùng trươc khi rời mạng (tư 24/6-

1/7/2016): <=26Mb/tuần

Số dư cao nhât trong ngày của tài khoản gốc, xét trong tháng 1/2016: max

<=18k/ngày

Số cuộc gọi đi trong tuần (tư 27/5-3/6/2016): <=2 cuộc/tuần

Số cuộc gọi đi trong tuần (tư 15 - 22/1/2016): Không có nhiều khác biệt

nguy cơ rủi ro RM giữa các phân lơp có số gọi đi khác nhau, nguy cơ RM

đều ~ 60%.

Số tin nhắn gửi đi tơi các đầu số ngắn trong tháng 4/2016: Không có nhiều

khác biệt nguy cơ rủi ro RM giữa các phân lơp có số SMS gửi đi khác nhau,

nguy cơ RM đều ~ 50%.

Số thuê bao nhận tư các cuộc gọi đến trong tháng 5/2016: Không có nhiều

khác biệt nguy cơ rủi ro RM giữa các phân lơp có số thuê bao nhận tư các

cuộc gọi đến khác nhau, nguy cơ RM đều ~ 60%.

Giá tri the nạp trung bình trong tháng 5/2016: Không có nhiều khác biệt

nguy cơ rủi ro RM giữa các phân lơp có số lần nạp the khác nhau, nguy cơ

RM đều ~ 60%.

93

PHỤ LỤC 1.2. ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI

MẠNG TRẢ SAU- PHÂN THEO 4 NHÓM HÀNH VI

Nhom 1: Thoai nhiều

Lưu lương thoại (chiều đi) trung bình tuần cuối cùng trươc khi rời mạng

(tuần tư 24/6-1/7/2016): <62 phút/tuần

Số cuộc gọi đi ngày cuối tuần (T7,CN) tháng cuối cùng trươc khi rời mạng

(6/2016): Không có nhiều khác biệt về nguy cơ rủi ro RM giữa các phân

lơp

Tông cươc thanh toán tháng 1/2016: <69.174 đông/tháng

Số cuộc gọi đến tuần cuối cùng trươc khi rời mạng (tuần 24/6-1/7/2016):

<8 cuộc/tuần

Tỷ lệ cươc sử dụng dich vụ Vas so vơi tông cươc tháng 6/2016: Không có

nhiều khác biệt về nguy cơ rủi ro RM giữa các phân lơp

Các phương thức thanh toán cươc sử dụng trong tháng 1/2016: <2 hình thức

thanh toán/tháng

Số lần thanh toán cươc có ghi nhận trong tháng 1/2016: <2 lần/tháng

Số ngày phát sinh cươc trong tháng 2/2016: Không nhìn rõ về khác biệt

nguy cơ rời mạng giữa các phân lơp

Nhom 2: Hôn hơp


(tuần tư 24/6-1/7/2016). <=3 phút/tuần

Tông cươc thanh toán tháng 1/2016: <1 đông/tháng

Số cuộc gọi đến tuần cuối cùng trươc khi rời mạng (tuần 24/6-1/7/2016):

<11 cuộc/tuần

Tông dung lương data sử dụng tuần cuối trươc khi rời mạng (24/6-

1/7/2016): <68kb/tuần

Số cuộc gọi đi tuần cuối trươc khi rời mạng (24/6-1/7/2016): <=8 cuộc/tuần


nguy cơ rời mạng giữa các phân lơp: Không nhìn rõ về khác biệt nguy cơ

rời mạng giữa các phân lơp

Dung lương data sử dụng tối đa (tinh trong tât cả các phiên) tuần cuối trươc

khi rời mạng: <=42kb/tuần

Tông lưu lương thoại đến trong khoảng (6am-12pm) tháng 1/2016: <=840

phút/tháng

Số lương các gói data khác nhau sử dụng trong tháng 3/2016: <=3 gói/tháng

94



Nhom 3: Tiêu dung thâp


(tuần tư 24/6-1/7/2016). <1 phút/tuần

Tông cươc thanh toán tháng 1/2016: <15.297 đông/tháng

Số cuộc gọi đến tuần cuối cùng trươc khi rời mạng (tuần 24/6-1/7/2016).

<18 cuộc/tuần

Số cuộc gọi đi tuần cuối trươc khi rời mạng (24/6-1/7/2016): <8 cuộc/tuần




khi rời mạng: <158kb/tuần



Không nhìn rõ về khác biệt nguy cơ rời mạng giữa các phân lơp: Không có

nhiều khác biệt về nguy cơ rủi ro RM giữa các phân lơp

Số cuộc gọi đi tuần 24 (8-15/1/2016): Không có nhiều khác biệt về nguy cơ

rủi ro RM giữa các phân lơp.

Nhom 4: Data&SMS nhiều.


(tuần tư 24/6-1/7/2016). <2 phút/tuần

Tông cươc thanh toán tháng 1/2016: <=26.927 đông/tháng

Số cuộc gọi đến tuần cuối cùng trươc khi rời mạng (tuần 24/6-1/7/2016).

<14 cuộc/tuần

Tông dung lương data sử dụng tuần cuối trươc khi rời mạng (24/6-

1/7/2016): 29,3Mb/tuần

Số cuộc gọi đi tuần cuối trươc khi rời mạng (24/6-1/7/2016): <9 cuộc/tuần


khi rời mạng: <=19,8Mb/tuần

Tông lưu lương thoại đến trong khoảng (6am-12pm) tháng 1/2016:

<774kb/tuần



Lưu lương thoại (chiều đi) trung bình tuần 21 (tuần tư 5-12/2/2016): Không

có nhiều khác biệt về nguy cơ rủi ro RM giữa các phân lơp

Số tin nhắn gửi đến các đầu số ngắn tháng 2/2016: Không có nhiều khác

biệt về nguy cơ rủi ro RM giữa các phân lơp.

95

ĐẠI HỌC QUỐC GIA HA NỘI CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Độc lập - Tư do - Hanh phuc

Ha Nôi, ngay thang năm 2019

BẢN XAC NHẬN ĐÃ SỬA CHỮA CAC THIẾU SÓT CỦA LUẬN VĂN

Trường Đại học Công nghệ đã co Quyết đinh số 1414/QĐ-ĐT ngày 10 tháng 12

năm 2019 về việc thành lập Hội đông châm luận văn Thạc sĩ cho học viên

Nguyễn Chung Thành Hưng, sinh ngày 17/10/1979, tại TP Vinh, Nghệ An, chuyên

ngành Hệ thống thông tin, ngành Hệ thống thông tin.

Ngày 19 tháng 12 năm 2019, Trường Đại học Công nghệ (ĐHCN) đã tô chức cho

học viên bảo vệ luận văn Thạc sĩ trươc Hội đông châm (co biên bản kèm theo). Theo

Quyết nghi của Hội đông châm luận văn Thạc sĩ, học viên phải bô sung và sửa chữa các

điểm sau đây trươc khi nộp quyển luận văn cuối cùng cho Nhà trường để hoàn thiện hô

sơ sau bảo vệ:

1. Chưa co đinh nghĩa về thuê bao rời mạng.

2. Các chương 1, 2 cần rút gọn.

3. Mục lục của luận văn con thiếu một số mục.

4. Bô sung phụ lục thiếu

5. Cần thống nhât các thuật ngữ “đặc trưng”, “thuộc tinh”.

Ngày …. tháng …. năm .….., học viên đã nộp bản luận văn co chỉnh sửa. Chúng tôi

nhận thây răng nội dung, hình thức của luận văn và tom tắt luận văn đã đươc sửa chữa,

bô sung theo các điểm trên của Quyết nghi.

Đề nghi Trường Đại học Công nghệ, ĐHQG HN cho phep học viên đươc làm các

thủ tục khác để đươc công nhận và câp băng Thạc sĩ.

Xin trân trọng cảm ơn!

XÁC NHẬN CỦA THANH VIÊN HỘI ĐỒNG/HỘI ĐỒNG

ĐỀ NGHỊ HỌC VIÊN SỬA CHỮA LUẬN VĂN

HỌC VIÊN CAN BỘ HƯỚNG DẪN XAC NHẬN CỦA CƠ SỞ ĐÀO TẠO

tỔ chỨc vÀ tÍch hỢp hỆ thỐng phÂn tÍch dӴ liỆu lỚn...

Documents