tỔ chỨc vÀ tÍch hỢp hỆ thỐng phÂn tÍch dӴ liỆu lỚn...
TRANSCRIPT
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN CHUNG THÀNH HƯNG
TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN
PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2019
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN CHUNG THÀNH HƯNG
TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN
PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG
Chuyên ngành: Hệ thống thông tin
Mã số: 8480104.01
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Can bộ hương dân: PGS. TS Phan Xuân Hiếu
Hà Nội - 2019
LỜI CẢM ƠN
Tôi xin trân trọng cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã tạo
điều kiện cho học viên lơp cao học K24CNTT một môi trường học tập thuận lơi,
đông thời truyền đạt cho tôi một vốn kiến thức quý báu, một tư duy khoa học để
phục vụ cho quá trình học tập và công tác của tôi.
Đặc biệt, tôi xin đươc bày tỏ lòng biết ơn sâu sắc đến PGS.TS. PHAN XUÂN
HIÊU đã tận tình chỉ bảo cho tôi trong suốt quá trình học tập và nghiên cứu, giúp
tôi có nhận thức đúng đắn về kiến thức khoa học, tác phong học tập và làm việc.
Tôi xin gửi lời cảm ơn đến các bạn trong lơp Cao học Hệ thống Thông tin
K24CNTT khóa 2016- 2018 đã giúp đỡ tôi trong suốt thời gian học tập. Cuối
cùng, tôi xin đươc gửi lời cảm ơn tơi gia đình, đông nghiệp, người thân đã động
viên, giúp đỡ tôi trong quá trình hoàn thành luận văn.
Do vốn kiến thức lý luận và kinh nghiệm thực tiễn còn ít nên luận văn không
tránh khỏi những thiếu sót. Tôi xin trân trọng tiếp thu các ý kiến của các thầy, cô,
bạn bè để luận văn đươc hoàn thiện.
Trân trọng cám ơn.
LỜI CAM ĐOAN
Tôi xin cam đoan các kết quả nghiên cứu, thực nghiệm đươc trình bày trong
luận văn này do tôi thực hiện dươi sự hương dân của PGS.TS Phan Xuân Hiếu
và đươc thực hiện trong quá trình hơp tác nghiên cứu giữa Tập đoàn Công nghiệp
- Công nghệ Cao Viettel và đối tácra.
Tât cả những tham khảo tư các nghiên cứu liên quan đều đươc nêu nguôn gốc
một cách ro ràng tư danh mục tài liệu tham khảo của luận văn. Trong luận văn,
không co việc sao chep tài liệu, công trình nghiên cứu của người khác mà không
chỉ ro về tài liệu tham khảo.
Ha nôi, ngay 12 thang 11 năm 2019.
Hoc viên
Nguyên Chung Thanh Hưng.
MỤC LỤC
LỜI CẢM ƠN .................................................................................................................. i
LỜI CAM ĐOAN ............................................................................................................ i
MỤC LỤC ....................................................................................................................... i
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIÊT TẮT ................................................... iv
DANH MỤC CÁC BẢNG .............................................................................................. i
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ....................................................................... iii
MỞ ĐẦU ........................................................................................................................ 1
CHƯƠNG 1. TÔNG QUAN .......................................................................................... 5
1.1. CÁC KHÁI NIỆM CƠ BẢN ................................................................................ 5
1.1.1. Khái niệm chung về dữ liệu lơn ...................................................................... 5
1.1.2. Các khái niệm lưu trữ dữ liệu lơn ................................................................... 6
1.1.3 Các khái niệm về xử lý dữ liệu lơn ................................................................ 10
1.1.4. Cái khái niệm phân tich dữ liệu và các loại hình phân tich dữ liệu .............. 13
1.2. Hệ thống phân tích dữ liệu lơn ............................................................................ 17
1.2.1. Công nghệ lưu trữ dữ liệu trong BigData ..................................................... 17
1.2.1.1. Công nghệ lưu trữ trên đĩa cứng ............................................................ 17
1.2.1.2. Công nghệ lưu trữ trong bộ nhơ (In-Memory Databases)...................... 19
1.2.2. Xử lý dữ liệu trong BigData ......................................................................... 22
1.2.2.1. Xử lý dữ liệu vơi mô hình Map-Reduce ................................................ 22
1.2.2.2. Các tác vụ Map và Reduce ..................................................................... 23
1.2.3. Kỹ thuật phân tich bigdata hiện nay. ............................................................ 25
1.3. Các BAI TOÁN PHÂN TICH DƯ BÁO ............................................................ 28
1.3.1. Bài toán phân tich dự báo ............................................................................. 28
1.3.2. Các mô hình dự báo cơ bản. ......................................................................... 28
1.3.2.1. Mô hình dự báo dựa trên thuật toán cây quyết đinh: ............................. 28
1.3.2.2. Mô hình dự báo Gradient Boosting. ....................................................... 30
1.3.3. Các kỹ thuật phân tich dự báo ...................................................................... 31
1.3.3.1. Tạo biến đặc trưng .................................................................................. 31
1.3.3.2. Kỹ thuật lựa chọn đặc trưng ................................................................... 32
1.3.3.3. Huân luyện và xác thực trong các mô hình dự báo ................................ 34
1.3.3.4. Đánh giá mô hình dự báo ....................................................................... 35
1.3.4. Giơi thiệu công cụ phân tích Rapidminer ..................................................... 42
CHƯƠNG 2. ................................................................................................................. 44
PHƯƠNG PHÁP TÔ CHƯC VA TICH HƠP DỮ LIỆU LƠN ................................... 44
2.1. CÁC HỆ THỐNG PHÂN TICH DỮ LIỆU LƠN TRONG VIÊN THÔNG ...... 44
2.1.1. Một số ứng dụng hệ thống phân tich dữ liệu lơn phô biến hiện nay ............ 44
2.1.1.1. Quản lý trải nghiệm khách hàng (Customer Experience Mgmt) ........... 45
2.1.1.2. Giám sát, quản lý và tối ưu mạng lươi (Network OAM) ....................... 47
2.1.1.3. Phân tich hoạt động (Operation Analytics) ............................................ 48
2.1.1.4. Kiếm tiền tư dữ liệu (Data Monetization) .............................................. 50
2.1.2. Hiện trạng của Viettel ................................................................................... 50
2.1.2.1. Các nguôn dữ liệu lơn tại Viettel ........................................................... 50
2.1.2.2. Các hệ thống phân tich dữ liệu lơn của Viettel ...................................... 51
2.2.1.1. Tầng Data Ingestion ............................................................................... 53
2.2.1.2. Tầng Data Processing ............................................................................. 53
2.2.1.3. Tầng Data Analysis Layer ...................................................................... 54
2.2.1.4. Tầng Data Visualization ......................................................................... 54
2.2.1.5. Tầng Data Repository ............................................................................. 54
2.2.1.6. Tầng Data Govenance ............................................................................ 55
2.2.2. Mô hình tô chức thực tế hệ thống BigData tại Viettel .................................. 55
2.2.2.1. Tầng lưu trữ và xử lý dữ liệu. ................................................................. 56
2.2.2.2. Tầng truy xuât dữ liệu ............................................................................ 57
2.2.3. Các công nghệ nền tảng về hệ thống dữ liệu lơn. ......................................... 57
2.2.4. Các phân hệ cài đặt của Cloudera BigData Enterprise flatform: .................. 60
CHƯƠNG 3. ................................................................................................................. 62
THƯC NGHIỆM TÍCH HƠP HỆ THỐNG ................................................................. 62
DƯ BÁO THUÊ BAO RỜI MẠNG ............................................................................ 62
3.1. NỘI DUNG THƯC NGHIỆM ............................................................................ 62
3.1.1. Đinh nghĩa thuê bao rời mạng. ..................................................................... 62
3.1.2. Bài toán yêu cầu ............................................................................................ 62
3.1.3. Các bươc thực nghiệm. ................................................................................. 63
3.2. TRIÊN KHAI HỆ THỐNG THƯC NGHIỆM ................................................... 63
3.2.1. Xây dựng hệ thống phân tich BigData thực nghiệm. ................................... 63
3.2.1.1. Mô hình triển khai Logic ........................................................................ 63
3.2.1.2. Mô hình triển khai vật lý và thông số hệ thống ...................................... 64
3.2.1.3. Cài đặt, câu hình các thành phần hệ thống thực nghiệm ........................ 65
3.2.1.4. Nguôn dữ liệu ......................................................................................... 67
3.2.1.5. Luông xử lý và khai phá dữ liệu............................................................. 68
3.2.2. Xây dựng mô hình dự báo TBRM. ............................................................... 69
3.3. CÁC KÊT QUẢ THƯC NGHIỆM MÔ HINH DƯ BÁO. ................................. 70
3.3.1. Khám phá dữ liệu và tạo các biến đặc trưng. ............................................... 70
3.3.1.1. Bảng dữ liệu gọi đi của thuê bao (VOICE_OG) .................................... 70
3.3.1.2. Dữ liệu gọi đến của thuê bao (VOICE_IC). ........................................... 71
3.3.1.3. Dữ liệu nhắn tin đi của thuê bao (SMS_OG) ......................................... 71
3.3.1.4. Dữ liệu nhắn tin đến của thuê bao (SMS_IC) ........................................ 72
3.3.1.5. Dữ liệu về sử dụng Data của thuê bao (GPRS) ...................................... 72
3.3.1.6. Dữ liệu tiêu dùng hàng ngày của thuê bao (TOT_CHARGE_DAILY). 73
3.3.1.7. Dữ liệu về thông tin nạp tiền (TOPUP) .................................................. 73
3.3.1.8. Dữ liệu số dư tài khoản (ACCOUNT2_DAY) ....................................... 74
3.3.1.9. Dữ liệu trư cươc phí các gói sử dụng theo chu kỳ (DAILYFEE) .......... 74
3.3.1.10. Dữ liệu tông hơp charge cươc sử dụng các dich vụ VAS
(VAS_CDR_DAY) ............................................................................................. 75
3.3.1.11. Dữ liệu home (HOME_ACC) .............................................................. 75
3.3.1.12. Dữ liệu thông tin thuê bao, khách hàng (PRE-SUBS) ......................... 75
3.3.2. Lựa chọn đặc trưng và mô hình hoa ............................................................. 76
3.3.2.1. Lựa chọn các thuộc tinh quan trọng băng thuật toán Decision Tree ...... 76
3.3.2.2. Huân luyện và xác nhận mô hình rời mạng. .......................................... 79
3.3.3. Tối ưu mô hình dự báo. ................................................................................ 80
3.3.3.1. Tối ưu băng cách phân nhom khách hàng theo hành vi sử dụng. .......... 81
3.3.3.2. Tìm tỷ lệ tối ưu của xác nhận phân tách. ............................................... 81
3.3.3.3. Tìm cỡ mâu tối ưu cho huân luyện ......................................................... 82
3.3.3.4. Tối ưu mô hình băng cách lựa chọn lại các đặc trưng ........................... 82
3.3.3.5. Xác đinh lại các tham số của mô hình tối ưu ......................................... 82
3.3.3.6. Lựa chọn mô hình dự đoán tốt nhât ....................................................... 83
3.3.3.7. Chạy lại mô hình dự báo vơi thuật toán Gradien Booting. .................... 83
3.4. ĐÁNH GIÁ THU HOẠCH ................................................................................. 84
3.4.1. Kết quả đầu ra của hệ thống phân tich, dự báo thuê bao rời mạng. ............. 84
3.4.2. Tri thức thu đươc sau thực nghiệm. .............................................................. 84
KÊT LUẬN .................................................................................................................. 86
TÀI LIỆU THAM KHẢO ............................................................................................ 87
PHỤ LỤC 1.1. ĐẶC ĐIÊM CỦA THUÊ BAO DƯ BÁO RỜI MẠNG TRẢ TRƯƠC -
PHÂN THEO 4 NHÓM HÀNH VI.............................................................................. 90
PHỤ LỤC 1.2. ĐẶC ĐIÊM CỦA THUÊ BAO DƯ BÁO RỜI MẠNG TRẢ SAU-
PHÂN THEO 4 NHÓM HÀNH VI.............................................................................. 93
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
STT Ký hiệu/chữ
viết tắt Ý nghĩa
1 ACID Atomicity, Consistency, Isolation, Durability (Nguyên tắc
thiết kế ACID)
2 AUC Area Under the Curve
3 AUROC Area Under the Receiver Operating Characteristics
4 BASE Basically Available, Soft state, Eventual consistency
(Nguyên tắc thiết kế BASE)
5 BLOB Binary Large Object
6 CAP Consistency, Availability and Partition Tolerance (Nguyên
lý CAP)
7 CEM Customer Experience Management (Quản lý trải nghiệm
khách hàng)
8 CEP Complex Event Processing
9 CNN Convolutional Neural Network
10 DBM Deep Boltzmann Machine
11 DBN Deep Belief Networks
12 DT Daytype
13 ETL Extract Transform Load (Trích xuât dữ liệu)
14 FN False Negative
15 FP False Positive
16 FPR False Positive Rate/Fall-out
17 GBM Gradient Boosting Machines
18 GBRT Gradient Boosting Regression Trees
19 ID3 Interactive Dichotomizer 3
20 IG Information Gain (Độ tăng thông tin)
21 IMDB In-Memory Databases (Cơ sở dữ liệu trong bộ nhơ)
22 IMDG In-Memory Data Grids (Công nghệ lưu trữ dữ liệu trong bộ
nhơ)
23 IOB In-of-bag
24 IoT Internet Of Things
25 LS Learning Set (Tập huân luyện)
26 M2M Machine to Manchine
27 MDA Mean Decrease Accuracy (Độ chính xác giảm bình quân
cho mỗi biến)
STT Ký hiệu/chữ
viết tắt Ý nghĩa
28 MDG Mean Decrease Gini (Sự giảm bình quân hệ số Gini đối vơi
mỗi biến)
29 OOB Out-of-bag
30 POD Period of Day
31 QC Quality Call
32 RDBMS Relation DB Management Systems (Hệ thống lưu trữ cơ sở
dữ liệu quan hệ)
33 RF Random Forest
34 ROC Receiver Operating Characteristics
35 S/N Signal/Noise (Tỷ lệ tín hiệu trên nhiễu)
36 SVM Support Vector Machines
37 TB Thuê bao
38 TBRM Thuê bao rời mạng
39 TN True Negative
40 TP True Positive
41 TPR True Positive Rate/Sentivity/Recall
42 WFLD Weeks Before Last Date
DANH MỤC CÁC BẢNG
STT Chương Mục Bảng Tên bảng
1 1 1.3.3.1 Bảng 1.1
Các thuộc tinh vi dụ Ngày và Khách truy
cập và thuộc tinh đươc trích xuât IsWeek-
endDayfDayg
2 1 1.3.3.2 Bảng 1.2 Các phương pháp trích chọn thuộc tính
3 3 3.2.1.2 Bảng 3.1 Câu hình hệ thống phân tích BigData thực
nghiệm
4 3 3.2.1.4 Bảng 3.2 Nguôn dữ liệu hệ thống phân tích BigData
thực nghiệm
5 3 3.3.1.1 Bảng 3.3 Các biến đặc trưng cho dữ liệu gọi đi của
thuê bao
6 3 3.3.1.2 Bảng 3.4 Các biến đặc trưng cho dữ liệu gọi đến của
thuê bao
7 3 3.3.1.3 Bảng 3.5 Các biến đặc trưng cho dữ liệu nhắn tin đi
của thuê bao
8 3 3.3.1.4 Bảng 3.6 Các biến đặc trưng cho dữ liệu nhắn tin đi
của thuê bao
9 3 3.3.1.5 Bảng 3.7 Các biến đặc trưng cho dữ liệu sử dụng Data
của thuê bao
10 3 3.3.1.6 Bảng 3.8 Các biến đặc trưng cho dữ liệu tiêu dùng
hàng ngày của thuê bao
11 3 3.3.1.7 Bảng 3.9 Các biến đặc trưng cho dữ liệu nạp tiền của
thuê bao
12 3 3.3.1.8 Bảng 3.10 Các biến đặc trưng cho dữ liệu số dư tài
khoản của thuê bao
13 3 3.3.1.9 Bảng 3.11 Các biến đặc trưng cho dữ liệu cươc phí các
gói sử dụng theo chu kỳ của thuê bao
14 3 3.3.1.10 Bảng 3.12
Các biến đặc trưng cho dữ liệu tông hơp
charge cươc sử dụng các dich vụ VAS của
thuê bao
15 3 3.3.1.11 Bảng 3.13 Các biến đặc trưng cho dữ liệu home của
thuê bao
16 3 3.3.1.12 Bảng 3.14 Các biến đặc trưng cho dữ liệu thông tin
thuê bao, khách hàng
17 3 3.3.2.1 Bảng 3.15 Lựa chọn các thuộc tinh quan trọng băng
thuật toán Decision Tree
18 3 3.3.2.2 Bảng 3.16 Validation of the Training Data Set (80% of
Total)
19 3 3.3.2.2 Bảng 3.17 Validation of the Testing Data Set (20% of
Total)
STT Chương Mục Bảng Tên bảng
20 3 3.3.2.2 Bảng 3.18 Sử dụng Logistic Regression
21 3 3.3.2.2 Bảng 3.19 Sử dụng Naïve Bayes
22 3 3.3.2.2 Bảng 3.20 So sánh các kết quả
23 3 3.3.3.1 Bảng 3.21 Kết quả phân cụm băng thuật toán K-mean
24 3 3.3.3.1 Bảng 3.22 Kết quả chi tiết phân cụm băng thuật toán
K-mean
25 3 3.3.3.4 Bảng 3.23 Tối ưu mô hình băng cách lựa chọn lại các
đặc trung
26 3 3.3.3.6 Bảng 3.24 Lựa chọn mô hình dự đoán tốt nhât
27 3 3.3.3.7 Bảng 3.25 Mô hình dự báo vơi thuật toán Gradien
Booting
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
STT Chương Mục Hình Tên hình vẽ
1 1 1.1.1.4 Hình 1.1 Một ví dụ về lưu trữ dạng Key-value
2 1 1.1.1.4 Hình 1.2 Một ví dụ về lưu trữ dạng Document
3 1 1.1.1.4 Hình 1.3 Một ví dụ về lưu trữ dạng Column-
family
4 1 1.1.1.4 Hình 1.4 Một ví dụ về lưu trữ dạng Graph
5 1 1.1.1.4 Hình 1.5 Sơ đô Venn tóm tắt đinh lý CAP
6 1 1.1.1.5 Hình 1.6
Một quy trình ETL có thể trích xuât dữ
liệu tư nhiều nguôn và chuyển đôi nó
để tải vào một hệ thống đich duy nhât
7 1 1.1.1.5 Hình 1.7
Một tác vụ có thể đươc chia thành ba
tác vụ phụ đươc thực thi song song trên
ba bộ xử lý khác nhau trong cùng một
máy
8 1 1.1.1.5 Hình 1.8 Một ví dụ về xử lý dữ liệu phân tán
9 1 1.1.1.5 Hình 1.9 Hadoop là một khung đa năng cung câp
cả khả năng xử lý và lưu trữ
10 1 1.1.2 Hình 1.10 Giá tri và độ phức tạp tăng tư phân tích
mô tả đến phân tich đề xuât
11 1 1.2.1.2 Hình 1.11
Thiết bi lưu trữ trong bộ nhơ có tốc độ
truyền dữ liệu nhanh hơn 80 lần so vơi
thiết bi lưu trữ trên đĩa
12 1 1.2.1.2 Hình 1.12 Một ví dụ mô tả việc truy xuât dữ liệu
tư IMDG
13 1 1.2.1.2 Hình 1.13 Một ví dụ về lưu trữ IMDG xử lý vơi
một truy vân liên tục
14 1 1.2.1.2 Hình 1.14 Một ví dụ mô tả việc truy xuât dữ liệu
tư IMDB
15 1 1.2.1.2 Hình 1.15 Một ví dụ về lưu trữ IMDB đươc câu
hình vơi một truy vân liên tục
16 1 1.2.2.2 Hình 1.16 Một minh họa về công việc
MapReduce
17 1 1.2.2.2 Hình 1.17 Một ví dụ về MapReduce đang hoạt
động
18 1 1.3.2.1 Hình 1.18 Biểu diễn cây quyết đinh cơ bản
19 1 1.3.2.1 Hình 1.19 Cây quyết đinh cho việc chơi Tennis
20 1 1.3.2.3 Hình 1.20 Biểu đô hàm Sigmoid (Ảnh: Tạp chí
Analytics Ấn Độ)
21 1 1.3.2.3 Hình 1.21 Biểu đô hàm chi phí
STT Chương Mục Hình Tên hình vẽ
22 1 1.3.2.3 Hình 1.22 Mô phỏng Gradient Descent
23 1 1.3.2.4 Hình 1.23 Sơ đô Cây quyết đinh (Nguôn: Basten
K., 2016)
24 1 1.3.2.5 Hình 1.24 Mô hình mạng nơron nhiều lơp
25 1 1.3.2.5 Hình 1.25 Tiến trình học
26 1 1.3.3.3 Hình 1.26 Vai trò của mô hình và tưng tập dữ liệu
27 1 1.3.3.4 Hình 1.27 Overfitting, Underfitting
28 1 1.3.3.4 Hình 1.28 Confusion Matrix
29 1 1.3.3.4 Hình 1.29 Phương pháp Bias & Variance
30 1 1.3.3.4 Hình 1.30 Phương pháp đường cong AUC-ROC
31 1 1.3.3.4 Hình 1.31
Đánh giá mô hình qua chỉ số AUC.
Trường hơp tốt nhât khi 2 đường cong
không chông lên nhau
32 1 1.3.3.4 Hình 1.32
Đánh giá mô hình qua chỉ số AUC.
Trường hơp khi 2 đường cong có chông
lên nhau
33 1 1.3.3.4 Hình 1.33
Đánh giá mô hình qua chỉ số AUC.
Trường hơp tệ nhât khi 2 đường cong
hoàn toàn chông lên nhau
34 1 1.3.3.4 Hình 1.34 Đánh giá mô hình qua chỉ số AUC.
Trường hơp khi AUC xâp xỉ 0
35 2 2.1.1 Hình 2.1 Các lĩnh vực phân tich dữ liệu lơn trong
viễn thông
36 2 2.1.1 Hình 2.2 Mức độ ứng dụng phân tich dữ liệu lơn
trong viễn thông
37 2 2.2.1 Hình 2.3 Phương pháp tô chức hệ thống dữ liệu
lơn
38 2 2.2.2 Hình 2.4 Mô hình tô chức thực tế hệ thống
BigData tại Viettel
39 2 2.2.3.2 Hình 2.5 So sánh CDH và HDP
40 2 2.2.4 Hình 2.6 Các phân hệ cài đặt Big Data của HDP
41 3 3.2.1.1 Hình 3.1 Mô hình triển khai hệ thống BigData
thực nghiệm
42 3 3.2.1.2 Hình 3.2 Mô hình đâu nối hệ thống
43 3 3.2.1.3 Hình 3.3 Luông khai phá dữ liệu trong
Rapidminer
44 3 3.2.1.5 Hình 3.4 Luông xử lý khai phá dữ liệu
45 3 3.2.2 Hình 3.5 Mô hình dự báo thuê bao rời mạng
46 3 3.3.2.1 Hình 3.6 Phương pháp huân luyện một cây quyết
đinh cho mỗi nguôn dữ liệu
STT Chương Mục Hình Tên hình vẽ
47 3 3.3.2.1 Hình 3.7 Cắt bỏ các mức thâp và trích xuât các
nút tư các câp cao hơn
48 3 3.3.2.1 Hình 3.8 Mô tả cây quyết đinh trên Rapidminer
49 3 3.3.2.1 Hình 3.9 Các thuộc tinh quan trọng sau khi cắt
bỏ
50 3 3.3.3.5 Hình 3.10 Mô hình tối ưu
1
MỞ ĐẦU
Trên thế giơi, dữ liệu lơn (BigData) đã và đang là một trong những vân đề
trung tâm, nhận đươc nhiều sự quan tâm trong cuộc cách mạng công nghiệp lần
thứ tư. BigData chính là cốt loi để sử dụng, phát triển internet vạn vật (IoT) và trí
tuệ nhân tạo (AI) [1]. Theo dự báo, cách mạng công nghiệp lần thứ tư sẽ tạo ra
một lương lơn dữ liệu, dự kiến đến năm 2020, lương dữ liệu sẽ tăng gâp 50 lần
hiện nay [4]. Thông qua thu thập, phân tích và xử lý lương dữ liệu lơn này sẽ tạo
ra những tri thức mơi, hỗ trơ việc đưa ra quyết đinh của các chủ thể trên thế giơi
(doanh nghiệp, chính phủ, người dân) [1, 4].
Trong ngành viễn thông và CNTT, dữ liệu lơn trở thành công cụ hữu hiệu cho
các nhà cung câp dich vụ viễn thông trong kinh doanh cung như công tác quản lý
vận hành khai thác dich vụ. Các doanh nghiệp viễn thông ngày nay đã chủ động
ứng dụng công nghệ mơi này đề xây dựng các hệ thống phân tich dữ liệu làm cơ
sở để giám sát, quản lý và ra các quyết đinh co tinh chiến lươc. Lĩnh vực áp dụng
dự liệu lơn trong viễn thông rât phong phú liên quan đến các công nghệ phân tich
dự báo, học máy (ML), tri tuệ nhân tạo (AI)…[2, 10]. Dựa vào các công cụ này
doanh nghiệp co thể nâng cao chât lương dich vụ cung câp, đạt hiệu quả kinh
doanh. Phạm vi ứng dụng dữ liệu lơn trong viễn thông noi riêng rât rộng, các ứng
dụng co thể kể đến như hệ thống phân tich quản lý trải nghiệm khách hàng
(Customer Experience Mgmt), hệ thống giám sát, quản lý và tối ưu mạng lươi
(Network OAM), hệ thống phân tich hoạt động doanh nghiệp (Operation
Analytics) và thương mại dữ liệu (Data Monetization) …[7, 11]
Viettel là một doanh nghiệp hàng đầu Việt Nam luôn co chiến lươc đôi mơi,
tiên phong trong công nghệ. Việc ứng dụng một cách nhanh nhât, hiệu quả nhât
các công nghệ mơi noi chung và nhât là các công nghệ liên quan đến dữ liệu lơn
noi riêng luôn là thách thức của đội ngu kỹ thuật Viettel. Một trong những ứng
dụng phô biến nhât hiện nay mà các nhà cung câp dich vụ viễn thông sử dụng đo
là hệ thống phân tich dự báo khách hàng rời mạng. Đây là hệ thống quan trọng
mà đội ngu kỹ thuật Viettel tự nghiên cứu xây dựng dựa trên tư vân của đối tác
cung câp nền tảng dữ liệu lơn Cloudera.
Bản thân là một trong những thành viên tham gia dự án xây dựng bài toán,
tôi xin giơi thiệu đề tài nghiên cứu: "TÔ CHƯC VA TICH HƠP HỆ THỐNG
2
PHÂN TICH DỮ LIỆU LƠN PHỤC VỤ CÔNG TÁC DƯ BÁO TRONG VIÊN
THÔNG". Vơi mong muốn hiểu đươc phương pháp phân tich dự báo và tự bản
thân tich hơp đươc một hệ thống dữ liệu lơn, tôi đã đặt mục tiêu nghiên cứu các
nội dung sau đây:
Tổng quan về vấn đề nghiên cứu:
Tìm hiểu về dữ liệu lơn, các công nghệ liên quan đến dữ liệu lơn (công
nghệ xử lý và lưu trữ dữ liệu), các ứng dụng cho dữ liệu lơn. Tìm hiểu về
bài toán phân tich dự báo và phương pháp dự báo thuê bao rời mạng dựa
trên hành vi tiêu dùng và thoi quen sử dụng dich vụ của khách hàng.
Xây dựng tich hơp hệ thống phân tich dữ liệu lơn phục vụ công tác dự báo
thuê bao rời mạng tại Viettel.
Mục đích nghiên cứu: Tìm hiểu dữ liệu lơn và xây dựng ứng dụng vào
thực tiễn phục vụ công tác kinh doanh của Viettel.
Đối tượng nghiên cứu:
Dữ liệu lơn (khái niệm, cách hoạt động và công nghệ hỗ trơ).
Ưng dụng dữ liệu lơn vào thực tiễn tại Viettel.
Phạm vi nghiên cứu:
Các khái niệm cơ bản về dữ liệu lơn.
Giải pháp mã nguôn mở cho BigData dựa trên Cloudera Flatform.
Xây dựng hệ thống dữ liệu lơn cho một ứng dụng phân tich dự báo cụ thể..
Phương pháp nghiên cứu:
Nghiên cứu lý thuyết về dữ liệu lơn trong hệ thống Công nghệ thông tin vơi
mục tiêu là hiểu đươc nền tảng cơ bản.
Nghiên cứu các công nghệ cho hệ thống dữ liệu lơn vơi mục tiêu là hiểu và
triển khai đươc công nghệ.
Tìm hiểu về các hệ thống dữ liệu phục vụ sản xuât kinh doanh của Viettel
phục vụ cho sản xuât kinh doanh của doanh nghiệp vơi mục tiêu nắm vững
các nguôn dữ liệu lơn đang co và triển khai việc xây dựng BigData.
3
Phương pháp thực nghiệm: Xây dựng tich hơp một hệ thống dữ liệu lơn
dựa trên nền tảng Cloudera Flatform phục vụ cho một ứng dụng cụ thể là phân
tich dự báo thuê bao rời mạng của Viettel.
Vơi các mục tiêu xác đinh cụ thể như trên, kết quả của luận văn dự kiến sẽ
cho ra đời một hệ thống phân tich dữ liệu lơn phục vụ cho công tác dự báo thuê
bao rời mạng mơi (thay thế cho hệ thống vBI cu). Hệ thống phân tich mơi này
dựa trên các thuật toán dự báo tiên tiến kết hơp vơi công nghệ xử lý dữ liệu lơn sẽ
cho ra kết quả phân tich nhanh hơn và co độ chinh xác hơn. Qua đo, công cụ này
sẽ giúp Viettel đưa ra quyết đinh kip thời và hiệu quả hơn trong việc gìn giữ khách
hàng của mình.
Luận văn đươc câu trúc như sau:
CHƯƠNG 1: TÔNG QUAN.
Chương này trình bày các khái niệm cơ bản về dữ liệu lơn, công nghệ lưu trữ
và xử lý dữ liệu lơn. Các bài toán phân tich dự báo, mô hình dự báo, giơi thiệu
các kỹ thuật phân tich dự báo và công cụ phân tich dữ liệu Rapidminer cung là
một trong những nội dung quan trọng của phần này.
CHƯƠNG 2: TÔ CHƯC MỘT HỆ THỐNG PHÂN TICH DỮ LIỆU LƠN.
Đây là chương khá quan trọng đươc chia làm 02 phần. Phần thứ nhât giơi thiệu
các ứng dụng phân tich dữ liệu lơn phô biến hiện nay, hiện trạng các nguôn dữ
liệu lơn cùng vơi các hệ thống ứng dụng phân tich dữ liệu lơn tại Viettel. Phần
con lại sẽ chia se phương pháp tô chức hệ thống dữ liệu lơn tập trung, cách thiết
kế kiến trúc hạ tầng dữ liệu lơn hiện tại của Viettel.
CHƯƠNG 3: THƯC NGHIỆM TICH HƠP HỆ THỐNG DƯ BÁO THUÊ
BAO RỜI MẠNG
Chương 3 là chương chuyển thể các kiến thức nghiên cứu đươc thành nội dung
ứng dụng thực tế. Chương này đưa ra thực nghiệm tich hơp một hệ thống phân
tich dự báo thuê bao rời mạng vơi một hệ thống xử lý dữ liệu lơn thành một công
cụ co áp dụng dự báo cụ thể. Hệ thống này bươc đầu cho ra các kết quả sơ bộ về
đặc điểm thuê bao rời mạng vơi độ chinh xác >80% sau khi tối ưu các bươc dự
báo.
Tuy nhiên, để kết quả thực nghiệm là một công cụ áp dụng hiệu quả trong thực
tế kinh doanh của Viettel, ngoài việc tối ưu lại hệ thống thì còn phải thực hiện tối
4
ưu mô hình liên tục. Kết quả thực nghiệm của chương trình này chỉ mang tính
chât tham khảo, chưa thể áp dụng trong thực tế.
Trên đây là giơi thiệu cơ bản nội dung về luận văn tốt nghiệm của bản thân.
Nội dung thực hiện chỉ mơi là quan điểm và tư duy cá nhân, sẽ còn nhiều tôn tại
và thiết sót. Do vậy, rât mong quý thầy cô, bạn học và nhât là hội đông tốt nghiệp
cho ý kiến đong gop để luận văn đươc hoàn thiện, kết quả luận văn là công cụ dự
báo đươc áp dụng hiệu quả trong thực tế.
5
CHƯƠNG 1. TỔNG QUAN
1.1. CÁC KHAI NIÊM CƠ BAN
1.1.1. Khai niệm chung về dữ liệu lơn
Bô dư liệu (Data sets)
Nhiều tập dữ liệu hay nhiều nhom dữ liệu co liên quan đến nhau đươc gọi là
bộ dữ liệu [5]. Trong đo mỗi nhom hoặc tập con dữ liệu đo co cùng thuộc tinh
giống nhau. Một số vi dụ về bộ dữ liệu ở 03 đinh dạng khác nhau:
+ Dữ liệu Tweets đươc lưu giữ trong tập tin phăng (flat file).
+ Trich xuât các hàng tư bảng dữ liệu (database table) đươc lưu giữ trong tệp
đinh dạng CSV. Bộ sưu tập ảnh đươc lưu trong thư mục.
+ Các thông tin quan sát về lich sử thời tiết đươc lưu dươi dạng XML
Đặc điểm dư liệu lớn 5V (Volume, Velocity, Variety, Veracity, Value)
Dữ liệu lơn BigData co 05 đặc điểm hay con gọi là 5V: Volume-Khối lương
lơn; Velocity-Tốc độ; Variety-Tinh đa dạng; Veracity-Tính xác thực và Value-
Mang lại giá tri. Hầu hết các đặc điểm về dữ liệu lơn đươc Doug Laney xác đinh
vào năm 2001 khi đăng bài viết về dữ liệu doanh nghiệp (Volume, Velocity,
Variety). Tinh xác thực (Veracity) đươc bô sung để tinh tỷ lệ signal-to-noise khi
so sánh dữ liệu phi câu trúc vơi dữ liệu co câu trúc. Cuối cùng, Value- để xác đinh
các kết quả phân tich dữ liệu lơn mang lại giá tri gì? [8].
Phân biệt các loại dư liệu
Dữ liệu có cấu trúc (Structured Data): Dữ liệu có câu trúc phù hơp vơi mô
hình dữ liệu đươc lưu trữ ở dạng bảng. Chúng đươc sử dụng để mô tả mối quan
hệ giữa các thực thể khác nhau và do đo thường đươc lưu trữ trong cơ sở dữ liệu
quan hệ. Dữ liệu có câu trúc thường đươc tạo bởi các ứng dụng doanh nghiệp và
hệ thống thông tin như hệ thống ERP và CRM. Ví dụ về loại dữ liệu này bao gôm
các giao dich ngân hàng, hoa đơn và hô sơ khách hàng.
Dữ liệu phi cấu trúc (Unstructured Data): Dữ liệu không phù hơp vơi mô hình
dữ liệu hoặc lươc đô dữ liệu đươc gọi là dữ liệu phi câu trúc. Người ta ươc tính
răng dữ liệu phi câu trúc chiếm tơi 80% dữ liệu trong bât kỳ doanh nghiệp nào.
Ngày nay, dữ liệu phi câu trúc có tốc độ tăng trưởng nhanh hơn dữ liệu có câu
trúc. Một số loại dữ liệu phi câu trúc phô biến như dữ liệu co dạng văn bản (text)
hoặc nhi phân (binary).
6
Dữ liệu phi câu trúc không thể đươc xử lý hoặc truy vân trực tiếp băng cơ sở
dữ liệu quan hệ SQL. Nếu muốn lưu trữ dữ liệu phi câu trúc trong cơ sở dữ liệu
quan hệ, thì phải đươc lưu trữ trong một bảng dươi dạng BLOB (Binary Large
Object). Ngoài ra, cơ sở dữ liệu NonSQL có thể đươc sử dụng để lưu trữ dữ liệu
phi câu trúc.
Dữ liệu bán cấu trúc (Semi-structured Data): Dữ liệu bán câu trúc thường là
dữ liệu co câu trúc nhưng không đông nhât. Thay vào đo, dữ liệu bán câu trúc co
dạng phân câp (hierarchical) hoặc đô thi (graphbased). Loại dữ liệu này thường
đươc lưu trữ trong các tệp có chứa văn bản. Ví dụ như các tệp XML và JSON là
các dạng phô biến của dữ liệu bán câu trúc. Do tính chât văn bản của dữ liệu này
và sự phù hơp của nó vơi một mức độ câu trúc nào đo, no dễ dàng khai thác hơn
dữ liệu phi câu trúc.
Các nguôn phô biến của dữ liệu bán câu trúc bao gôm các tệp trao đôi dữ liệu
điện tử (EDI), bảng tính, nguôn dữ liệu tư các bộ cảm biến. Dữ liệu bán câu trúc
thường có các yêu cầu lưu trữ và xử lý trươc đặc biệt, đặc biệt nếu đinh dạng cơ
bản không dựa trên văn bản. Một ví dụ về tiền xử lý dữ liệu bán câu trúc sẽ là xác
thực tệp XML để đảm bảo răng nó tuân thủ theo lươc đô của nó.
Siêu dữ liệu (Metadata): Siêu dữ liệu cung câp thông tin về các đặc điểm và
câu trúc của bộ dữ liệu. Loại dữ liệu này chủ yếu đươc tạo băng máy và có thể
đươc thêm vào dữ liệu. Việc theo dõi siêu dữ liệu rât quan trọng đối vơi việc xử
lý, lưu trữ và phân tích dữ liệu lơn vì nó cung câp thông tin về phả hệ của dữ liệu
và nguôn gốc của nó trong quá trình xử lý. Ví dụ về siêu dữ liệu bao gôm: Thẻ
XML cung cấp ngày xac thưc và ngày tạo tài liệu; Các thuôc tính cung cấp kích
thước tệp va đô phân giải của ảnh kỹ thuật số; Các giải pháp dữ liệu lớn thương
dưa trên siêu dữ liệu, đặc biệt khi xử lý dữ liệu bán cấu trúc và không cấu trúc
[5].
1.1.2. Cac khai niệm lưu trữ dữ liệu lơn
Các dữ liệu thu đươc tư các nguôn bên ngoài thường không ở đinh dạng hoặc
câu trúc co thể xử lý ngay đươc. Để khắc phục đươc tình trạng này, việc sắp xếp
lưu trữ dữ liệu là vô cùng cần thiết. Xử lý sắp xếp lưu trữ dữ liệu bao gôm các
bươc: Lọc dữ liệu, làm sạch dữ liệu và chuân bi dữ liệu. Do nhu cầu lưu trữ dữ
liệu trong BigData, nên co nhiều công nghệ tiên tiến đươc tạo ra để hương tơi việc
lưu trữ hiệu quả và co khả năng mở rộng cao [5].
7
Cụm dư liệu (Clusters)
Trong điện toán, một cụm là một tập hơp các máy chủ hoặc các nút đươc liên
kết chặt chẽ. Các máy chủ này thường có cùng phần cứng và đươc kết nối vơi
nhau thông qua một mạng để hoạt động như một đơn vi lưu trữ và xử lý dữ liệu.
Mỗi nút trong cụm có các tài nguyên riêng biệt, chăng hạn như bộ nhơ, bộ xử lý
và ô cứng. Một cụm có thể thực thi một tác vụ băng cách chia nó thành các phần
nhỏ và phân phối thực thi của chúng trên các máy tính khác nhau thuộc cụm.
Hệ thống lưu trư file, hệ thống lưu trư file phân tán
Hệ thống lưu trữ file (gọi tắt là hệ thống file) là hệ thống sử dụng phương pháp
lưu trữ và sắp xếp dữ liệu trên thiết bi lưu trữ (ô đĩa flash, DVD, ô cứng…). File
(tệp) là một đơn vi lưu trữ dữ liệu nhỏ nhât đươc quản lý bởi hệ thống file. Về mặt
logic, hệ thống file co câu trúc như một cây thư mục. Các hệ điều hành sử dụng
hệ thống file để lưu trữ và truy xuât dữ liệu cho các ứng dụng. Mỗi một hệ điều
hành co thể co một hoặc nhiều hệ thống file, vi dụ hệ thống file NTFS trên hệ điều
hành Microsoft Windows và hệ thống file EXT trên Linux.
Một hệ thống lưu trữ file phân tán (hệ thống file phân tán) là một hệ thống file
co thể lưu trữ các file (tệp) co dung lương lơn đươc phân tán đều trên các nút của
cụm dữ liệu. No cho phep các file đươc truy cập tư nhiều vi tri khác nhau. Vi dụ,
hệ thống file phân tán của Google (GFS) và hệ thống file phân tán Hadoop
(HDFS) [5].
Cơ sơ dư liệu không quan hệ (Non-SQL)
Cơ sở dữ liệu Non-SQL là CSDL không quan hệ, co khả năng mở rộng cao,
tinh chiu lỗi và đươc thiết kế đặc biệt cho dữ liệu không co câu trúc hoặc bán câu
trúc. CSDL Non-SQL này thường đươc cung câp giao diện truy vân API và co thể
đươc gọi tư bên trong ứng dụng. CSDL Non-SQL con co khả năng hỗ trơ các truy
vân co câu trúc (SQL).
CSDL Non-SQL có thể đươc phân thành bốn loại dựa trên cách chúng lưu trữ
dữ liệu, như trong Hình 1.1 – 1.4: Dạng key-value (khóa-giá tri); Dạng document
(tài liệu); Dạng column-family; Dạng graph (đô thi) [5].
8
Hình 1.1. Môt ví dụ về lưu trữ dạng Key-value.
Hình 1.2. Môt ví dụ về lưu trữ dạng Document.
Hình 1.3. Môt ví dụ về lưu trữ dạng Column-family.
Hình 1.4. Môt ví dụ về lưu trữ dạng Graph.
Phân đoạn dư liệu (Sharding)
Phân đoạn dữ liệu là quá trình phân vùng dữ liệu theo chiều ngang, tư một tập
dữ liệu lơn thành một tập hơp các bộ dữ liệu nhỏ hơn, dễ quản lý hơn đươc gọi là
phân đoạn. Các phân đoạn đươc phân phối trên nhiều nút, trong đo mỗi một nút
là máy chủ. Mỗi phân đoạn đươc lưu trữ trên một nút riêng biệt và mỗi nút chỉ
chiu trách nhiệm cho dữ liệu đươc lưu trữ trên đo. Mỗi phân đoạn co cùng một
lươc đô (schema) và tât cả các phân đoạn đều đại diện cho một bộ dữ liệu hoàn
chỉnh [5].
Việc xử lý phân đoạn dữ liệu thường trong suốt vơi các máy client, phân đoạn dữ
liệu cho phep phân phối tải xử lý trên nhiều nút (node) để co khả năng mở rộng lưu
trữ dữ liệu theo chiều ngang. Đây là phương pháp để tăng năng lực của hệ thống
9
băng cách thêm các tài nguyên (node). Khi đo mỗi một node chỉ chiu trách nhiệm
cho một phần của toàn bộ tập dữ liệu, do vậy thời gian đọc/ghi đươc cải thiện rât
nhiều. Một lơi ich khác của phân đoạn dữ liệu là khả năng chiu lỗi. Trong trường hơp
một node bi lỗi, chỉ co dữ liệu trên node đo bi ảnh hưởng [5].
Sao lưu dư liệu (Repilication)
Sao lưu dữ liệu là quá trình tạo ra nhiều bản sao cho một tập dữ liệu năm ở trên
nhiều node. Sao lưu dữ liệu cung câp khả năng mở rộng và tinh khả dụng của dữ
liệu do đươc lưu trên nhiều node khác nhau. Khả năng chiu đươc lỗi cung đươc
cải thiện do co dự phong dữ liệu – dữ liệu không bi mât đi khi một node riêng le
bi lỗi. Hiện nay, co 02 mô hình sao lưu dữ liệu là sao lưu chủ – tơ (master-slave)
và sao lưu ngang hàng (peer-to-peer) [5].
Nguyên ly CAP (Consistency, Availability, and Partition tolerance)
Nguyên lý CAP [5] con đươc
gọi là nguyên lý Brewer, thể hiện
vơi ba ràng buộc liên quan đến các
hệ thống cơ sở dữ liệu phân tán đo
là tinh nhât quán (C-Consistency),
độ khả dụng (Availability) và
ngưỡng phân vùng (Partition
tolerance). Nguyên lý noi răng một
hệ thống cơ sở dữ liệu phân tán,
chạy trên một cụm, chỉ có thể đáp
ứng hai trong ba thuộc tính sau:
Hình 1.5. Sơ đồ Venn - định lý CAP.
+ Tính nhât quán:Việc đọc tư bât kỳ nút nào đều co dữ liệu đầu ra như nhau
+ Tính khả dụng: Yêu cầu đọc/ghi sẽ luôn đươc xác nhận dươi hai dạng: thành
công hay thât bại.
+ Ngưỡng phân vùng: Hệ thống cơ sở dữ liệu có thể chiu đựng đươc mât điện
liên lạc chia cụm thành nhiều silo và vân có thể phục vụ các yêu cầu đọc/ghi.
Nguyên tăc thiêt kê ACID
ACID là một nguyên tắc thiết kế cơ sở dữ liệu liên quan đến quản lý giao dich.
Nó là tư viết tắt của tinh nguyên tử (Atomicity), tinh nhât quán (Consistency), độ
cách ly (Isolation) và độ bền (Durability)
10
ACID là một phương pháp quản lý các giao dich đông thời, kiểm soát thông
qua khoa bản ghi (record locks) để đảm bảo tính nhât quán đươc duy trì. ACID là
phương pháp truyền thống để quản lý cơ sở dữ liệu giao dich trong các hệ thống
quản lý cơ sở dữ liệu quan hệ (RDBMS).
+ Tinh nguyên tử đảm bảo răng tât cả các giao dich sẽ luôn luôn thành công
hoặc thât bại hoàn toàn. Nói cách khác, không có giao dich một phần.
+ Tính nhât quán đảm bảo răng dữ liệu phải luôn luôn phù hơp vơi đinh dạng
để co thể đươc ghi đươc vào CSDL. Một CSDL ở trạng thái nhât quán sẽ
vân ở trạng thái nhât quán sau khi giao dich thành công.
+ Độ cách ly đảm bảo răng kết quả của một giao dich đang thực hiện không
thể ảnh hưởng bởi một giao dich khác cho đến khi giao dich đo hoàn thành.
+ Độ bền đảm bảo răng kết quả của một giao dich là vĩnh viễn. Nói cách khác,
một khi giao dich đã đươc thực hiện, nó không thể đươc khôi phục dù cho
hệ thống co thể xảy ra lỗi [5].
1.1.3 Cac khai niệm về xử lý dữ liệu lơn
Xử lý giao dịch trực tuyên (OLTP)
OLTP là một hệ thống phần mềm xử lý dữ liệu theo hương giao dich. Thuật
ngữ giao dich trực tuyến dùng để chỉ các hành động xử lý theo hương thời gian
thực (real time). Dữ liệu đươc lưu giữ trong hệ thống OLTP đươc chuân hoa, cơ
bản co câu trúc và là đầu vào cho các xử lý phân tich.
Các truy vân đươc xử lý trong hệ thống OLTP bao gôm các thao tác chèn, xóa
và cập nhật đơn giản vơi thời gian phản hôi mức mili giây. Vi dụ bao gôm hệ
thống đặt vé, ngân hàng và hệ thống điểm bán hàng [5].
* Xử lý phân tích trực tuyên (OLAP)
Các hệ thống xử lý phân tích trực tuyến (OLAP) đươc sử dụng để xử lý các
truy vân phân tích dữ liệu. OLAP là một phần không thể thiếu của BI, khai phá
dữ liệu và học máy. OLAP co liên quan đến BigData ở chỗ chúng có thể đong vai
trò là nguôn dữ liệu đầu vào cung như nguôn dữ liệu đầu ra của BigData. Chúng
đươc sử dụng trong phân tích chân đoán, phân tich dự đoán và phân tich đề xuât.
Các hệ thống OLAP thực hiện các truy vân phức tạp, dài hạn đối vơi cơ sở dữ liệu
đa chiều có câu trúc đươc tối ưu hoa để thực hiện các phân tích nâng cao.
Hệ thống OLAP lưu trữ dữ liệu lich sử dươi dạng không đươc chuân hoa để
hỗ trơ khả năng báo cáo nhanh. OLAP cung co khả năng lưu trữ các dữ liệu này
11
dươi dạng câu trúc đa chiều để đáp ứng các truy vân phức tạp dựa trên mối quan
hệ dữ liệu [5].
* Trích xuất dư liệu (ETL)
Trich xuât dữ liệu (ETL - Extract Transform Load) là quá trình chuyển tải tư
hệ thống nguôn đến hệ thống đich. Hệ thống nguôn ở đây co thể là CSDL, tệp
hoặc ứng dụng. Tương tự hệ thống đich co thể là CSDL hoặc các hệ thống lưu trữ
khác. ETL là các xử lý chinh trong kho dữ liệu (Data warehouse). Trong BigData,
ETL đươc sử dụng để chuyển đôi giữa các loại dữ liệu khác nhau. Hình 1.6 cho
thây dữ liệu trich xuât đươc lây tư các nguôn khác nhau, đươc chuyển đôi trươc
khi đươc đưa vào hệ thống đich [5].
Hình 1.6. Môt quy trình ETL có thể trích xuất dữ liệu từ nhiều nguồn và chuyển
đổi nó để tải vào môt hệ thống đích duy nhất.
Xử lý dư liệu song song
Xử lý dữ liệu song song là việc chia một nhiệm vụ lơn hơn thành nhiều nhiệm vụ
nhỏ hơn chạy đông thời vơi mục tiêu là giảm thời gian thực hiện. Mặc dù cơ chế xử lý
dữ liệu song song có thể đạt đươc thông qua nhiều máy đươc nối mạng, nhưng thông
thường đươc áp dụng trong phạm vi một máy chủ co nhiều bộ xử lý hoặc loi, mỗi một
bộ xử lý sẽ thực hiện một tác vụ khác nhau (Hình 1.7) [5].
Hình 1.7. Môt tác vụ có thể được chia thành ba tác vụ phụ được thưc thi song
song trên ba bô xử lý khác nhau trong cùng môt máy.
12
Xử lý dư liệu phân tán
Xử lý dữ liệu phân tán có liên quan chặt chẽ vơi xử lý dữ liệu song song trong
đo áp dụng cùng một nguyên tắc "chia để tri". Tuy nhiên, xử lý dữ liệu phân tán
luôn đạt đươc thông qua các máy riêng biệt đươc nối mạng vơi nhau thành một
cụm. Trong Hình 1.8, một tác vụ đươc chia thành ba nhiệm vụ sau đo đươc thực
hiện trên ba máy khác nhau chia se một công tắc vật lý [5].
Hình 1.8. Môt ví dụ về xử lý dữ liệu phân tán.
Xử ly dư liệu Hadoop
Hadoop là nền tảng mã nguôn mở để lưu trữ dữ liệu quy mô lơn và xử lý dữ liệu
tương thich vơi phần cứng. Hadoop đã trở thành một nền tảng công nghiệp thực sự
cho các giải pháp BigData. Nó có thể đươc sử dụng như một công cụ trich xuât,
chuyển đôi và lưu trữ dữ liệu ETL (Extract, Tranformation, Loading). Ngoài ra con
là một công cụ phân tich để xử lý một lương lơn dữ liệu có câu trúc, bán câu trúc và
không câu trúc. Hadoop thiết lập cơ chế MapReduce để xử lý dữ liệu (Hình 1.9) [5].
Hình 1.9. Hadoop là môt khung đa năng cung cấp cả khả năng xử lý
va lưu trữ.
Xử ly dư liệu Workload
13
Việc xử lý dữ liệu trong BigData đươc phân biệt theo khối lương và tính chât
của dữ liệu đươc xử lý trong một khoảng thời gian nhât đinh. Hiện co 02 hình
thức xử lý dữ liệu trong BigData:
+ Xử lý dữ liệu theo lô (batch processing), con đươc gọi là xử lý ngoại tuyến
(offline), là việc xử lý dữ liệu vơi số lương lơn, co độ trễ xử lý cao. Hình
thức xử lý này thường liên quan đến một lương lơn dữ liệu vơi việc đọc/ghi
tuần tự hoặc chỉ đọc/chỉ ghi. Các truy vân có thể phức tạp và liên quan đến
nhiều phep nối. Các hệ thống chạy cơ chế OLAP như BI hay các công cụ
phân tich đươc đinh hương theo lô vì chúng là các tác vụ đoi hỏi nhiều khả
năng đọc vơi khối lương dữ liệu lơn.
+ Xử lý giao dịch (transaction processing) con đươc gọi là xử lý trực tuyến
(online) là xử lý tương tác dữ liệu co độ trễ thâp. Hình thức xử lý dữ liệu
này liên quan đến một lương nhỏ dữ liệu vơi việc đọc và ghi ngâu nhiên.
Khối lương công việc giao dich bao gôm đọc/ghi ngâu nhiên co số phep nối
(joins) it hơn so vơi xử lý dữ liệu theo lô [5].
Xử ly dư liệu theo cụm (Cluster)
Theo cùng cách mà các cụm cung câp hỗ trơ cần thiết để tạo ra các giải pháp
lưu trữ có thể mở rộng theo chiều ngang, các cụm cung cung câp cơ chế cho phép
xử lý dữ liệu phân tán vơi khả năng mở rộng tuyến tính. Vì các cụm có khả năng
mở rộng cao, chúng cung câp một môi trường lý tưởng để xử lý Dữ liệu lơn vì các
bộ dữ liệu lơn có thể đươc chia thành các bộ dữ liệu nhỏ hơn và sau đo đươc xử
lý song song theo cách phân tán. Khi tận dụng một cụm, bộ dữ liệu BigData có
thể là chế độ hàng loạt (batch) hoặc chế độ thời gian thực (real time).
Một lơi ích bô sung của các cụm là chúng cung câp dự phòng và khả năng chiu
lỗi vốn có, vì chúng bao gôm các nút riêng biệt về mặt vật lý. Dự phòng và khả
năng chiu lỗi cho phép xử lý và phân tích khả năng phục hôi xảy ra nếu xảy ra lỗi
mạng hoặc nút. Do sự biến động của nhu cầu xử lý đươc đặt trong môi trường Dữ
liệu lơn, tận dụng các dich vụ cơ sở hạ tầng máy chủ đám mây hoặc môi trường
phân tích sẵn sàng làm xương sống của cụm, có thể cảm nhận đươc do tính linh
hoạt và mô hình tính toán dựa trên tiện ích của nó [5].
1.1.4. Cai khai niệm phân tich dữ liệu va cac loai hình phân tich dữ liệu
Phân tich dữ liệu (Data Analysis) là quá trình xử lý dữ liệu để tìm ra các sự
kiện, các mối quan hệ, mâu (patterns) dữ liệu, hiểu biết dữ liệu và xu thế. Mục
tiêu của phân tich dữ liệu là để hỗ trơ cho việc ra quyết đinh tốt hơn.
14
Xử lý phân tich dữ liệu (Data Analytics) là một thuật ngữ rộng hơn khái niệm
phân tich dữ liệu (Data Analysis). Quá trình này là việc quản lý vong đời dữ liệu,
bao gôm: Thu thập dữ liệu; Làm sạch dữ liệu; Tô chức dữ liệu; Lưu trữ dữ liệu;
Phân tich và quản lý dữ liệu. Trong lĩnh vực BigData, phân tich dữ liệu con cho
phep phát triển các phương pháp dựa trên nền tảng và công nghệ phân tán co khả
năng mở rộng cao. No co khả năng phân tich một khối lương dữ liệu lơn tư các
nguôn khác nhau.
Hình 1.10.Giá trị va đô phức tạp tăng từ phân tích mô tả đến đề xuất
Phân tich dữ liệu cho phep ra quyết đinh dựa trên dữ liệu thực tế co khoa học,
no không chỉ đơn thuần dựa vào kinh nghiệm và trực giác trong quá khứ. Co thể
phân thành 04 loại phân tich dữ liệu: Phân tich mô tả (descriptive analytics); Phân
tich chân đoán (diagnostic analytics); Phân tich dự báo (predictive analytics);
Phân tich đề xuât (prescriptive analytics) [5].
Phân tích mô ta:
Các thống kê cho thây răng co khoảng 80% kết quả phân tich đươc dươi dạng
phân tich mô tả. Đây là dạng phân tich co giá tri thâp nhât, chỉ cần yêu cầu kỹ
năng phân tich tương đối cơ bản. Phân tich mô tả đươc thực hiện để trả lời các sự
kiện đã xảy ra, các câu hỏi mâu để phân tich mô tả co dạng như sau:
+ Doanh số bán hàng trong 12 tháng đã qua là bao nhiêu?
+ Hoa hông hàng tháng kiếm đươc tư mỗi đại lý bán hàng?
Phân tich mô tả thường đươc thực hiện thông qua báo cáo hoặc dươi dạng bảng
Dashboard (đô thi hoặc biểu đô). Các truy vân đươc thực hiện tư kho dữ liệu của
doanh nghiệp. Vi dụ như hệ thống quản lý khách hàng CRM, hệ thống hoạch đinh
nguôn lực ERP [5].
Phân tích chân đoán:
15
Phân tich chân đoán nhăm xác đinh nguyên nhân của hiện tương xảy ra trong
quá khứ băng cách sử dụng các câu hỏi tập trung vào lý do xảy ra sự kiện. Các
dạng câu hỏi mâu như:
+ Tại sao doanh thu Quý 2 thâp hơn doanh thu Quý 1.
+ Tại sao co tỷ lệ gia tăng sự cố mạng trong ba tháng qua.
Phân tich chân đoán cung câp nhiều thông tin giá tri hơn phân tich mô tả, do
vậy no yêu cầu kỹ năng phân tich cao hơn. Kết quả phân tich chân đoán thông qua
các công cụ trực quan giúp người dùng xác đinh đươc xu thế. Các truy vân dữ liệu
trong phân tich chân đoán cung phức tạp hơn so vơi phân tich mô tả, no đươc thực
hiện trên dữ liệu đa chiều đươc lưu giữ trong các hệ thống phân tich [5].
Phân tích dự báo (dự đoán):
Phân tich dự đoán dùng để xác đinh kết quả của một sự kiện nào đo sẽ xảy ra
trong tương lai. Noi một cách chinh xác hơn, phân tich dự đoán là mô hình dựa
vào sự kiện đã xảy ra trong quá khứ vơi một điều kiện cụ thể để xác đinh sự kiện
tương tự xảy ra trong tương lai. Nếu các điều kiện cơ bản này thay đôi thì mô hình
dự báo phải đươc cập nhật. Các câu hỏi mâu cho phân tich dự báo co dạng what-
if, vi dụ:
+ Tỷ lệ sống của bệnh nhân sẽ là bao nhiêu nếu Thuốc B đươc dùng thay vì
Thuốc A?
+ Nếu khách hàng đã mua Sản phâm A và B, cơ hội mà họ cung sẽ mua Sản
phâm C là gì?
Loại phân tich này liên quan đến việc sử dụng các bộ dữ liệu lơn và các kỹ
thuật phân tích dữ liệu khác nhau. Nó cung câp thông tin co giá tri hơn và đoi hỏi
một bộ kỹ năng nâng cao hơn so vơi phân tich mô tả và phân tich chân đoán. Các
công cụ thường sử dụng cho phân tich dự đoán phức tạp, trưu tương tuy nhiên co
thể cung câp giao diện thân thiện vơi người dùng [5, 9].
Phân tích đề xuất:
Phân tich đề xuât đươc xây dựng dựa trên kết quả của phân tich dự báo băng
cách liệt kê các hành động cần phải thực hiện. Phân tich này không chỉ tập trung
vào việc lựa chọn hành động nào là tốt nhât mà con trả lời câu hỏi tại sao? Do đo,
loại phân tich này thường đươc sử dụng để đạt đươc các lơi thế và giảm thiểu các
rủi ro của doanh nghiệp. Các dạng câu hỏi mâu cho loại phân tich này như:
+ Trong số ba loại thuốc, loại thuốc nào mang lại kết quả tốt nhât?
16
+ Khi nào là thời điểm tốt nhât để giao dich một cô phiếu cụ thể?
Phân tich đề xuât cung câp tri thức nhiều giá tri nhât trong các loại phân tich
kể trên, do vậy no yêu cầu các kỹ năng phân tich tiên tiến kết hơp vơi các phần
mềm, công cụ chuyên dụng. Co thể noi phân tich đề xuât đã chuyển dich tư việc
giải thich nguyên nhân sang tư vân hành động và no co thể mô phỏng nhiều kich
bản xảy ra khác nhau.
Loại phân tích này kết hơp dữ liệu nội bộ vơi dữ liệu bên ngoài. Dữ liệu nội
bộ có thể bao gôm dữ liệu bán hàng hiện tại và lich sử, thông tin khách hàng, dữ
liệu sản phâm và quy tắc kinh doanh. Dữ liệu bên ngoài có thể bao gôm dữ liệu
truyền thông xã hội, dự báo thời tiết và dữ liệu nhân khâu học do chính phủ sản
xuât. Phân tich đề xuât liên quan đến việc sử dụng các quy tắc kinh doanh và một
lương lơn dữ liệu bên trong và bên ngoài để mô phỏng các kết quả và đinh hương
hành động tốt nhât [5].
17
1.2. HÊ THỐNG PHÂN TÍCH DỮ LIÊU LỚN
1.2.1. Công nghệ lưu trữ dữ liệu trong BigData
1.2.1.1. Công nghê lưu trữ trên đĩa cưng
Lưu trữ trên đĩa thường sử dụng ô đĩa cứng chi phí thâp để lưu trữ lâu dài. Lưu
trữ trên đĩa co thể đươc thực hiện thông qua hệ thống tệp phân tán hoặc cơ sở dữ
liệu.
Hệ thống lưu trư tệp phân tán
Các hệ thống tệp phân tán hỗ trơ lưu trữ dữ liệu không co lươc đô (schema-less,
cung câp khả năng dự phòng và tính sẵn sàng cao băng cách sao chép dữ liệu vào
nhiều vi trí khác nhau. Một thiết bi lưu trữ đươc triển khai vơi hệ thống tệp phân
tán cung câp khả năng truy cập nhanh, có khả năng lưu trữ các bộ dữ liệu lơn vơi
dữ liệu bán câu trúc và không câu trúc. Đông thời, nó cung câp khả năng đọc/ghi
nhanh, giải quyết đặc tính vận tốc của Dữ liệu lơn.
Một hệ thống tệp phân tán không lý tưởng cho các bộ dữ liệu có số lương lơn
tệp nhỏ vì điều này tạo ra hoạt động tìm kiếm đĩa quá mức, làm chậm quá trình
truy cập dữ liệu tông thể. Do những hạn chế này, hệ thống tệp phân tán hoạt động
tốt nhât vơi ít tệp hơn nhưng lơn hơn đươc xử lý tuần tự. Nhiều tệp nhỏ hơn thường
đươc kết hơp thành một tệp lơn duy nhât để cho phep lưu trữ và xử lý tối ưu. Điều
này cho phép các hệ thống tệp phân tán có hiệu suât tăng khi dữ liệu phải đươc
truy cập trong chế độ truyền phát mà không co đọc và ghi ngâu nhiên.
Thiết bi lưu trữ hệ thống tệp phân tán phù hơp vơi bộ dữ liệu lơn của dữ liệu
thô. Ngoài ra, đây là lựa chọn lưu trữ it tốn kem để lưu trữ lương lơn dữ liệu trong
một khoảng thời gian dài cần duy trì trực tuyến. Điều này là do có thể bô sung các
bộ đĩa cứng vào cụm mà không cần giảm tải dữ liệu để lưu trữ dữ liệu ngoại tuyến.
Cần lưu ý răng các hệ thống tệp phân tán không cung câp khả năng tìm kiếm nội
dung của các tệp dươi dạng tiêu chuân [5].
Hệ thống lưu trư CSDL quan hệ RDBMS
Các hệ thống quản lý RDBMS (Relational DB management systems) rât tốt để
xử lý khối lương công việc giao dich liên quan đến một lương nhỏ dữ liệu vơi các
thuộc tinh đọc/ghi ngâu nhiên. Các RDBMS tuân thủ nguyên tắc thiết kế ACID,
do vậy các hệ thống RDBMS (chiu giơi hạn bởi một nút) không hỗ trơ tinh dự
phòng và khả năng chiu lỗi [5].
18
Để xử lý khối lương lơn dữ liệu đến vơi tốc độ nhanh, cơ sở dữ liệu quan hệ
thường cần phải mở rộng quy mô. Tuy nhiên các hệ thống RDBMS chỉ co cơ chế
phân chia theo chiều dọc, không chia tỷ lệ theo chiều ngang, đây là một nhươc
điểm lơn. Điều này làm cho các RDBMS không lý tưởng để lưu trữ dữ liệu lâu
dài đươc tich luy theo thời gian. Mặt khác, CSDL quan hệ thường yêu cầu dữ liệu
tuân thủ lươc đô. Do đo, các hệ thống RDBMS khi lưu trữ dữ liệu bán câu trúc và
không co câu trúc phải thực hiện gián tiếp. Điều này phát sinh độ trễ cao, độ trễ
này làm cho CSDL quan hệ không lý tưởng để lưu trữ dữ liệu tốc độ cao trong khi
cần một thiết bi lưu trữ CSDL có tính sẵn sàng cao vơi khả năng ghi dữ liệu nhanh.
Do những nhươc điểm đo, RDBMS truyền thống thường không hữu ich như thiết
bi lưu trữ chinh trong môi trường giải pháp Dữ liệu lơn [5].
Hệ thống lưu trư CSDL Non-SQL
Sự xuât hiện của các hệ thống lưu trữ Non-SQL chủ yếu đáp ứng cho các tinh
chât đặc trưng của BigData (Volume, Velocity, Variety). Yêu cầu lưu trữ của khối
lương dữ liệu ngày càng tăng yêu cầu sử dụng cơ sở dữ liệu có khả năng mở rộng
cao trong khi vân giảm chi phí cho doanh nghiệp để duy trì tính cạnh tranh. Các
hệ thống lưu trữ Non-SQL đáp ứng yêu cầu này băng cách cung câp khả năng mở
rộng quy mô trong khi sử dụng các máy chủ hàng hóa re tiền.
Dòng dữ liệu nhanh đoi hỏi cơ sở dữ liệu vơi khả năng ghi dữ liệu truy cập
nhanh. Các hệ thống lưu trữ Non-SQL cho phép ghi nhanh băng cách sử dụng
nguyên tắc lươc đô khi đọc thay vì nguyên tắc ghi trên lươc đô. Có tính sẵn sàng
cao, các hệ thống này co thể đảm bảo độ trễ khi xảy ra lỗi node/mạng. Hệ thống
lưu trữ cần xử lý các đinh dạng dữ liệu khác nhau bao gôm tài liệu, email, hình
ảnh và video và dữ liệu không đầy đủ. Hệ thống lưu trữ Non-SQLcó thể lưu trữ
các dạng khác nhau dữ liệu bán câu trúc và không câu trúc. Ngoài ra, hệ thống
này con hỗ trơ cho dữ liệu không co lươc đô.
Căn cứ vào dạng dữ liệu lưu trữ, hệ thống lưu trữ dữ liệu Non-SQL đươc phân
chia thành 4 loại: Hệ thống lưu trữ dữ liệu dạng Key-Value, Document, Column-
family và Graph [5].
Hệ thống lưu trư CSDL NewSQL
Các thiết bi lưu trữ Non-SQL có khả năng mở rộng cao, khả dụng, chiu lỗi và
nhanh chóng cho các hoạt động đọc/ghi. Tuy nhiên, chúng không cung câp cùng
một giao dich và hỗ trơ nhât quán như đươc thể hiện bởi các RDBMS tuân thủ
19
ACID. Theo mô hình BASE, các thiết bi lưu trữ Non-SQL chỉ cung câp tính nhât
quán ở trạng thái xử ly cuối cùng thay vì tính nhât quán ngay lập tức. Do đo, chúng
không thích hơp để sử dụng khi thực hiện các hệ thống giao dich quy mô lơn.
Các thiết bi lưu trữ NewQuery kết hơp các nguyên tắc thiết kế ACID của
RDBMS vơi khả năng mở rộng và khả năng chiu lỗi đươc cung câp bởi các thiết
bi lưu trữ Non-SQL. Ngoải ra, các cơ sở dữ liệu New SQL thường hỗ trơ cú pháp
tuân thủ SQL cho quá trình thao tác dữ liệu và chúng thường sử dụng mô hình dữ
liệu quan hệ logic để lưu trữ dữ liệu.
Cơ sở dữ liệu New SQL có thể đươc sử dụng để phát triển các hệ thống OLTP
vơi khối lương giao dich rât lơn, ví dụ như một hệ thống ngân hàng. Chúng cung
có thể đươc sử dụng cho các phân tích thời gian thực, ví dụ như phân tich hoạt
động, vì một số triển khai tận dụng lưu trữ trong bộ nhơ. So vơi hệ thống lưu trữ
Non-SQL, thiết bi lưu trữ New SQL cung câp quá trình chuyển đôi dễ dàng hơn
tư RDBMS truyền thống sang cơ sở dữ liệu có khả năng mở rộng cao do hỗ trơ
SQL. Ví dụ về cơ sở dữ liệu NewSQL bao gôm VoltDB, NuoDB và InnoDB [5].
1.2.1.2. Công nghê lưu trữ trong bộ nhớ (In-Memory Databases)
Một thiết bi lưu trữ trong bộ nhơ thường sử dụng RAM, bộ nhơ chính của máy
tinh, làm phương tiện lưu trữ để cung câp truy cập dữ liệu nhanh. Dung lương
ngày càng tăng và chi phi RAM giảm, cùng vơi tốc độ đọc/ghi ngày càng tăng của
ô cứng, đã giúp phát triển các giải pháp lưu trữ dữ liệu trong bộ nhơ. Lưu trữ dữ
liệu trong bộ nhơ giúp loại bỏ độ trễ của I/O của đĩa và thời gian truyền dữ liệu
giữa bộ nhơ chính và ô cứng. Việc giảm tông thể độ trễ đọc/ghi dữ liệu này giúp
xử lý dữ liệu nhanh hơn nhiều. Dung lương thiết bi lưu trữ in-memory có thể đươc
tăng lên một cách ô ạt băng cách mở rộng theo chiều ngang của cụm đang lưu trữ
thiết bi lưu trữ trong bộ nhơ.
Bộ nhơ dựa trên cụm cho phep lưu trữ một lương lơn dữ liệu, bao gôm cả bộ
dữ liệu BigData, có thể đươc truy cập nhanh hơn đáng kể khi so sánh vơi thiết bi
lưu trữ trên đĩa. Điều này làm giảm đáng kể thời gian thực hiện chung của phân
tích Dữ liệu lơn, do đo cho phep phân tich Dữ liệu lơn theo thời gian thực.
Hình 1.11 minh họa một so sánh thời gian truy cập giữa các thiết bi lưu trữ
trong bộ nhơ và đĩa cứng. Việc đọc tuần tự 1 MB dữ liệu tư thiết bi lưu trữ trong
bộ nhơ mât khoảng 0,25 ms, trong khi cùng một lương dữ liệu tư thiết bi lưu trữ
20
trên đĩa mât khoảng 20 ms. Điều này chứng tỏ răng việc đọc dữ liệu tư bộ lưu trữ
bộ nhơ trong nhanh hơn khoảng 80 lần so vơi lưu trữ trên đĩa.
Hình 1.11. Thiết bị lưu trữ trong bô nhớ có tốc đô truyền dữ liệu nhanh hơn 80
lần so với thiết bị lưu trữ trên đĩa.
Thiết bi lưu trữ trong bộ nhơ cho phép phân tích trong bộ nhơ, dùng để phân
tích dữ liệu trong bộ nhơ. Phân tích trong bộ nhơ cho phép phân tích hoạt động
và BI hoạt động thông qua thực hiện nhanh các truy vân và thuật toán.
Về cơ bản, lưu trữ trong bộ nhơ cho phép hiểu đươc luông dữ liệu nhanh trong
môi trường Dữ liệu lơn (đặc tính vận tốc) băng cách cung câp phương tiện lưu trữ
tạo điều kiện cho việc tạo thông tin chi tiết theo thời gian thực. Điều này hỗ trơ
đưa ra quyết đinh nhanh chong để giảm thiểu đe dọa hoặc tận dụng cơ hội.
Thiết bi lưu trữ trong bộ nhơ Dữ liệu lơn đươc triển khai trên một cụm, cung
câp tính sẵn sàng và dự phong cao. Do đo, khả năng mở rộng theo chiều ngang có
thể đạt đươc băng cách thêm nhiều nút hoặc bộ nhơ. Khi so sánh vơi thiết bi lưu
trữ trên đĩa, thiết bi lưu trữ trong bộ nhơ đắt tiền vì chi phí bộ nhơ cao hơn so vơi
thiết bi lưu trữ dựa trên đĩa.
Mặc dù máy 64 bit có thể sử dụng 16 exabyte bộ nhơ, do các giơi hạn vật lý
của máy, chăng hạn như số lương khay nhơ, bộ nhơ đươc cài đặt it hơn đáng kể.
Để nhân rộng ra, nó không chỉ là việc bô sung thêm bộ nhơ mà còn là sự bô sung
các nút đươc yêu cầu mười một giơi hạn bộ nhơ cho mỗi nút. Điều này làm tăng
chi phi lưu trữ dữ liệu.
Ngoài việc đắt tiền, các thiết bi lưu trữ trong bộ nhơ không cung câp cùng mức
hỗ trơ cho việc lưu trữ dữ liệu lâu bền. Yếu tố giá ảnh hưởng hơn nữa đến khả
năng co thể đạt đươc của thiết bi trong bộ nhơ khi so sánh vơi thiết bi lưu trữ trên
đĩa. Do đo, chỉ có dữ liệu cập nhật và mơi nhât có giá tri nhât đươc lưu trong bộ
nhơ, dữ liệu cu đo đươc thay thế băng dữ liệu mơi hơn, mơi hơn.
21
Tùy thuộc vào cách no đươc triển khai, một thiết bi lưu trữ trong bộ nhơ có thể
hỗ trơ lưu trữ không co lươc đô hoặc lưu trữ nhận thức lươc đô. Hỗ trơ lưu trữ
không co lươc đô đươc cung câp thông qua lưu trữ dữ liệu dựa trên khóa-giá tri.
Các thiết bi lưu trữ trong bộ nhơ có thể đươc triển khai như: Công nghệ lưu
trữ IMDG và công nghệ lưu trữ IMDB. Mặc dù cả hai công nghệ này đều sử dụng
bộ nhơ làm phương tiện lưu trữ dữ liệu cơ bản, nhưng điều làm cho chúng khác
biệt là cách lưu trữ dữ liệu trong bộ nhơ [5].
Công nghệ lưu trư dư liệu IMDG (In-Memory Data Grids) lưu trữ dữ liệu
trong bộ nhơ dươi dạng cặp giá tri khóa trên nhiều nút trong đo các khoa và giá
tri có thể là bât kỳ đối tương kinh doanh hoặc dữ liệu ứng dụng nào ở dạng tuần
tự. Điều này hỗ trơ lưu trữ dữ liệu không co lươc đô thông qua lưu trữ dữ liệu bán
câu trúc hoặc không co câu trúc. Truy cập dữ liệu thường đươc cung câp thông
qua API như trong hình 1.12 [5].
Hình 1.12. Môt ví dụ mô tả việc truy xuất dữ liệu từ IMDG.
Công nghệ lưu trư dư liệu IMDB (In-Memory Databases) sử dụng công
nghệ cơ sở dữ liệu và tận dụng hiệu năng của RAM để khắc phục các vân đề về
độ trễ thời gian chạy gây ra cho các thiết bi lưu trữ trên đĩa như trong hình 1.14:
Hình 1.14. Môt ví dụ mô tả việc truy xuất dữ liệu từ IMDB.
22
IMDB có thể để lưu trữ dữ liệu có câu trúc (IMDB quan hệ) hoặc có thể tận
dụng công nghệ Non-SQL (IMDB không quan hệ) để lưu trữ dữ liệu bán câu trúc
và không câu trúc.
Không giống như IMDG, cung câp quyền truy cập dữ liệu thông qua API,
IMDB quan hệ sử dụng ngôn ngữ SQL nên quen thuộc hơn, hỗ trơ các nhà phân
tích dữ liệu hoặc nhà khoa học dữ liệu không có kỹ năng lập trình nâng cao. Các
IMDB dựa trên Non-SQL thường cung câp quyền truy cập dựa trên API, có thể
đơn giản như các thao tác đặt, nhận và xóa. Tùy thuộc vào việc triển khai cơ bản,
một số IMDB mở rộng quy mô, trong khi một số khác mở rộng quy mô, để đạt
đươc khả năng mở rộng.
IMDB quan hệ thường có khả năng mở rộng it hơn IMDG, vì IMDB quan hệ
cần hỗ trơ các truy vân và giao dich phân tán trên toàn cụm. Một số triển khai
IMDB có thể đươc hưởng lơi tư việc nhân rộng, giúp giải quyết độ trễ xảy ra khi
thực hiện các truy vân và giao dich trong môi trường mở rộng. Ví dụ bao gôm
Aerospike, MemQuery, Altibase HDB, eXtreme DB và Pivotal GemFire XD [5].
1.2.2. Xử lý dữ liệu trong BigData
1.2.2.1. Xư ly dữ liêu với mô hinh Map-Reduce
MapReduce là một mô hình đươc sử dụng rộng rãi cho cơ chế xử lý theo lô.
Nó có khả năng mở rộng cao và đáng tin cậy dựa trên nguyên tắc “chia để tri”,
cung câp khả năng chiu lỗi và dự phòng tích hơp. Nó phân chia một vân đề lơn
thành một tập hơp các vân đề nhỏ hơn co thể đươc giải quyết nhanh chóng.
MapReduce có nguôn gốc tư cả hai mô hình xử lý phân tán và song song. Đây là
một công cụ đươc sử dụng để xử lý các bộ dữ liệu lơn theo mô hình xử lý song
song đươc triển khai trên các cụm phần cứng.
MapReduce không yêu cầu dữ liệu đầu vào phù hơp vơi bât kỳ mô hình dữ
liệu cụ thể nào. Do đo, no co thể đươc sử dụng để xử lý các bộ dữ liệu không có
lươc đô. MapReduce dựa trên tài liệu nghiên cứu của Google, đươc xuât bản vào
đầu năm 2000.
Công cụ xử lý MapReduce hoạt động khác so vơi mô hình xử lý dữ liệu truyền
thống. Trong mô hình truyền thống, xử lý dữ liệu yêu cầu di chuyển dữ liệu tư nút
lưu trữ sang nút xử lý chạy thuật toán xử lý dữ liệu. Cách tiếp cận này hoạt động
tốt cho các bộ dữ liệu nhỏ hơn; Tuy nhiên, vơi các bộ dữ liệu lơn, việc di chuyển
dữ liệu có thể tốn nhiều chi phi hơn so vơi việc xử lý dữ liệu hiện tại. Vơi
23
MapReduce, thuật toán xử lý dữ liệu sẽ đươc chuyển đến các nút lưu trữ dữ liệu.
Thuật toán xử lý dữ liệu thực thi song song trên các nút này, do đo loại bỏ sự cần
thiết phải di chuyển dữ liệu. Điều này không chỉ tiết kiệm băng thông mạng mà
còn giúp giảm đáng kể thời gian xử lý cho các bộ dữ liệu lơn, vì việc xử lý các
khối dữ liệu nhỏ hơn song song nhanh hơn nhiều.
MapReduce thường không phù hơp để xử lý Dữ liệu lơn theo thời gian thực.
MapReduce không thể xử lý dữ liệu theo kiểu tăng dần và chỉ có thể xử lý bộ dữ
liệu hoàn chỉnh. Do đo, no yêu cầu tât cả dữ liệu đầu vào phải có sẵn toàn bộ trươc
khi thực hiện công việc xử lý dữ liệu. Tuy nhiên, có một số giải pháp co thể cho
phép sử dụng MapReduce trong các tình huống xử lý Dữ liệu lơn gần vơi thời
gian thực [5].
1.2.2.2. Cac tac vu Map va Reduce
Một lần xử lý duy nhât của công cụ xử lý MapReduce đươc gọi là công việc
MapReduce. Mỗi công việc MapReduce bao gôm một nhiệm vụ Map và một
nhiệm vụ Reduce và mỗi nhiệm vụ bao gôm nhiều giai đoạn. Hình 1.16 cho thây
tác vụ map và reduce, cùng vơi các giai đoạn riêng le của chúng [5].
Hình 1.16. Môt minh họa về công việc MapReduce
* Các tác vụ Map:
- Tac vụ Map (ham map): Giai đoạn đầu tiên của MapReduce đươc gọi là Map,
trong đo bộ dữ liệu đươc chia thành nhiều phần nhỏ hơn. Mỗi phần đươc phân
tách thành các bản ghi và đươc gán cho một cặp khóa-giá tri (key-value). Trong
đo khoa thường là vi trí thứ tự của bản ghi và giá tri là bản ghi hiện tại.
24
- Tac vụ Combine: Noi chung, đầu ra của hàm Map đươc xử lý trực tiếp bởi hàm
Reduce. Tuy nhiên thực tế các tác vụ map và các tác vụ reduce chủ yếu chạy
trên các nút khác nhau. Điều này đoi hỏi co sự di chuyển dữ liệu giữa các tiến
trình mapper và reducer. Quá trình trao đôi dữ liệu này có thể tiêu thụ rât nhiều
băng thông và trực tiếp góp phần gây ra trễ xử lý nhât là đối vơi các bộ dữ liệu
lơn. Vì lý do này, công cụ MapReduce cung câp một hàm combine (tùy chọn)
để tom tắt đầu ra của trình mapper trươc khi no đươc vào xử lý bởi bộ reducer.
- Tac vụ Partition: Trong thực tế, nếu có nhiều hơn tác vụ reducer tham gia, tác
vụ phân vùng sẽ phân chia đầu ra tư bộ mapper hoặc bộ combiner (nếu co)
thành các phân vùng theo reducer. Trong đo, số lương phân vùng sẽ băng số
lương reducer. Hàm partition là giai đoạn cuối cùng của tác vụ Map. Nó trả về
đia chỉ của reducer mà một phân vùng cụ thể sẽ đươc gửi đến xử lý. [5]
* Các tác vụ Reduce:
- Tác vụ Shuffle and Sort (Xáo trôn và săp xêp): Đây là giai đoạn đầu tiên của
tác vụ Reduce, đầu ra của tiến trình Partition thông qua mạng đến các node
Reduce dựa trên cặp khoa-giá tri. Tiếp theo, công cụ MapReduce tự động
nhóm và sắp xếp các cặp khóa-giá tri theo các khoa để đầu ra chứa một danh
sách đươc sắp xếp của các khoa đầu vào và các giá tri của chúng có cùng các
khóa xuât hiện cùng nhau. Cách thức mà các khoa đươc nhóm và sắp xếp có
thể đươc tùy chỉnh. Sự hơp nhât này tạo ra một cặp khóa-giá tri duy nhât cho
nhóm, trong đo khoa là khoa nhom và giá tri là danh sách của tât cả các giá tri
nhóm. [5]
- Tác vụ Reduce: Reduce là giai đoạn cuối cùng của tác vụ Reduce. Tùy thuộc
vào logic do người dùng xác đinh, tác vụ Reducer sẽ tiếp tục tóm tắt đầu vào
của nó hoặc sẽ phát ra đầu ra mà không thực hiện bât kỳ thay đôi nào. Trong
cả hai trường hơp, đối vơi mỗi cặp khóa-giá tri bi Reduce, danh sách các giá
tri đươc lưu trữ trong phần giá tri của cặp đươc xử lý và một cặp khóa-giá tri
khác đươc tạo ra. Số lương Reducer có thể đươc tùy chỉnh. Cung co thể có một
công việc MapReduce mà không cần Reducer, ví dụ như khi thực hiện lọc dữ
liệu. Lưu ý răng chữ ký đầu ra (khoa-giá tri) của hàm Map phải khơp vơi chữ
ký đầu vào (khoa-giá tri) của hàm Reducer/ Combiner. [5]
* Môt ví dụ MapReduce đơn gian
Các bươc sau đây đươc hiển thi trong Hình 1.17 [5]:
+ Bước 1: Đầu vào (sales.txt) đươc chia thành hai phần.
25
+ Bước 2: Hai tác vụ ánh xạ chạy trên hai nút khác nhau, Nút A và Nút B,
trích xuât sản phâm và số lương tư các bản ghi phân tách tương ứng. Đầu
ra tư mỗi chức năng bản đô là một cặp khóa-giá tri trong đo sản phâm là
khóa trong khi số lương là giá tri.
+ Bước 3: Bộ kết hơp sau đo thực hiện tông kết cục bộ số lương sản phâm.
+ Bước 4: Vì chỉ có một tác vụ giảm, không co phân vùng đươc thực hiện.
+ Bước 5: Đầu ra tư hai tác vụ ánh xạ sau đo đươc sao chép sang nút thứ ba,
Node C, chạy giai đoạn xáo trộn như một phần của tác vụ rút gọn.
+ Bước 6: Giai đoạn sắp xếp sau đo nhom các số lương giống nhau của cùng
một sản phâm thành một danh sách.
+ Bước 7: Giống như bộ kết hơp, hàm giảm sau đo tông hơp số lương của
tưng sản phâm duy nhât để tạo đầu ra.
Hình 1.17. Môt ví dụ về MapReduce đang hoạt đông
1.2.3. Kỹ thuật phân tich bigdata hiện nay.
Phân tích định lượng (Quantiative)
Phân tich đinh lương là một kỹ thuật phân tích dữ liệu tập trung vào việc đinh
lương các mâu và mối tương quan đươc tìm thây trong dữ liệu. Dựa trên thực tiễn
thống kê, kỹ thuật này liên quan đến việc phân tích một số lương lơn các quan sát
tư bộ dữ liệu. Vì kich thươc mâu lơn, kết quả có thể đươc áp dụng một cách tông
quát cho toàn bộ tập dữ liệu. Kết quả phân tich đinh lương là số liệu tuyệt đối và
do đo co thể đươc sử dụng để so sánh. Ví dụ, một phân tich đinh lương về doanh
số bán kem có thể phát hiện ra răng nhiệt độ tăng 5 độ làm tăng doanh số bán kem
lên 15% [5].
26
Phân tích định tính (Quanliative)
Phân tich đinh tinh là một kỹ thuật phân tích dữ liệu tập trung vào việc mô tả
băng tư ngữ các phâm chât dữ liệu khác nhau. So vơi phân tích dữ liệu đinh lương,
phân tich đinh tinh co mâu phân tích nhỏ hơn nhưng co chiều sâu hơn. Các kết
quả phân tích này không thể đươc khái quát cho toàn bộ tập dữ liệu do kich thươc
mâu nhỏ. Chúng cung không thể đươc đo băng số hoặc đươc sử dụng để so sánh
số. Ví dụ, một phân tích về doanh số bán kem có thể tiết lộ răng số liệu bán hàng
của tháng 5 không cao như tháng 6. Các kết quả phân tích chỉ nói răng các số liệu
"không cao băng" và không cung câp sự khác biệt về con số [5].
Khai thác dư liệu (Data mining)
Khai thác dữ liệu con đươc gọi là khai phá dữ liệu, là một hình thức phân tích
dữ liệu chuyên biệt nhắm vào các bộ dữ liệu lơn. Liên quan đến phân tích dữ liệu
lơn, khai thác dữ liệu đề cập đến các kỹ thuật tự động, dựa trên phần mềm, sàng
lọc qua các bộ dữ liệu lơn để xác đinh các mâu và xu hương. Cụ thể, nó liên quan
đến việc trích xuât các mâu ân hoặc chưa biết trong dữ liệu vơi mục đich xác đinh
các mâu chưa biết trươc đo. Khai thác dữ liệu là cơ sở cho các phân tích dự đoán
và kinh doanh thông minh (BI). [5]
Phân tích thống kê (Statistical Analysis)
Phân tich dữ liệu thống kê sử dụng các phương pháp thống kê dựa trên các
công thức toán học như một phương tiện để phân tích dữ liệu. Phân tích thống kê
thường là đinh lương, nhưng cung co thể là đinh tính. Loại phân tich này thường
đươc sử dụng để mô tả các bộ dữ liệu thông qua tóm tắt, chăng hạn như cung câp
giá tri trung bình, phương sai hoặc phương thức thống kê liên quan đến tập dữ
liệu. No cung co thể đươc sử dụng để suy ra các mâu và mối quan hệ trong tập dữ
liệu, chăng hạn như hôi quy và tương quan. Co ba loại phân tích thống kê là Thử
nghiệm A/B (A/B Testing), Tương quan (Correlation) va Hồi quy (Regression)[5].
Học máy (Machine Learning)
Con người rât giỏi trong việc phát hiện các mô hình và mối quan hệ trong dữ
liệu. Tuy nhiên, con người không thể xử lý một lương lơn dữ liệu. Mặt khác, máy
móc rât giỏi trong việc xử lý một lương lơn dữ liệu một cách nhanh chong, nhưng
chỉ khi chúng biết cách. Nếu kiến thức của con người có thể đươc kết hơp vơi tốc
độ xử lý của máy móc, máy móc sẽ có thể xử lý một lương lơn dữ liệu mà không
cần nhiều sự can thiệp của con người. Đây là khái niệm cơ bản của máy học. Hiện
27
tại co thể phân thành 04 loại kỹ thuật học máy như Kỹ thuật phân loại
(Classification), Kỹ thuật phân cụm (Clustering), Kỹ thuật xử lý dữ liệu ngoại lai
(Outlier Detection) va Kỹ thuật xử lý lọc dữ liệu (Filtering).
Phân tích ngư nghĩa (Semantic Analysis)
Một đoạn dữ liệu văn bản hoặc lời nói có thể mang những ý nghĩa khác nhau
trong các ngữ cảnh khác nhau, trong khi một câu hoàn chỉnh có thể giữ nguyên
nghĩa của nó, ngay cả khi đươc câu trúc theo những cách khác nhau. Để các máy
trích xuât thông tin có giá tri, dữ liệu văn bản và lời nói cần đươc các máy hiểu
theo cách tương tự như con người. Phân tích ngữ nghĩa để trích xuât thông tin có
ý nghĩa tư dữ liệu văn bản và lời nói. Hiện co các loại phân tích ngữ nghĩa sau:
Xử lý ngôn ngữ tự nhiên (Natural Language Processing); Phân tich văn bản (Text
Analytics); Phân tích tình cảm (Sentiment Analysis).[5]
Phân tích trực quan (Visual Analysis)
Phân tích trực quan là một hình thức phân tích dữ liệu liên quan đến biểu diễn
dữ liệu đô họa để cho phép hoặc nâng cao nhận thức trực quan của nó. Dựa trên
tiền đề răng con người có thể hiểu và rút ra kết luận tư đô họa nhanh hơn tư văn
bản, phân tích trực quan đong vai tro như một công cụ khám phá trong lĩnh vực
Dữ liệu lơn. Mục tiêu là sử dụng các biểu diễn đô họa để phát triển sự hiểu biết
sâu sắc hơn về dữ liệu đươc phân tích. Cụ thể, no giúp xác đinh và làm nôi bật các
mô hình ân, mối tương quan và sự bât thường. Phân tích trực quan cung liên quan
trực tiếp đến phân tích dữ liệu khám phá vì nó khuyến khích việc xây dựng các
câu hỏi tư các goc độ khác nhau. Hiện co các loại phân tích trực quan sau đây:
Bản đô nhiệt (Heat Maps); Lô thời gian (Time Series Plots); Đô thi mạng
(Network Graphs); Ánh xạ dữ liệu không gian (Spatial Data Mapping).[5]
28
1.3. CÁC BAI TOAN PHÂN TICH DƯ BAO
1.3.1. Bai toan phân tich dư bao
Khi noi về các mô hình dự báo, hiện co 02 bài toán chinh cần giải quyết:
- Bai toán hồi quy (Regression): Là những vân đề mà bạn đang cố gắng dự
đoán hoặc giải thích một hiện tương (biến phụ thuộc) băng cách sử dụng những
hiện tương khác (biến độc lập) vơi đầu ra liên tục, ví dụ giá chính xác của một
cô phiếu vào ngày hôm sau [2].
- Bai toán phân lớp (Classification): Cố gắng xác đinh một nhom hiện tương
băng cách lây xác suât, ví dụ. giá cô phiếu sẽ tăng/giảm hoặc sẽ không thay
đôi vào ngày hôm sau. Các thuật toán như SVM (Support Vector Machines)
và KNN tạo ra một đầu ra lơp. Các thuật toán như Logistic Regression,
Random Forest, Gradient Boosting, Adaboost…, đưa ra kết quả xác suât.
Chuyển đôi đầu ra xác suât thành đầu ra lơp chỉ là vân đề tạo xác suât ngưỡng
[16, 19].
1.3.2. Cac mô hình dư bao cơ bản.
Các mô hình dự báo phô biến hiện nay dựa trên các thuật toán Decision Tree,
Logistic Regression, Naïve Bayes, Random Forest, Gradient Boosted, Deep
Learning (Neural Nets) và mô hình dự báo dựa trên các thuật toán kết hơp
Ensemble. Trong khuôn khô của luận văn này sẽ đề cập đến 02 mô hình cơ bản là
Decision Tree (hay con gọi là cây quyết đinh) và Gradient Boosted (nhom Tree)
[17, 19].
1.3.2.1. Mô hinh dư bao dưa trên thuât toan cây quyêt đinh:
Cây quyết đinh (Decision Tree) là một câu trúc biểu diễn dươi dạng cây. Trong
đo, mỗi nút trong biểu diễn một thuộc tính, mỗi nhánh biểu diễn giá tri co thể có
của thuộc tính, mỗi lá biểu diễn các lơp quyết đinh và đỉnh trên cùng của cây gọi
là gốc.
Hình 1.18. Biểu diễn cây quyết định cơ bản
29
Trong lĩnh vực học máy, cây quyết đinh là một kiểu mô hình dự báo, nghĩa là
một ánh xạ tư các quan sát về một sự vật/hiện tương tơi các kết luận về giá tri mục
tiêu của sự vật/hiện tương. Mỗi nút trong tương ứng vơi một biến, đường nối giữa
nó vơi nút con của nó thể hiện giá tri cụ thể cho biến đo. Mỗi nút lá đại diện cho
giá tri dự đoán của biến mục tiêu, cho trươc các giá tri dự đoán của các biến đươc
biểu diễn bởi đường đi tư nút gốc tơi nút lá đo. Kỹ thuật học máy dùng trong cây
quyết đinh đươc gọi là học băng cây quyết đinh, hay chỉ gọi vơi cái tên ngắn gọn
là cây quyết đinh. Một vi dụ cho cây quyết đinh là bài toán dự báo “một người có
chơi tennis hay không”?
Hình 1.19. Cây quyết định cho việc chơi Tennis
Cây quyết đinh là một cây phân câp có câu trúc đươc dùng để phân lơp các đối
tương dựa vào dãy các luật. Các thuộc tính của đối tương (ngoại trư thuộc tính
phân lơp) có thể thuộc các kiểu dữ liệu khác nhau (Binary, Nominal, ordinal,
quantitative values) trong khi đo thuộc tính phân lơp phải có kiểu dữ liệu là Binary
hoặc Ordinal [19].
Tóm lại, cho dữ liệu về các đối tương gôm các thuộc tính cùng vơi lơp của nó,
cây quyết đinh sẽ sinh ra các luật để dự đoán lơp của các đối tương chưa biết. So
vơi các phương pháp KPDL khác, cây quyết đinh là một trong những hình thức
mô tả dữ liệu tương đối đơn giản, trực quan, dễ hiểu đối vơi người dùng nhưng
lại hiệu quả nên đươc sử dụng nhiều. Trong những năm qua, nhiều mô hình phân
lơp dữ liệu đã đươc các nhà khoa học trong nhiều lĩnh vực khác nhau đề xuât như
mạng notron, mô hình thống kê tuyến tính bậc 2, cây quyết đinh, mô hình di
truyền... Trong số những mô hình đo, cây quyết đinh đươc đánh giá là một công
30
cụ mạnh, phô biến, đặt biệt là thích hơp cho DM nói chung và cho phân lơp dữ
liệu nói riêng.
Có rât nhiều giải thuật đã đươc cài đặt sẵn như: CART (Breiman), C4.5
(Quinlan), ID3…
1.3.2.2. Mô hinh dư bao Gradient Boosting.
Boosting là một phương pháp làm cho một mô hình dự đoán yếu thành một
mô hình dự báo mạnh. Gradient boosting là một nhom thuật toán sử dụng cho các
vân đề hôi quy và phân loại. No tạo ra một mô hình dự đoán dươi dạng mô hình
kết hơp các mô hình dự đoán yếu, điển hình là các cây quyết đinh. Nó xây dựng
mô hình theo kiểu tưng bươc giống như các phương pháp boosting khác, và no
khái quát hóa chúng băng cách cho phép tối ưu hoa một hàm mât mát (loss
function) [16, 18].
Thuật toán Gradient Boosting huân luyện nhiều mô hình theo cách thêm tham
số dần dần, và tuần tự. Ý tưởng chính của boosting là thêm các mô hình mơi vào
nhóm liên tục. Ở mỗi lần bô sung như vậy, một mô hình huân luyện yếu mơi đươc
đào tạo liên quan đến lỗi của toàn bộ đoàn đã học cho đến nay
Gradient Boosting thực hiện huân luyện băng cách sử dụng độ dốc của hàm
mât mát (y = ax + b + e, e là tham số lỗi). Trong đo, Hàm mât mát là thươc đo cho
biết các hệ số mô hình phù hơp như thế nào vơi dữ liệu phân tich. Vi dụ: Nếu
chúng ta đang cố gắng dự đoán giá bán băng cách sử dụng hôi quy, thì hàm mât
mát sẽ đươc dựa trên lỗi giữa giá thực tế và và giá dự đoán. Tương tự, nếu mục
tiêu của chúng tôi là phân loại tín dụng, thì hàm mât mát sẽ là thươc đo mức độ
dự báo tốt của mô hình dự đoán của chúng tôi trong việc phân loại các khoản nơ
xâu.
Một vi dụ điển hình cho mô hình dự báo Gradient Boosting là việc kết hơp các
thuật toán Random Forest (Breiman, 2001) vơi neutra network - mạng lươi thần
kinh (Hansen và Salamon, 1990). Sự kết hơp này đã co nhiều ứng dụng thành
công trong các lĩnh vực khác nhau (Liu et al., 2004; Shu và Burn, 2004; Fanelli
và cộng sự, 2012; Qi, 2012) [16, 17, 18].
31
1.3.3. Cac kỹ thuật phân tich dư bao
1.3.3.1. Tao biên đăc trưng
Tạo biến đặc trưng (Feature generation) là quá trình xây dựng các thuộc tinh
mơi tư dữ liệu thô, tạo ánh xạ để chuyển đôi các thuộc tinh gốc sang các thuộc
tinh mơi (đặc trưng) hoặc tạo các thuộc tinh mơi tư một hoặc nhiều thuộc tinh
khác. Trong ngữ cảnh của luận văn này, việc tạo biến đươc hiểu là quá trình tạo
ra các thuộc tinh mơi tư một hoặc nhiều thuộc tinh.
Hai mục tiêu của việc tạo biến là giảm kich thươc dữ liệu và cải thiện độ chính
xác. Khi mục tiêu của phương thức tạo biến là giảm kich thươc, thì kết quả sẽ là
không gian thuộc tinh sẽ chứa it thuộc tinh hơn không gian thuộc tinh ban đầu.
Tuy nhiên, khi mục tiêu là cải thiện độ chinh xác, không gian thuộc tinh mơi rât
có thể sẽ chứa nhiều thuộc tinh hơn không gian thuộc tinh ban đầu.
Luận văn này chủ yếu quan tâm đến các phương pháp tạo biến vơi mục tiêu là
cải thiện độ chính xác của công cụ dự đoán. Việc giảm kich thươc không có mức
độ ưu tiên cao trong giai đoạn tạo biến, vì kết quả của việc tạo biến sẽ đươc đưa
vào giai đoạn trich chọn thuộc tinh (feature selection) - đây mơi là giai đoạn nhăm
mục đich giảm tính chiều của không gian thuộc tinh. Mặc dù quá trình tạo biến
không phải giảm kich thươc, nhưng chắc chắn phải cân thận để không tạo ra một
số lương lơn các thuộc tinh mơi [13].
Để minh họa tầm quan trọng của việc tạo biến, hãy xem xet vi dụ sau trong
Bảng 1.1. Ở đây chúng ta co thể thây thuộc tinh ban đầu Date và thuộc tinh phụ
thuộc Visitors. Đây là hai thuộc tinh biểu diễn ngày và số lương khách truy cập
tương ứng. Nếu chỉ nhìn vào các thuộc tinh này, dường như không co một quan
hệ ro ràng nào để dự đoán dựa vào các thuộc tinh phụ thuộc. Vơi thuộc tinh tạo
mơi, chúng tôi co thể trích xuât và phân loại ngày nào, đươc hiển thi trong cột
IsWeekendDay. Điều này cho chúng ta biết ngày đo co phải là một ngày cuối tuần
hay không. Bây giờ chúng ta có thể thây ro ràng răng số lương khách truy cập vào
ngày cuối tuần cao hơn đáng kể so vơi các ngày trong tuần.
Bảng 1.1. Cac thuôc tính ví dụ Ngày và Khách truy cập va thuôc tính được trích
xuất IsWeek-endDayfDayg
32
Một tình huống khác mà việc tạo biến co thể cải thiện hiệu suât là khi co sự
tương tác thuộc tinh. Trong đo, hai (hoặc nhiều) thuộc tinh không liên quan hoặc
tương quan vơi thuộc tinh phụ thuộc của riêng chúng, nhưng nếu cùng nhau chúng
có ảnh hưởng (cao) đến thuộc tinh phụ thuộc. Ví dụ: lây thuộc tinh giá cả và chât
lương của sản phâm. Nếu tách biệt, họ sẽ không đưa ra nhiều dâu hiệu cho thây
một sản phâm đươc mua thường xuyên. Nhưng nếu kết hơp thi chúng co mối
tương quan nhiều đến việc mua sản phâm. Nếu giá thâp và chât lương cao, thì sản
phâm sẽ đươc mua thường xuyên. Tuy nhiên, giá thâp hoặc chât lương cao mà
không biết giá tri khác không thể đảm bảo răng sản phâm sẽ đươc mua thường
xuyên. Nếu cả giá cả và chât lương đều thâp thì sản phâm sẽ không đươc nhiều
khách hàng mua. Điều tương tự có thể đươc nói khi cả giá cả và chât lương đều
cao.
1.3.3.2. Ky thuât lưa chon đăc trưng
Lựa chọn đặc trưng (feature selection) hay con gọi là trich chọn thuộc tinh là
nhiệm vụ rât quan trọng giai đoạn tiền xử lý dữ liệu khi triển khai các mô hình
khai phá dữ liệu. Một vân đề gặp phải là các dataset dùng để xây dựng các Data
Mining Models thường chứa nhiều thông tin không cần thiết (thậm chí gây nhiễu)
cho việc xây dựng mô hình. Chăn hạn, một dataset gôm hàng trăm thuộc tinh dùng
để mô tả về khách hàng của một doanh nghiệp đươc thu thập, tuy nhiên khi xây
dựng một Data mining model nào đo chỉ cần khoảng 50 thuộc tinh tư hàng trăm
thuộc tinh đo. Nếu ta sử dụng tât cả các thuộc tinh này của khách hàng để xây
dựng mô hình thì ta cần nhiều CPU, nhiều bộ nhơ trong quá trình Training model,
thậm chí các thuộc tinh không cần thiết đó con làm giảm độ chính xác của mô
hình và gây kho khăn trong việc phát hiện tri thức [13].
Các phương pháp trich chọn thuộc tinh thường tính trọng số (score) của các
thuộc tinh và sau đo chỉ chọn các thuộc tinh có trọng số tốt nhât để sử dụng cho
mô hình. Các phương pháp này cho phep bạn hiệu chỉnh ngưỡng (threshold) để
lây ra các thuộc tinh co Score trên ngưỡng cho phép. Quá trình trích chọn thuộc
tinh luôn đươc thực hiện trươc quá trình Training Model.
33
Có rât nhiều phương pháp để lựa chọn thuộc tinh tùy thuộc vào câu trúc của dữ
liệu dùng cho mô hình và thuật toán đươc dùng để xây dựng mô hình. Sau đây là
một số phương pháp phô biến dùng trong trích chọn thuộc tinh:
- Interestingness score: Đươc sử dụng để xếp hạng (rank) các thuộc tinh đối
vơi các thuộc tinh có kiểu dữ liệu liên tục (continuous). Một thuộc tinh đươc
xem là Interesting nếu nó mang một vài thông tin hữu ích. Để đo lường mức
độ interestingness, người ta thường dựa vào entropy. Một thuộc tinh vơi phân
bố ngâu nhiên có entropy cao hơn và co information gain (độ lơi thông tin)
thâp hơn vì vậy các thuộc tinh đo gọi là less interesting.
Entropy của một thuộc tinh nào đo sẽ đươc so sánh vơi entropy của tât cả các
thuộc tinh còn lại theo công thức sau:
Interestingness(Attr) = - (m - Entropy(Attr))*(m - Entropy(Attr))
Trong đo: Attr = Attribute là thuộc tinh, m đươc gọi là entropy trung tâm
(Central entropy- entropy của toàn bộ tập thuộc tinh)
- Shannon's Entropy: Đươc sử dụng đối vơi các dữ liệu kiểu rời rạc (discretized
data). Shannon's entropy đo lường độ bât đinh (uncertainty) của biến ngâu nhiên
đối vơi một kết quả cụ thể (particular outcome). Ví dụ, entropy của việc tung một
đông xu có thể biểu diễn băng một hàm của xác suât của khả năng xuât hiện mặt
sâp hay ngửa. Shannon's entropy đươc tính theo công thức sau:
H(X) = -∑ P(xi) log(P(xi))
Ngoài interestingness score và Shannon's entropy, một số phương pháp khác
cung thường đươc sử dụng trong lựa chọn thuộc tinh như Bayesian with K2 Prior,
Bayesian Dirichlet Equivalent with Uniform Prior. Bảng 1.2 dươi đây là các
phương pháp trich chọn thuộc tinh đươc triển khai.
Bảng 1.2. Cac phương phap trích chọn thuôc tính
34
1.3.3.3. Huân luyên va xac thưc trong cac mô hinh dư bao
Phân chia training set/validation set là một trong những bươc quan trọng nhât của
một mô hình dự báo. Để làm điều này chúng ta thường sử dụng các thư việc có sẵn
để phân chia ngâu nhiên 2 tập dữ liệu này dựa trên một tỉ lệ nào đo.
* Vai trò của mô hình và từng tập dư liệu:
Hình 1.26. Vai trò của mô hình và từng tập dữ liệu
- Training set
Training set bao gôm dữ liệu đầu vào và nhãn. Vơi training set, mô hình có thể
nhìn thây cả dữ liệu và nhãn. Nó sử dụng dữ liệu này để tối ưu loss function thông
qua việc điều chỉnh parameter.
- Validation set
Validation set cung co dữ liệu giống như traning set. Nhưng mô hình không
hề nhìn thây nhãn. Mô hình đơn thuần dùng dữ liệu đầu vào của validation set để
tinh toán ra output. Sau đo no so sánh vơi nhãn để tính loss function. Parameter
hoàn toàn không đươc điều chỉnh ở bươc này.
Validation set là bộ dữ liệu để chúng ta giám sát mô hình. Chúng ta sử dụng
kết quả của mô hình ở training set và validation set để đưa ra các quyết đinh như
điều chỉnh hyperparameter, bô sung thêm dữ liệu... Mô hình cần phải dự đoán tốt
ở validation set. Tức là nó phải làm tốt vơi những dữ liệu mà no chưa tưng nhìn
thây.
- Test set
Test set chỉ có dữ liệu đầu vào mà không có nhãn. Nó giống như những dữ liệu
đến tư tương lai mà cả mô hình và chúng ta đều không biết đươc kết quả. Hiệu
quả của mô hình khi dự đoán test set là thươc đo xem mô hình co thực sự tốt trong
thực tế hay không. Nếu mô hình chỉ làm tốt ở training set và validaiton set mà
không tốt ở test set thì việc sử dụng mô hình trong thực tế không có nhiều ý nghĩa.
35
1.3.3.4. Đanh gia mô hinh dư bao
Làm gì cung vậy, đều co công đoạn mang tên là đánh giá. Dự báo cung không
có ngoại lệ, khi xây dựng mô hình(model) co rât nhiều mô hình ta co thể sử dụng.
Câu hỏi đặt ra là model này có tốt không. Một model tốt sẽ cho kết quả chính xác
khi dự đoán kết quả vơi dữ liệu mơi. Nên việc đánh giá model là một bươc rât
quan trọng để có thể xác đinh model có thể sử dụng đươc không. Tư đo co thể
tiếp tục tiến hành điều chỉnh tham số (tuning parameter), chọn lựa lại thuộc tinh
(feature selection) hay sử dụng mô hình khác…
Không có model nào là tốt nhât vơi tât cả các hoàn cảnh, nó phụ thuộc vào đặc
trưng của model, đặc trưng của dữ liệu, nên việc thử data của mình trên nhiều loại
model là cần thiết. Để đánh giá mô hình, có 2 khái niệm rât quan trọng chính là
Overfitting và Underfit.
* Khái niệm Overfitting, Underfitting:
Hình 1.27. Overfitting, Underfitting
Như trên hình 1.27 (bài toán đang phân loại O và X), bạn có thể dùng mô hình
Logistic Regression để giải quyết. Theo thứ tự tư trái sang phải lần lươt là ví dụ
về Underfitting, bình thường và Overfitting.
- Trong trường hơp Underfitting, model quá đơn giản nên rât nhiều X không
đươc phân loại nên độ chính xác ngay cả trên tập Training Data rât tệ.
- Ngươc lại vơi trường hơp Overfitting thì khi nhìn vào hình, bạn có thể thây
model lại quá phức tạp, mô tả cả noise data (2 dâu X năm trong phần O) nên
độ chính xác trên tập Training là 100% nhưng thực tế vơi data mơi (không có
trong tập Training Data) thì độ chính xác rât tôi tệ.
Do vậy 1 model lý tưởng là model không quá đơn giản, không quá phức tạp
và không dễ bi ảnh hưởng do nhiễu.
36
* Phương pháp đánh giá Cross Validation:
Đầu tiên phải kể đến phương pháp cross validation, đươc đánh giá là phương
pháp nôi tiếng nhât. Thông thường chúng ta chia data thành 2 phần, Training Data
và Test Data. Tiến hành dùng Training Data để tạo model, dùng Test Data để dự
đoán rôi xác đinh tỷ lệ đoán thành công. Thông thường tỷ lệ khi chia data Training:
Test = 70:30
Tuy nhiên, có trường hơp một model cho cross validation tốt nhưng áp dụng vơi
data mơi thì kết quả lại không đươc như ý muốn. Giả dụ trường hơp Overfitting, là
hiện tương mô hình tìm đươc quá khơp vơi dữ liệu training. Khơp quá nên mô hình
co xu hương mô tả cả nhiễu, thành ra khi cho test data vào toạch vô số kể. Thường
xảy ra khi lương data quá nhỏ so vơi độ phức tạp của model. Độ phức tạp của mô
hình có thể đươc coi là bậc của đa thức cần tìm.
Tóm lại, việc chia data làm 2 phần Training Data và Test Data thì vân chưa thể
đưa ra kết luận chinh xác cho model đươc. Vậy nên chúng ta khắc phục băng cách
sau:
Ở bươc chia dữ liệu, không chỉ chia làm 2 phần Training, Test mà chia thêm
1 phần là cross validation. Tỷ lệ thông thường: 60:20:20.
Sử dụng Training Data để tìm tham số và tạo mô hình.
Sử dụng Cross validation để đánh giá độ chính xác của mô hình. Nếu độ
chính xác thâp, điều chỉnh tham số để nâng cao độ chính xác của mô hình.
Sau khi thu đươc mô hình cuối cùng thì tiến hành đánh giá độ chính xác
vơi Test data.
* Phương pháp sử dụng Precision & Recall (Confusion Matrix):
Cách đánh giá này thường đươc áp dụng cho các bài toán phân lơp có hai lơp
dữ liệu. Cụ thể hơn, trong hai lơp dữ liệu này có một lơp nghiêm trọng hơn lơp
kia và cần đươc dự đoán chinh xác.
Hình 1.28. Confusion Matrix
37
Một vi dụ như việc xác đinh mail spam, việc nhầm mail quan trọng thành mail
spam nguy hiểm hơn là bỏ sót mail spam. Trong những bài toán này, người ta
thường đinh nghĩa lơp dữ liệu quan trọng cần đươc xác đinh đúng là lơp Positive
(P-dương tính), lơp còn lại đươc gọi là Negative (N-âm tinh). Ta đinh nghĩa True
Positive (TP), False Positive (FP), True Negative (TN), False Negative (FN) dựa
trên confusion matrix như trên. Tỷ lệ chính xác (Precision) và tỷ lệ tái hiện
(Recall) đươc tinh theo công thức:
Trong đo, tỷ lệ chinh xác (Precision) và tỷ lệ tái hiện (Recall) co giá tri càng
cao, các tốt [17].
* Phương pháp đánh giá Bias & Variance:
Như đã đề cập, một mô hình lý tưởng là mô hình co cả Training Set, Cross
Validation Set, Test Set co độ lỗi thâp. Lúc này mô hình đươc xem là Underfit
hay con gọi là High Bias. Trường hơp mô hình co Training Set lỗi thâp nhưng
trên Cross Validation, Test Set lỗi lơn thì đươc gọi là Overfit hoặc High variance.
Lỗi của một mô hình đươc tinh theo công thức sau:
Trong đo, hθ(x) là giá tri dự báo, m là số data samples, θ là tham số (parameter)
để training, y là giá tri thực tế tại các data point.
Bài toán đặt ra ở đây là tìm kiếm giá tri tham số θ sao cho J(θ) nhỏ nhât nhưng để
không xảy ra tình trạng Overfitting. Để thực hiện chúng ta sẽ sử dụng thêm tham số
chuân hoa λ (regularization parameter) đưa vào công thức sau:
Băng cách này sẽ tránh đươc trường hơp giá tri θ lơn sẽ kho tìm đươc J(θ) nhỏ
nhât, sẽ tránh đươc overfitting (high variance). Câu hỏi đặt ra là lựa chọn λ như
thế nào là hơp lý? Vơi câu hỏi trên, giả sử trục tung là độ lỗi, trục hoành là λ, biểu
diễn trên đô thi ta sẽ đươc câu trả lời.
38
Hình 1.29. Phương phap Bias & Variance
Do λ nhỏ quá thì sẽ bi overfitting (high variance), Jtrain(θ) của Training Data
sẽ nhỏ, độ lỗi Jcv của Cross Validation Set trở nên lơn. Ngươc lại λ lơn quá model
sẽ bi Underfit hoặc high bias. Cả 2 độ lỗi của Training Data, Cross Validation Set
sẽ cùng trở nên lơn. Do vậy chọn λ tại điểm khoanh đỏ sẽ cho JCV(θ) nhỏ nhât.
Tom lại, qua các phân tich noi trên để tránh đươc các hiện tương Underfitting
và Overfitting, chúng ta co những phương pháp sau:
Phương phap khăc phục Underfitting (High bias):
Tìm kiếm biến đặc trưng (feature) khac.
Thêm vao cac đặc trưng dạng (x21, x22, x1x2)
Giảm tham số chuân hóa λ.
Phương phap khăc phục Overfitting (High variance)
Tăng số lượng dữ liệu Training Data
Giảm số lượng biến đặc trưng (feature)
Tăng đô lớn của tham số chuân hóa λ
Như biểu đô trên, khi High Variance thì độ lỗi trên tập train sẽ thâp nhưng khi
đo trên Test Data độ lỗi lơn chính là hiện tương Overfitting. Ngươc lại khi High
Bias thì độ lỗi trên Training Data lơn và đương nhiên độ lỗi trên Test Data cung
sẽ lơn. Cung chinh là hiện tương Underfitting [17].
* Phương pháp đương cong AUC-ROC:
Trong lĩnh vực Machine Learning, việc tính toán hiệu suât của mô hình là một
điều rât quan trọng. Trong các bài toán phân loại, ngoài phương pháp phô biến là
sử dụng Confusion Matrix thì còn phải nhắc đến một phương pháp rât quan trọng
khác, đo là đường cong AUC – ROC [17]
AUC - ROC là một phương pháp tinh toán hiệu suât của một mô hình phân
loại theo các ngưỡng phân loại khác nhau. Giả sử vơi bài toán phân loại nhi phân
(2 lơp) sử dụng hôi quy logistic (logistic regression), việc chọn các ngưỡng phân
loại [0...1] khác nhau sẽ ảnh hưởng đến khả năng phân loại của mô hình và ta cần
39
tinh toán đươc mức độ ảnh hưởng của các ngưỡng. AUC là tư viết tắt của Area
Under the Curve còn ROC viết tắt của Receiver Operating Characteristics. ROC
là một đường cong biểu diễn xác suât và AUC biểu diễn mức độ phân loại của mô
hình. AUC-ROC con đươc biết đến dươi cái tên AUROC (Area Under the
Receiver Operating Characteristics) [19].
Ý nghĩa của AUROC có thể diễn giải như sau: Là xác suât răng một mâu dương
tinh đươc lây ngâu nhiên sẽ đươc xếp hạng cao hơn một mâu âm tinh đươc lây
ngâu nhiên. Biểu diễn theo công thức, ta có AUC = P(score(x+) > score(x-)). Chỉ
số AUC càng cao thì mô hình càng chính xác trong việc phân loại các lơp.
Hình 1.30. Phương phap đương cong AUC-ROC
Đường cong ROC biểu diễn các cặp chỉ số (TPR, FPR) tại mỗi ngưỡng vơi
TPR là trục tục và FPR là trục hoành. Các chỉ số sử dụng trong AUC – ROC bao
gôm:
TPR (True Positive Rate/Sentivity/Recall): Biểu diễn tỷ lệ phân loại chính
xác các mâu dương tinh trên tât cả các mâu dương tinh, đươc tính theo công
thức:
TPR càng cao thì các mâu dương tinh càng đươc phân loại chính xác.
Specificity: Biểu diễn tỷ lệ phân loại chính xác các mâu âm tính trên tât cả
các mâu âm tinh, đươc tính theo công thức:
FPR (False Positive Rate/Fall-out): Biểu diễn tỷ lệ gắn nhãn sai các mâu
âm tính thành dương tinh trên tât cả các mâu âm tinh, đươc tính theo công
thức:
40
Có thể thây Specificity tỷ lệ nghich vơi FPR. FPR càng cao thì Specificity càng
giảm và số lương các mâu âm tính bi gắn nhãn sai càng lơn. Đây chinh là các chỉ
số dùng để tính toán hiệu suât phân loại của mô hình. Để hơp chúng lại thành 1
chỉ số duy nhât, ta sử dụng đường cong ROC để hiển thi tưng cặp (TPR, FPR) cho
các ngưỡng khác nhau vơi mỗi điểm trên đường cong biểu diễn 1 cặp (TPR, FPR)
cho 1 ngưỡng, sau đo tinh chỉ số AUC cho đường cong này. Chỉ số AUC chính là
con số thể hiện hiệu suât phân loại của mô hình.
Sentivity và Specificity là 2 chỉ số tỷ lệ nghich vơi nhau. Khi chỉ số Sentivity
tăng thì chỉ số Specificity giảm và ngươc lại. Khi ta tăng ngưỡng phân loại, số lương
mâu đươc gắn nhãn âm tính sẽ tăng lên, tư đo chỉ số Specificity tăng và chỉ số
Sentivity giảm. Điều ngươc lại cung đúng. Vì Sentivity/TFP và FPR đều tỉ lệ nghich
vơi Specificity nên TFP tỷ lệ thuận vơi FPR.
- Đanh gia mô hình qua chỉ số AUC:
Như đã noi ở trên, chỉ số AUC càng gần 1 thì mô hình càng phân loại chính
xác. AUC càng gần 0.5 thì hiệu suât phân loại càng tệ còn nếu gần 0 thì mô hình
sẽ phân loại ngươc kết quả (phân loại dương tinh thành âm tinh và ngươc lại). Giờ
ta sẽ biểu diễn các trường hơp này qua các đô thi trong hình 1.31 – 1.34. Đương
cong mau đỏ biểu diễn phân phối của các mẫu dương tính, đương cong màu xanh
lá biểu diễn phân phối của các mẫu âm tính.
Trương hợp 1 - Hình 1.31: Đây la trương hợp tốt nhất. Mô hình phân loại
hoan toan chính xac khi 2 đương cong không chồng lên nhau. Tuy nhiên
trương hợp này rất khó xảy ra và chỉ tồn tại trên lý thuyết.
Hình 1.31. Trương hợp tốt nhất khi 2 đương cong không chồng lên nhau.
Trương hợp 2 – Hình 1.32: Khi 2 đương cong chồng lên nhau, việc phân
loại sẽ xảy ra 2 dạng lỗi đó la FP (Type 1 Error) va FN (Type 2 Error). Ta
có thể thay đổi giá trị của 2 chỉ số lỗi này bằng cach thay đổi ngưỡng. Có
41
thể thấy đương cong ROC đã hạ xuống môt chút, tuy nhiên nó vẫn nằm ở
góc trên bên trái của đồ thị, tức là hiệu suất phân loại vẫn ổn định.
Hình 1.32. Trương hợp khi 2 đương cong có chồng lên nhau.
Trương hợp 3 – Hình 1.33: Đây la trương hợp tệ nhất. Mô hình hoàn toàn
không có khả năng phân loại giữa 2 lớp. Đương cong ROC ở trương hợp
này là môt đương thẳng tạo với Ox môt góc 45 đô, biểu diễn môt mô hình
phân loại môt cách ngẫu nhiên. Mô hình phân loại ngẫu nhiên thương được
sử dụng như môt đương cơ sở để so sánh giữa các mô hình.
Hình 1.33. Trương hợp tệ nhất khi 2 đương cong hoàn toàn chồng lên nhau.
Trương hợp 4 - Hình 1.34: Khi AUC xâp xỉ 0, mô hình phân loại ngược
hoàn toàn 2 lớp với việc phân loại âm tính thanh dương tính - dương tính
thanh âm tính. Để sửa điều này ta chỉ cần đảo ngược đầu ra của mô hình.
Hình 1.34. Trương hợp AUC xấp xỉ 0.
42
1.3.4. Giơi thiệu công cụ phân tích Rapidminer
Rapid Miner là một nền tảng phần mềm khoa học dữ liệu cung câp một môi
trường tích hơp để chuân bi dữ liệu, học máy, học sâu, khai thác văn bản và phân
tích dự đoán. Đây là một trong những hệ thống mã nguôn mở hàng đầu cho khai
thác dữ liệu. Chương trình đươc viết hoàn toàn băng ngôn ngữ lập trình Java.
Chương trình cung câp một tùy chọn để thử xung quanh vơi một số lương lơn các
toán tử tùy ý có thể lông đươc chi tiết trong các tệp XML và đươc thực hiện vơi
sự can thiệp của người dùng đô họa của người khai thác nhanh.
Rapidminer là một mã nguôn mở, là một môi trường cho Machine learning và
Data mining và đươc viết băng ngôn ngữ lập trình Java. Chúng sử dụng mô hình
Client/Server vơi máy chủ là on-premise hoặc public cloud hoặc private cloud [6].
Rapidminer cung câp các lươc đô Learning Schemas, các mô hình và các thuật toán,
và có thể đươc mở rộng băng ngôn ngữ R và Python.
Các thuật toán trong Data mining được chia thành 2 loại:
- Thuật toán Learning đươc giám sát: Là các thuật toán yêu cầu đã co đầu ra
Output (hoặc gọi là Label hay Target). Một số mô hình thuộc thuật toán này
có thể kể đến như: Naïve Bayes, cây quyết đinh (Decision Tree), mạng thần
kinh (Neural Networks), SVM (Support Vector Machine), mô hình hôi quy
(Logistic Regression), [19]...
- Thuật toán Learning không đươc giám sát: Là các thuật toán không bắt buộc
phải biết trươc đầu ra Output nhưng co thể tìm kiếm các khuôn mâu hoặc các
xu hương mà không có Label hoặc Target, như mô hình K-Mean Clustering,
Anomaly Detection, Association Mining.
Với Rapidminer, có thể giúp bạn:
- Tải và chuyển đôi dữ liệu (Extract, Transform, Load (ETL))
- Xử lý dữ liệu và trực quan dữ liệu
- Xây dựng các mô hình dự báo và phân tích thống kê
- Đánh giá và triển khai dữ liệu
* Môt số thuật ngư trong Rapidminer:
Thuôc tính (Attribute): mô tả thông tin của các yếu tố trong 1 kịch bản. Thuôc
tính là các côt của bảng dữ liệu. Ví dụ: giới tính, đô tuổi, phương thức thanh
toán, mức đô tương tac, churn (mất khách hàng)
Tập dư liệu (Data set): Training set được sử dụng để khám phá ra mối quan
hệ va cac mô hình đao tạo. Test set là dữ liệu được sử dụng để kiểm tra đô
43
chính xac va ý nghĩa của mô hình dư bao (được phát hiện bằng cách sử dụng
tập huấn luyện – training set)
Exmaple: đặc trưng bới các thuôc tính của nó, môt example có thể được so
sánh với các example khác. Example là các dòng của môt bảng dữ liệu. Ví dụ
1 tập data về customer – churn bao gồm 993 example nói cách khác là 993
dòng. Chúng được xac định bởi số dòng mà Rapidminer prepend.
Example set: bảng được tạo ra từ các attribute (column) và các example
(row). Còn được gọi là data hoặc data set. Ví dụ: example set được sử dụng
ở đây la customer-churn, lấy từ file excel customer-churn.xlsx
Label: thuôc tính nhận diện liên quan đến câu hỏi hiện tại. Mục tiêu la để biết
hoặc tìm giá trị của thuôc tính (label’s) hoặc tìm hiểu các nguyên tăc để…
Đôi khi được gọi là biến mục tiêu hoặc thuôc tính mưc tiêu, đây la điều kiện
để đưa ra dư đoan cho cac example chư được mô tả. Mỗi data set chỉ có 1
label. Ví dụ ‘churn’ la label của data customer-churn
Model (mô hình): phương phap khai thac dữ liệu hoặc hướng dẫn dư đoan.
Môt mô hình giải thích các quy luật được phát hiện và (hoặc) dư đoan cac
tình huống ở hiện tại hoặc tương lai. Ví dụ, ban tạo ra môt mô hình dư báo
môt khach hang đặt hàng có hủy bỏ hay không. Mô hình sẽ trả về kết quả cho
bạn là tỷ lệ ngươi đó đặt hàng hay không.
Operator: các khổi xây dưng được nhóm lại theo chức năng, được sử dụng để
tạo ra cac tiến trình của Rapidminer. Môt operator có cổng input và cổng
output. Hanh đông đầu vào sẽ dẫn đến kết quả của đầu ra. Các tham số
(parameter) của operator sẽ kiểm soát những hanh đông đó. Hiện có hơn 1500
operator trong Rapidminer. Trong hướng dẫn này, bạn sử dụng Retrieve (lấy
ra tập dữ liệu) cho toán tử ‘Filter Examples’.
44
CHƯƠNG 2.
PHƯƠNG PHAP TỔ CHỨC VÀ TICH HỢP DỮ LIỆU LỚN
2.1. CAC HÊ THỐNG PHÂN TICH DỮ LIÊU LỚN TRONG VIÊN THÔNG
2.1.1. Một số ưng dụng hệ thống phân tich dữ liệu lơn phô biến hiện nay
Là một ngành công nghiệp vơi khối lương dữ liệu cần xử lý rât lơn, ngành
công nghiệp viễn thông đã nhanh chong phát triển tư cung câp dich vụ điện thoại
cố đinh để cung câp nhiều dich vụ thông tin liên lạc toàn diện khác. Chúng bao
gôm di động, điện thoại thông minh, truy cập Internet, email, tin nhắn văn bản,
hình ảnh, máy tính và truyền dữ liệu web và các dữ liệu giao thông. Sự hội nhập
của viễn thông, mạng máy tính, Internet và nhiều phương tiện truyền thông khác
đã đươc tiến hành, thay đôi bộ mặt của viễn thông và điện toán. Điều này đã tạo
ra một nhu cầu lơn về khai thác dữ liệu để giúp hiểu số liệu kinh doanh, xác đinh
mô hình viễn thông, xác đinh các hoạt động gian lận, sử dụng tốt hơn các nguôn
lực và cải thiện chât lương dich vụ [7, 8].
Hình 2.1. Cac lĩnh vưc phân tích dữ liệu lớn trong viễn thông.
Bài toán khai thác dữ liệu trong viễn thông co điểm tương đông vơi những
người trong ngành công nghiệp bán le. Bài toán thường gặp bao gôm xây dựng
kho dữ liệu quy mô lơn, thực hiện biểu diễn đa chiều trực quan, OLAP và phân
tích chuyên sâu về các xu hương, mâu của khách hàng và các mâu tuần tự. Các
bài toán này góp phần cải thiện kinh doanh, giảm chi phí, duy trì khách hàng, phân
tích gian lận và tìm hiểu về đối thủ cạnh tranh. Có rât nhiều bài toán phân tich dữ
45
liệu lơn cùng vơi các công cụ khai thác dữ liệu cho viễn thông đã đươc biết đến
và sẽ đong vai tro ngày càng quan trọng trong kinh doanh ngày nay. Một số bài
toán cụ thể như sau [7, 12]:
- Quản lý trải nghiệm khach hang (Customer Experience Mgmt):
- Giám sát, quản lý va tối ưu mạng lưới (Network OAM)
- Phân tích hoạt đông (Operation Analytics).
- Kiếm tiền từ dữ liệu (Data Monetization)
Hình 2.2. Mức đô ứng dụng phân tích dữ liệu lớn trong viễn thông.
Source: Heavy Reading Survey - Thought Leadership Council (n=12), Nov.2017
2.1.1.1. Quan ly trai nghiêm khach hang (Customer Experience Mgmt)
Quản lý trải nghiệm khách hàng là quá trình quản lý tât cả các điểm tiếp xúc
vơi khách hàng nhăm đảm bảo mối quan hệ tích cực giữa khách hàng vơi thương
hiệu. CEM đươc hiểu là việc “chủ động thiết kế và quản tri tât cả các trải nghiệm
khách hàng tư các trải nghiệm về thương hiệu, trải nghiệm mua sản phâm dich vụ,
trải nghiệm sử dụng sản phâm dich vụ đến các trải nghiệm dich vụ sau bán hàng
trên tât cả các kênh, mọi điểm tiếp xúc để đáp ứng các kỳ vọng của khách hàng
nhăm gia tăng sự hài lòng, trung thành và ủng hộ của khách hàng”.
Ngoài ra, dựa vào các điểm tiếp xúc khách hàng đo, phân tich dữ liệu lơn kết
hơp các kỹ thuật AI/ML là những công cụ thiết yếu để nhà mạng viễn thông hiểu
đươc sức khỏe của mạng lươi của mình và chât lương dich vụ cung câp cung câp
cho khách hàng. Thông qua đo, nhà mạng sẽ đưa ra các hành động tối ưu nâng
cao chât lương mạng lươi và dich vụ [11].
Hiện nay co 03 bài toán ứng dụng phân tich dữ liệu lơn về quản lý trải nghiệm
khách hàng là: Phân tich dự báo rời mạng (Predict Churn Analytic), Chăm soc
46
khách hàng chủ động (Proactive Care), Khách hàng mục tiêu, maketing mục tiêu
(Targeted Maketing/ Personalization) [7, 8, 9].
* Phân tích về lòng trung thành của khách hang, Phân tích dự báo rơi mạng
Chúng ta có thể sử dụng thông tin khách hàng trung thành để đăng ký trình tự
mua hàng của khách hàng cụ thể. Lòng trung thành của khách hàng và xu hương
mua hàng có thể đươc phân tích một cách co hệ thống. Hàng hóa mua tại giai đoạn
khác nhau của cùng một khách hàng có thể đươc nhóm lại thành chuỗi. Tuần tự
khai thác mô hình sau đo co thể đươc sử dụng để điều tra những thay đôi trong
tiêu dùng của khách hàng hoặc long trung thành và đề nghi điều chỉnh về giá cả
và sự đa dạng của hàng hoa để giúp giữ chân khách hàng và thu hút những người
mơi [9].
Phân tich dữ liệu lơn kết hơp AI co thể dự báo và giảm thiểu khách hàng rời
mạng. Nghiên cứu của một nhom co tên là Wise Athena đã điều tra việc sử dụng
DL để dự đoán sự rời mạng của khách hàng trong viễn thông. Họ tìm thây phương
pháp chinh xác hơn các phương pháp trươc đo dựa trên các thuật toán phân loại
ML đươc giám sát. Phân tich dữ liệu lơn giúp phân tich dự báo khách hàng rời
mạng để tư đo đề nghi điều chỉnh về giá cả và sự đa dạng của hàng hoa để giúp
giữ chân khách hàng [7, 8].
* Chăm soc khách hang chủ đông (Proactive Care)
Cho đến nay, một trong những ứng dụng chính của phân tich dữ liệu lơn trong
lĩnh vực viễn thông là kết hơp AI/ML để tạo ra các chat-bot hỗ trơ hoặc thay thế
các trung tâm chăm soc khách hàng (Call center). Vi dụ, công ty Telstra ươc tính
răng 30% các cuộc gọi trong nươc đến một trung tâm liên lạc có thể đươc giải
quyết băng các chatbot AI. Vân có một vai trò cho các tác nhân của con người tại
Telstra (hiện co 11.000), nhưng vơi sự trơ giúp của AI, O'Meara ươc tính răng họ
có thể làm việc hiệu quả hơn 20 - 35% [7]. Các ví dụ khác về việc sử dụng phân
tich dữ liệu kết hơp AI trong dich vụ hỗ trơ khách hàng bao gôm:
+ Thiết lập công kiến thức điện tử và trơ lý ảo, tối ưu hoa trung tâm chăm soc
khách hàng.
+ Phân tích tình cảm (cảm xúc) của khách hàng - Telstra đang xem xet sử
dụng phân tich này để tăng cường hiệu quả nhắn tin và trò chuyện.
* Khách hang mục tiêu, Maketing mục tiêu
47
Ngành viễn thông noi riêng và dich vụ bán le nói chung cần nhìn cái nhìn đa
chiều về doanh thu bán hàng, lơi nhuận, sản phâm ... nên việc phân tích dữ liệu
đa chiều rât cần thiết giúp cho những người quản lý nắm bắt đươc tình hình kinh
doanh và thi trường cùng các thông tin hữu ích khác.
Hiện các chương trình khuyến mại và sản phâm của ngành viễn thông liên tục
đươc thay đôi, để đánh giá hiệu quả các chương trình khuyến mại là bài toán rât
quan trọng của các mạng viễn thông. Phân tich dữ liệu lơn kết hơp AI co thể đươc
áp dụng cho CRM trong các lĩnh vực như quảng cáo đến tưng khách hàng, chỉ ra
các cơ hội bán cheo và bán sản phâm đươc nhiều hơn [7, 8].
2.1.1.2. Giám sát, quan ly va tôi ưu mang lưới (Network OAM)
Các phương pháp tiếp cận phân tich dữ liệu lơn đang bắt đầu xuât hiện trong
lĩnh vực mạng viễn thông để giải quyết các thách thức của ảo hóa (NFV Network
Function Visualization) và điện toán đám mây (Cloud Computing) [6]. Sự phức
tạp gia tăng trong các ứng dụng mạng viễn thông đang thúc đây nhu cầu tự động
hóa mạng lươi. Các nền tảng tự động hóa mạng lươi dựa trên phân tich dữ liệu
lơn kết hơp các kỹ thuật AI/ML để hỗ trơ các hoạt động quản lý hiệu quả, kip thời
và đáng tin cậy. Ví dụ về các ứng dụng tập trung vào mạng lươi bao gôm:
+ Phát hiện bât thường trong vận hành khai thác, quản tri, bảo trì mạng lươi
+ Giám sát và tối ưu hoa hiệu suât sử dụng mạng
+ Tối ưu cảnh báo mạng lươi.
+ Khuyến nghi hành động xử lý lỗi mạng.
+ Tự động xử lý lỗi mạng.
+ Dự đoán lỗi mạng
+ Quy hoạch dung lương mạng (thông qua dự báo nghẽn mạng)
Phân tich dư liệu lơn kết hơp ML co thể hỗ trơ vận hành khai thác mạng lươi để
phát hiện các sự cố - ví dụ: lỗi, các vi phạm thỏa thuận câp dich vụ (SLA) - trong
thời gian thực, chân đoán nguyên nhân gốc, xác đinh tương quan nhiều nguôn sự
kiện, lọc cảnh báo (cảnh báo giả) và đề xuât giải pháp khắc phục lỗi. Mặc dù một
số giải pháp này đươc xây dựng để bảo đảm cho các dich vụ hiện co, nhưng chúng
có thể phải làm lại vơi việc chuyển sang 5G và các công nghệ liên quan như NFV.
Do mức độ trưu tương trong thiết kế mạng tăng lên, dân đến việc làm tăng độ phức
tạp trong khi phân tich tương quan [11].
48
Phân tich dữ liệu lơn kết hơp AI/ML co thể sử dụng kỹ thuật phân cụm để tìm
mối tương quan giữa các cảnh báo mà trươc đây không bi phát hiện. Ngoài ra co
thể sử dụng kỹ thuật phân loại để huân luyện hệ thống đưa ra các cảnh báo ưu
tiên. Tương quan các cảnh báo sẽ đươc dựa trên quy luật (rule) truyền thống do
đo phải chiu một sức ep lơn để duy trì quy luật. Thay vào đo, vơi ML, chúng ta
có thể huân luyện một hệ thống để đưa ra các quy luật riêng dựa trên một tập hơp
dữ liệu đầu vào nhât đinh.
Phân tich dữ liệu lơn kết hơp ML co thể đươc ứng dụng trong việc cam kết
chât lương dich vụ qua việc tự động hoa xử lý các sự cố thông thường. Hệ thống
có thể đươc nhân viên vận hành lập trình cách xử lý các sự cố thông thường này,
tuy nhiên vân cần có sự châp thuận của con người trươc khi thực hiện lệnh. Về
lâu dài, khi con người trở nên thuần thục hơn vơi công nghệ ML, họ có thể để nó
hoạt động vơi sự tự chủ ngày càng tăng.
Giáo sư Maziar Nekovee, Đại học Sussex, đã xác đinh các trường hơp sử dụng
tiềm năng sau đây vơi phân tich dữ liệu lơn kết hơp thuật toán AI và ML trong
mảng di động trong viễn thông như sau :
- AI tại mạng vô tuyến (RAN): truy cập và chuyển giao thông minh; lập lich
động; tối ưu hoa tài nguyên.
- AI ở mạng loi (Core): Ảo hoa tỷ lệ in/out, up/down, cung câp độ co giãn; quản
lý phân chia mạng thông minh, ưu tiên dich vụ và chia se tài nguyên; dự đoán
và đinh vi lỗi thông minh
- AI ở mạng Fronthaul: ươc tính và dự đoán lưu lương truy cập; phân chia chức
năng linh hoạt
- Các ứng dụng AI khác (RAN, mạng lõi hoặc mạng đầu cuối): Điều chỉnh năng
lương sử dụng hiệu quả theo lưu lương vô tuyến động, v.v.; Điều phối và đảm
bảo chât lương dich vụ đầu cuối (ví dụ: SLA tùy chỉnh); ưu tiên và tối ưu hoa
dich vụ đầu cuối.
Ngoài ra, các ứng dụng phân tich dữ liệu lơn con giúp tạo ra các công cụ hữu
ich như: Dự báo dung lương quy hoạch mạng (Proactive Capacity Planning); Phân
tich mạng Real time (Real-time Network Analytics); Quy hoạch và đầu tư mạng
lươi (Network Investment & Planning) [7, 9, 11].
2.1.1.3. Phân tich hoat động (Operation Analytics)
* Phong chống gian lận trong viên thông (Telco Fraud)
49
Trong ngành viễn thông thì việc rât quan trọng là phát hiện gian lận và hành
vi sử dụng bât thường nhăm giảm thiểu thât thoát doanh thu. Bài toán phát hiện
dâu hiệu bât thường và phòng chống gian lận để phát hiện các hành vi gian lận
của khách hàng và các bât thường của hành vi sử dụng. Phân tich dữ liệu lơn dụng
chủ yếu sử dụng các công cụ phân lơp, phân tích hành vi.
Theo Hiệp hội kiểm soát gian lận truyền thông, gian lận gây thiệt hại cho ngành
viễn thông toàn cầu 38 tỷ đô la hàng năm, trong đo lưa đảo chuyển vùng chiếm
10,8 tỷ đô la [7].
* Đam bao doanh thu/thất thoát (Revenue Leakage/Assurance)
Ở ngành viễn thông và bán le nói chung thì việc tư vân cho khách hàng rât
quan trọng nhăm tăng doanh thu. Vân đề ở đây là phát hiện nhu cầu của khách
hàng để có thể tư vân và gơi ý cho khách hàng đúng nhu cầu, thời gian và đia
điểm. Các ứng dụng của việc phân tich dữ liệu lơn ở đây bao gôm việc phân tích
hành vi khách hàng, phân lơp, … [8]
* Phân tích an ninh mạng (Cyber Security)
Các công nghệ bảo mật truyền thống dựa trên các luật mã hoa và chữ ký để
tìm ra các mối đe dọa tư bên ngoài. Nhưng những thông tin này co thể sơm trở
nên lỗi thời. Chiến thuật của hacker đang phát triển nhanh chóng, và số lương các
mối đe dọa mơi và chưa đươc biết đến nhắm vào các mạng viễn thông không
ngưng gia tăng. Việc phân tich dữ liệu lơn sử dụng các thuật toán AI/ML có thể
đươc huân luyện để thích ứng vơi bối cảnh thay đôi này để tư đo đưa ra các quyết
đinh xử lý.
Qua việc theo doi thi trường bảo mật viễn thông, các kỹ thuật AI như mạng
thần kinh và ML đã đươc sử dụng trong nhiều năm để cải thiện việc phát hiện mã
độc và các mối đe dọa khác trong viễn thông. Và AI có tiềm năng tiến xa hơn,
chăng hạn như tự động thực hiện các hành động khắc phục hoặc đưa ra quyết đinh
hoặc khuyến nghi. Một lĩnh vực hoạt động nóng gần đây là cơ sở cho hành vi của
các thiết bi đươc kết nối vơi Internet of Things (IoT). Tại đây, nhiều nhà cung câp
đươc thành lập và các công ty khởi nghiệp AI đang phát triển các giải pháp sẽ
giúp các CSP quản lý các thiết bi và dich vụ IoT an toàn hơn, sử dụng câu hình tự
động của các thiết bi đo [7, 8].
50
2.1.1.4. Kiêm tiên tư dữ liêu (Data Monetization)
Các công ty như các tô chức viễn thông đang sản xuât một lương lơn dữ liệu
liên tục. Nhiều công ty đã hiểu răng dữ liệu này có thể đươc sử dụng và nó có thể
có giá tri khi đươc sử dụng đúng. Vân đề là làm thế nào để biến dữ liệu đo thành
tiền - làm thế nào để kiếm tiền tư dữ liệu.
Một cách để kiếm tiền tư dữ liệu là chia nó thành hai loại: kiếm tiền tư nội bộ
và kiếm tiền tư bên ngoài. Kiếm tiền nội bộ co nghĩa là làm tăng doanh thu của
công ty vơi việc sử dụng dữ liệu. Có nhiều cách để làm như co thể tăng lên băng
cách cải thiện dich vụ sản phâm và hiểu nhu cầu của khách hàng. Hoặc doanh thu
có thể đạt đươc băng cách tăng cường doanh số vơi các hoạt động như như chăm
sóc khách hàng, lập kế hoạch bán hàng qua kênh hiệu quả. Ngoài ra, phương pháp
tối ưu hoa và tăng cường sản xuât và bảo trì có thể mang lại khoản tiết kiệm lơn
cho doanh nghiệp. Kiếm tiền tư dữ liệu bên ngoài có thể bao gôm bán dữ liệu, bán
thông tin phân tích nghiên cứu hoặc dự đoán chăng hạn.
Hiện nay một số mảng phân tich dữ liệu lơn trong lĩnh vực kiếm tiền tư dữ liệu
hay đươc sử dụng phô biến như: Phân tich dữ liệu dich vụ (Data Analytics as a
Service); Phân tich dich vụ IoT (IoT Service & Analytics); Phân tich M2M
(Machine to machine Analytic) [7, 8].
2.1.2. Hiện trang cua Viettel
2.1.2.1. Cac nguôn dữ liêu lớn tai Viettel
* Nguồn dư liệu về khách hang
- Viettel là một nhà cung câp dich vụ viễn thông lơn hàng đầu Việt Nam, co thi
phần chiếm 60% … do vậy các dữ liệu về khách hàng
- Các nguôn dữ liệu rât phong phú liên quan đến thông tin thuê bao, hành vi tiêu
dùng, lich sử hoạt động của khách hàng… Các dữ liệu này rât quan trọng trong
việc phân tich hỗ trơ cho công tác chăm soc khách hàng, nhìn thây chât lương
dich vụ tơi tưng người dùng. Để tư đo nâng cao chât lương dich vụ, phục vụ yêu
cầu ngày càng cao của khách hàng.
- Hệ thống lưu trữ và xử lý: vBI, Datamon/Csmon.
* Nguồn dư liệu từ mạng lưới (network)
Vơi quy mô quản lý khai thác mạng lươi ở phạm vi rộng, không những tại Việt
Nam mà con kể đến 10 thi trường nươc ngoài mà Viettel đầu tư. Do vậy, nguôn
dữ liệu tư mạng lươi của Viettel cung đươc xem là một nguôn dữ liệu lơn quan
51
trọng. Các dữ liệu liên quan đến mạng lươi liên quan đến các hệ thống lưu trữ và
xử lý đáng kể như:
Hệ thống NCMS 2.0: hệ thống thu thập gần 2 tỷ tham số mạng lươi tại Việt
Nam & thi trường. Trơ giúp cho các ứng dụng tự động hóa, thông minh hóa
tại VTNet.
Hệ thống GeoLocation: Hệ thống dùng dữ liệu event di động của hàng chục
triệu thuê bao để tự đo kiểm và xây dựng bản đô vùng phủ, bản đô chât
lương dich vụ.
Hệ thống NPMS 2.0: Hệ thống thu thập toàn bộ dữ liệu thô counter tại Việt
Nam và thi trường, xử lý ở mức sâu hơn, đầy đủ hơn so vơi các hệ thống
của vendor.
Hệ thống Viettel SON: Hệ thống tự động phân tích liên tục, hàng loạt counter,
KPI, alarm, event trên mạng lươi. Tư đo ra quyết đinh tối ưu (tự động tích hơp
trạm mơi, tự động cân băng tải, tự động tối ưu relation)
2.1.2.2. Cac hê thông phân tich dữ liêu lớn cua Viettel
Để đáp ứng cho xu hương của thế giơi cung như đảm bảo cho kinh doanh của
Tập đoàn. Cho đến thời điểm hiện tại, Viettel đã co nhiều hệ thống phân tich dữ
liệu lơn đươc áp dụng cho cả lĩnh vực kinh doanh và kỹ thuật. Ngoài các hệ thống
phân tich dữ liệu lơn truyền thống phục vụ kinh doanh như vBI (Viettel Business
Intelligent), CEM (Customer Experient Management). Viettel con tự xây dựng
các hệ thống phân tich phục vụ trong công tác quản lý điều hành kỹ thuật đáng kể
như:
* Hệ thống giám sát mạng lưới (NocPro, AOM):
Hệ thống này triển khai các thuật toán học máy (machine learning), trí tuệ nhân
tạo (artificial intelligence) để giải quyết các bài toán như: gộp cảnh báo tương
quan (alarm correlation), dự báo sự cố xảy ra dựa trên chuỗi các sự kiện (event)
xuât hiện trong mạng lươi. Đặc trưng của các bài toán này là cần xử lý theo luông
sự kiện (event streaming) vơi yêu cầu xử lý trong thời gian thực nên mô hình dự
báo cần co độ chinh xác tương đối cao nhưng lại phải đủ đơn giản về mặt tính
toán.
* Hệ thống giám sát va khăc phục sự cố giao dịch ngươi dùng:
Tư trươc đến nay các hệ thống giám sát mơi chỉ tập trung vào các lỗi nhìn thây
trong cảnh báo phát sinh tư các phần tử mạng. Vơi yêu cầu mơi cần phải giám sát
52
tơi mức dich vụ, tơi tưng khách hàng do vậy hệ thống đã đươc cải tiến để thu thập
tư các nguôn dữ liệu mơi như sau:
Mã lỗi trích xuât tư các bản tin báo hiệu trao đôi trên mạng vô tuyến, mạng
loi và mạng IP
Mã lỗi trong các bản tin trả về của các giao thức ứng dụng HTTP, DNS,
FTP đươc ghi nhận thông qua hệ thống probe của hệ thống
Datamon/CSMon
Mã lỗi đươc log ra tư các ứng dụng công nghệ thông tin.
Các thông tin mã lỗi này sẽ bô sung đầu vào cho phân hệ quản lý sự kiện (Event
Management) quyết đinh việc tạo cảnh báo, sinh ticket giao việc cho lực lương
vận hành khai thác xử lý hoặc tự đưa ra hành động sửa chữa, phục hôi dich vụ
theo các luật đươc đinh nghĩa trươc. Hệ thống này cung đoi hỏi xử lý theo thời
gian thực để đảm bảo yêu cầu giám sát, xử lý sự cố.
* Hệ thống phân tích tối ưu mạng lưới theo trai nghiệm ngươi dùng:
Hệ thống dựa trên việc giám sát các chỉ số KQI phản ánh chât lương dich vụ
toàn trình (end-to-end) nhăm chỉ ra các khách hàng hay khu vực có sự suy giảm
về chât lương. Đi sâu hơn, hệ thống giúp chỉ ra nguyên nhân của các hiện tương
suy giảm này dựa trên việc liên kết chúng vơi các thông tin câu hình tham số cung
như các KPI phản ánh dung lương (capacity) và hiệu suât (performance) của các
phần tử mạng tham gia vào việc cung câp dich vụ toàn trình. Hệ thống này đoi hỏi
dữ liệu đươc tông hơp tư nhiều mảng khác nhau, ví dụ như: dữ liệu probe tư
Datamon/CSMon, dữ liệu vô tuyến lây tư bản tin trace, thông tin về đường đi dich
vụ trên mạng IP/MPLS, dữ liệu tư các hệ thống giám sát (NocPro, IMPS,
AOM…). Việc kết hơp các nguôn dữ liệu này đươc thực hiện chủ yếu là offline,
không đoi hỏi cao về tính real-time nhưng khối lương tính toán, xử lý lại rât lơn.
Bên cạnh đo, kể đến con co các hệ thống phân tich dữ liệu lơn của các đơn vi bên
ngoài tập đoàn như các các nhà cung câp nội dung số (Content Provider).
2.2. PHƯƠNG PHAP TÔ CHƯC HÊ THỐNG PHÂN TICH DỮ LIÊU LỚN
2.2.1. Phương pháp tô chức hệ thống dữ liệu lơn
53
Hình 2.3. Phương phap tổ chức hệ thống dữ liệu lớn.
2.2.1.1. Tầng Data Ingestion
Tầng Data Ingestion chiu trách nhiệm trong việc tích hơp dữ liệu tư các hệ
thống nguôn về nền tảng lưu trữ BigData và thực hiện lưu trữ/ format dữ liệu dươi
các đinh dạng đông nhât. Các chức năng chinh đươc hỗ trơ bởi tầng này bao gôm:
Tích hợp: Cho phép kết nối, tạo ra các flow dữ liệu tư hệ thống nguôn về
kho dữ liệu BigData.
Import dư liệu: Cho phep import & đánh dâu dữ liệu đươc import vào hệ
thống tư hệ thống dữ liệu nguôn.
Định dạng dư liệu: Cho phep đông nhât đinh dạng dữ liệu, đảm bảo các
dữ liệu giống nhau lây về tư các nguôn khác nhau sẽ có cùng một đinh dạng.
2.2.1.2. Tầng Data Processing
Tầng xử lý dữ liệu là tập hơp các action đươc thực hiện trên dữ liệu bao gôm
các bươc tư transformation, correlation, enrichment … để đảm bảo chât lương dữ
liệu & đưa ra các dữ liệu theo mong muốn. Chi tiết các loại action này bao gôm:
Transformation: Ánh xạ tư dữ liệu thô (raw data) thành các đinh dạng dữ
liệu nhât đinh giúp dữ liệu co ý nghĩa và co thể sử dụng đươc. Các nhóm
hàm transformation này có thể ví dụ như: Hàm so sánh, hàm logical, hàm
Date& time …
Enrichment: Kết hơp nhiều nguôn dữ liệu khác nhau để làm giàu dữ liệu,
đưa ra một view trọn vẹn hơn về thực thể (entity)
Các action liên quan đên thay đổi dư liệu: như các phep toán tử join,
sorting, filtering, aggregate …
54
2.2.1.3. Tầng Data Analysis Layer
Chứa các bươc về phân tích, dự báo xu hương dựa trên các model học máy.
Việc dự đoán và phân tích này có thể đươc thực hiện theo các mức như batch (xử
lý theo lô), streaming và real-time. Các chức năng chinh trong tầng này bao gôm
có:
- Các model theo mức Descriptive/ Predictive/ Prescriptive: ứng vơi các mức
về mô tả dữ liệu trong quá khứ/ dự đoán tương lai và đưa ra lựa chọn tốt nhât.
- Xử lý các sự kiện phức tạp (Complex Event Processing - CEP): Đươc chia
sâu hơn thành hai nhom chinh:
Xử lý theo mức tưng sự kiện đơn le online
Phân tich pattern và xác đinh sự kết hơp của tô hơp các sự kiện. CEP đươc
khai thác để đưa ra các Alert/Trigger phục vụ cho việc đưa ra các Action.
- Xây dựng các báo cáo: Cho phép phân tích/ tông hơp dữ liệu và đưa ra các kết
quả phục vụ cho việc lên các báo cáo phân tích dữ liệu.
2.2.1.4. Tầng Data Visualization
Sử dụng các công cụ trình diễn dữ liệu: Báo cáo, biểu đô, Bảng biểu … để mô
tả dữ liệu, giúp người dùng có thể hiểu/ đánh giá và phân tich đươc xu hương dữ
liệu. Giúp việc nắm bắt các dữ liệu phức tạp đươc thực hiện một cách thông suốt
và dễ dàng hơn.
2.2.1.5. Tầng Data Repository
Tầng lưu trữ dữ liệu lơn (hay con đươc đề cập đến như Analytics BigData
Repository – ABDR) là một tầng phục vụ cho việc lưu trữ hội tụ tât cả các đối
tương/ thực thể dữ liệu dươi dạng dữ liệu ‘raw’ hoặc đã qua xử lý và ở mức trung
gian. Dữ liệu lưu trữ trên Data Repository đươc chia thành hai thành phần chính
đo là:
Dữ liệu MetaData: Là các loại dữ liệu mô tả; dùng để cung câp thông tin về
một hoặc nhiều đặc tính khác nhau của dữ liệu. Giúp cho việc sử dụng, khai
thác dữ liệu đươc trở nên thuận tiện hơn. VD: dữ liệu Metadata dùng để mô
tả câu trúc của các bảng dữ liệu; dữ liệu mô tả thông tin câu hình trên hệ
thống …
Dữ liệu Data Domain: Là tât cả các loại dữ liệu đươc chứa trong các thực
thể dữ liệu đươc lưu trữ và khai thác, tính toán trên hệ thống. VD: Thông
tin lich sử giao dich của khách hàng, thông tin profile khách hàng …
55
Dữ liệu lưu trữ trên tầng này đươc lưu trữ dươi các đinh dạng:
Unstructured Data: Các loại dữ liệu không co model đinh nghĩa trươc để
mô tả câu trúc dữ liệu; VD: dữ liệu text, dữ liệu audio …
Structured Data: Là các loại dữ liệu có câu trúc đinh nghĩa trươc, VD: dữ
lệu CDR, dữ liệu dạng bảng đươc đông bộ tư các hệ thống khác về …
Semi-structured Data: Các loại dữ liệu có câu trúc (Đươc đinh nghĩa bởi
các tag dữ liệu) tuy nhiên không tuân theo một đinh dạng chuân về
structured data (VD: Ko theo một câu trúc bảng nào trong RDBMS) VD:
Dữ liệu json, xml …
2.2.1.6. Tầng Data Govenance
Đáp ứng đươc việc quản tri dữ liệu xuyên suốt trên toàn bộ hạ tầng BigData
vơi 4 nhóm mục tiêu chính:
Đam bao Quality & tính nhất quán của dư liệu: Trả lời câu hỏi v/v dữ
liệu co đảm bảo về chât lương và tính nhât quán xuyên suốt trên toàn hệ
thống để người dùng (data scientist, business team) khai thác hay không.
Quan ly được các policy về quyền truy xuất & security: Cung câp cơ chế
phân quyền tập trung, cho phép quản lý đươc quyền truy xuât tơi tưng user/
nhom user đến các tầng lưu trữ dữ liệu của cả hệ thống
2.2.2. Mô hình tô chưc thưc tế hệ thống BigData tai Viettel
56
Hình 2.4. Mô hình tổ chức thưc tế hệ thống BigData tại Viettel.
Tông thể kho dữ liệu BigData sẽ đươc tô chức thành 2 tầng chính:
Tầng lưu trư và xử lý dư liệu: bao gôm 2 hệ thống lơn là Data Warehouse
và Data Lake. 2 hệ thống này sẽ chiu trách nhiệm thu thập, giải mã, làm
sạch, làm giàu, chuyển đôi, chuân hóa, tô chức lưu trữ, sử dụng và phân
phối dữ liệu. Tầng này giao tiếp vơi các nguôn dữ liệu và làm nền tảng cho
tầng truy xuât dữ liệu
Tầng truy xuất dư liệu: cung câp các cơ chế giúp người dùng cuối hoặc
các hệ thống ứng dụng truy xuât đươc vào cả Data Warehouse và Data
Lake. Tầng này tận dụng các cơ chế lưu trữ, tinh toán phia dươi và cung
câp, hiển thi kết quả đầu ra.
2.2.2.1. Tầng lưu trữ va xư ly dữ liêu.
Tầng lưu trư và xử lý dư liệu: bao gôm 2 hệ thống lơn là Data Warehouse và
Data Lake. 2 hệ thống này sẽ chiu trách nhiệm thu thập, giải mã, làm sạch, làm
giàu, chuyển đôi, chuân hóa, tô chức lưu trữ, sử dụng và phân phối dữ liệu. Tầng
này giao tiếp vơi các nguôn dữ liệu và làm nền tảng cho tầng truy xuât dữ liệu.
Các thành phần chinh trong tầng này như sau:
- Tầng thu thập dư liệu (Data Ingestion): Nifi, Kafka, Flume, Kylo
- Tầng lưu trư dư liệu (Data Management) - Sử dụng công nghệ lưu trữ
Hadoop, cụ thể:
Hệ thống tệp lưu trữ của Hadoop còn gọi là HDFS (Hadoop File System)
Một cluster Hadoop thường gôm 1 Active namenode + Nhiều standby
namenodes + Nhiều datanodes
- Tầng quan lý tài nguyên RAM + CPU (Data Operating System): Sử dụng
công nghệ YARN.
- Tầng truy cập và xử lý dư liệu (Data Access): Sử dụng các công nghệ tương
ứng: Batch (Spark), SQL (Hive), NoSQL (Hbase, Mongo), Streaming (Spark,
Flink), In-memory (Redis); Search (Elastic Search Solr).
- Tầng bao mật và phân quyền (Security): Sử dụng các công nghệ tương ứng
Sentry (Cloudera), Ranger (HDP).
- Tầng lưu trư dư liệu đa qua xử ly (Data Warehouse): Hbase, Hive
Data mode: Star Schema; Flowsnake Schema
OLAP Cube: Xử lý phân tich dữ liệu đa chiều
57
Data Marts: Apache Kylin; Atscale
2.2.2.2. Tầng truy xuât dữ liêu
Tầng truy xuất dư liệu: cung câp các cơ chế giúp người dùng cuối hoặc các
hệ thống ứng dụng truy xuât đươc vào cả Data Warehouse và Data Lake. Tầng
này tận dụng các cơ chế lưu trữ, tinh toán phia dươi và cung câp, hiển thi kết quả
đầu ra. Các thành phần chinh trong tầng này như sau:
- Hệ thống hiển thị dư liệu (BI, Reporting & Data Visualization): Sử dụng các
công cụ như Tableau, Qlik, Splunk… Tầng này dành cho lơp quản lý theo doi
(để ra quyết đinh), lơp kỹ sư và nhân viện CSKH (để hỗ trơ xử lý nghiệp vụ).
- Modul giao diện kêt nối ra bên ngoai (Data API): Sử dụng các công cụ
SOAP, Web service, Restul… Modul này sử dụng làm đầu vào cho các ứng
dụng nghiệp vụ của Viettel.
- Hệ thống phân tích dư liệu (Data Analytics Tool): Sử dụng các công cụ như
Knime, Rapidminer… Hệ thống này đươc quản lý bởi các chuyên gia về dữ
liệu, các hệ thống này co thể truy xuât trực tiếp vào tầng lưu trữ và xử lý dữ
liệu (Data Lake, Data Warehouse).
- Hệ thống trung gian xử ly dư liệu (Mediation): Sử dụng các công cụ như
Kafka, FTP… Hệ thống này đươc tạo ra để cho các bên thứ 3 vào khai thác dữ
liệu như vBI, CI, Nokia CEM.
2.2.3. Các công nghệ nền tảng về hệ thống dữ liệu lơn.
Hiện nay trên thế giơi co nhiều ứng dụng Platform mã nguôn mở nhăm giúp
cho các doanh nghiệp, tô chức xây dựng hệ thống BigData một cách linh hoạt, dễ
dàng tích hơp các thành phần mã nguôn mở, quản lý khối lương và đa dạng dữ
liệu nhanh chong gia tăng trong doanh nghiệp. Các sản phâm và giải pháp này cho
phép chúng ta có thể triển khai, quản lý Apache Hadoop và các Apaches mã nguôn
mở khác nhăm giúp thao tác truy vân, phân tích dữ liệu, và giữ cho dữ liệu luôn
luôn đươc an toàn và đươc bảo vệ.
Một trong những nền tảng lưu trữ, xử lý dữ liệu lơn như IBM InfoSphere
BigInsights, Hortonworks và MapR. Cloudera là những sản phâm co đầu tiên kể
tư khi xuât hiện giải pháp lưu trữ dữ liệu Hadoop, HortonWorks đến sau này.
Trong khi Cloudera và HortonWorks là 100 % mã nguôn mở, thì hầu hết các phiên
bản của MapR đi kèm vơi module độc quyền. Đối ngươc vơi sản phâm mã nguôn
mở thì IBM InfoSphere BigInsights là một nền tảng phần mềm dich vụ đươc thiết
58
kế để giúp các doanh nghiệp phát hiện và phân tích những hiểu biết kinh doanh
ân trong khối lương lơn dữ liệu. Sản phâm IBM InfoSphere BigInsights kết hơp
một số dự án mã nguôn mở (bao gôm Apache Hadoop) và một số công nghệ của
IBM phát triển. Mỗi nhà cung câp, phân phối có sức mạnh độc đáo và những điểm
yếu riêng trong tưng sản phâm của mình.
Cloudera Inc đươc thành lập bởi những thiên tài dữ liệu lơn tư Facebook,
Google, Oracle và Yahoo vào năm 2008. Đây là công ty đầu tiên phát triển và
phân phối phần mềm Apache Hadoop và có số lương người dùng lơn nhât vơi hầu
hết khách hàng. Mặc dù cốt lõi của phân phối dựa trên Apache Hadoop, no cung
cung câp một công cụ quản lý Cloudera Suite độc quyền để tự động hóa quá trình
cài đặt và cung câp dich vụ khác để nâng cao sự tiện lơi của người sử dụng trong
đo bao gôm việc giảm thời gian triển khai và đơn giản quá trình vận hành, sử
dụng.
Hortonworks, đươc thành lập vào năm 2011, đã nhanh chong nôi lên như một
trong những nhà cung câp hàng đầu của Hadoop. Việc phân phối cung câp nền
tảng mã nguôn mở dựa trên Apache Hadoop cho việc phân tich, lưu trữ và quản
lý dữ liệu lơn. Hortonworks là nhà cung câp thương mại duy nhât để phân phối
hoàn toàn mã nguôn mở Apache Hadoop mà không cần phần mềm độc quyền bô
sung. Các sản phâm Hortonworks Distribution HDP có thể đươc tải về trực tiếp
tư trang web của họ miễn phí và rât dễ dàng để cài đặt.
MapR là một tiêu chuân phiên bản mã nguôn mở, phần mềm Apache Hadoop
đi kèm vơi một số hạn chế và đươc khắc phục qua các vân đề trong bản tiêu chuân
qua các module độc quyền có phí.
Trong việc xây dựng hệ thống BigData, 2 sản phâm Cloudera và Hortonworks
đươc biết đến nhiều nhât vơi giây phép 100% mã nguôn mở và có nhiều tinh năng
mạnh mẽ trong việc lưu trữ dữ liệu lơn, quản lý và tìm kiếm dữ liệu theo kỹ thuật
Hadoop. Cloudera cung như Hortonworks đều đươc xây dựng trên cùng một lõi
của Apache Hadoop. Như vậy họ có nhiều điểm tương đông hơn là khác biệt.
+ Cả hai đều cung câp và phân phối sản phâm Hadoop ở câp độ doanh nghiệp
(enterprise-ready Hadoop). Các bản phân phối đã đươc trải nghiệm qua thời
gian của người tiêu dùng, bảo đảm tính an ninh và ôn đinh. Bên cạnh đo,
họ cung câp dươi hình thức đào tạo có trả tiền và dich vụ cho những người
mơi bươc theo con đường của BigData và Analytics.
59
+ Cả hai hãng đã thành lập và xây dựng những cộng đông để giúp đỡ các vân
đề gặp phải và những ví dụ minh hoạ khi xây dựng BigData Vơi các sản
phâm mã nguôn mở của hãng.
+ Cả hai hãng đều sử dụng kiến trúc master - slave và tính toán trên những hạ
tầng máy tính không chia se.
+ Quan trọng hơn cả là cả hai đều hỗ trơ phương thức MapReduce cung như
YARN trong cách lưu trữ dữ liệu.
Hình 2.5. So sanh CDH va HDP.
Về ưu điểm và sự khác biệt thì Cloudera co ưu thế hơn so vơi các sản phâm
khác bởi các lý do như sau:
+ Cloudera là sản phâm đầu tiên xây dựng dựa trên nền tảng Apache Hadoop
và hiện tại có số lương người dùng lơn nhât vơi hầu hết khách hàng.
+ Cloudera có một phần mềm quản lý độc quyền Cloudera Manager, hỗ trơ
truy vân dạng SQL xử lý truy vân giao diện Impala, cung như Cloudera
Search dễ dàng và truy cập dữ liệu.
+ Cloudera đã co tên tuôi nhât trên thi trường, vơi hơn 350 khách hàng và co
một số phần mềm doanh nghiệp phủ lên trên các bản phân phối mã nguôn
mở của mình để hỗ trơ người tiêu dùng.
+ Có nhiều công cụ mạnh mẽ trong việc lưu trữ các loại dữ liệu như xử lý
batch job, ngôn ngữ phân tích truy vân dữ liệu SQL, kỹ năng tìm kiếm
NoSQL, xử lý stream... Giải pháp nền tảng mã nguôn mở CDH đươc đánh
giá cao trong việc lưu trữ, xử lý dữ liệu lơn và điển hình có sản phâm Oracle
BigData Appliance (BDA) sử dụng toàn bộ giải pháp nền tảng CDH tích
hơp trọn gói trong việc lưu trữ xử lý dữ liệu .
Trong phạm vi nghiên cứu của luận văn này sẽ sử dụng nền tảng Cloudera
BigData Enterprise flatform để xây dựng thực nghiệm.
60
2.2.4. Cac phân hệ cai đăt cua Cloudera BigData Enterprise flatform:
Cloudera cung câp những sản phâm và công cụ dươi dạng cài đặt như sau :
+ CDH (Cloudera Distribution Of Apache Hadoop): Là một phân phối của
Apache Hadoop và các apaches mã nguôn mở liên quan bao gôm Cloudera
Impala và Cloudera Search, CDH còn cung câp bảo mật và tích hơp vơi rât
nhiều giải pháp phần cứng và phần mềm khác. CDH hiện tại bao gôm
Apache Hadoop, Apache HBase, Apache Hive, Apache Pig, Apache
Sqoop, Apache Flume, Apache Zookeeper, Apache Oozie, Apache Mahout
và Hue. Hiện phiên bản mơi nhât của CDH là 5.x.x
+ Cloudera Impala là một SQL engine phục vụ các xử lý song song vơi lương
dữ liệu lơn nhăm phân tích trong BigData. Việc tối ưu hoa kiến trúc trong
Cloudera Impala giúp cho lý tưởng, phù hơp vơi các truy vân truyền thống
băng cách phân nhỏ thành các truy vân Con Cloudera Impla có thể truy vân
các file dữ liệu tư dữ liệu Hadoop tư nhiều nguôn khác nhau như kết quả tư
MapReduce hoặc kết quả tư các bảng cơ sở dữ liệu Hive. Chúng ta có thể
quản lý Impala cùng các thành phần khác của Hadoop thông qua giao diện
của Cloudera Manager.
+ Cloudera Search - Cung câp truy vân gần thời gian thực đến dữ liệu đươc
lưu trữ xong hoặc đang đươc nạp vào Hadoop và HBase Cloudera Search
cung câp gắn thời gian thực việc lập chỉ mục, lập chỉ mục hàng loạt, truy
vân toàn văn bản, thực hiện một cách đơn giản, giao diện văn bản đầy đủ
mà không đoi hỏi kỹ năng SQL hoặc lập trình, Cloudera Search đươc tích
hơp đầy đủ trong nền tảng xử lý dữ liệu , tìm kiếm sử dụng hệ thống lưu trữ
linh hoạt, khả năng mở rộng, và mạnh mẽ bao gôm vơi CDH. Điều này giúp
loại bỏ sự cần thiết phải di chuyển các tập dữ liệu lơn trên cơ sở hạ tầng để
thực hiện nhiệm vụ phân tích kinh doanh.
+ Cloudera Manager - Một ứng dụng tinh vi dùng để triển khai, quản lý, giám
sát và chân đoán các vân đề vơi các triển khai CDH. Cloudera Manager
cung câp giao diện đô họa Admin Console, một giao diện người dùng dựa
trên web mà làm cho chính quyền của dữ liệu doanh nghiệp của bạn đơn
giản và dễ hiểu. No cung bao gôm các API quản lý Cloudera, mà bạn có
thể sử dụng để co đươc thông tin sức khỏe cụm và số liệu, cung như câu
hình Cloudera Manager.
61
+ Cloudera Navigator - Một công cụ quản lý dữ liệu end-to-end cho nền tảng
CDH, Cloudera Navigator cho phép quản tri, quản lý dữ liệu và các nhà
phân tich để khám phá những lương lơn dữ liệu trong Hadoop. Việc kiểm
tra dữ liệu mạnh mẽ, quản lý dữ liệu, và quản lý vong đời dữ liệu trong
Cloudera Navigator cho phép các doanh nghiệp tuân thủ nghiêm ngặt và
yêu cầu quy đinh trong việc phân bố dữ liệu vào hệ thống Cloudera .
Cloudera có nhiều phiên bản, trong đo phiên bản miễn phí CDH cung câp đầy
đủ tinh năng và các mã nguôn mở đươc tích hơp vào nhăm phục vụ cho một công
ty startup có thể dễ dàng xây dựng nền tảng BigData. Ngoài phiên bản miễn phí
còn có một phiên bản có hỗ trơ support tư các chuyên gia của Cloudera, thêm các
tinh năng mạnh mẽ hơn và phải trả phí là Cloudera Enterprise.
62
CHƯƠNG 3.
THỰC NGHIỆM TÍCH HỢP HỆ THỐNG
DỰ BAO THUÊ BAO RỜI MẠNG
3.1. NÔI DUNG THƯC NGHIÊM
3.1.1. Đinh nghĩa thuê bao rơi mang.
Rời mạng “Churn” co nguôn gốc tư change (sự thay đôi) và turn (chiều hương).
Tỷ lệ “churn” trung bình trong một nhà cung câp dich vụ di động là khoảng 2%
mỗi tháng (Berson, Smith, và Thearling, 2000). Việc mât khách hàng đông nghĩa
vơi việc mât doanh thu trong tương lai và mât chi phi đầu tư để có lại những khách
hàng này. Trong thực tế, chi phi để phát triển một thuê bao mơi lơn 5-10 lần chi
phi để giữ chân khách hàng. Churn chia làm 3 nhom chinh:
+ (1). Thuê bao bi buộc rời khỏi mạng do nơ cươc, gian lận…
+ (2). Nhóm chủ động rời mạng sang nhà cung câp khác, nguyên nhân do nhà
mạng cu co chât lương dich vụ kem, giá cươc, hỗ trơ kh không tốt…
+ (3). Nhóm khách hàng rời mạng bât ngờ mà ko co mục đich chuyển sang
nhà cung câp khác: Do di chuyển công việc, nơi ở … sang vi tri mơi mà
không co sự phục vụ của nhà mạng.
Trong phạm vi luận văn chỉ nghiên cứu nhom 2.
3.1.2. Bai toan yêu câu
Triển khai cài đặt phần cứng hệ thống dự báo thuê bao rời mạng (TBRM) đươc
tich hơp giữa công cụ Cloudera BigData Enterprise flatform và công cụ phân tich
Rapidminer. Xây dựng và tich hơp luông phân tích dự báo thuê bao rời mạng dựa
trên tập 4,5 triệu khách hàng Viettel có doanh thu (ARPU) cao.
Hệ thống đươc tich hơp để phân tich dữ liệu lich sử tiêu dùng 6 tháng (tư 1-
6/2016) của các TBRM ở 3 tháng tiếp theo (tư 7-10/2016), mô hình dự báo học
đươc sẽ đươc sử dụng để dự báo TBRM cho 3 tháng kế tiếp (11-12/2016 và
1/2017).
Đầu vao của hệ thống là dữ liệu của tập thuê bao VIP co doanh thu (ARPU)
trung bình 6 tháng >=200.000 vnđ (tư 1-6/2016). Số lương thuê bao phân tich
gôm 4,5 triệu thuê bao trả trươc và 1,1 thuê bao trả sau. Dung lương dữ liệu đưa
vào hệ thống phân tich là ~12 Tera byte.
63
Đầu ra của hệ thống la kết quả dự báo mong muốn bao gôm danh sách thuê
bao dự báo rời mạng cùng vơi đặc điểm, nguyên nhân rời mạng. KPI độ chinh xác
đối vơi mô hình dự báo của hệ thống yêu cầu là độ chinh xác (accuracy) đạt 85%,
độ nhạy (recall) đạt 75%.
3.1.3. Cac bươc thưc nghiệm.
* Bước 1: Triển khai cai đặt hệ thống dự báo TBRM.
- Cài đặt cụm dữ liệu CDH, thực hiện kiểm tra dữ liệu sử dụng, chèn dữ liệu sử
dụng công cụ SPARK. Kiểm tra chât lương dữ liệu ban đầu (vd, số hàng, loại
dữ liệu ở cột…).
- Xây dựng quy trình (luông) xử lý lọc khách hàng VIP tư bảng dữ liệu đầy đủ
hàng tháng
* Bước 2: Khám phá dư liệu va tạo các biên đặc trưng
- Hiểu sâu dữ liệu băng kinh nghiệm và các quy tắc kinh doanh. Kiểm tra chât
lương dữ liệu câp 2, áp dụng các logic làm sạch dữ liệu, chuyển đôi sơ bộ dữ
liệu.
- Tạo biến (features generation) cho 13 nguôn dữ liệu thuê bao.
* Bước 3: Mô hinh hoa / Modeling
- Cài đặt kiểm thử trên Hadoop, lây mâu và huân luyện mô hình dự báo (sử dụng
các biến thuộc bảng dữ liệu voice_og tháng thứ 6
- Lựa chọn đặc trưng (feature selection), mô hình hoa dự báo TBRM.
- Tiếp tục sử dụng các phương pháp kỹ thuật, thay đôi thuật toán để tối ưu mô
hình dự báo.
3.2. TRIÊN KHAI HÊ THỐNG THƯC NGHIÊM
3.2.1. Xây dưng hệ thống phân tich BigData thưc nghiệm.
3.2.1.1. Mô hinh triên khai Logic
- Hệ thống phân tích: vận hành gôm 02 khối:
Khối lưu trư và xử lý dư liệu: Sử dụng hệ thống Cloudera BigData
Enterprise platform vơi 6 nodes (3 Namenodes, 3 Datanodes).
64
Khối phân tích dư liệu: Sử dụng công cụ Rapidminer (Quandatics – partner
do Cloudera đề xuât).
- Công nghệ sử dụng: phiên bản “Enterprise Edition” của Cloudera. Cơ bản
hoạt động giống phiên bản mã nguôn mở, co đong goi và bô sung thêm các
ứng dụng giúp cài đặt, quản lý dễ dàng hơn.
- Công cụ sử dụng phân tích: Rapidminer - đươc đong goi sẵn các hàm thống
kê, thuật toán phân tích, cung câp giao diện đô họa cho người dùng cuối thực
hiện các nghiệp vụ mà không cần phải lập trình (coding).
Hình 3.1. Mô hình triển khai hệ thống BigData thưc nghiệm.
3.2.1.2. Mô hinh triên khai vât ly va thông sô hê thông
* Tổ chức đấu nối hệ thống:
65
Hình 3.2. Mô hình đấu nối hệ thống.
* Cấu hinh hệ thống:
Bảng 3.1. Cấu hình hệ thống phân tích BigData thưc nghiệm.
TT Node mang Câu hình hệ thống
1 3 x Master
Nodes
- Intel(R) Xeon(R) CPU E5-2670 v3 @ 2.30GHz
- 128GB Ram; 2* 10 Gbps, 2* 1 Gbps port; 1*300 GB SSD
2 3 x Data
Nodes
- Intel(R) Xeon(R) CPU E5-2670 v3 @ 2.30GHz
- 128GB Ram; 2* 10 Gbps, 2* 1 Gbps port; 1*300 GB SSD
3 1 x Sand
Storage
- Model: Cisco MDS 9148; Dual controller
- 4x400 GB SSD 50x2 TB HDD SAS 7.2 K RPM
4 2 x Mining
Workstation
- Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz
- 32 GB Ram; 4*300 GB SSD
3.2.1.3. Cai đăt, câu hinh cac thanh phần hê thông thưc nghiêm
* Cai đặt Cloudera Bigdata Enterprise platform:
Hương dân cài đặt Cloudera Bigdata Enterprise platform - CDH đươc thể hiện
ở phụ lục 3. Các modules đươc cài đặt bao gôm:
+ Cloudera Manager: Công cụ quản lý do Cloudera phát triển
+ Hadoop: Lưu trữ dữ liệu
+ Map Reduce: Framework xử lý dữ liệu của Hadoop
+ Zookeeper: Quản lý các luông công việc (Workflow) và các nodes trong
Hadoop
+ Yarn: Quản lý resource câp phát cho các tác vụ xử lý dữ liệu.
+ Hue: Cung câp giao diện đô họa để làm việc vơi Hadoop, Hive, …
+ Hive: Hạ tầng kho dữ liệu cho Hadoop, hỗ trơ truy vân dữ liệu trên Hadoop.
+ Sqoop: Cung câp việc truyền dữ liệu hai chiều giữa Hadoop và cơ sở dữ
liệu quan hệ.
66
Hình 3.1. Giao diện module Cloudera Manager.
* Tích hợp công cụ phân tích Rapidminer:
Công cụ Rapidminer sau khi đươc cài đặt đươc thể hiện ở hình 3.2. Xây dựng
và tich hơp luông phân tích trong Rapidminer đươc mô tả ở hình 3.3.
Trong thực nghiệm việc xử lý dữ liệu đươc thực hiện chủ yếu sử dụng Map-
Reduce của Hadoop (trên Cloudera platform). Dữ liệu đươc lưu trữ trong Hadoop
và người dùng tương tác vơi dữ liệu thông qua Hive thuận tiện kết nối và xử lý dữ
liệu.
67
Hình 3.2. Giao diện công cụ phân tích Rapidminer.
Hình 3.3. Luồng khai pha dữ liệu trong Rapidminer.
3.2.1.4. Nguôn dữ liêu
Nguôn dữ liệu của tập thuê bao di động sử dụng trong thực nghiệm đươc lây
tư 13 bảng dữ liệu lơn đươc thể hiện như bảng 3.2.
Bảng 3.2. Nguồn dữ liệu hệ thống phân tích BigData thưc nghiệm
STT Bảng dữ liệu Nguôn dữ liệu
1 Dữ liệu thoại - chiều đến MSC, RNC, OCS
2 Dữ liệu thoại - chiều đi MSC, RNC, OCS
3 Dữ liệu SMS - chiều đến MSC, RNC, OCS
4 Dữ liệu SMS - chiều đi MSC, RNC, OCS
5 Dữ liệu Data MSC, RNC, OCS
6 Tông hơp tiêu dùng theo ngày OCS, Provisioning
68
STT Bảng dữ liệu Nguôn dữ liệu
7 Dữ liệu nạp the (Cho thuê bao trả trươc) MSC, OCS
8 Dữ liệu số dư tài khoản (Cho thuê bao trả trươc) MSC, OCS
9 Dữ liệu trư cươc phí các gói sử dụng theo chu kỳ (ngày/
tuần/ tháng) OCS
10 Dữ liệu tông hơp charge cươc sử dụng các dich vụ VAS OCS, VAS
11 Dữ liệu home OCS, MSC, BCCS
12 Dữ liệu thông tin thuê bao thuê bao, khách hàng OCS, BCCS
13 Thông tin thanh toán cươc phi OCS
3.2.1.5. Luông xư ly va khai pha dữ liêu
Hình 3.4. Luồng xử lý khai pha dữ liệu.
Toàn bộ quy trình xử lý, khai phá dữ liệu cho thực nghiệm đươc xử lý qua 6
bươc: Làm sạch dư liệu -> chọn thuôc tính quan trọng -> phân nhóm TB ->
chạy thuật toán dự báo -> đề xuất churn score -> tra kêt qua đầu ra.
- Bước 1: Xử lý, làm sạch dư liệu:
+ 13 bảng dữ liệu lơn (modeling table) -> chi tiết thành 1.273 thuộc tính dữ
liệu đầu vào.
+ Dùng hàm phân tích thống kê để kiểm tra, chuân hóa dữ liệu.
+ Làm sạch dữ liệu (loại bỏ dữ liệu lỗi, sai, trùng lặp).
- Bước 2: Chọn thuôc tính quan trọng: tư 1.273 thuộc tinh đầu vào -> chọn
703 thuộc tính quan trọng, liên quan nhât vơi hành vi TBRM thực tế (băng
thuật toán Decision Tree).
- Bước 3: Phân lớp thuê bao: thành 4 segment để phân tích sâu (0.Sử dụng
nhiều thoại, 1. Sử dụng đều Thoại/SMS/Data, 2.Sử dụng nhiều data, 3.Sử dụng
nhiều SMS).
69
- Bước 4: Chạy thuật toán dự báo: dùng đông thời 3 thuật toán (Decision Tree,
Gradien Booting, Random Forest) -> chọn 1 thuật toán tốt nhât (Gradien
Booting) để dự báo cho tưng phân lơp.
- Bước 5: Đề xuất churn score: các ngưỡng cắt rời mạng (churn score), độ nhạy
dự báo (recall), độ chính xác (precision).
- Bước 6: Tra kêt qua đầu ra: danh sách ISDNs các thuê bao dự báo rời mạng.
3.2.2. Xây dưng mô hình dư bao TBRM.
* Bai toán cụ thể:
Đầu vào là các dữ liệu quá khứ về lich sử tiêu dùng và thông tin thuê bao (TB)
trong 10 tháng (tháng 1-10/2016) chi tiết đến tưng thuê bao. Trong đo:
Số liệu của 6 tháng đầu tiên (1/2016 đến 6/2016) đươc sử dụng để phân tích
xây dựng mô hình huân luyện (Training model), mô hình này sẽ dự báo thuê
bao rời mạng trong giai đoạn 3 tháng tiếp theo (7/2016 - 9/2016);
Kết quả dự báo sẽ đươc so sánh vơi tập thuê bao đã rời mạng thực tế trong 3
tháng nêu trên (7/2016 – 9/2016) để kiểm chứng và đánh giá (Testing).
Kết quả dự báo của tháng thứ 10 đươc Viettel triển khai để chăm soc khách
hàng chủ động cho khoảng 5000 khách hàng. Đảm bảo giảm tỉ lệ thuê bao có
ARPU cao rời mạng trên tập khách hàng mâu.
Hình 3.5. Mô hình dư bao thuê bao rơi mạng.
Ngoai ra thực nghiệm cung được áp dụng mô hinh dự báo liên tục, trong đo
mô hinh nay được phát triển và chuân hoa trươc khi cho ra kết quả dự báo cuối
cùng, gôm các bươc:
Xây dựng: Dữ liệu 06 tháng (1-6/2016) đươc dùng để xây dựng mô hình dự
báo TBRM trong 03 tháng (7-8-9).
Kiểm thử: Đối chiếu kết quả dự báo vơi TBRM thực tế 04 tháng (7-8-9-10)
để chọn ra các thuộc tính quan trọng, loại trư các thuộc tính nhiễu, tiếp tục
hoàn thiện mô hình.
70
Hoàn thiện: tiếp tục bô sung, phân tích dữ liệu 06 tháng (5-10/2016) để dự
báo TBRM 03 tháng (11/2016-1/2017).
3.3. CAC KÊT QUA THƯC NGHIÊM MÔ HINH DƯ BAO.
3.3.1. Kham pha dữ liệu va tao cac biến đăc trưng.
Đây là giai đoạn tạo các bảng dữ liệu đầu vào và các biến tương ứng.
3.3.1.1. Bang dữ liêu goi đi cua thuê bao (VOICE_OG)
- Thông tin lây tư dữ liệu thô: Chi tiết thông tin cuộc gọi đi của một thuê bao.
- Tạo các biến (đặc trưng) cho dữ liệu gọi đi của thuê bao như trong bảng 3.3.
Bảng 3.3. Các biến đặc trưng cho dữ liệu gọi đi của thuê bao
STT Tên biến Ý nghĩa
1 Number of calls overall Tông số lương cuộc gọi.
2 Total call duration overall Tông thời gian gọi
3 Average call duration Thời gian trung bình một cuộc gọi
4 No of distinct province Mã số tỉnh/Tp
5 No of distinct district Mã số quận/huyện
6 No of distinct to_phone_num Số lương thuê bao gọi đi
7 No of distinct imei Số imei của thuê bao
8 Total call duration by POD Tông thời gian gọi theo POD
9 Max call duration by POD Cuộc gọi dài nhât theo POD
10 Avg call duration by POD Thời gian TB các cuộc gọi theo POD
11 Total no. of calls by POD Tông số cuộc gọi theo POD
12 Total no. of calls by QualityCall Tông số cuộc gọi co chât lương tốt (Y/N)
13 Total no. of calls by og-call-to Tông số cuộc gọi đi
14 Avg call duration by og-call-to Thời gian trung bình các cuộc gọi đi
15 Total no. of calls by DayType Tông số cuộc gọi theo DT
16 Avg call duration by DayType Thời gian trung bình cuộc gọi theo DT.
17 Total no. of calls by WFLD Tông cuộc gọi băng WFLD
18 Avg call duration by WFLD Thời gian trung bình cuộc gọi băng WFLD
19 Number of dropped calls overall Tông số cuộc gọi rơt mạng.
Trong đo:
Period of Day (POD): Khoảng thời gian trong ngày, đươc phân thành 04
khoảng thời gian (pod_1 từ 0h đến 6h sang; pod_2 từ 7h -12h; pod_3 từ 13h -
18h; pod_4 từ 19h-24h).
Daytype (DT): Phân loại theo ngày (Ngay đi lam: wd; ngay nghỉ: we).
71
Location (province & district): Vi tri thuê bao (theo tỉnh/Tp, quận/huyện).
Og_call_to: Cuộc gọi đi.
QualityCall (QC): Cuộc gọi chât lương
WeeksBeforeLastDate (WFLD): Tuần trươc ngày cuối cùng của chu kỳ thanh
toán.
3.3.1.2. Dữ liêu goi đên cua thuê bao (VOICE_IC).
- Thông tin dữ liệu thô: Chi tiết các cuộc gọi đi
- Tạo các biến cho dữ liệu gọi đến của thuê bao như trong bảng 3.4.
Bảng 3.4. Các biến đặc trưng cho dữ liệu gọi đến của thuê bao
STT Tên biến Ý nghĩa
1 Number of calls overall Tông số lương cuộc gọi.
2 Total call duration overall Tông thời gian gọi
3 Average call duration Thời gian trung bình một cuộc gọi
4 No. of distinct from_phone_num Số lương thuê bao gọi đến
5 Total call duration by POD Tông thời gian gọi theo POD
6 Max call duration by POD Cuộc gọi dài nhât theo POD
7 Avg call duration by POD Thời gian trung bình các cuộc gọi theo POD
8 No. of call by POD Tông số cuộc gọi theo POD
9 No. of call by QualityCall Tông số cuộc gọi co chât lương tốt
10 Avg call duration by QualityCall Thời gian trung bình của các cuộc gọi tốt
11 No. of call by ic_call_from Số lương cuộc gọi đến
12 Avg call duration by ic_call_from Thời gian trung bình các cuộc gọi đến
13 No. of call by Daytype Tông số cuộc gọi theo DT
14 Avg call duration by Daytype Thời gian trung bình các cuộc gọi theo DT
15 No. of call by WFLD Tông số cuộc gọi theo WFLD
16 Avg call duration by WFLD Thời gian trung bình cuộc gọi theo WFLD
Trong đo: Ic_call_from: Cuộc gọi đến.
3.3.1.3. Dữ liêu nhăn tin đi cua thuê bao (SMS_OG)
- Thông tin dữ liệu thô: Chi tiết dữ liệu tin nhắn đi
- Tạo các biến cho dữ liệu nhắn tin đi của thuê bao như trong bảng 3.5.
Bảng 3.5. Các biến đặc trưng cho dữ liệu nhăn tin đi của thuê bao
STT Tên biến Ý nghĩa
1 Number of sms overall Tông số lương tin nhắn
2 Number of distinct to_phone_num Số lương thuê bao nhắn đi
3 Number of sms by og_sms_to Số lương tin nhăn đi
4 Number of sms by Daytype Số lương tin nhắn theo DT
72
STT Tên biến Ý nghĩa
5 Number of sms by wfld Số lương tin nhắn theo WLFD
6 Number of sms by POD Số lương tin nhắn theo POD
Trong đo: og_sms_to: Tin nhắn đi.
3.3.1.4. Dữ liêu nhăn tin đên cua thuê bao (SMS_IC)
- Thông tin dữ liệu thô: Chi tiết dữ liệu tin nhắn đến
- Tạo các biến cho dữ liệu nhắn tin đến của thuê bao như trong bảng 3.6.
Bảng 3.6. Các biến đặc trưng cho dữ liệu nhăn tin đi của thuê bao.
STT Tên biến Ý nghĩa
1 Number of sms overall Tông số lương tin nhắn
2 Number of distinct from_phone_num Số lương thuê bao nhắn đến
3 Number of sms by ic_sms_from Số lương tin nhăn đến
4 Number of sms by Daytype Số lương tin nhắn theo DT
5 Number of sms by WFLD Số lương tin nhắn theo WLFD
6 Number of sms by POD Số lương tin nhắn theo POD
Trong đo: ic_sms_from: Tin nhắn đến.
3.3.1.5. Dữ liêu vê sư dung Data cua thuê bao (GPRS)
- Thông tin dữ liệu thô: Chi tiết tưng phiên kết nối dữ liệu data.
- Tạo các biến cho dữ liệu sử dụng Data của thuê bao như trong bảng 3.7.
Bảng 3.7. Các biến đặc trưng cho dữ liệu sử dụng Data của thuê bao
STT Tên biến Ý nghĩa
1 No. of data sessions Tông số phiên kết nối.
2 Total up-down-volume
3 Average volume per session Lương dữ liệu trung bình của một phiên
4 Max session volume Lương dữ liệu lơn nhât của một phiên.
5 Min session volume Lương dữ liệu nhỏ nhât của một phiên.
6 Std. dev. In session volume
7 Total volume by POD Tông dữ liệu tiêu dùng theo POD
8 Max volume by POD Lương dữ liệu Max theo POD
9 Avg volume by POD Lương dữ liệu trung bình theo POD
10 Total volume by Daytype Tông dữ liệu tiêu dùng theo DT
11 Max volume by Daytype Lương dữ liệu Max theo DT
12 Avg volume by Daytype Lương dữ liệu trung bình theo DT
13 Total volume by WFLD Tông dữ liệu tiêu dùng theo WFLD
14 Avg volume by WFLD Lương dữ liệu Max theo WFLD
15 Max volume by WFLD Lương dữ liệu trung bình theo WFLD
73
3.3.1.6. Dữ liêu tiêu dung hang ngay cua thuê bao (TOT_CHARGE_DAILY)
- Thông tin dữ liệu thô: Chi tiết tiêu dùng hàng ngày
- Tạo các biến như trong bảng 3.8.
Bảng 3.8. Các biến đặc trưng cho dữ liệu tiêu dùng hàng ngày của thuê bao
STT Tên biến Ý nghĩa
1 Number of days that charges were
incurred Số ngày phát sinh cươc
2 Total org charges Tông số cươc phát sinh tiêu dùng gốc
3 Ratio of total org charges by daytype Tỷ lệ phát sinh cươc tiêu dùng gốc theo DT
4 Ratio of total voice org charge (over
total org charges)
Tỷ lệ cươc thoại tiêu dùng gốc (trên tông số
cươc).
5 Ratio of total sms org charge Tỷ lệ cươc phát sinh tiêu dùng gốc SMS
6 Ratio of total data org charge Tỷ lệ cươc phát sinh tiêu dùng gốc DATA
7 Ratio of total mms org charge Tỷ lệ cươc phát sinh tiêu dùng gốc MMS
8 Subscribed data pkg (Y/N) Thuê bao co sử dụng data (C/K).
9 Ratio of total vas_voice org charge Tỷ lệ cươc phát sinh tiêu dùng gốc
vas_voice
10 Ratio of total vas_sms org charge Tỷ lệ cươc phát sinh tiêu dùng gốc vas_sms
11 Ratio of total vas_data org charge Tỷ lệ cươc phát sinh tiêu dùng gốc vas_data
12 Ratio of total vas_others org charge Tỷ lệ cươc phát sinh tiêu dùng gốc
vas_others
13 Ratio of total org charges (over total
charges)
Tỷ lệ cươc tiêu dùng gốc (so sánh vơi tông
cươc phát sinh).
14 Total RS charges Tông cươc RS
15 Total RV charges Tông cươc RV
16 Total free voice duration Tông thời lương thoại miễn phi.
17 Total free sms times Tông thời lương sms miễn phi.
18 Total free data volume Tông thời lương data miễn phi.
3.3.1.7. Dữ liêu vê thông tin nap tiên (TOPUP)
- Thông tin dữ liệu thô: Chi tiết nạp tiền tài khoản tiêu dùng.
- Tạo các biến như trong bảng 3.9.
Bảng 3.9. Các biến đặc trưng cho dữ liệu nạp tiền của thuê bao
STT Tên biến Ý nghĩa
1 Total count of refill times Tông số lần nạp tiền.
2 Total topup amount Tông số tiền nạp
3 Maximum amount after topup Số tiền tối đa sau khi nạp
74
STT Tên biến Ý nghĩa
4 Minimum amount before topup Số tiền tối thiểu sau khi nạp
5 Maximum refill amount Số tiền nạp tối đa
6 Avg refill amount Số tiền trung bình các lần nạp
7 Avg amount after topup Số tiền trung bình sau khi nạp
8 Avg amount before topup Số tiền trung bình trươc khi nạp
9 No. of distinct province topup is done Số tỉnh đươc nạp tiền
10 No. of distinct district topup is done Số quận đươc nạp tiền
11 Count of refill times by Daytype Số lần nạp tiền theo DT.
12 Total topup amount by daytype Tông số tiền nạp theo DT
13 Ratio of refill times by daytype Tỷ lệ số lần nạp tiền theo DT
14 Ratio of refill amount by daytype Tỷ lệ số lương nạp tiền theo DT
15 Refill_diff_province (Y/N) Co nạp khác tỉnh không (C/K)
16 Refill_diff_district (Y/N) Co nạp khác quận không (C/K)
3.3.1.8. Dữ liêu sô dư tai khoan (ACCOUNT2_DAY)
- Thông tin dữ liệu thô: Chi tiết tiêu dùng tài khoản hàng ngày của tưng thuê bao.
Tạo các biến như trong bảng 3.10.
Bảng 3.10. Các biến đặc trưng cho dữ liệu số dư tai khoản của thuê bao
STT Tên biến Ý nghĩa
1 Min basic account balance Số dư tài khoản tối thiểu
2 Max basic account balance Số dư tài khoản tối đa
3 Avg basic account balance Số dư trung bình của tài khoản
4 Std dev. basic account balance
5 Avg promotion account balance Số dư tài khoản khuyến mãi trung bình.
3.3.1.9. Dữ liêu trư cước phí các gói sư dung theo chu kỳ (DAILYFEE)
- Thông tin dữ liệu thô: Hô sơ chi tiết khoản khâu trư phí gói dữ liệu. Tạo các biến
như trong bảng 3.11.
Bảng 3.11. Các biến đặc trưng cho dữ liệu cước phí các gói sử dụng theo chu kỳ
của thuê bao
STT Tên biến Ý nghĩa
1 Level of account balance after each
dailyfee deduction (Low/OK/NA)
Mức tài khoản sau mỗi lần khâu trư
hàng ngày (Thâp / OK / NA)
75
3.3.1.10. Dữ liêu tổng hợp charge cước sư dung các dich vu VAS (VAS_CDR_DAY)
- Thông tin dữ liệu thô: Chi tiết về đăng ký / sử dụng dich vụ vas. Tạo các biến
như trong bảng 3.12.
Bảng 3.12. Các biến đặc trưng cho dữ liệu tổng hợp charge cước sử dụng các
dịch vụ VAS của thuê bao
STT Tên biến Ý nghĩa
1 Total count of chargeable vas Tông số cươc VAS
2 Total count of non-chargeable vas Tông số cươc VAS không tinh ph.i.
3 Total count of each chargeable vas by
vas_type Tông số cươc VAS theo vas_type
Trong đo:
chargeable_vas (charge_type = 1),
non_chargeable_vas (charge_type = -1 and total_charge < 0)
3.3.1.11. Dữ liêu home (HOME_ACC)
- Thông tin dữ liệu thô: Chi tiết vi tri thuê bao thường xuyên theo ngày. Tạo các
biến như trong bảng 3.13.
Bảng 3.13. Các biến đặc trưng cho dữ liệu home của thuê bao
STT Tên biến Ý nghĩa
1 Number of distinct home locations over the
month Số vi tri của thuê bao trong tháng
3.3.1.12. Dữ liêu thông tin thuê bao, khách hàng (PRE-SUBS)
- Thông tin dữ liệu thô: Thông tin chi tiết tưng thuê bao
- Tạo các biến như trong bảng 3.14.
Bảng 3.14. Các biến đặc trưng cho dữ liệu thông tin thuê bao, khách hàng
STT Tên biến Ý nghĩa
1 Age Tuôi
2 Sex (3 categories) Giơi tinh (theo 3 loại)
3 Data package subscribed Goi Data đăng ký
4 Dcom flag (1 or 0) Co phải thuê bao Dcom không (1/0)
76
3.3.2. Lưa chon đăc trưng va mô hình hoa
3.3.2.1. Lưa chon cac thuộc tinh quan trong băng thuât toan Decision Tree
- Băng cách huân luyện một cây quyết đinh cho mỗi nguôn dữ liệu. Ở đây, thực
nghiệm đã sử dụng Cây quyết đinh (độ phức tạp cao) để phù hơp vơi dữ liệu
huân luyện, vơi mục đich xác đinh tât cả các thuộc tinh co liên quan đến kết
quả rời mạng.
- Trích xuât các thuộc tính quan trọng tư Cây quyết đinh theo thứ tự. Mục đich
là tối ưu toàn bộ 1270 biến thành một tập hơp con nhỏ hơn để xử lý mô hình
huân luyện nhanh hơn. Kết quả thu gọn thành 703 thuộc tinh, bao gôm các
nhom như trong bảng 3.15.
Bảng 3.15. Lưa chon cac thuôc tinh quan trong băng thuât toan Decision Tree
Data Source Initial Number
of Attributes
New Number
of Attributes
VOICE_OG 286 210
VOICE_IC 268 90
SMS_OG 92 64
SMS_IC 92 68
GPRS 196 92
TOTAL_CHARGE_DAILY 108 44
TOPUP 120 57
ACCOUNT2_DAY 30 30
DAILYFEE 6 6
VAS_CDR_DAY 66 32
HOME_ACC 6 6
PRE-SUBS 4 4
Total 1274 703
77
Hình 3.6. Phương phap huấn luyện 1 cây quyết định cho mỗi nguồn dữ liệu.
Hình 3.7. Căt bỏ cac mức thấp và trích xuất các nút từ các cấp cao hơn
78
Hình 3.8. Mô tả cây quyết định trên Rapidminer.
79
Hình 3.9. Cac thuôc tính quan trọng sau khi căt bỏ.
3.3.2.2. Huân luyên va xac nhân mô hinh rơi mang.
- Trong số ~ 4,5 triệu khách hàng, chúng tôi đã lây mâu ngâu nhiên ~ 500.000
khách hàng không rời mạng và kết hơp vơi no vơi ~ 500.000 khách hàng rời
mạng đã biết trươc, chúng tôi co một bộ dữ liệu theo mô hình học máy của ~
1 triệu khách hang
- Phân chia quá trình xác nhận, về cơ bản chia ~ 1 triệu khách hàng thành 2
phần: 80% và 20%. Trong đo 80% dữ liệu khách hàng và các thuộc tinh tương
ứng đươc sử dụng để huân luyện cây quyết đinh, 20% con lại đươc sử dụng để
kiểm tra cây quyết đinh sau khi đươc huân luyện. Cây quyết đinh sau khi đươc
huân luyện sử dụng 703 thuôc tính (như đa noi ơ trên).
Bảng 3.16. Validation of the Training Data Set (80% of Total)
True (No Churn) True (Churn) Precision
Predict (No Churn) 318.587 113.905 0.74
Predict (Churn) 83.809 280.781 0.77
Recall 0.79 0.71
Bảng 3.17. Validation of the Testing Data Set (20% of Total).
True (No Churn) True (Churn) Precision
Predict (No Churn) 79.328 28.895 0.73
80
Predict (Churn) 21.117 70.696 0.77
Recall 0.79 0.71
* Sử dụng đồng thơi các mô hinh khác cho kêt qua:
- Logistic Regression: Validation of the Testing Data Set (20% of Total)
Bảng 3.18. Sử dụng Logistic Regression
True (No Churn) True (Churn) Precision
Predict (No Churn) 63003 20296 0.76
Predict (Churn) 37982 78469 0.67
Recall 0.62 0.79
- Naïve Bayes: Validation of the Testing Data Set (20% of Total)
Bảng 3.19. Sử dụng Naïve Bayes
True (No Churn) True (Churn) Precision
Predict (No Churn) 81614 73281 0.53
Predict (Churn) 19548 23782 0.55
Recall 0.81 0.25
Kêt luận:
So sánh các kết quả cho ta thây sử dụng mô hình dự báo theo cây quyết đinh
cho ta kết quả chinh xác hơn. Tuy nhiên các yêu cầu về độ chinh xác vân chưa đạt
theo KPI yêu cầu đặt ra của đề bài. Độ chinh xác của mô hình tốt nhât chỉ đạt 75%
(so vơi đề bài là 85%), độ nhạy đạt 73% (so vơi 75%) thể hiện ở bảng 3.20. Do
đo cần phai tối ưu mô hinh dự báo.
Bảng 3.20. So sánh các kết quả
Độ đo Decision Tree Logistic Regression Naïve Bayes
Đô chính xác Accuracy 0.75 0.71 0.53
Ty lệ lôi Error rate 0.25 0.29 0.47
Đô nhạy Recall 0.73 0.76 0.53
Đô hiệu dụng Precision 0.79 0.62 0.81
3.3.3. Tối ưu mô hình dư bao.
Tiếp tục kế thưa bươc lựa chọn các thuộc tinh quan trọng băng thuật toán
Decision Tree, qua đo giảm số thuộc tính tư 1274 xuống 704
81
3.3.3.1. Tôi ưu băng cach phân nhom khach hang theo hanh vi sư dung.
Phân cụm khách hàng thành 4 nhóm sử dụng thuật toán K-mean, sử dụng một số
thuộc tinh liên quan đến: vog, vic, sog, sin và gprs. Kết quả ta tìm thây 4 cụm và
profile tưng thuê bao trong 4 nhóm sử dụng như trong bảng 3.21 – 3.22.
Bảng 3.21. Kết quả phân cụm bằng thuật toan K-mean.
Bảng 3.22. Kết quả chi tiết phân cụm bằng thuật toan K-mean
TT Phân lơp tiêu dung Số lương Ty lệ (%) Ghi chu
- Tra trước 4,516,047
1 Thoại nhiều 3.082.885 68,3% Cluster_0
2 SMS nhiều 823.704 18,2% Cluster_3
3 Data nhiều 87.168 11,6% Cluster_2
4 Dùng đều thoại, data, SMS 522. 290 1,9% Cluster_1
- Tra sau 1,111,019
1 Thoại nhiều 566.561 48,9% Cluster_0
2 SMS nhiều 253.207 21,8% Cluster_3
3 Data nhiều 286.133 24,7% Cluster_2
4 Dùng đều thoại, data, SMS 51.180 4,4% Cluster_1
Trên cơ sở phân cụm dữ liệu thuê bao thành 4 nhom theo hành vi người dùng
noi trên, ta lựa chọn 630k (200k cho mỗi cụm 0,1,3 và 30k cho cụm 2, đươc lây
mâu ngâu nhiên) trong tông số 4,5 triệu thuê bao. Các tập dữ liệu này đươc sử
dụng để mô hình hoa & xác nhận, mức phân chia 70:30. Trong đo:
+ Theo phân phối lớp ban đầu trong toan bô thuê bao (ví dụ: cluster0 ở
~90:10). Không lấy mẫu lên/xuống
+ Mỗi môt cụm chúng ta sẽ lấy 1 bô đặc trưng.
+ Mỗi cụm sử dụng môt mô hình.
3.3.3.2. Tìm tỷ lê tôi ưu cua xác nhân phân tach.
Cách tiếp cận đươc đề xuât rât đơn giản, thực nghiệm sẽ giữ cố đinh 20% bộ
kiểm tra, và sau đo thay đôi bộ huân luyện tư 80% đến 70% đến 60%, giảm dần
xuống 20% (bươc giảm 10%) và quan sát độ chinh xác. Ở mỗi một giai đoạn, giả
82
sử ở mức 40%, mô hình sẽ có hiệu suât giảm mạnh, do đo tỷ lệ xác thực phân tách
là 40: 20, tương đương vơi 67%: 33%
3.3.3.3. Tìm cỡ mẫu tôi ưu cho huân luyên
Cách tiếp cận đươc đề xuât rât đơn giản, đối vơi mô hình đào tạo, vi dụ mâu
10% của 4,5 triệu, tiếp theo là 20% và tiếp theo (bươc tăng 10%), cho mỗi lần, sẽ
cho một độ chính xác của mô hình. Ở một giai đoạn nào đo, độ chính xác sẽ đạt
đến giơi hạn và đo chinh là là kich thươc tối ưu.
3.3.3.4. Tôi ưu mô hinh băng cach lưa chon lai cac đăc trưng
Băng cách chạy lựa chọn (trong bộ nhơ) cho mỗi cụm để giữ tối đa 50 đặc
trưng. Kết quả trả về tối đa 13 thuộc tính cho một trong các cụm, số này không lý
tưởng, vì vậy thực nghiệm vân gắn các mâu của tưng cụm vào cây quyết đinh.
Các đặc trưng quan trọng của cây đươc trích xuât và kết hơp vơi các thuộc tính
đươc trích xuât tư việc lựa chọn đặc trưng noi trên. Kết quả: 32 thuộc tinh cho
cluster 0; 37 thuộc tinh cho cluster 1; 15 thuộc tinh cho cluster 2; 31 thuộc tinh
cho cluster 3
Bảng 3.23. Tối ưu mô hình bằng cách lưa chọn lại cac đặc trưng
TT Phân loai cụm Lưa chon đăc trưng
1 Cluster_0 Thoại nhiều 32 thuộc tinh quan trọng
2 Cluster_3 SMS nhiều 37 thuộc tinh quan trọng
3 Cluster_2 Data nhiều 15 thuộc tinh quan trọng
4 Cluster_1 Dùng đều thoại, data, SMS 31 thuộc tinh quan trọng
3.3.3.5. Xac đinh lai cac tham sô cua mô hinh tôi ưu
Đầu tiên, thực nghiệm sẽ huân luyện cây quyết đinh, sử dụng các độ phức tạp
khác nhau để kiểm tra các mô hình. Mô hình phức tạp tốt nhât đươc chọn dựa trên
giá tri AUC của bộ kiểm tra khi kiểm tra xác thực phân tách.
Độ phức tạp tối ưu này đươc sử dụng trong xử lý huân luyện mô hình sau vơi
thuật toán random forest. Chạy no trên cluster0 (Thoại nhiều), ta tim thấy các
tham số tốt nhất nên được đặt là:
Đô sâu = 20
Kích thước lá tối thiểu = 4
Mức tăng tối thiểu = 0,0145
83
Hình 3.10. Mô hình tối ưu.
3.3.3.6. Lưa chon mô hinh dư đoan tôt nhât
- Các mô hình huân luyện & đánh giá đươc lựa chọn: Deep Learning, Random
Forest (các tham số cây tuân theo các giá trị được mô tả trong slide cuối
cùng), mô hình Gadient Boosting và mô hình Ensemble. Trong đo, mô hình
huân luyện theo mô hình ensemble sử dụng phương pháp lây trung bình điểm
tin cậy.
- Kiểm tra AUC (bộ huân luyện & bộ kiểm tra) cho tưng mô hình cho thây mô
hình hoạt động tốt nhât đươc tìm thây là mô hình Gadient Boosting.
Bảng 3.24. Lưa chọn mô hình dư đoan tốt nhất.
3.3.3.7. Chay lai mô hinh dư bao với thuât toan Gradien Booting.
Sau khi đã tối ưu mô hình, kết quả dự báo theo thuật toán Gradien Booting đối
vơi mâu 200k – cluster 0 đã cho kết quả dự báo vơi độ chinh xác hơn là 81% đạt
yêu cầu bài toán đặt ra:
Bảng 3.25. Mô hình dư báo với thuật toán Gradien Booting
TT Tập thuê bao Thuê bao rơi mang
Chi tiêu KPI Dự báo Thực tế
84
1 Trả trươc 209.425 169.789 Đô chính xác: 81,1%
Đô nhạy: 60,3%
2 Trả sau 46.073 41.051 Độ chính xác: 89,1%
Độ nhạy: 75,6%
3.4. ĐANH GIA THU HOACH
3.4.1. Kết quả đâu ra cua hệ thống phân tich, dư bao thuê bao rơi mang.
- Danh sách TB có khả năng RM phân 04 nhom tiêu dùng theo hương hành vi
sử dụng: Thoại, SMS, Data và hỗn hơp.
- Dâu hiệu nhận biết TBRM, so sánh hành vi của thuê bao có và không RM.
Trong đo, co 11 dâu hiệu có thể nhận biết đươc vào tháng trươc khi rời mạng,
có 2 dâu hiệu có thể nhận biết đươc trươc 2-3 tháng, 17 dâu hiệu nhận biết
đươc trươc RM 4 tháng.
3.4.2. Tri thưc thu đươc sau thưc nghiệm.
- Thiết kế hệ thống: Học đươc cách tô chức tối ưu, hơp lý cụm Hadoop theo mô
hình backup dữ liệu để xây cụm cho VBI.
- Xử lý dữ liệu: cách nhìn, phát hiện các biến mơi, có vai trò quan trọng cho
model dự báo, làm kỹ phần variables transformation, lọc biến khi xây và chuân
hóa model. Sử dụng đông thời nhiều thuật toán, sàng lọc kỹ các tham số trươc
khi chọn ra thuật toán tối ưu.
Kinh nghiệm rút ra khi xử lý phân tich dữ liệu:
- Về cách làm: Làm bài bản và rât kỹ phần chuyển hóa dữ liệu, sàng lọc các
biến quan trọng, ảnh hưởng nhât đến model dự báo (chiếm 70% thành công
của bài toán phân tích), kết quả đầu ra đươc chứng minh băng rât nhiều thông
tin quan trọng tư dữ liệu thô ban đầu.
- Cách nhìn mới về thuôc tính dư liệu: phát hiện các biến chưa tưng nhìn trươc
đây như: nhìn hành vi tiêu dùng tại nhiều thời điểm/khung giờ khác nhau trong
một ngày (0g-12g-18g); phân biệt giữa ngày làm việc (Thứ Hai-Thứ Sáu) vơi
cuối tuần (T7-CN); nhìn dữ liệu theo tưng tuần... Kết quả đầu ra cho thây, rât
nhiều biến mơi khi đưa vào model dự báo cung là những biến quan trọng, thể
hiện ro đặc điểm hành vi của TBRM.
85
86
KẾT LUẬN
Nhưng đong gop của luận văn:
Vơi mục tiêu "TÔ CHƯC VÀ TÍCH HƠP HỆ THỐNG PHÂN TÍCH DỮ
LIỆU LƠN PHỤC VỤ CÔNG TÁC DƯ BÁO TRONG VIÊN THÔNG". Luận
văn đã nghiên cứu tông quan về dữ liệu lơn, các đinh nghĩa, đặc trưng và kiến trúc
của BigData, nghiên cứu mô hình dữ liệu lơn và thực nghiệm cho việc xây dựng
công cụ phân tich dự báo TBRM.
Nhưng kêt qua chính đa đạt được trong luận văn:
- Khái quát đươc một số vân đề về kiến trúc BigData, các mô hình dữ liệu lơn,
các mô hình phân tich dự báo.
- Nêu đươc phương pháp tô chức, cách triển khai hệ thống BigData và xây dựng
kich bản thực nghiệm phân tich dự báo TBRM vơi dữ liệu của Viettel.
Hướng phát triển của luận văn:
- Hoàn thiện công cụ và triển khai thực tế hệ thống phân tich dự báo TBRM, sử
dụng co hiệu quả trong việc chăm soc và giữ gìn thuê bao của Viettel.
- Tich hơp công cụ này vào hệ sinh thái BigData tông thể của Viettel, xem đây
là một trong những công cụ chinh trong hệ thống chăm soc khách hàng chủ
động (CEM). Ngoài ra, thường xuyên tối ưu mô hình dự báo để công cụ dự
báo hoạt động vơi tỷ lệ ngày càng chinh xác hơn.
87
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1]. Lo Thi Phương Nhung & Nguyễn Mai Phương, BigData: Tac đông va xu
hướng phat triển, Tạp chi Khoa học công nghệ Việt Nam, số 7 năm 2017.
[2]. Vu Đức Thi, Công nghệ tri thức, Nhà xuât bản khoa học tự nhiên và công
nghệ, Hà Nội, tr 17-20.
[3]. Nguyễn Thanh Thủy, Hà Quang Thụy, Phan Xuân Hiếu, Nguyễn Tri Thành
- Trí tuệ nhân tạo trong thơi đại số: Bối cảnh thế giới va liên hệ với Việt Nam –
Báo Công thương, (2018).
Tiếng Anh.
[4]. Marek Obitko, Industry 4.0 and BigData, http://www. stech.cz/ Portals/0/
Konference/ 2015/ 03%20Industry-/ PDF/03_ obitko.pdf
[5]. Thomas Erl, Wajid Khattak, and Paul Buhler, BigData Fundamentals,
Concepts, Drivers & Techniques (2016)
[6]. E Zeydan, E Bastug, M Bennis, BigData caching for networking: Moving
from cloud to edge, (2016).
[7]. E Baştuğ, M Bennis, E Zeydan - Big Data meets telcos: A proactive
caching perspective, (2015).
[8]. DZ Yazti, S Krishnaswamy, Mobile big data analytics: research, practice,
and opportunities, (2014).
88
[9]. Y Huang, F Zhu, M Yuan, K Deng, Y Li, B Ni, Telco churn prediction
with big data, (2015)
[10]. I Malaka, I Brown, Challenges to the organisational adoption of big data
analytics: a case study in the South African telecommunications industry, (2015)
[11]. M Matti, T Kvernvik - Ericsson Review [PDF], Applying big-data
technologies to network architecture, (2012).
[12]. Y Chen, C Xu, W Rao, H Min - Octopus: Hybrid big data integration
engine, (2015)
[13]. A Idris, M Rizwan, A Khan - Computers & Electrical Engineering, Churn
prediction in telecom using Random Forest and PSO based data balancing in
combination with various feature selection strategies, (2012)
[14]. A Idris, A Khan, YS Lee - Applied intelligence, Intelligent churn
prediction in telecom: employing mRMR feature selection and RotBoost based
ensemble classification, (2013).
[15]. D Zhang, M Chen, M Guizani, H Xiong, Mobility prediction in telecom
cloud using mobile calls, (2014)
[16]. A Idris, A Khan, YS Lee, Genetic programming and adaboosting based
churn prediction for telecom, (2012)
[17]. V Mahajan, R Misra, R Mahajan, Review of data mining techniques for
churn prediction in telecom, (2015).
89
[18]. N Lu, H Lin, J Lu, G Zhang, A customer churn prediction model in telecom
industry using boosting (2012)
[19]. PK Dalvi, SK Khandge, A Deomore, Analysis of customer churn prediction
in telecom industry using decision trees and logistic regression, (2016).
90
PHỤ LỤC 1.1. ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI
MẠNG TRẢ TRƯỚC - PHÂN THEO 4 NHÓM HÀNH VI
Nhom 1: Thoai la chu yếu
Số cuộc gọi đi tuần cuối cùng trươc khi rời mạng (tức tuần tư 24/6-
1/7/2016): <= 3 cuộc/tuần
Số ngày phát sinh cươc của tháng 1/2016: <=16 ngày/th
Số tin nhắn nhận đươc tuần cuối trươc khi RM (tuần tư 24/6-1/7/2016):
<=15 SMS/tuần
Số cuộc gọi đi trong khoảng thời gian tư 18g00-0g00 của tháng 4/2016:
Không có nhiều khác biệt về nguy cơ rủi ro RM giữa các phân lơp có số
cuộc gọi đi khác nhau. Nguy cơ rủi ro RM đều ~ 50%.
Số tin nhắn gửi đi trong những ngày làm việc (thứ Hai-thứ Sáu) của tháng
1/2016: <=11 SMS/th (5 ngày/tuần: Mon-Fri)
Độ lệch chuân của số dư tài khoản gốc (biên độ dao động trong số dư tài
khoản gốc trong ngày - xác đinh tại thời điểm cuối mỗi ngày) của tháng
5/2016: Không có nhiều khác biệt về nguy cơ rủi ro RM giữa các TK có số
dư dao động khác nhau. Nguy cơ RM đều ~50%.
Số cuộc gọi nhận đươc tuần cuối cùng trươc khi rời mạng: <=1 cuộc/tuần
Số lương dich vụ vas cơ bản sử dụng trong tháng 5/2016: Không có nhiều
khác biệt về nguy cơ rủi ro RM giữa các phân lơp tiêu dùng VAS khác
nhau. Nguy cơ RM đều ở mức ~50%
Số lương thuê bao tư các cuộc gọi đến trong tháng 1/2016: <=10 số thuê
bao/th
Số dư trung bình tài khoản gốc (thời điểm cuối mỗi ngày) của tháng 1/2016:
<=2.500đ/ngày
Nhom 2: Hôn hơp (dung đều thoai, data, SMS)
Số cuộc gọi đi tuần cuối cùng trươc khi rời mạng (tức tuần tư 24/6-
1/7/2016): <= 1 cuộc/tuần
Số ngày phát sinh cươc của tháng 1/2016: <=12 ngày/th
Số tin nhắn nhận đươc tuần cuối trươc khi RM (tuần tư 24/6-1/7/2016):
<=12 SMS/tuần
Số cuộc gọi đi trong khoảng thời gian tư 18g00-0g00 của tháng 4/2016:
Không có nhiều khác biệt nguy cơ rủi ro RM giữa các phân lơp. Nguy cơ
RM của các nhóm có số lương cuộc gọi khác nhau đều ~40%.
Độ lệch chuân của số dư tài khoản gốc (biên độ dao động trong số dư tài
khoản gốc trong ngày - xác đinh tại thời điểm cuối mỗi ngày) của tháng
91
5/2016: Không có nhiều khác biệt về nguy cơ rủi ro RM giữa các TK có số
dư dao động khác nhau. Nguy cơ RM các phân lơp khác nhau đều <50%.
Số cuộc gọi nhận đươc tuần cuối cùng trươc khi rời mạng: <=1 cuộc/tuần
Số lương dich vụ vas cơ bản sử dụng trong tháng 5/2016: Không có nhiều
khác biệt nguy cơ rủi ro RM giữa các phân lơp. Nguy cơ RM của các nhóm
sử dụng số lương dich vụ VAS khác nhau đều <50%.
Số cuộc gọi đi tuần cuối cùng trươc khi rời mạng (thời điểm phân tích: tuần
tư 24/6-1/7/2016): <=1 cuộc/tuần
Tông cươc gốc của tháng 1/2016: <=52k/th
Số cuộc gọi nhận đươc tuần cuối cùng trươc khi rời mạng (tuần tư 24/6-
1/7/2016): <=1 cuộc/tuần
Số cuộc gọi đến co độ dài >1 giây trong tháng 4/2016: Không có nhiều khác
biệt nguy cơ rủi ro RM giữa các phân lơp có số cuộc gọi đến dài >1 giây.
Nguy cơ RM đều <50%.
Số tin nhắn gửi đi trong khoảng thời gian tư 12g00-18g00 của tháng 1/2016:
<= 4 SMS/th
Nhom 3: Data la chu yếu.
Số ngày phát sinh cươc của tháng 1/2016: <=4 ngày/th
tông lưu lương data sử dụng trong tuần (tư 8/4-15/4/2016): Không có nhiều
khác biệt nguy cơ rủi ro RM giữa các phân lơp tiêu dùng data khác nhau,
nguy cơ RM đều <50%.
Số lần nạp the trong tháng 1/2016: <=1 lần/th
Số lần sử dụng các dich vụ vas có tính phí trong tháng 2/2016: Không có
nhiều khác biệt nguy cơ rủi ro RM giữa các phân lơp sử dụng số lương dich
vụ VAS co tinh phi khác nhau, nguy cơ RM đều <30%.
Tông lưu lương cuộc gọi đến trong khoảng thời gian tư 6g00:12g00 trong
tháng 5/2016: Không có nhiều khác biệt nguy cơ rủi ro RM giữa các phân
lơp có tông lưu lương cuộc gọi đến khác nhau, nguy cơ RM đều <30%.
Đăng ký goi data trong tháng 1/2016 (Co/Không): Không
Lưu lương trung bình các cuộc gọi đến trong tháng 1/2016 (chỉ tính những
ngày làm việc: thứ Hai-thứ Sáu): <=1 phút/th
Số lần sử dụng các dich vụ vas không tính phí trong tháng 5/2016: Không
có nhiều khác biệt nguy cơ rủi ro RM giữa các phân lơp sử dụng các dich
vụ VAS không tinh phi khác nhau, nguy cơ RM đều <30%.
Thuê bao Dcom (Có/Không): Tât cả đều không phải thuê bao Dcom, nguy
cơ RM đều <30%
Lưu lương trung bình các cuộc gọi đi trong tuần (tư 5/2 - 12/2/2016): Không
có nhiều khác biệt nguy cơ rủi ro RM giữa các phân lơp co lưu lương trung
bình các cuộc gọi đi khác nhau, nguy cơ RM đều <30%.
92
Nhom 4: SMS la chu yếu.
Số cuộc gọi đi tuần cuối cùng trươc khi rời mạng (tức tuần tư 24/6-
1/7/2016): <=1 cuộc/tuần
Số tin nhắn nhận đươc tuần cuối trươc khi RM (tuần tư 24/6-1/7/2016): <=7
SMS/tuần
Tông cươc gốc của tháng 1/2016: <=68k/th
Tông lưu lương data sử dụng tuần cuối cùng trươc khi rời mạng (tư 24/6-
1/7/2016): <=26Mb/tuần
Số dư cao nhât trong ngày của tài khoản gốc, xét trong tháng 1/2016: max
<=18k/ngày
Số cuộc gọi đi trong tuần (tư 27/5-3/6/2016): <=2 cuộc/tuần
Số cuộc gọi đi trong tuần (tư 15 - 22/1/2016): Không có nhiều khác biệt
nguy cơ rủi ro RM giữa các phân lơp có số gọi đi khác nhau, nguy cơ RM
đều ~ 60%.
Số tin nhắn gửi đi tơi các đầu số ngắn trong tháng 4/2016: Không có nhiều
khác biệt nguy cơ rủi ro RM giữa các phân lơp có số SMS gửi đi khác nhau,
nguy cơ RM đều ~ 50%.
Số thuê bao nhận tư các cuộc gọi đến trong tháng 5/2016: Không có nhiều
khác biệt nguy cơ rủi ro RM giữa các phân lơp có số thuê bao nhận tư các
cuộc gọi đến khác nhau, nguy cơ RM đều ~ 60%.
Giá tri the nạp trung bình trong tháng 5/2016: Không có nhiều khác biệt
nguy cơ rủi ro RM giữa các phân lơp có số lần nạp the khác nhau, nguy cơ
RM đều ~ 60%.
93
PHỤ LỤC 1.2. ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI
MẠNG TRẢ SAU- PHÂN THEO 4 NHÓM HÀNH VI
Nhom 1: Thoai nhiều
Lưu lương thoại (chiều đi) trung bình tuần cuối cùng trươc khi rời mạng
(tuần tư 24/6-1/7/2016): <62 phút/tuần
Số cuộc gọi đi ngày cuối tuần (T7,CN) tháng cuối cùng trươc khi rời mạng
(6/2016): Không có nhiều khác biệt về nguy cơ rủi ro RM giữa các phân
lơp
Tông cươc thanh toán tháng 1/2016: <69.174 đông/tháng
Số cuộc gọi đến tuần cuối cùng trươc khi rời mạng (tuần 24/6-1/7/2016):
<8 cuộc/tuần
Tỷ lệ cươc sử dụng dich vụ Vas so vơi tông cươc tháng 6/2016: Không có
nhiều khác biệt về nguy cơ rủi ro RM giữa các phân lơp
Các phương thức thanh toán cươc sử dụng trong tháng 1/2016: <2 hình thức
thanh toán/tháng
Số lần thanh toán cươc có ghi nhận trong tháng 1/2016: <2 lần/tháng
Số ngày phát sinh cươc trong tháng 2/2016: Không nhìn rõ về khác biệt
nguy cơ rời mạng giữa các phân lơp
Nhom 2: Hôn hơp
Lưu lương thoại (chiều đi) trung bình tuần cuối cùng trươc khi rời mạng
(tuần tư 24/6-1/7/2016). <=3 phút/tuần
Tông cươc thanh toán tháng 1/2016: <1 đông/tháng
Số cuộc gọi đến tuần cuối cùng trươc khi rời mạng (tuần 24/6-1/7/2016):
<11 cuộc/tuần
Tông dung lương data sử dụng tuần cuối trươc khi rời mạng (24/6-
1/7/2016): <68kb/tuần
Số cuộc gọi đi tuần cuối trươc khi rời mạng (24/6-1/7/2016): <=8 cuộc/tuần
Số ngày phát sinh cươc trong tháng 3/2016: Không nhìn rõ về khác biệt
nguy cơ rời mạng giữa các phân lơp: Không nhìn rõ về khác biệt nguy cơ
rời mạng giữa các phân lơp
Dung lương data sử dụng tối đa (tinh trong tât cả các phiên) tuần cuối trươc
khi rời mạng: <=42kb/tuần
Tông lưu lương thoại đến trong khoảng (6am-12pm) tháng 1/2016: <=840
phút/tháng
Số lương các gói data khác nhau sử dụng trong tháng 3/2016: <=3 gói/tháng
94
Số ngày phát sinh cươc trong tháng 1/2016: Không nhìn rõ về khác biệt
nguy cơ rời mạng giữa các phân lơp
Nhom 3: Tiêu dung thâp
Lưu lương thoại (chiều đi) trung bình tuần cuối cùng trươc khi rời mạng
(tuần tư 24/6-1/7/2016). <1 phút/tuần
Tông cươc thanh toán tháng 1/2016: <15.297 đông/tháng
Số cuộc gọi đến tuần cuối cùng trươc khi rời mạng (tuần 24/6-1/7/2016).
<18 cuộc/tuần
Số cuộc gọi đi tuần cuối trươc khi rời mạng (24/6-1/7/2016): <8 cuộc/tuần
Số ngày phát sinh cươc trong tháng 3/2016: Không nhìn rõ về khác biệt
nguy cơ rời mạng giữa các phân lơp
Dung lương data sử dụng tối đa (tinh trong tât cả các phiên) tuần cuối trươc
khi rời mạng: <158kb/tuần
Số ngày phát sinh cươc trong tháng 1/2016: Không nhìn rõ về khác biệt
nguy cơ rời mạng giữa các phân lơp
Không nhìn rõ về khác biệt nguy cơ rời mạng giữa các phân lơp: Không có
nhiều khác biệt về nguy cơ rủi ro RM giữa các phân lơp
Số cuộc gọi đi tuần 24 (8-15/1/2016): Không có nhiều khác biệt về nguy cơ
rủi ro RM giữa các phân lơp.
Nhom 4: Data&SMS nhiều.
Lưu lương thoại (chiều đi) trung bình tuần cuối cùng trươc khi rời mạng
(tuần tư 24/6-1/7/2016). <2 phút/tuần
Tông cươc thanh toán tháng 1/2016: <=26.927 đông/tháng
Số cuộc gọi đến tuần cuối cùng trươc khi rời mạng (tuần 24/6-1/7/2016).
<14 cuộc/tuần
Tông dung lương data sử dụng tuần cuối trươc khi rời mạng (24/6-
1/7/2016): 29,3Mb/tuần
Số cuộc gọi đi tuần cuối trươc khi rời mạng (24/6-1/7/2016): <9 cuộc/tuần
Dung lương data sử dụng tối đa (tinh trong tât cả các phiên) tuần cuối trươc
khi rời mạng: <=19,8Mb/tuần
Tông lưu lương thoại đến trong khoảng (6am-12pm) tháng 1/2016:
<774kb/tuần
Số ngày phát sinh cươc trong tháng 1/2016: Không nhìn rõ về khác biệt
nguy cơ rời mạng giữa các phân lơp
Lưu lương thoại (chiều đi) trung bình tuần 21 (tuần tư 5-12/2/2016): Không
có nhiều khác biệt về nguy cơ rủi ro RM giữa các phân lơp
Số tin nhắn gửi đến các đầu số ngắn tháng 2/2016: Không có nhiều khác
biệt về nguy cơ rủi ro RM giữa các phân lơp.
95
ĐẠI HỌC QUỐC GIA HA NỘI CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Độc lập - Tư do - Hanh phuc
Ha Nôi, ngay thang năm 2019
BẢN XAC NHẬN ĐÃ SỬA CHỮA CAC THIẾU SÓT CỦA LUẬN VĂN
Trường Đại học Công nghệ đã co Quyết đinh số 1414/QĐ-ĐT ngày 10 tháng 12
năm 2019 về việc thành lập Hội đông châm luận văn Thạc sĩ cho học viên
Nguyễn Chung Thành Hưng, sinh ngày 17/10/1979, tại TP Vinh, Nghệ An, chuyên
ngành Hệ thống thông tin, ngành Hệ thống thông tin.
Ngày 19 tháng 12 năm 2019, Trường Đại học Công nghệ (ĐHCN) đã tô chức cho
học viên bảo vệ luận văn Thạc sĩ trươc Hội đông châm (co biên bản kèm theo). Theo
Quyết nghi của Hội đông châm luận văn Thạc sĩ, học viên phải bô sung và sửa chữa các
điểm sau đây trươc khi nộp quyển luận văn cuối cùng cho Nhà trường để hoàn thiện hô
sơ sau bảo vệ:
1. Chưa co đinh nghĩa về thuê bao rời mạng.
2. Các chương 1, 2 cần rút gọn.
3. Mục lục của luận văn con thiếu một số mục.
4. Bô sung phụ lục thiếu
5. Cần thống nhât các thuật ngữ “đặc trưng”, “thuộc tinh”.
Ngày …. tháng …. năm .….., học viên đã nộp bản luận văn co chỉnh sửa. Chúng tôi
nhận thây răng nội dung, hình thức của luận văn và tom tắt luận văn đã đươc sửa chữa,
bô sung theo các điểm trên của Quyết nghi.
Đề nghi Trường Đại học Công nghệ, ĐHQG HN cho phep học viên đươc làm các
thủ tục khác để đươc công nhận và câp băng Thạc sĩ.
Xin trân trọng cảm ơn!
XÁC NHẬN CỦA THANH VIÊN HỘI ĐỒNG/HỘI ĐỒNG
ĐỀ NGHỊ HỌC VIÊN SỬA CHỮA LUẬN VĂN
HỌC VIÊN CAN BỘ HƯỚNG DẪN XAC NHẬN CỦA CƠ SỞ ĐÀO TẠO
96
97
98
99
100