ch1 - kho dl va khai pha dl

53
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU Introduction to Data Warehousing & Data Mining KHAI PHÁ DỮ LIỆU

Upload: nguyen-gia-tri

Post on 06-Aug-2015

56 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Ch1 - Kho DL Va Khai Pha DL

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆUIntroduction to Data Warehousing & Data Mining

KHAI PHÁ DỮ LIỆU

Page 2: Ch1 - Kho DL Va Khai Pha DL

Page 2

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

1. Tổng quan2. Tạo kho dữ liệu3. Hỗ trợ quyết định & Xử lý

phân tích trực tuyến (OLAP)4. Khai phá dữ liệu

Page 3: Ch1 - Kho DL Va Khai Pha DL

Page 3

Dữ liệu (Data), Thông tin (Information), Tri thức (Knowlegde)

Dữ liệu là tập các sự kiện thô và chúng được tổ chức ở các dạng logic. Thành phần nhỏ nhất của dữ liệu được “thừa nhận” bởi máy tính là các ký tự đơn, ví dụ: chữ A, số 1, ký tự *…Một ký tự được biểu diễn bởi 8 bít. Các bits thường được sử dụng để đo thông tin.

Tri thức được xem như là các thông tin tích hợp, bao gồm các sự kiện và mối quan hệ giữa chúng. Tri thức có thể được coi là dữ liệu ở mức độ cao của sự trừu tượng và tổng quát.

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Khám phá tri thức hay phát hiện tri thức là một quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: Phân tích, tổng hợp, hợp thức, khả ích và có thể hiểu được.

Page 4: Ch1 - Kho DL Va Khai Pha DL

Page 4

Tạo kho dữ liệu (Data Warehousing)

Một quá trình chuyển đổi dữ liệu thành thông tin và làm cho nó có sẵn cho người dùng một cách kịp thời, đủ để tạo sự khác biệt

[Forrester Research, 4/1996]

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 5: Ch1 - Kho DL Va Khai Pha DL

Page 5

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Kho dữ liệu (Data Warehouse) là gì?

W.H.Inmon:

“Một kho dữ liệu là một tập hợp dữ liệu tích hợp hướng chủ đề có tính ổn định, cập nhật theo thời gian nhằm hỗ trợ cho việc ra quyết định.

Một kho dữ liệu bao gồm:

– Một hoặc nhiều công cụ để chiết xuất dữ liệu

– Cơ sở dữ liệu tích hợp hướng chủ đề ổn định được tổng hợp bằng cách thiết lập các bảng dữ liệu.”

Page 6: Ch1 - Kho DL Va Khai Pha DL

Page 6

Mục đích của kho dữ liệu:

Mục tiêu chính của kho dữ liệu :

Phải có khả năng đáp ứng mọi yêu cầu về thông tin của NSD

Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình, như có những quyết định hợp lý, nhanh và bán được nhiều hàng hơn, năng suất cao hơn, thu được lợi nhuận cao hơn, v.v.

Giúp cho tổ chức, xác định, quản lý và điều hành các dự án, các nghiệp vụ một cách hiệu quả và chính xác.

Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 7: Ch1 - Kho DL Va Khai Pha DL

Page 7

Các giải pháp để Kho dữ liệu đạt mục đích

oNâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc dữ liệu theo những hướng chủ đề nhất định

oTổng hợp và kết nối dữ liệu

oĐồng bộ hoá các nguồn dữ liệu với DW

oPhân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như là các công cụ chuẩn để phục vụ cho DW.

oQuản lí siêu dữ liệu

oCung cấp thông tin được tích hợp, tóm tắt hoặc được liên kết, tổ chức theo các chủ đề

oDùng  trong các hệ thống hỗ trợ quyết định (Decision suport system - DSS), các hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt.

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 8: Ch1 - Kho DL Va Khai Pha DL

Page 8

Thuộc tính của kho dữ liệu:

Tính tích hợp (Integration)

Dữ liệu gắn thời gian và có tính lịch sử

 Dữ liệu có tính ổn định (nonvolatility)

 Dữ liệu không biến động

 Dữ liệu tổng hợp

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 9: Ch1 - Kho DL Va Khai Pha DL

Page 9

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 10: Ch1 - Kho DL Va Khai Pha DL

Page 10

Kho dữ liệu bao gồm 7 thành phần:

– Dữ liệu nguồn và các công cụ chiết xuất, làm sạch và chuyển đổi dữ liệu.

– Kho siêu dữ liệu (MetaData)

– Các kỹ thuật tạo lập kho

– Kho dữ liệu theo chủ đề (Data marts): Với các kho dữ liệu này, có thể tổng hợp thành một kho dữ liệu thông minh. Ngược lại, một kho dữ liệu có thể được phân tích thành nhiều kho dữ liệu thông minh.

– Các công cụ truy vấn (query), báo cáo (reporting), phân tích trực tuyến (OLAP) và khai phá dữ liệu (data mining) là các kỹ thuật khai thác kho dữ liệu để đem lại những “tri thức”..

– Quản trị kho dữ liệu.

– Hệ thống phân phối thông tin.

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 11: Ch1 - Kho DL Va Khai Pha DL

Page 11

35%

30%

25%

20%

15%

10%

5%

0%5GB

5-9GB

10-19GB 50-99GB 250-499GB

20-49GB 100-249GB 500GB-1TB

Initial

Projected 2Q96

Source: META Group, Inc.

Res

pond

ents

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Kho dữ liệu là CSDL rất lớn

Page 12: Ch1 - Kho DL Va Khai Pha DL

Page 12

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Terabytes -- 10^12 bytes:

Petabytes -- 10^15 bytes:

Exabytes -- 10^18 bytes:

Zettabytes -- 10^21 bytes:

Zottabytes -- 10^24 bytes:

Walmart -- 24 Terabytes

Geographic Information Systems

National Medical Records

Weather images

Intelligence Agency Videos

Page 13: Ch1 - Kho DL Va Khai Pha DL

Page 13

Sự khác biệt giữa các hệ thao tác CSDL & các hệ thông tin

Đặc trưng Thao tác CSDL Hệ thông tinĐặc điểm Xử lý thao tác Xử lý thông tin

Hướng Giao dịch Phân tích

Người dùng Nhân viên, quản trị CSDL, chuyên viên CSDL

Người quản lý, phân tích viên, người điều hành

Chức năng Thao tác hàng ngày Hỗ trợ quyết định

Data Hiện hành Mang tính lịch sử (lâu dài)

Khung nhìn Chi tiết, ít quan hệ Tổng hợp, đa chiều

Thiết kế CSDL Hướng ứng dụng Hướng chủ đề (Subject)

Đơn vị Giao dịch đ.giản, ngắn Truy vấn phức tạp

Truy cập Đọc/Ghi Hầu như chỉ đọc

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 14: Ch1 - Kho DL Va Khai Pha DL

Page 14

Đặc trưng Thao tác CSDL Hệ thông tin

Chú trọng Dữ liệu vào Thông tin ra

Số lượng bản ghi truy cập

Bội số của 10 Bội số của triệu

Số lượng người dùng Hàng ngàn Hàng trăm

Kích thước dữ liệu 100MB đến GB 100 GB đến TB

Ưu điểm (Priority) Hiệu năng cao, tính sẳn sàng cao

Linh động cao, người sử dụng chủ động

Độ đo (Metric) Tốc độ xử lý giao dịch Tốc độ truy vấn

Sự khác biệt giữa các hệ thao tác CSDL & các hệ thông tin

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 15: Ch1 - Kho DL Va Khai Pha DL

Page 15

Tạo kho dữ liệu:

Thực hiện các kỹ thuật hợp nhất và quản lý dữ liệu từ nhiều nguồn khác nhau. Mục đích trả lời các câu hỏi tác nghiệp, hỗ trợ cho các quyết định, mà trước đó không thể thực hiện được.

Một CSDL hỗ trợ quyết định được tạo lập và duy trì riêng biệt với cơ sở dữ liệu hoạt động của một tổ chức

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 16: Ch1 - Kho DL Va Khai Pha DL

Page 16

Khai thác kho dữ liệu theo 3 cách chính:

1.Khai thác truyền thống

Truy vấn, báo cáo.. Dữ liệu tinh

2. Xử lý phân tích trực tuyến (OLAP)

Phân tích, kiểm định giả thuyết, chưa

đưa được các giả thuyết

3. Khai phá dữ liệu

Tạo dữ liệu tri thức

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 17: Ch1 - Kho DL Va Khai Pha DL

Page 17

XỬ LÝ PHÂN TÍCH TRỰC TUYẾN (OLAP)Hỗ trợ Quyết định chuyên sâu

04 đặc điểm chính

Phân tích dữ liệu đa chiều

Hỗ trợ cơ sở dữ liệu tiên tiến

Giao diện dễ dàng cho người sử dụng

Hỗ trợ kiến trúc Client / Server

Dữ liệu trong kho dữ liệu được thể hiện dưới dạng đa chiều (Multi Dimension) gọi là khối (cube). Mỗi chiều mô tả một đặc trưng nào đó của dữ liệu.

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 18: Ch1 - Kho DL Va Khai Pha DL

Page 18

CÁC KỸ THUẬT PHÂN TÍCH DỮ LIỆU ĐA CHIỀU

Các chức năng biểu diễn dữ liệu tiên tiếno Đồ họa 3-D, Pivot Tables, Crosstabs.

o Tương thích với Spreadsheets và gói thống kê

o Tổng hợp dữ liệu tiên tiến, củng cố và phân loại trên kích thước thời gian

o Các chức năng tính toán nâng cao

o Chức năng mô hình hóa dữ liệu tiên tiến

HỖ TRỢ CSDL TIẾN TIẾN

Các đặc trưng của xử lý CSDL tiên tiếno Truy cập nhiều loại của DBMS, các tập tin nền (flat), và các dữ liệu trong & ngoài hệ

thống

o Truy cập vào kho dữ liệu tổng hợp.

o Định hướng Dữ liệu tiên tiến (drill downs và roll-ups)

o Có khả năng ánh xạ yêu cầu người sử dụng đến các nguồn dữ liệu thích hợp

o Hỗ trợ cơ sở dữ liệu rất lớn

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 19: Ch1 - Kho DL Va Khai Pha DL

Page 19

GIAO DIỆN DỄ DÀNG CHO NGƯỜI

SỬ DỤNG

o Giao diện đồ họa

o Có nhiều tiện ích để truy xuất dữ liệu dễ dàng

CẤU TRÚC CLIENT/SERVER

oLàm nền tảng để thiết kế, cài đặt, phát triển cho nhiều hệ thống mới

oChia hệ thống OLAP thành nhiều thành phần có định kiến trúc:

Trên cùng một máy

Phân tán trên nhiều máy

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 20: Ch1 - Kho DL Va Khai Pha DL

Page 20

KIẾN TRÚC CỦA OLAP

– 03 thành phần chính:

• Giao diện đồ họa (GUI)

• Phân tích dữ liệu logic

• Xử lý dữ liệu logic

OLAP QUAN HỆ (Relational OLAP)

Xử lý phân tích trực tuyến quan hệ (Relational Online Analytical Processing)

• OLAP sử dụng CSDL quan hệ và họ các công cụ truy vấn để lưu trữ và phân tích dữ liệu đa chiều

Hỗ trợ lược đồ CSDL đa chiều

Có truy vấn và ngôn ngữ truy xuất dữ liệu hiệu năng

Hỗ trợ CSDL lớn

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 21: Ch1 - Kho DL Va Khai Pha DL

Page 21

HỖ TRỢ LƯỢC ĐỒ CSDL ĐA CHIỀU

Dữ liệu hỗ trợ quyết định liệu có xu hướng được

o Không chuẩn hóa (Nonnormalized)oTrùng lặpoTổng hợp (Preaggregate) Các mô hình dữ liệu sử dụng trong OLAP

Mô hình dạng sao (Star Schema) Mô hình chòm sao sự kiện (Fact Constellation Schema) Mô hình bông tuyết (Snowflake Schema)Thiết kế kỹ thuật đặc biệt cho biểu diễn dữ liệu đa chiềuTối ưu hóa hoạt động truy vấn dữ liệu thay vì dữ liệu cập nhật hoạt động

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 22: Ch1 - Kho DL Va Khai Pha DL

Page 22

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

MÔ HÌNH SAO-Thiết kế chuyên biệt để biểu diễn dữ liệu đa chiều- Tối ưu hóa các thao tác truy vấn dữ liệu thay cho các thao tác cập nhật dữ liệu- Ánh xạ dữ liệu hỗ trợ quyết định vào mô hình dữ liệu quan hệ

4 thành phần Sự kiện (Facts)Chiều (Dimensions)Thuộc tính (Attributes)Phân cấp thuộc tính (Attribute Hierarchies)

Page 23: Ch1 - Kho DL Va Khai Pha DL

Page 23

SỰ KIỆN (Facts)

Độ đo (giá trị) số biểu diễn cho một khía cạnh kinh doanh hoặc một hoạt động cụ thể

Lưu trữ trong một bảng sự kiện tại trung tâm của mô hình sao Chứa các sự kiện được liên kết với các chiều của chúng Có thể được tính toán hoặc có suy dẫn lúc thực hiện Cập nhật định kỳ với các dữ liệu từ các thao tác cơ sở dữ liệu Bảng sự kiện (Fact Table): dùng để theo dõi các biến động của dữ liệu,

cấu trúc của Fact table gồm các khóa ngoại đó là các khóa chính của các bảng chiều (Dimension table).

Độ đo (Measure): Là đại lượng có thể tính toán được trên các thuộc tính của fact table.

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 24: Ch1 - Kho DL Va Khai Pha DL

Page 24

CHIỀU (Dimensions)

Mỗi chiều mô tả một đặc trưng nào đó của dữ liệu.

Dimension Table là các bảng mô tả các đặc trưng của các chiều như chiều thời gian, chiều khách hàng, chiều hàng hóa,…

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 25: Ch1 - Kho DL Va Khai Pha DL

Page 25

THUỘC TÍNH (Attributes) Các bảng chiều chứa các thuộc tính Các thuộc tính được sử dụng để nghiên cứu, lọc và phân lớp các sự

kiện. Chiều mô tả các đặc trưng của các sự kiện thông qua các thuộc tính. Không có hạn chế về mặt toán học về số lượng chiều (3-D được mô hình

hóa dễ dàng)

PHÂN CẤP THUỘC TÍNH (Attribute Hierarchies) Khái niệm này mô tả sự phân cấp thứ bậc (mức độ chi tiết của dữ liệu).

Ví dụ đối với chiều thời gian, ta có thực bậc như sau: day<week<month<quarter<year. Tương tự đối với chiều location ta có thứ bậc street<city<province_or_state<country.

Trong khi phân tích dữ liệu chúng ta rất cần khái niệm này để tổng hợp hay chi tiết từng hạng mục dữ liệu trong DW.

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 26: Ch1 - Kho DL Va Khai Pha DL

Page 26

Store Key

Product Key

Period Key

Units

Price

Store Dimension

Time Dimension

Product Dimension

Fact Table

Tiện ích: Dễ hiểu, dễ định nghĩa phân cấp giảm số lượng kết nối vật lý

Store Key

Store Name

City

State

Region

Period Key

Year

Quarter

Month

Product Key

Product Desc

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Một ví dụ về mô hình sao

Page 27: Ch1 - Kho DL Va Khai Pha DL

Page 27

MÔ HÌNH BÔNG TUYẾT (SnowFlake Schema)

Biến thể của mô hình sao.

Gồm một bảng sự kiện, gồm một hay nhiều bảng cho mỗi chiều.

Các bảng chiều được chuẩn hóa, phân chia bảng chiều thành nhiều bảng bổ sung.

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 28: Ch1 - Kho DL Va Khai Pha DL

Page 28

MÔ HÌNH BÔNG TUYẾT (SnowFlake Schema)

Store Key

Product Key

Period Key

Units

Price

Time Dimension

Product Dimension

Fact Table

Store Key

Store Name

City Key

Period Key

Year

Quarter

Month

Product Key

Product Desc

City Key

City

State

Region

City Dimension

Store Dimension

Nhược điểm: thời gian kết nối nhiều

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 29: Ch1 - Kho DL Va Khai Pha DL

Page 29

MÔ HÌNH CHÒM SAO SƯ KIỆN (Fact Constellation)

Nhiều bảng sự kiện cùng chia sẻ các chiều.

Mô hình này được xem như là tập hợp nhiều mô hình ngôi sao vì thế được gọi là mô hình thiên hà hoặc chòm sao sự kiện (galaxy schema or fact constellation)

Ứng dụng phức tạp cần mô hình này.

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 30: Ch1 - Kho DL Va Khai Pha DL

Page 30

Store Key

Product Key

Period Key

Units

Price

Store Dimension

Product Dimension

SalesFact Table

Store Key

Store Name

City

State

Region

Product Key

Product Desc

Shipper Key

Store Key

Product Key

Period Key

Units

Price

ShippingFact Table

Mô hình chòm sao sự kiện

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 31: Ch1 - Kho DL Va Khai Pha DL

Page 31

XÂY DỰNG KHO DỮ LIỆU (Building Data Warehouse)

Sưu tập dữ liệu (Data Selection)

Tiền xử lý dữ liệu (Data Preprocessing)

– Điền dữ liệu thiếu (Fill missing values)

– Loại bỏ dữ liệu không nhất quán (Remove inconsistency)

Tích hợp và chuyển đổi dữ liệu (Data Transformation & Integration)

Nhập dữ liệu (Data Loading)

Dữ liệu trong kho dữ liệu được lưu trữ trong các bảng sự kiện và các bảng chiều (Data in warehouse is stored in form of fact tables and dimension tables)

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 32: Ch1 - Kho DL Va Khai Pha DL

Page 32

Thử nghiệm (Case Study)

Afco Foods & Beverages là một công ty mới sản xuất sữa, bánh mì và các sản phẩm thịt với các đơn vị sản xuất đặt tại Baroda.

Có sản phẩm được bán tại khu vực Bắc, Tây Bắc và Tây Ấn Độ.

Họ có các đơn vị bán hàng ở Mumbai, Pune, Ahemdabad, Delhi và Baroda.

Chủ tịch của công ty muốn có thông tin tiêu thụ.

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 33: Ch1 - Kho DL Va Khai Pha DL

Page 33

Thông tin tiêu thụ (Sales Information)

Report: Số lượng các đơn vị bán ra (The number of units sold)

113

Report: Số lượng các đơn vị bán theo thời gian.(The number of units sold over time)

January February March April

14 41 33 25

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 34: Ch1 - Kho DL Va Khai Pha DL

Page 34

Thông tin tiêu thụ (Sales Information)

Report : Số lượng các mặt hàng đã bán ứng mỗi sản phẩm theo thời gian(The number of items sold for each product with time)

Jan Feb Mar Apr

Wheat Bread 6 17

Cheese 6 16 6 8

Swiss Rolls 8 25 21

Product

Tim

e

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 35: Ch1 - Kho DL Va Khai Pha DL

Page 35

Thông tin tiêu thụ (Sales Information)Report: Số lượng các mặt hàng đã bán tại mỗi công ty ứng với mỗi sản phẩm theo thời gian (The number of items sold in each City for each product with time)

Jan Feb Mar Apr

Mumbai Wheat Bread 3 10

Cheese 3 16 6

Swiss Rolls 4 16 6

Pune Wheat Bread 3 7

Cheese 3 8

Swiss Rolls 4 9 15

Product

Tim

e

City

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 36: Ch1 - Kho DL Va Khai Pha DL

Page 36

Thông tin tiêu thụ (Sales Information)Report: Số lượng các mặt hàng bán ra và thu nhập trong từng khu vực ứng với mỗi sản phẩm với thời gian (The number of items sold and income in each region for each product with time)

Jan Feb Mar Apr

Rs U Rs U Rs U Rs U

Mumbai Wheat Bread 7.44 3 24.80 10

Cheese 7.95 3 42.40 16 15.90 6

Swiss Rolls 7.32 4 29.98 16 10.98 6

Pune Wheat Bread 7.44 3 17.36 7

Cheese 7.95 3 21.20 8

Swiss Rolls 7.32 4 16.47 9 27.45 15

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 37: Ch1 - Kho DL Va Khai Pha DL

Page 37

Các độ đo tiêu thụ và chiều (Sales Measures & Dimensions)

Độ đo – Đơn vị bán ra, Số lượng

(Measure – Units sold, Amount)

Chiều – Sản phẩm, Thời gian, Vùng

(Dimensions – Product,Time,Region).

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 38: Ch1 - Kho DL Va Khai Pha DL

Page 38

Mô hình kho dữ liệu tiêu thụ (Sales Data Warehouse Model)

City Product Month Units Rupees

Mumbai Wheat Bread January 3 7.95

Mumbai Cheese January 4 7.32

Pune Wheat Bread January 3 7.95

Pune Cheese January 4 7.32

Mumbai Swiss Rolls February 16 42.40

Bảng sư kiện (Fact Table)

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 39: Ch1 - Kho DL Va Khai Pha DL

Page 39

City_ID Prod_ID Month Units Rupees

1 589 1/1/1998 3 7.95

1 1218 1/1/1998 4 7.32

2 589 1/1/1998 3 7.95

2 1218 1/1/1998 4 7.32

1 589 2/1/1998 16 42.40

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Mô hình kho dữ liệu tiêu thụ (Sales Data Warehouse Model)

Page 40: Ch1 - Kho DL Va Khai Pha DL

Page 40

Các bảng chiều sản phẩm (Product Dimension Tables)

Prod_ID Product_Name Product_Category_ID

589 Wheat Bread 1

590 White Bread 1

288 Coconut Cookies 2

Product_Category_Id Product_Category

1 Bread

2 Cookies

Mô hình kho dữ liệu tiêu thụ (Sales Data Warehouse Model)

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 41: Ch1 - Kho DL Va Khai Pha DL

Page 41

Bảng chiều vùng (Region Dimension Table)

City_ID City Region Country

1 Mumbai West India

2 Pune NorthWest India

Mô hình kho dữ liệu tiêu thụ (Sales Data Warehouse Model)

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 42: Ch1 - Kho DL Va Khai Pha DL

Page 42

Sales Fact

Region

ProductProduct

Category

Time

Mô hình kho dữ liệu tiêu thụ (Sales Data Warehouse Model)

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 43: Ch1 - Kho DL Va Khai Pha DL

Page 43

Xử lý phân tích trực tuyến (OLAP)

Nó cho phép các nhà phân tích, quản lý và điều hành để đạt được cái nhìn sâu sắc vào các dữ liệu thông qua truy cập nhanh chóng, phù hợp và tương tác, một loạt các quan điểm có thể có của thông tin đã được chuyển đổi từ dữ liệu thô để phản ánh đa chiều thực sự của doanh nghiệp theo cách hiểu của người sử dụng.

Data Warehouse

Time

Product

Reg

ion

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 44: Ch1 - Kho DL Va Khai Pha DL

Page 44

OLAP Cube

City Product Time Units Dollars

All All All 113 251.26

Mumbai All All 64 146.07

Mumbai White Bread All 38 98.49

Mumbai Wheat Bread All 13 32.24

Mumbai Wheat Bread Qtr1 3 7.44

Mumbai Wheat Bread March 3 7.44

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 45: Ch1 - Kho DL Va Khai Pha DL

Page 45

OLAP Operations

Drill Down

Time

Reg

ion

Product

Category e.g Electrical Appliance

Sub Category e.g Kitchen

Product e.g Toaster

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 46: Ch1 - Kho DL Va Khai Pha DL

Page 46

OLAP Operations

Drill Up

Time

Reg

ion

Product

Category e.g Electrical Appliance

Sub Category e.g Kitchen

Product e.g Toaster

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 47: Ch1 - Kho DL Va Khai Pha DL

Page 47

OLAP Operations

Slice and Dice

Time

Reg

ion

ProductProduct=Toaster

Time

Reg

ion

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 48: Ch1 - Kho DL Va Khai Pha DL

Page 48

OLAP Operations

Pivot

Time

Reg

ion

Product

RegionT

ime

Product

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 49: Ch1 - Kho DL Va Khai Pha DL

Page 49

OLAP

là một mô hình trực quan mạnh mẽ

cung cấp sự tương tác và thời gian đáp ứng nhanh chóng

tiếp cận phân tích chuỗi thời gian

là hữu ích để tìm thấy một số cụm và giá trị ngoại lệ

Nhiều nhà cung cấp cung cấp các công cụ OLAP

OLAP Is FASMI

Fast

Analysis

Shared

Multidimensional

Information

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 50: Ch1 - Kho DL Va Khai Pha DL

Page 50

PHÁT HIỆN TRI THỨC & KHAI PHÁ DỮ LIỆU

Khám phá tri thức hay phát hiện tri thức trong cơ sở dữ liệu là một quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: Phân tích, tổng hợp, hợp thức, khả ích và có thể hiểu được.

Khai phá dữ liệu là một bước trong quá trình khám phá tri thức, bao gồm các thuật toán chuyên dụng:

Tìm ra các mẫu hoặc các mô hình trong dữ liệu dung lượng lớn.

Phát hiện tri thức phục vụ cho các lợi ích trong thực tế và các yêu cầu trong nghiên cứu học thuật.

Mục đích chính của khai thác dữ liệu:

Mô tả (description) và dự đoán (prediction).

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 51: Ch1 - Kho DL Va Khai Pha DL

Page 51

Các bài toán Khai phá DL:

Phân lớp (Classification [Predictive])

Phân cụm (Clustering [Descriptive])

Phát hiện luật kết hợp (Association Rule Discovery [Descriptive])

Phát hiện mẫu tuần tự (Sequential Pattern Discovery [Descriptive])

Hồi qui (Regression [Predictive])

Phát hiện độ lệch (Deviation Detection [Predictive])

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Học máy/Nhận dạng mẫu

Thống kê/Trí tuệ

nhân tạo

Khai phá DL

Các hệ CSDL

Page 52: Ch1 - Kho DL Va Khai Pha DL

Page 52

Data Mining & Warehouse Data

Tạo kho dữ liệu cung cấp cho các doanh nghiệp không gian nhớ/lưu trữ

Khai thác dữ liệu cung cấp cho các doanh nghiệp sự thông minh

Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU

Page 53: Ch1 - Kho DL Va Khai Pha DL

Page 53

Chương 2: TIỀN XỬ LÝ DỮ LIỆU

Tài liệu đọc thêm:

1.Data Mining Concepts & Technique (3rd) J.Han, M.Kamber, J.Pei

2.Principles of Data Mining Max Bramer

3.Data Warehousing and Data Mining S. Sudarshan Krithi Ramamritham

4. Introduction to Data Warehousing Ms Swapnil Shrivastava [email protected]

3.http://bis.net.vn – (Các bài viết của tác giả Ng Văn Chức)