nhẬp mÔn khai phÁ dỮ liỆu giỚi thiỆu mÔn hỌc – k55

14
NHẬP MÔN KHAI PHÁ DỮ LIỆU GIỚI THIỆU MÔN HỌC – K57 PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2015 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI 1

Upload: hyatt-burt

Post on 03-Jan-2016

134 views

Category:

Documents


1 download

DESCRIPTION

NHẬP MÔN KHAI PHÁ DỮ LIỆU GIỚI THIỆU MÔN HỌC – K55. PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI. Giới thiệu chung về môn học. Tên môn học: Nhập môn khai phá dữ liệu Số tín chỉ:3 Tài liệu dạy - học: - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: NHẬP MÔN KHAI PHÁ DỮ LIỆU GIỚI THIỆU MÔN HỌC – K55

NHẬP MÔN KHAI PHÁ DỮ LIỆU

GIỚI THIỆU MÔN HỌC – K57

PGS. TS. HÀ QUANG THỤY

HÀ NỘI 09-2015

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐẠI HỌC QUỐC GIA HÀ NỘI

1

Page 2: NHẬP MÔN KHAI PHÁ DỮ LIỆU GIỚI THIỆU MÔN HỌC – K55

Giới thiệu chung về môn học Tên môn học: Nhập môn khai phá dữ liệu

Số tín chỉ: 3 Tài liệu dạy - học:

Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2013). Giáo trình khai phá dữ liệu (Các chương: 1-6, 10).

Bài giảng: http://uet.vnu.edu.vn/~thuyhq/courses.html

Tài liệu tham khảo:1. J. Han, M. Kamber, and Jian Pei (2011). Data Mining: Concepts and Techniques (3rd

edition). Morgan Kaufmann.2. Reza Zafarani, Mohammad Ali Abbasi, Huan Liu (2014). Social Media Mining: An

Introduction. Cambridge University Press.3. Shamanth Kumar, Fred Morstatter, Huan Liu (2014). Twitter Data Analytics. Springer4. Robert Nisbet, John Elder, and Gary Miner (2009). Handbook of Statistical Analysis

and Data Mining, Elsevier, 2009.5. [WK09] Xindong Wu and Vipin Kumar (Eds), The Top Ten Algorithms in Data Mining,

Chapman & Hall/CRC, 20096. Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Hà Quang Thụy, Nguyễn Thu Trang,

Nguyễn Cẩm Tú (2009). Giáo trình khai phá dữ liệu Web, NXBGD, 2009.

2

Page 3: NHẬP MÔN KHAI PHÁ DỮ LIỆU GIỚI THIỆU MÔN HỌC – K55

3

Vị trí của môn học CTĐT ĐH HTTT

Page 4: NHẬP MÔN KHAI PHÁ DỮ LIỆU GIỚI THIỆU MÔN HỌC – K55

4

Vị trí của môn học CTĐT ĐH HTTT

Page 5: NHẬP MÔN KHAI PHÁ DỮ LIỆU GIỚI THIỆU MÔN HỌC – K55

Nội dung và mục tiêu môn học

5

Môn học NUS-SoC CS5228 Knowledge Discovery and Data Mining 13/08/13Modular Credits: 4Workload: 3-0-0-3-4Prerequisite(s): CS1231, CS3243, (CS2102 or CS2102S) and (ST1232 or ST2131 or ST2334)Preclusion(s): Nil Cross-listing(s): NilThis course introduces fundamental principles behind data mining and efficient techniques for mining large databases. It provides an overview of the algorithmic aspect of data mining: its efficiency (high-dimensional database indexing, OLAP, data reduction, compression techniques) and effectiveness (machine learning involving greedy search, branch and bound, stochastic search, parameter optimisation).Efficient techniques covered include association rules mining (Apriori algorithm, correlation search, constrained association rule discovery), classifier induction (decision trees, RainForest, SLIQ; Support vector machine; Naive Bayesian; classification based on association/visualisation), cluster analysis (kmeans, k-mediods, DBSCAN, OPTICS, DENCLUE, STING, CLUSEQ, ROCK etc), and outliers/deviants detection (LOF, Distance-based outlier etc.).

Cung cấp các kiến thức cơ bản về khai phá dữ liệu và phát hiện tri thức: khái niệm, kiến trúc hệ thống và đặc trưng; các bài toán điển hình phân lớp, phân cụm, luật kết hợp; các thuật toán Bayes, cây quyết định, mạng neural...Chuẩn đầu ra môn học: Trang tiếp

Page 6: NHẬP MÔN KHAI PHÁ DỮ LIỆU GIỚI THIỆU MÔN HỌC – K55

Chuẩn đầu ra môn học

6

• Hiểu được bài toán khai phá dữ liệu là gì, ý nghĩa, ứng dụng của nó• Nắm được các bước xử lý trong quá trình khai phá dữ liệu• Hiểu được các bài toán trong quá trình tiền xử lý dữ liệu, các

phương pháp xử lý tương ứng với các bài toán này• Hiểu được bài toán phân lớp, ý nghĩa, ứng dụng. Hiểu, sử dụng

được công cụ và ứng dụng được các phương pháp phân lớp phổ biến vào các bài toán thực tế: Naive Bayes, Neural network, SVM, MEM, ...

• Hiểu được bài toán phân cụm, ý nghĩa, ứng dụng của nó. Hiểu, sử dụng công cụ và ứng dụng được một số thuật toán thông dụng vào các bài toán thực tế như: k-mean, HAC, DIANA, …

• Hiểu được được bài toán khai phá luật kết hợp, ý nghĩa, ứng dụng của nó. Hiểu và sử dụng, ứng dụng được vào một bài toán thực tế.

Page 7: NHẬP MÔN KHAI PHÁ DỮ LIỆU GIỚI THIỆU MÔN HỌC – K55

Một số môn học liên quan Kho dữ liệu:

Khái niệm kho dữ liệu, đặc trưng của kho dữ liệu (đối sánh với đặc trưng của hệ cơ sở dữ liệu), tổ chức lưu trữ dữ liệu theo tiếp cận chiều, các kiến trúc kho dữ liệu và phương pháp luận thiết kế kho dữ liệu, phân tích dữ liệu trực tuyến (OLAP). Sử dụng phần mềm công cụ để thiết kế kho dữ liệu và phân tích dữ liệu.

Các chủ đề hiện đại của HTTT (KPDL)Dưới sự hướng dẫn của các nhà khoa học, sinh viên làm việc theo nhóm tiến hành tìm hiểu, nghiên cứu những chủ đề mang tính thời sự trong ngành Hệ thống thông tin có định hướng theo Khai phá dữ liệu và Tích hợp hệ thống.Năm học 2013-2014: Khai phá quan điểm

Khai phá dữ liệu hướng lĩnh vựcKhai phá dữ liệu mang tính ứng dụng theo từng lĩnh vực như tài chính, y học, sinh học v.v... hoặc miền dữ liệu văn bản (text, web, social media...), trong đó chú trọng tới tri thức miền ứng dụng, các mô hình dữ liệu đặc thù cho lĩnh vực và các phương pháp khai phá dữ liệu phù hợp với lĩnh vực.

7

Page 8: NHẬP MÔN KHAI PHÁ DỮ LIỆU GIỚI THIỆU MÔN HỌC – K55

Tổ chức dạy - học Hình thức dạy-học:

- Giáo viên trình bày: 9-10 buổi- Sinh viên trình bày tiểu luận: 5-6 buổi

Robert Nisbet, John Elder, and Gary Miner (2009). Handbook of Statistical Analysis and Data Mining, Elsevier, 2009

Hình thức đánh giá và khung điểm- Đánh giá thường xuyên: 4 điểm

+ Tiểu luận và làm bài tập theo tiểu luận: 2.5+ Chuyên cần và đóng góp xây dựng bài: 1.5 (nếu vượt quá 1.5 được chuyển sang điểm tiểu luận song tổng 4.0)+ Mỗi ý kiến đóng góp: 0.1, lớp trưởng: 0.2-0.3+ Một số điểm cộng, trừ khác

- Thi cuối kỳ: 6 điểm (luận và trắc nghiệm) Thời gian dự kiến:

15 tuần (09/9/2015- 23/12/2015)8

Page 9: NHẬP MÔN KHAI PHÁ DỮ LIỆU GIỚI THIỆU MÔN HỌC – K55

Nội dung làm việc nhóm tiểu luận Nhóm tiểu luận

- Mỗi nhóm có khoảng 3 sinh viên, có nhóm trưởng- Chịu trách nhiệm một nội dung trong tài liệu

Nội dung công việc- Đọc nắm bắt được các nội dung cơ bản- Làm (nộp) bài thuyết trình nội dung được phân công- Trình bày bài thuyết trình và trả lời câu hỏi- Khuyến khích tìm tài liệu tham khảo mở rộng nội dung được

Trình bày thuyết trình- Mọi sinh viên trong nhóm đều trình bày một phần nội dung - Thời gian: 15 phút cho trình bày + 10 phút cho trả lời- Mọi sinh viên khác đặt câu hỏi: Đặt câu hỏi được tính điểm chuyên cần

9

Page 10: NHẬP MÔN KHAI PHÁ DỮ LIỆU GIỚI THIỆU MÔN HỌC – K55

Giới thiệu sơ bộ về các ngành CNTT

Sự phát triển các khung chương trình đào tạo CNTT của ACM/IEEE/AIShttp://www.acm.org/education/education/curricula-recommendations

10

Page 11: NHẬP MÔN KHAI PHÁ DỮ LIỆU GIỚI THIỆU MÔN HỌC – K55

Giới thiệu sơ bộ về các ngành CNTT

Phân biệt các khung chương trình đào tạo CNTT của ACM/IEEE/AISTừ trái phải: từ sáng tạo nguyên lý lý thuyết cấu hình triển khai ứng dụngTừ thấp cao: Phần cứng và kiến trúc máy tính Hạ tầng hệ thống Phương pháp và công nghệ phần mềm Công nghệ ứng dụng Vấn đề của tổ chức và hệ thống thông tin

11

Page 12: NHẬP MÔN KHAI PHÁ DỮ LIỆU GIỚI THIỆU MÔN HỌC – K55

Vị trí của môn học CTĐT ĐH HTTT

12

Page 13: NHẬP MÔN KHAI PHÁ DỮ LIỆU GIỚI THIỆU MÔN HỌC – K55

Tư liệu tại Thư viện

13

Page 14: NHẬP MÔN KHAI PHÁ DỮ LIỆU GIỚI THIỆU MÔN HỌC – K55

Tư liệu tại Thư viện

14