计算机科学前沿技术 frontier technologies in computer science

17
© Frontier Technologies in Computer Science 计计计计计计计计计 Frontier Technologies in Computer Science 计计计计http://en.tjcities.com/ index.php/works 计计计计[email protected] 计计http://weibo.com/willtongji 计计计计计计 http://en.tjcities.com/ index.php/works

Upload: alec-travis

Post on 02-Jan-2016

86 views

Category:

Documents


1 download

DESCRIPTION

通识卓越课程 http://en.tjcities.com/index.php/works. 计算机科学前沿技术 Frontier Technologies in Computer Science. 课程网站: http://en.tjcities.com/index.php/works 联系方式: [email protected] 微博: http://weibo.com/willtongji. 课程内容. 第 9 章 人工智能前沿 第 10 章 机器学习的研究 第 11 章 搜索引擎技术 第 12 章 集体智慧与 Web 2.0 第 13 章 云计算 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

计算机科学前沿技术Frontier Technologies in Computer Science

课程网站: http://en.tjcities.com/index.php/works

联系方式: [email protected]

微博: http://weibo.com/willtongji

通识卓越课程http://en.tjcities.com/index.php/works

Page 2: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

课程内容• 第 1 章 概述• 第 2 章 计算机硬件的发展

• 第 3 章 高性能计算• 第 4 章 现代操作系统• 第 5 章 计算机网络新技术• 第 6 章 可信系统和可信软件• 第 7 章 数据库技术的发展• 第 8 章 数据挖掘及其应用

• 第 9 章 人工智能前沿• 第 10 章 机器学习的研究• 第 11 章 搜索引擎技术• 第 12 章 集体智慧与 Web 2.0

• 第 13 章 云计算• 第 14 章 物联网技术• 第 15 章 服务科学与服务计算• 第 16 章 智慧地球

Page 3: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

第 8 章 数据挖掘及其应用

Page 4: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

Information is not knowledge, Knowledge is not wisdom, Wisdom is not truth, Truth is not beauty, Beauty is not love, Love is not music, and Music is THE BEST.

——Frank Vincent ZappaWhere is the Life we have lost in living?

Where is the wisdom we have lost in knowledge?Where is the knowledge we have lost in information?

Where is the information we have lost in data?——T. S. Eliot, The Rock, 1934

Page 5: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

5

本章内容

• 数据挖掘技术的由来

• 数据挖掘的定义

• 数据挖掘的研究内容

• 数据挖掘的应用

• 小结

Page 6: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

数据挖掘技术的由来

进化阶段 商业问题 支持技术 产品特点数据搜集( 20世

纪 60年代)“过去五年中我的总收入是多少?” 计算机、磁带和磁盘 提供历史性的、静

态的数据信息

数据访问( 20世纪 80年代)

“在新英格兰的分部去年三月的销售额是多少?”

关系数据库( RDBMS),结构化查询语言( SQL), ODBC Oracle 、Sybase 、 Informix 、IBM 、 Microsoft

在记录级提供历史性的、动态数据信息

数据仓库;决策支持

( 20世纪 90年代)

“去年三月的销售额是多少?据此可得出什么结论?”

联机分析处理( OLAP)、多维数据库、数据仓库

在各种层次上提供回溯的、动态的数据信息

数据挖掘(现在)

“下个月波士顿的销售会怎么样?为什么?”

高级算法、多处理器计算机、海量数据库 提供预测性的信息

数据挖掘的进化历程

Page 7: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

典型的数据挖掘系统

Page 8: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

数据挖掘的发展历程

第一阶段:结构化数据挖掘: 在初期,数据挖掘是面向结构化数据的,主要是指在关系数据库上进行的挖掘。第二阶段:复杂类型数据挖掘第三阶段:进一步产生了一些挖掘系统的研究,包括对动态、在线数据挖掘系统、分布式挖掘系统、并行挖掘系统,以及流数据、混合数据和不完备数据挖掘系统等的研究第四阶段:开拓基于知识库的知识发现的研究方向。

数据挖掘的目标

Page 9: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

数据挖掘的定义

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

基于数据的决策

Page 10: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

数据挖掘与其他分析方法的区别

数据挖掘的交叉学科基础

Page 11: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

数据挖掘的研究内容

 数据挖掘所发现的知识最常见的有以下:

•广义知识( Generalization)

•关联知识( Association)

•分类知识( Classification&Clustering)

•预测型知识( Prediction)

•偏差型知识( Deviation)

Page 12: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

数据挖掘领域十大经典算法

国际权威的学术组织评选出了数据挖掘领域的十大经典算法:•C4.5•k-Means•SVM•Apriori•EM•PageRank•AdaBoost•kNN•Naive Bayes•CART

Page 13: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

数据挖掘的流程

数据挖掘的基本过程和主要步骤

Page 14: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

数据挖掘的研究热点

• 1 .商业应用• 2 .网站的数据挖掘• 3 . Web挖掘和文本挖掘• 4 .医学研究• 5 .生物信息或基因的数据挖掘

Page 15: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

数据挖掘的应用

• 在商业、竞技、经济等系统中的应用

Page 16: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

推荐阅读及问题讨论

[1] Jiawei Han, Micheline Kamber. Data Mining: Concepts and Techniques. Second Edition, Morgan Kaufmann, 2006.

[2] 程炜 , 王海勋 . IEEE 数据挖掘国际会议 . 2011, 7(4): 72-73.

[3] Qiang Yang, Xindong Wu. 10 Challenging Problems in Data Mining Research. International Journal of Information Technology and Decision Making, 2006, 5(4): 597-604.

[4] Soumen Chakrabarti, Earl Cox, et al. Data Mining: Know It All. Morgan Kaufmann, 2008.

 

问题与讨论

在你熟悉的领域,列举出数据挖掘的若干应用。

推荐阅读 [1] 是目前全球广泛使用的数据挖掘教材,了解数据挖掘领域中的主要研究内容。

阅读推荐阅读 [2] ,查看 ICDM 和 KDD 最新的会议信息,列举出各研究领域中的热门方向。

阅读推荐阅读 [3] ,列举数据挖掘领域的十大挑战问题,谈谈你对它们各自的看法。

 

 

Page 17: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

Thanks!

通识卓越课程http://en.tjcities.com/index.php/works