documentbi

52
商业智能简述 [email protected] http://twitter.com/jeff_kit 面向技术/非技术从业人员的BI扫盲课 10年12月22日星期三

Upload: jeff-kit

Post on 06-Dec-2014

728 views

Category:

Documents


4 download

DESCRIPTION

商业智能简介

TRANSCRIPT

Page 1: DocumentBi

商业智能简述

[email protected]://twitter.com/jeff_kit

面向技术/非技术从业人员的BI扫盲课

10年12月22日星期三

Page 2: DocumentBi

[email protected]

大纲

1.商业智能的概念

2.商业智能的技术

3.商业智能的工具

10年12月22日星期三

Page 3: DocumentBi

[email protected]

何谓智能

10年12月22日星期三

Page 4: DocumentBi

[email protected]

何谓智能邻居大婶:明年前鸡还是鸭?

10年12月22日星期三

Page 5: DocumentBi

[email protected]

何谓智能邻居大婶:明年前鸡还是鸭?

大学生小白:当公务员还是去私企?

10年12月22日星期三

Page 6: DocumentBi

[email protected]

何谓智能邻居大婶:明年前鸡还是鸭?

大学生小白:当公务员还是去私企?

博汇Peter:加薪还是裁员?

10年12月22日星期三

Page 7: DocumentBi

[email protected]

何谓智能

一起回忆一下止尿布的故事

邻居大婶:明年前鸡还是鸭?

大学生小白:当公务员还是去私企?

博汇Peter:加薪还是裁员?

10年12月22日星期三

Page 8: DocumentBi

[email protected]

有决策就有智能

何谓智能

一起回忆一下止尿布的故事

邻居大婶:明年前鸡还是鸭?

大学生小白:当公务员还是去私企?

博汇Peter:加薪还是裁员?

10年12月22日星期三

Page 9: DocumentBi

[email protected]

决策的依据

10年12月22日星期三

Page 10: DocumentBi

[email protected]

决策的依据

10年12月22日星期三

Page 11: DocumentBi

[email protected]

决策的依据特定目标

10年12月22日星期三

Page 12: DocumentBi

[email protected]

决策的依据特定目标

具体度量

10年12月22日星期三

Page 13: DocumentBi

[email protected]

决策的依据特定目标

具体度量具体度量

10年12月22日星期三

Page 14: DocumentBi

[email protected]

决策的依据特定目标

具体度量

基础和反馈信息

具体度量

10年12月22日星期三

Page 15: DocumentBi

[email protected]

• 它是:一套工具/解决方案

• 它能:将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策

商业智能的定义

10年12月22日星期三

Page 16: DocumentBi

[email protected]

商业智能模型Text

Text 数据仓库

数据挖掘

报表

联机分析数据源

ETL

10年12月22日星期三

Page 17: DocumentBi

[email protected]

大纲

1.商业智能的概念

2.商业智能的技术

3.商业智能的工具

10年12月22日星期三

Page 18: DocumentBi

[email protected]

• ETL (数据抽取、转换、装载)

• 数据仓库• OLAP--联机分析

• Cube--多维数据集与MDX

• 数据挖掘、等等。。。

商业智能的技术

10年12月22日星期三

Page 19: DocumentBi

[email protected]

ETL

关系数据库

其他数据库

XML、文件

数据仓库

Extract

Transform

Load

10年12月22日星期三

Page 20: DocumentBi

[email protected]

数据仓库

OLAP报表 挖掘

10年12月22日星期三

Page 21: DocumentBi

[email protected]

数据仓库1.它是关系数据库

OLAP报表 挖掘

10年12月22日星期三

Page 22: DocumentBi

[email protected]

数据仓库1.它是关系数据库

2.包含事实表与维度表OLAP

报表 挖掘

10年12月22日星期三

Page 23: DocumentBi

[email protected]

数据仓库1.它是关系数据库

3.表结构范型:

星型结构

雪花型结构

2.包含事实表与维度表OLAP

报表 挖掘

10年12月22日星期三

Page 24: DocumentBi

[email protected]

OL(X)P哥俩好

OLAP = (联机分析)OnLine Analytical Processing

OLTP = (联机事务)OnLine Transaction Processing

E.F.Codd

(1960S ─)

(1993 ─)

10年12月22日星期三

Page 25: DocumentBi

[email protected]

OLTP

T-SQL

select amount from sales where customer = 1

实时的

日常的

交易的

快速的

应用的

银行系统

OA订餐系统

电子商务关系数据库

10年12月22日星期三

Page 26: DocumentBi

[email protected]

OLAP

MDX

SELECT [Product] ON COLUMS,[Location] ON ROWS

Cube

分析的

可延迟的

海量的

需求多变的

决策的

分析系统

决策系统

自助报表

10年12月22日星期三

Page 27: DocumentBi

[email protected]

凭什么选OLAP!!??── OLTP愤愤不平地说

10年12月22日星期三

Page 28: DocumentBi

[email protected]

凭什么选OLAP!!??── OLTP愤愤不平地说

是马是骡子拉出来骝骝!

10年12月22日星期三

Page 29: DocumentBi

[email protected]

凭什么选OLAP!!??── OLTP愤愤不平地说

是马是骡子拉出来骝骝!

10年12月22日星期三

Page 30: DocumentBi

[email protected]

任务背景“真不少”连锁超市是全球5000强公司之一,每天全球各地的超市有上百万次交易,将近年末了,大老板想要看看今年的销售统计报表。

下面是精简后的销售数据历史表结构及示例:

ID 地区 产品 价格 时间10909002 香港 口香糖 10.8 2010-10-20

今年销售数据历史表中有数据50亿条

10年12月22日星期三

Page 31: DocumentBi

[email protected]

任务一

口香糖 洗发水 衣服 玩具 面包亚太区非洲北美

1,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000

1,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000

1,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000

我要今年每个地区对应各种产品的销售额

报表!

10年12月22日星期三

Page 32: DocumentBi

[email protected]

任务一之OLTP篇1.select count(价格) ,地区,产品 from 销售历史

group by 地区,产品2.执行!两个小时过去了。。。。。地区 产品 销售额香港 口香糖 1000000香港 衣服 2000000......... ......... ..........

3.哎哟,还得行转列!嗯,搞定!

10年12月22日星期三

Page 33: DocumentBi

[email protected]

任务一之OLAP篇小菜一碟,以产品为列,以地区为行输出销售额嘛。

select [产品] on columns,[地区] on rows from [销售历史仓库]

2秒不到,搞定!口香糖 洗发水 衣服 玩具 面包

亚太区非洲北美.......

1,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000

1,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000

1,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000

....... ........ ........ ........ ........

10年12月22日星期三

Page 34: DocumentBi

[email protected]

任务一总结OLTP兄,

你动作慢不但止,查询时还阻塞系统2小时!

OLAP兄,你动作非常快,慢着,我好像看得懂你的查询语句,有空教教我!

10年12月22日星期三

Page 35: DocumentBi

[email protected]

任务二

香港 非洲 南美 新加坡 中国春季夏季秋季

1,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000

1,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000

1,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000

我要今年每个季度对应各种地区的销售额

报表!

10年12月22日星期三

Page 36: DocumentBi

[email protected]

任务二之OLTP篇

2.select count(价格) ,地区,求季度(时间) from 销售历史group by 地区,求季度(时间)

地区 季度 销售额香港 春季 1000000香港 夏季 2000000......... ......... ..........

4.哎哟,还得行转列!终于搞定!

3.执行!我了个去,8个小时过去了。

1.首先我得写一个求季度的函数哇。

10年12月22日星期三

Page 37: DocumentBi

[email protected]

任务二之OLAP篇没难度,以地区为列,以季度为行输出销售额嘛。select [地区] on columns,[时间].[季度].children on rows from [销售历史仓库]

还是2秒不到,搞定!香港 非洲 南美 新加坡 中国

春季夏季秋季秋季

1,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000

1,000,000,000 2,000,000,000 1,000,000,000 1,000,000,000 1,000,000,000

1,000,000,000 1,000,000,000 3,000,000,000 1,000,000,000 1,000,000,000

1,000,000,000 1,000,000,000 1,000,000,000 4,000,000,000 5,000,000,000

10年12月22日星期三

Page 38: DocumentBi

[email protected]

任务二总结OLTP兄,

一次比一次慢,我不敢再拿系统阻塞冒险了

OLAP兄,一如往常的快,接下来我还要看月份的报表。

10年12月22日星期三

Page 39: DocumentBi

[email protected]

OLAP的秘密

多维数据库数据仓库

各种数据源

10年12月22日星期三

Page 40: DocumentBi

[email protected]

魔术发生的地方-Cube

T-Shit

hatsClothes

10年12月22日星期三

Page 41: DocumentBi

[email protected]

魔术发生的地方-Cube

维度(Dimension)

T-Shit

hatsClothes

10年12月22日星期三

Page 42: DocumentBi

[email protected]

魔术发生的地方-Cube

度量(Measure)维度(Dimension)

T-Shit

hatsClothes

10年12月22日星期三

Page 43: DocumentBi

[email protected]

魔术发生的地方-Cube

度量(Measure)维度(Dimension)

T-Shit

hatsClothes

层次结构(Hierarchy)

10年12月22日星期三

Page 44: DocumentBi

[email protected]

魔术师的咒语-MDXSELECT

{[维度成员],[维度成员]} ON 坐标,

FROM [多维数据集]

WHERE ([切片维度])

总坐标数为128

常用坐标常量:COLUMNS(0),ROWS(1),

PAGES(2),SECTIONS(3),CHAPTERS(4)

语法

PS.

10年12月22日星期三

Page 45: DocumentBi

[email protected]

数据挖掘

分类 | 回归 | 分割 | 关联 | 序列分析 | 概率预测

决策树

获得数据之间的关系并做出预测

贝叶斯

聚合算法

关联算法

10年12月22日星期三

Page 46: DocumentBi

[email protected]

大纲

1.商业智能的概念

2.商业智能的技术

3.商业智能的工具

10年12月22日星期三

Page 47: DocumentBi

[email protected]

• ETL工具

• 数据仓库• OLAP工具

• 报表工具• 挖掘工具

工欲善其事

10年12月22日星期三

Page 48: DocumentBi

[email protected]

商用BI工具

10年12月22日星期三

Page 49: DocumentBi

[email protected]

开源BI工具BIRT

开源免费组件

开源免费方案

开源商用方案

10年12月22日星期三

Page 50: DocumentBi

[email protected]

参考一、Introduction to data cube http://www2.cs.uregina.ca/~dbd/cs831/notes/dcubes/dcubes.html

二、Rapid Miner http://rapid-i.com/content/view/181/90/

三、SpagoBI http://www.spagoworld.org/xwiki/bin/view/SpagoBI/

四、Jasperreports http://jasperforge.org/projects/jasperreports

五、pentaho商业智能解决方案 http://www.pentaho.com/

六、pentaho社区版商业智能解决方案 http://community.pentaho.com/projects/bi_platform/

七、Palo for Excel http://www.palo.net/en/

八、《MicroSoft SQL Server 2005商业智能实现》 http://book.douban.com/subject/3016243/

九、商业智能工具维基百科 http://en.wikipedia.org/wiki/Business_intelligence_tools

10年12月22日星期三

Page 52: DocumentBi

[email protected]

感谢聆听

Bio:微勃&Twitter: @jeff_kit

[email protected]

10年12月22日星期三