基于 hadoop 的关键词行业分类技术 研究

16
基基 Hadoop 基基基基基基基基基基基基 --- 基基

Upload: tucker-mcconnell

Post on 03-Jan-2016

122 views

Category:

Documents


0 download

DESCRIPTION

基于 Hadoop 的关键词行业分类技术 研究. --- 季朋. 基于 Hadoop 的关键词行业分类技术研究. Catalog 目录. 基于 Hadoop 的关键词行业分类技术研究. Content 研究内容. 1. of. 13. 基于 H adoop 的关键词行业分类技术研究. 基于 Hadoop 的关键词行业分类技术研究. Solution 解决方案. 分类 学习训练集,分类未标注的关键词 海量数据 一千多万条数据,处理的数据达 10G 以上. 并行化的 KNN 算法. Hadoop 平台, MapReduce 处理框架. 2. of. 13. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 基于 Hadoop 的关键词行业分类技术 研究

基于 Hadoop 的关键词行业分类技术研究

--- 季朋

Page 2: 基于 Hadoop 的关键词行业分类技术 研究

Catalog 目录

基于 Hadoop 的关键词行业分类技术研究

1. 研究内容

2. 解决方案

3. Hadoop 平台

4. 中文分词

5. 特征权重

6. 相似度距离

7. 并行化 KNN 算法

Page 3: 基于 Hadoop 的关键词行业分类技术 研究

已知 33 个已定义的类别,目标为从海量的标注样本中,使用高效的学习算法,完成对测试样本的分类。

数据集中有一个文件,其中有标注的关键词(约100 万)和未标注关键词(约 1000 万)

1 of 13 基于 Hadoop 的关键词行业分类技术研究

基于 Hadoop 的关键词行业分类技术研究

Content 研究内容

Page 4: 基于 Hadoop 的关键词行业分类技术 研究

Solution 解决方案

基于 Hadoop 的关键词行业分类技术研究

• 分类学习训练集,分类未标注的关键词

• 海量数据一千多万条数据,处理的数据达 10G 以上

并行化的 KNN 算法

Hadoop 平台, MapReduce 处理框架

2 of 13 基于 Hadoop 的关键词行业分类技术研究

Page 5: 基于 Hadoop 的关键词行业分类技术 研究

Hadoop平台

3 of 13 基于 Hadoop 的关键词行业分类技术研究

Secondary NameNode

NameNode

… …

DataNode DataNode DataNode DataNode DataNode

Rack1 Rackn

BlockBlock

Client

Client

HDFS

Page 6: 基于 Hadoop 的关键词行业分类技术 研究

Hadoop平台

4 of 13 基于 Hadoop 的关键词行业分类技术研究

JobTrackerClient

Client

Task Scheduler

TaskTracker TaskTrackerTaskTracker

Map Task

Reduce Task

Map Task Map Task Map Task

Reduce Task

Map Task Map Task

Reduce Task

MapReduce

Page 7: 基于 Hadoop 的关键词行业分类技术 研究

5 of 13

中文分词

基于 Hadoop 的关键词行业分类技术研究

准确高效Python中文分词组件

停用词典

天津 / 理工大学

自定义词典

搜索引擎模式

结巴分词

Page 8: 基于 Hadoop 的关键词行业分类技术 研究

6 of 13

中文分词

基于 Hadoop 的关键词行业分类技术研究

原始数据集eg:天津大学\t7

Streamming process

分词后结果eg:天津大学\t天津/ 大学/ 天津大学/ \t7 ...

Mappercat

Reducer

Reducer

Reducer

...

segment.pystd out

HDFS

原始关键词 关键词分词 分类

网络理财投资排行 网络 理财 投资 排行 22

网络知名吊坠 网络 知名 吊坠 -

网络终端机软件 网络 终端 端机 终端机 软件 -

网络营销方案 范文 网络 营销 网络营销 方案范文 14

网络营销策划案 网络 营销 网络营销 策划 策划案 -

Page 9: 基于 Hadoop 的关键词行业分类技术 研究

7 of 13

特征权重

基于 Hadoop 的关键词行业分类技术研究

加权熵值: H(w) = 归一化: E(w) =

假如有三个分类 A,B,C ,分别含有 10,15,11 个单词,词 w 在 A,B,C 中出现的次数分别为1,4,3 ,则出现的概率(假设等同于频率)就分别为:,,,则 w 的加权熵值为:

H(w) = = + +

M=

归一化后得到的值越大,越具有区分度

Page 10: 基于 Hadoop 的关键词行业分类技术 研究

8 of 13

特征权重

基于 Hadoop 的关键词行业分类技术研究

R 语言展示如图:

词的大小和颜色代表权重值大小颜色从红到蓝,权重值逐渐减小形状从大到小,权重值逐渐较小

Page 11: 基于 Hadoop 的关键词行业分类技术 研究

9 of 13

相似度距离

基于 Hadoop 的关键词行业分类技术研究

扩展杰卡德距离: =

=

Page 12: 基于 Hadoop 的关键词行业分类技术 研究

10 of 13

并行化 KNN算法

基于 Hadoop 的关键词行业分类技术研究

找出训练集中与待分类文档距离最近的 k 个文档,则待分类的文档属于 k 个文档中占权重最大的那个分类

Page 13: 基于 Hadoop 的关键词行业分类技术 研究

11 of 13

并行化 KNN算法

基于 Hadoop 的关键词行业分类技术研究

分词

是否标注

开始

分词数据集

NY

计算权重

计算相似度

取距离最小的k个并分类

结束

分离训练集 分离测试集

Reducer

Reducer

Reducer

Reducer

Reducer

...

...

Mapper

Reducer

...

...

...

分类结果

MapReduce

MapReduce

训练集

...

Reducer

Reducer

...

合并结果

...

Mapper

Mapper

Mapper

...

权重值

测试集

Page 14: 基于 Hadoop 的关键词行业分类技术 研究

12 of 13

系统总流程

基于 Hadoop 的关键词行业分类技术研究

Keyword.txt原始数据集

分词以后数据集

已标注的关键词(训练集)

关键词熵值

每个类中单词数目

KNN分类算法MapReduce结果集

计算熵值算法(MapReduce)

分词算法Hadoop streaming

分离标注的关键词Hadoop streaming

计算类别中单词数目MapReduce

分离未标注的关键词Hadoop streaming

未标注的关键词(测试集)

Page 15: 基于 Hadoop 的关键词行业分类技术 研究

13 of 13

结果分析

基于 Hadoop 的关键词行业分类技术研究

类别 准确率 类别 准确率

1 90.45% 18 90.98%

2 91.66% 19 89.21%

3 89.51% 20 91.54%

4 90.21% 21 90.65%

5 90.15% 22 91.32%

6 90.34% 23 89.45%

7 90.59% 24 89.32%

8 91.12% 25 90.12%

9 90.76% 26 91.24%

10 89.19% 27 90.43%

11 90.14% 28 88.65%

12 90.43% 29 89.43%

13 89.10% 30 88.52%

14 90.56% 31 89.90%

15 89.54% 32 90.76%

16 88.67% 33 91.16%

17 90.23% 无

宏平均 90.17%

Page 16: 基于 Hadoop 的关键词行业分类技术 研究

基于 hadoop 的关键词行业分类技术研究