20100717 hadoop cmri
TRANSCRIPT
中国移动研究院的云计算与中国移动研究院的云计算与中国移动研究院的云计算与中国移动研究院的云计算与中国移动研究院的云计算与中国移动研究院的云计算与中国移动研究院的云计算与中国移动研究院的云计算与HadoopHadoopHadoopHadoopHadoopHadoopHadoopHadoop相关研发工作相关研发工作相关研发工作相关研发工作相关研发工作相关研发工作相关研发工作相关研发工作
中国移动研究院
王旭
云计算市场发展预测
云计算/20092008
内部资料内部资料内部资料内部资料 注意保密注意保密注意保密注意保密
2/21
云计算处于最高期望点云计算处于最高期望点云计算处于最高期望点云计算处于最高期望点,,,,预计预计预计预计云计算处于最高期望点云计算处于最高期望点云计算处于最高期望点云计算处于最高期望点,,,,预计预计预计预计22--55年内成年内成年内成年内成年内成年内成年内成年内成为主流应用为主流应用为主流应用为主流应用为主流应用为主流应用为主流应用为主流应用 -(Gartner09新技术预测)
仅美国主要云计算服务商托管的大中型网仅美国主要云计算服务商托管的大中型网仅美国主要云计算服务商托管的大中型网仅美国主要云计算服务商托管的大中型网仅美国主要云计算服务商托管的大中型网仅美国主要云计算服务商托管的大中型网仅美国主要云计算服务商托管的大中型网仅美国主要云计算服务商托管的大中型网站数月增长率达站数月增长率达站数月增长率达站数月增长率达站数月增长率达站数月增长率达站数月增长率达站数月增长率达9%9%
�“2009年全球云计算服务市场将由年全球云计算服务市场将由年全球云计算服务市场将由年全球云计算服务市场将由2008年的年的年的年的464亿美元增长至亿美元增长至亿美元增长至亿美元增长至563亿美元亿美元亿美元亿美元,,,,增幅为增幅为增幅为增幅为增幅为增幅为增幅为增幅为21.3%”21.3%”
�“到到到到2012年年年年, 80%80%的财富的财富的财富的财富的财富的财富的财富的财富10001000强企业强企业强企业强企业强企业强企业强企业强企业将使用云计算服务将使用云计算服务将使用云计算服务将使用云计算服务”�“到到到到2013年将增长至年将增长至年将增长至年将增长至15011501亿美元亿美元亿美元亿美元亿美元亿美元亿美元亿美元”
- Gartner
标准化和开源活动
虚拟机
(Hypervisor)
虚拟机
(Hypervisor)云存储服务虚拟
机调
IaaS接口IaaS接口
云平台运行环境与能力组件
云应用
用户用户开源社区
Hadoop:开源的并行计算基础架构、开放的社区
重点行业组织
Xen、KVM:开源虚拟机
Eucalyptus & OpenNebula:开源虚拟化管理系统;
内部资料内部资料内部资料内部资料 注意保密注意保密注意保密注意保密
3/21
其他相关的行业组织
f物理计算资源
物理计算资源
物理存储资源
物理存储资源
其他物理资源
其他物理资源
(Hypervisor)(Hypervisor)机调度与管理
重点行业组织
DMTF: 系统管理相关标准化:虚拟机管理、虚拟机镜像格式等;OCSI工作组SNIA: 网络存储工业联盟、CDMI云存储规范
OGF OCCI:
规范 IaaS 用户接口
TGG:
数据中心建设的绿色节能
CSA:
云安全规范目前提供一个纲领性文件
OCC:
云平台互操作与云平台评估
其他新组织: CCIF,
Cloud Manifesto
传统组织:ISO,
IETF, Open Group,
OASIS
殊途同归的业界云计算成功实践:提供完整的云计算系统栈,形成企业核心竞争力微软Azure:从Windows/VM入手,提供计算和存储平台Windows Azure;将SQL Server改造为SQL Azure;研发Platform AppFabric
Google GAE:从GFS/BigTable入手,结合JVM/Python/Jetty,整合Google应用接口Amazon AWS:从S3/Xen入手,提供SDB/ SQS/ RDS/ EMR等增值平台Vmware :从VMM入手,收购SpringSource、RabbitMQ、Zimbra,研
内部资料内部资料内部资料内部资料 注意保密注意保密注意保密注意保密
4/21
SpringSource、RabbitMQ、Zimbra,研发vCloud
Oracle :从DB入手,收购Xen提供商、Sun,获得计算、存储、VMM技术Cisco :从网络设备入手,收购服务器厂商,研发网络虚拟化产品,并联合VMWARE、EMC在计算虚拟化、存储方面的优势,提供整合方案
大云研发历程
中国移动启动“大云”“大云”研发计划,打造公司云计算核心竞争力“大云”计划是中国移动研究院为打造中国移动云计算基础设施而实施的关键技术研究及原型系统开发计划
目标为满足中国移动中国移动ITIT支撑系统支撑系统高性能、低成本、可扩展、高可靠性的IT计算和存储的需要为满足中国移动提供互联网业务和服务互联网业务和服务的需要
内部资料内部资料内部资料内部资料 注意保密注意保密注意保密注意保密
5/21
并行数据挖掘工具开发并行数据挖掘工具开发并行数据挖掘工具开发并行数据挖掘工具开发与应用试验与应用试验与应用试验与应用试验
系统改进系统改进系统改进系统改进、、、、完善与试验完善与试验完善与试验完善与试验
云计算技术路标云计算技术路标云计算技术路标云计算技术路标、、、、引入策略引入策略引入策略引入策略、、、、总体解决方案研究总体解决方案研究总体解决方案研究总体解决方案研究、、、、产品研产品研产品研产品研发发发发、、、、应用试验应用试验应用试验应用试验、、、、产业链培育产业链培育产业链培育产业链培育、、、、商务模式研究商务模式研究商务模式研究商务模式研究
研究研究研究研究Hadoop等等等等云计算关键技术云计算关键技术云计算关键技术云计算关键技术
开源架构开源架构开源架构开源架构/关键关键关键关键技术研究技术研究技术研究技术研究
系统评估系统评估系统评估系统评估
发布大发布大发布大发布大云云云云 0.5
搭建搭建搭建搭建1024节点集群节点集群节点集群节点集群
用闲置资源搭用闲置资源搭用闲置资源搭用闲置资源搭建 第 一 个建 第 一 个建 第 一 个建 第 一 个Hadoop平台平台平台平台
建设建设建设建设 256节点节点节点节点集群和分析工集群和分析工集群和分析工集群和分析工具具具具
2007.3 2008.3 2008.12 2009.8 2009.122007.7 2008.10
确定大云研确定大云研确定大云研确定大云研究方向究方向究方向究方向
2010.5
本次会议上将本次会议上将本次会议上将本次会议上将发布大云发布大云发布大云发布大云1.0成成成成果果果果
建设1024节点规模的大规模实验室
实验室建设实验室建设实验室建设实验室建设• 2008年年年年9月完成了大规模运算实验室一期工程的月完成了大规模运算实验室一期工程的月完成了大规模运算实验室一期工程的月完成了大规模运算实验室一期工程的建设建设建设建设,,,,配置了配置了配置了配置了256台台台台PC服务器服务器服务器服务器,,,,初步建立了大初步建立了大初步建立了大初步建立了大规模运算平台研发和试验环境规模运算平台研发和试验环境规模运算平台研发和试验环境规模运算平台研发和试验环境
• 2009年年年年12月完成了大规模实验室二期扩容工程月完成了大规模实验室二期扩容工程月完成了大规模实验室二期扩容工程月完成了大规模实验室二期扩容工程建设建设建设建设
内部资料内部资料内部资料内部资料 注意保密注意保密注意保密注意保密
6/21
实验室部署实验室部署实验室部署实验室部署实验室环境实验室环境实验室环境实验室环境
• 节点节点节点节点::::1036个服务器个服务器个服务器个服务器;;;;5208个个个个CPU核核核核,,,,10T内内内内存存存存;;;;2.8P硬盘硬盘硬盘硬盘
• 交换机交换机交换机交换机::::9个万兆个万兆个万兆个万兆/千兆兼容以太网交换机千兆兼容以太网交换机千兆兼容以太网交换机千兆兼容以太网交换机,,,,树树树树形结构互联形结构互联形结构互联形结构互联
• 软件软件软件软件::::Centos Linux 5.3,,,,kernel 2.6.18, gcc 4.1.2, jdk1.6, hadoop-0.20等等等等
• 部署的应用部署的应用部署的应用部署的应用::::数据挖掘数据挖掘数据挖掘数据挖掘,,,,弹性计算平台弹性计算平台弹性计算平台弹性计算平台BC-EC,,,,结构化海量数据管理平台结构化海量数据管理平台结构化海量数据管理平台结构化海量数据管理平台HugeTable,,,,搜索引搜索引搜索引搜索引擎擎擎擎,,,,云存储云存储云存储云存储
系统管理
系统管理
系统管理
系统管理
大云技术架构
网管系统网管系统网管系统网管系统 mSpaces IDC 。。。。。。。。。。。。
分布式并发控制
分布式并发控制
分布式并发控制
分布式并发控制
GlobalLock
平台安全管理
平台安全管理
平台安全管理
平台安全管理
CloudSecurity
并行程序设计和开发环境并行程序设计和开发环境并行程序设计和开发环境并行程序设计和开发环境MapReduce
数据挖掘数据挖掘数据挖掘数据挖掘
BC-PDM
搜索引擎核搜索引擎核搜索引擎核搜索引擎核
BC-MSE
云存储中间件云存储中间件云存储中间件云存储中间件
BC-NAS
云计算应用层云计算应用层云计算应用层云计算应用层
• 中国移动内部的新型中国移动内部的新型中国移动内部的新型中国移动内部的新型IT支撑系统支撑系统支撑系统支撑系统
• IDC, mSpaces, email等互联网应用等互联网应用等互联网应用等互联网应用
云计算能力层云计算能力层云计算能力层云计算能力层
• 数据挖掘工具库数据挖掘工具库数据挖掘工具库数据挖掘工具库::::挖掘应用的算法工具挖掘应用的算法工具挖掘应用的算法工具挖掘应用的算法工具
• 云存储中间件云存储中间件云存储中间件云存储中间件::::提供海量对象存储能力提供海量对象存储能力提供海量对象存储能力提供海量对象存储能力
• 弹性计算弹性计算弹性计算弹性计算::::提供灵活的虚拟机出租服务提供灵活的虚拟机出租服务提供灵活的虚拟机出租服务提供灵活的虚拟机出租服务
• 搜索引擎核搜索引擎核搜索引擎核搜索引擎核:::: 提供基本的搜索引擎能力提供基本的搜索引擎能力提供基本的搜索引擎能力提供基本的搜索引擎能力
业务支撑业务支撑业务支撑业务支撑系统系统系统系统
管理信息管理信息管理信息管理信息系统系统系统系统
弹性计算弹性计算弹性计算弹性计算
BC-EC
内部资料内部资料内部资料内部资料 注意保密注意保密注意保密注意保密
7/21
/ CloudMaster
海量数据分布式海量数据分布式海量数据分布式海量数据分布式文件系统文件系统文件系统文件系统HyperDFS
开源的开源的开源的开源的Linux操作系统操作系统操作系统操作系统基于基于基于基于Xen的虚拟机的虚拟机的虚拟机的虚拟机
分布式并发控制
分布式并发控制
分布式并发控制
分布式并发控制/
GlobalLock
平台安全管理
平台安全管理
平台安全管理
平台安全管理/
CloudSecurity
结构化海量数据管理结构化海量数据管理结构化海量数据管理结构化海量数据管理HugeTable
• 搜索引擎核搜索引擎核搜索引擎核搜索引擎核:::: 提供基本的搜索引擎能力提供基本的搜索引擎能力提供基本的搜索引擎能力提供基本的搜索引擎能力
云计算平台层云计算平台层云计算平台层云计算平台层
• MapReduce::::MapReduce并行程序框架并行程序框架并行程序框架并行程序框架
• HugeTable::::结构化数据存储结构化数据存储结构化数据存储结构化数据存储
• HyperDFS::::海量数据的分布式文件系统海量数据的分布式文件系统海量数据的分布式文件系统海量数据的分布式文件系统
• CloudMaster: 云计算平台系统管理云计算平台系统管理云计算平台系统管理云计算平台系统管理
虚拟化资源层虚拟化资源层虚拟化资源层虚拟化资源层
• 构建在海量同质化的构建在海量同质化的构建在海量同质化的构建在海量同质化的PC与不可靠硬盘上与不可靠硬盘上与不可靠硬盘上与不可靠硬盘上
• 使用开源的使用开源的使用开源的使用开源的Xen提供计算资源的虚拟化提供计算资源的虚拟化提供计算资源的虚拟化提供计算资源的虚拟化
• 运行于开源的运行于开源的运行于开源的运行于开源的Linux系统之上系统之上系统之上系统之上
对象存储系统对象存储系统对象存储系统对象存储系统
oNest
大云弹性计算系统(BC-EC)
BC-EC:根据用户的需求灵活提供不同配置的X86虚拟服务器。主要特点:
1. 可为用户提供X86虚拟服务器,并根据用户申请提供不同的CPU、内存、硬盘空间配置2. 支持用户自服务,并可按实际使用量计费3. 方便快捷的的系统部署和应用恢复4. 强大的系统监控功能5. 安全管理和防护
应用1 应用2 应用3 应用4
内部资料内部资料内部资料内部资料 注意保密注意保密注意保密注意保密
8/21
逻辑资源
物理资源
虚拟网络虚拟网络 虚拟存储虚拟存储
统一管理统一管理 按需分配按需分配 动态调度动态调度 负载均衡负载均衡
应用1
虚拟处理器虚拟处理器
资源管理
资源抽象
应用2 应用3 应用4
并行计算执行环境(MapReduce/HyperDFS)
MapReduce/HyperDFSMapReduce/HyperDFS::::::::用于解决海量非结构化数据存储和处理的并行编程环境,在开源Hadoop
基础上开发,并针对电信业务高可靠性要求进行了改进和优化。
TaskTracker
(MapTask) TaskTracker中间结果 输出数
JobTracker
用户程序(JobClient)
提交作业• 自动并行化自动并行化自动并行化自动并行化:系统自动进行作业并行化处理,简化编程难度
• 自动可靠处理自动可靠处理自动可靠处理自动可靠处理:系统自动处理节点/任务的故障检测和恢复
• 灵活扩展灵活扩展灵活扩展灵活扩展:节点可以灵活加入和退出,系统自动感知节点状态并进行处理
MapR
educe
内部资料内部资料内部资料内部资料 注意保密注意保密注意保密注意保密
9/21
(MapTask)
TaskTracker
(MapTask)
TaskTracker
(MapTask)
TaskTracker
(ReduceTask)
TaskTracker
(ReduceTask)
果果
果中间结果
果中间结果
据输出数据
据输出数据
1
2
3
• 高性能高性能高性能高性能:计算任务将被调度至数据所在的节点,减少网络开销,提升执行性能
MapR
educe
HyperD
FS
• 数据高度可靠数据高度可靠数据高度可靠数据高度可靠:数据具有多个副本,保证数据可靠性
• 系统高可用性系统高可用性系统高可用性系统高可用性:通过多个元数据服务器实时同步,实现系统高可用性
• 磁盘故障自动发现与处理磁盘故障自动发现与处理磁盘故障自动发现与处理磁盘故障自动发现与处理:监测节点磁盘性能与错误,部分磁盘故障情况下,自动退服故障硬盘,不影响节点可用性
• 在线更换磁盘在线更换磁盘在线更换磁盘在线更换磁盘:在线更换发生故障的磁盘,不影响节点服务连续性。
并行结构化数据处理系统(HugeTable)
HugeTable:是一套管理海量结构化数据的低成本数据存储和管理系统。支持对数据实施快速索引查询/统计、多表扫描查询/统计的可扩展的海量结构化数据存储和管理系统。
主要特点主要特点主要特点主要特点主要特点主要特点主要特点主要特点•• 可靠性可靠性可靠性可靠性::::可靠性可靠性可靠性可靠性::::通过数据冗余提供高可靠性•• 大容量大容量大容量大容量::::大容量大容量大容量大容量::::支持PB级别的数据存储能力•• 低成本低成本低成本低成本::::低成本低成本低成本低成本::::基于PC架构,不需要外接
内部资料内部资料内部资料内部资料 注意保密注意保密注意保密注意保密
10/21
•• 低成本低成本低成本低成本::::低成本低成本低成本低成本::::基于PC架构,不需要外接•• 高性能高性能高性能高性能::::高性能高性能高性能高性能::::TB级数据量下秒级别的索引查询能力、快速数据加载、高速数据并行扫描能力
•• 丰富接口支持丰富接口支持丰富接口支持丰富接口支持::::丰富接口支持丰富接口支持丰富接口支持丰富接口支持::::提供标准的JDBC/ODBC/SQL接口;提供键值对访问接口和MapReduce接口
•• 强大的管理功能强大的管理功能强大的管理功能强大的管理功能::::强大的管理功能强大的管理功能强大的管理功能强大的管理功能::::基于Web的管理系统,支持数据、性能、故障、配置、日志管理功能
并行数据挖掘系统(BC-PDM)
各种数据处理、挖掘应用
Web GUI/
工作流引擎
应用
•• 丰富的数据丰富的数据丰富的数据丰富的数据丰富的数据丰富的数据丰富的数据丰富的数据ETLETL操作操作操作操作::::操作操作操作操作::::支持数据清洗、集成、转换、计算等31种ETL
操作
BCBC--PDMPDM::::支持支持支持支持::::支持支持支持支持SaaSSaaS应用模式的海量并行数据挖掘系统应用模式的海量并行数据挖掘系统应用模式的海量并行数据挖掘系统应用模式的海量并行数据挖掘系统,,,,适用于经营分析适用于经营分析适用于经营分析适用于经营分析、、、、用户行为研究用户行为研究用户行为研究用户行为研究、、、、应用模式的海量并行数据挖掘系统应用模式的海量并行数据挖掘系统应用模式的海量并行数据挖掘系统应用模式的海量并行数据挖掘系统,,,,适用于经营分析适用于经营分析适用于经营分析适用于经营分析、、、、用户行为研究用户行为研究用户行为研究用户行为研究、、、、精准营销精准营销精准营销精准营销、、、、气象气象气象气象精准营销精准营销精准营销精准营销、、、、气象气象气象气象//水文等领域的数据分析和处理水文等领域的数据分析和处理水文等领域的数据分析和处理水文等领域的数据分析和处理水文等领域的数据分析和处理水文等领域的数据分析和处理水文等领域的数据分析和处理水文等领域的数据分析和处理
主要特点主要特点主要特点主要特点主要特点主要特点主要特点主要特点
内部资料内部资料内部资料内部资料 注意保密注意保密注意保密注意保密
11/21
任务
任务分解
… M 1
M 2
M i
R 1
R j
子任务
block1
数据分割
block1block1
block2 block2
block2
block3
block3
block3
M 1
M 2
M iR 1R 2
D
R 2D
R j
HyperDFS HugeTable MapReduce
并行数据操作
数据传输及装载导出
数据管理及探索
工作流引擎
用户权限管理
广域网
•• 可定制的数据挖掘算法可定制的数据挖掘算法可定制的数据挖掘算法可定制的数据挖掘算法::::可定制的数据挖掘算法可定制的数据挖掘算法可定制的数据挖掘算法可定制的数据挖掘算法::::支持分类、聚类、关联分析等共12种算法,并可根据需求定制开发算法
•• 多格式支持多格式支持多格式支持多格式支持::::多格式支持多格式支持多格式支持多格式支持::::支持定长、不定长、CSV格式数据的装载及导出
•• 支持支持支持支持支持支持支持支持SaaSSaaS服务模式服务模式服务模式服务模式::::服务模式服务模式服务模式服务模式::::可在互联网上通过浏览器使用该服务
•• 方便的图形化界面方便的图形化界面方便的图形化界面方便的图形化界面::::方便的图形化界面方便的图形化界面方便的图形化界面方便的图形化界面::::采用Web 2.0
技术,通过图标的托、拉、拽方便地生成数据分析逻辑
对象文件存储系统(BC-NAS)
•• 高度可扩展性高度可扩展性高度可扩展性高度可扩展性::::高度可扩展性高度可扩展性高度可扩展性高度可扩展性::::采用基于环的数据冗余调度策略,系统性能随节点规模线性增长。
BCBC--NASNAS::::是通过键值查找数据文件的存储模式是通过键值查找数据文件的存储模式是通过键值查找数据文件的存储模式是通过键值查找数据文件的存储模式。。。。适用于企业适用于企业适用于企业适用于企业::::是通过键值查找数据文件的存储模式是通过键值查找数据文件的存储模式是通过键值查找数据文件的存储模式是通过键值查找数据文件的存储模式。。。。适用于企业适用于企业适用于企业适用于企业NASNAS数据备份数据备份数据备份数据备份、、、、互联网相互联网相互联网相互联网相数据备份数据备份数据备份数据备份、、、、互联网相互联网相互联网相互联网相册册册册、、、、邮件等海量小文件的数据存储邮件等海量小文件的数据存储邮件等海量小文件的数据存储邮件等海量小文件的数据存储。。。。册册册册、、、、邮件等海量小文件的数据存储邮件等海量小文件的数据存储邮件等海量小文件的数据存储邮件等海量小文件的数据存储。。。。
主要特点主要特点主要特点主要特点主要特点主要特点主要特点主要特点
内部资料内部资料内部资料内部资料 注意保密注意保密注意保密注意保密
12/21
性增长。• 索引、数据及状态信息分离,便于部署及横向扩展。
• 以桶为单位的对象数据管理模式,结构简单管理方便。
•• 提供多种访问接口提供多种访问接口提供多种访问接口提供多种访问接口::::提供多种访问接口提供多种访问接口提供多种访问接口提供多种访问接口::::支持FTP接口、SOAP/REST接口、标准文件系统接口、客户端访问接口等
•• 强大的管理功能强大的管理功能强大的管理功能强大的管理功能::::强大的管理功能强大的管理功能强大的管理功能强大的管理功能::::提供针对用户的计费、空间配额功能;节点失效监控及空间管理;文件内容管理
HDFS性能与可扩展性
聚合带宽并发写入性能:20MB/s/节点并发本地读取(MapReduce典型情况):200MB/s/节点并发随机读写性能:110MB/s/节点
系统可扩展性:16-200节点规模内近似线性扩展
写聚合带宽 vs 节点规模
120 4000
读聚合带宽 vs 节点数量
90000
内部资料内部资料内部资料内部资料 注意保密注意保密注意保密注意保密
13/21
0
20
40
60
80
100
31 63 108 169
节点数量
平均
节点
带宽
(MB
/s)
0
500
1000
1500
2000
2500
3000
3500
总聚
合带
宽(M
B/s
)
平均节点带宽 理论节点带宽(/3) 总体聚合带宽
0
200
400
600
800
1000
1200
1400
31 63 108 169
节点数量
平均节点带宽(
MB
/s)
0
10000
20000
30000
40000
50000
60000
70000
80000
90000
总聚合带宽(
MB
/s)
平均节点带宽 理论节点带宽 总聚合带宽
参与Hadoop开源社区
Improve the availability of HDFS NameNodeHDFS-839/HDFS-893:
Discussing the design with Dhruba from Facebook on improve Backup
Node in trunk
Submitted some bug report/fix and Proposed
some suggestion
hdfs:#4742: Mistake delete replica in hadoop 0.18.1
#5230: Bugfix for dnAddress resolve (rarely occurred, for NNC actually)
Hadoop Summit’09
Zhiguo Luo: Parallel Data
Mining in Telco
Hadoop World NYC 09
Feng Cao: Hadoop Based
Data Mining Platform for the
Telecom Industry
Hadoop in Beijing 09
Bill Huang: China Mobile’s
research and trial
内部资料内部资料内部资料内部资料 注意保密注意保密注意保密注意保密
NNC actually)
#5728: IndexOutOfBoundsException of FSEditlog
#5729: FSEditLog.open should stop going on if cannot open any directory
#5730: if only one mkdir fail, SecondaryNameNode should not exit
#5778: Correct the description of refreshNode command
Mapreduce#3674: dynamic heartbeat interval for the locality-aware task scheduling
#5474,DiskChecker$DiskErrorExceptionwhen 'reduce > reduce‘
#5475: Split Information errors when input data volumn is trivial:
research and trial
on Cloud Computing
Meng Xu: BC-PDM and its
Applications in Telecom
NameNode Cluster
http://github.com/gnawux/hadoop-cmri [code]
http://gnawux.info/hadoop/2010/01/pratice-of-namenode-cluster-for-hdfs-ha/
http://gnawux.info/hadoop/2010/05/namenode-cluster-code-github/
内部资料内部资料内部资料内部资料 注意保密注意保密注意保密注意保密
HDFS Stress Test
http://code.google.com/p/hadoop-test/
http://gnawux.info/hadoop/2010/01/a-simple-hdfs-performance-test-tool/
内部资料内部资料内部资料内部资料 注意保密注意保密注意保密注意保密