工作负载优化: 面向云服务提供商的指南 - intel ·...
TRANSCRIPT
工作负载优化: 面向云服务提供商的指南
2
1. 简介
2. 利用 FPGA 优化多样化的工作负载
简化部署
使用预定义的FPGA加速器
OVH提供“加速即服务”
阿里云使用英特尔®FPGA
3. 优化数据压缩和加密
4. 优化数据库和分析工作负载
5. 优化媒体和机器学习工作负载
6. 优化存储
7. 结论
2
3
3
4
4
4
5
6
6
7
8
目录
数据中心内工作负载的多样性和复杂性正在不断增长。企业在
寻找新的途径来从数据中收集和获取商业价值的同时,也在寻
求各种机会,以便将更多要求很高的应用放入云中。其中一些
应用先前托管在本地,这就让云服务提供商(CSP)有了新的
商机,可以拓宽客户需求。其他应用已经在云中正常运行了,
但将面临提供新价值的压力,例如通过对现有的数据存储应用
人工智能。
新兴的工作负载包括:
• 人工智能,数据训练通常需要处理海量的数据集,而且在
使用经过训练的模型时,可能需要很低的延迟,以便将结
果实时传递给用户。例如,搜索或广告算法需要快速响应,
确保网站访客不会在此期间离开网站。
• 大数据分析,很多公司都在设法更准确、更快速地洞察其
业绩表现,以便更具前瞻性和创新能力。理想情况下,公
司希望了解接下来要发生的情况或者当下的情况。
• 视觉计算,人们越来越多地使用神经网络分析摄像头捕捉
到的数据源和静态图像,以便用于标记、内容过滤和图像
搜索等应用。
简介
• 视频,视频在教育、信息和娱乐方面大受欢迎。媒体转码
技术是许多应用的核心,而且需要进行优化来降低在视频
开始之前的延迟,并降低回放期间的抖动。
对云服务提供商而言,难点在于如何使用合适的技术来优化工
作负载。随着众多云服务提供商开始对其价格是否有竞争力高
度敏感,成本与性能之间出现了一种微妙的平衡。
等式的一个重要部分是优化基础设施的性能,以便满足服务级
别方面的期望。工作负载加快后,云服务提供商能够提高数据
中心内可以容纳的工作负载的密度,进而可能降低其总体拥有
成本。
例如,与上一代英特尔®至强®处理器E5-2690相比,升级到
英特尔®至强®可扩展处理器后,虚拟机密度最高是以前的3.4
倍 1,2。这让云服务提供商能够在每个机架上托管更多客户的
应用,大大提高了数据中心的利用率。
本电子指南介绍了一些使用英特尔®技术来优化不同工作负载
的技巧。云服务提供商只要为正确的工作负载使用正确的技
术,就有机会实现性能领先,赢得新业务,并提高数据中心
的利用率。
3
要加快运营速度,最有效的一种方法就是使用专门设计的
硬件。对云服务提供商来说,他们所托管的工作负载经常
变化而且底层硬件需要足够灵活,以适应各种新的工作负
载。现场可编程门阵列(FPGA)给出了解决办法。
FPGA是一些可对器件内的电子功能进行更改的微芯片。
例如,可以重新配置器件,以便更好地处理压缩或加密算
法。对云服务提供商来说,可以将FPGA作为服务来提供,
让客户能够通过云轻松使用FPGA,以加速某些最有挑战
性的工作负载。
如今,FPGA的普及已成为可能。过去,只有那些具备
FPGA编程技术技能和资源的企业才能使用FPGA。现在,
得益于更简单的编程模式和在云中提供FPGA的能力,云
服务提供商可以将这一技术引入到更广泛的市场,并且通
过在高度优化的架构上托管密集型工作负载来赢得新业务。
通过提供确定性的服务级别协议(SLA),FPGA还能带
来附加值。随着基础设施分流 / 加速器的出现,云服务提
供商能以基于FPGA的智能NIC形式,将虚拟交换机功能
的开销分流到FPGA。这将释放出更多的内核来处理软件
即服务(SaaS)供应商的应用,或者在基础设施即服务
(IaaS)供应商的情况下,将释放额外的内核以供出租。
一直以来,FPGA给人的印象都是难以编程和管理。英特尔
一直在努力简化该流程,从而更轻松地在云数据中心内部署
FPGA,并为常见应用提供FPGA加速器。
英特尔®可编程加速卡(英特尔®PAC)是一种PCIe*加速
器卡,可以连接到数据中心内的现有服务器。其包含一个
英特尔®Arria®10GXFPGA,可用于加速大数据分析、人
工智能、基因组学、视频转码、网络安全和金融交易等应用。
这是包含FPGA的英特尔®至强®CPU加速堆栈所支持的
几种平台之一,可帮助主流编程人员更好地使用FPGA。
该加速堆栈提供了一个简化的硬件接口和软件应用编程接
口(API),并且将硬件的细节抽离。因此,开发者可以
在不同的英特尔®FPGA、CPU和GPU中重用代码,从而
节省时间。
利用 FPGA 优化多样化的工作负载
简化部署
3
4
为进一步简化FPGA的使用,英特尔正在与Accelize协作,
以便FPGA可以使用标准加速器。FPGA的配置设计被称为
知识产权内核(IP内核),而Accelize提供了多种预定义
的IP内核,可以由云服务提供商基于“按量付费”模式使用。
AccelizeQuickStore为IP内核和FPGA加速器功能提供了
市场,而且AccelizeQuickPlay开发环境让软件开发者能够
使用QuickStore中的IP内核来创建和自定义FPGA加速器。
通过使用英特尔®PAC,云服务提供商可以轻松在服务器中添
加FPGA功能,而且利用Accelize的IP内核库,还可以轻
松提供现成的加速器功能。
OVH是一家云服务提供商,在4大洲的12个地点拥有27个
数据中心。OVH目前正将英特尔®PAC与英特尔®Arria®10
GXFPGA搭配使用,以便向基础设施中添加FPGA功能。通
过与Accelize协作,OVH将提供多个功能来加速计算密集型
任务,比如搜索、压缩、加密、视频转码和机器学习。
该服务最初将在基于OpenStack的OVH公有云中提供,之
后将扩展到其他OVH云产品。
来源:OVHlaunchesAcceleration-as-a-ServiceLeveragingtheNewIntel®Programmable
AccelerationCardandAppStorefromFPGAAccelerationPartnerAccelize(OVH利用新
款英特尔®可编程加速卡和FPGA加速合作伙伴Accelize的应用商店发布了“加速即服务”)
来源:IntelFPGAsPowerAcceleration-as-a-ServiceforAlibabaCloud(英特尔FPGA助
力阿里云的“加速即服务”)
阿里云基于英特尔®FPGA提供“加速即服务”。该服务也称为
阿里云F1实例,让用户能够以“按需付费”模式来使用云加速,
无需事先进行硬件投资。
“对于那些运行业务应用和要求很高的数据及科学工作负载的
客户来说,英特尔®FPGA为我们提供了一种经济高效的方法
来为这些客户加速云端应用的性能,”阿里云副总裁李津指出,
“FPGA的另一个重要价值在于能以低功耗提供高性能,而且可
以灵活管理多样化的计算工作负载。”
作为英特尔部署的一部分,阿里云用户能够访问包含FPGA的
英特尔®至强®CPU加速堆栈。用户还能访问面向基因组学、
机器学习、数据分析、网络安全、金融计算和视频转码的丰富
IP生态系统。
OVH 提供“加速即服务”
阿里云使用英特尔® FPGA
使用预定义的 FPGA 加速器
4
5
用户可以将数据分流到英特尔®QuickAssist 技术(英特尔®
QAT)来优化压缩和加密工作负载,QAT是英特尔®至强®处理
器中集成的一项硬件功能,针对上述功能进行了优化。例如,在
Hadoop*工作负载中,可使用英特尔®QAT进行压缩和解压缩,
从而节省数据在集群中的服务器之间移动时耗费的时间和带宽。
英特尔®QAT能够为网络安全、路由、存储和大数据应用实现硬
件加速。带来的优势包括:降低对平台的需求,提高CPU利用率,
为更多的认证客户端实现更高性能的安全隧道。
东软SaCaAclome*是一个可视化云管理环境,让客户能够部署、
监控和管理云应用。借助英特尔®QAT,东软能够加速用户数据
的压缩和解压缩,性能是之前的2.02倍 1,3。此外,从英特尔®
至强®处理器E5-2699v4升级到英特尔®至强®铂金8180处理
器也使得性能达到原来的1.5倍 1,3。
随着人们日益关注数据安全和在线用户隐私,安全套接字层
(SSL)加密技术被频繁用于保护网页及交易网站的内容。英特尔
正在与OpenSSL*软件基金会协作,以优化实施过程,从而与
英特尔®QAT和其他硬件加速器配合使用,并利用所得到的发现
在以后增强专有解决方案。
优化数据压缩和加密
借助搭载了英特尔® QAT 技术的英特尔® 至强® 铂金 8180 处理器,东软 SaCa® Aclome* 提高了性能
性能指标:吞吐量(代际差距:事务/秒,QAT:Mbps:兆比特/秒)
代际差距
0
1
2 标准性能
1.5 倍
2.02 倍
英特尔® QuickAssist 技术
双路英特尔® 至强® 处理器 E5-2699 v4
双路英特尔® 至强® 铂金 8180 处理器
搭载英特尔® QAT 的双路英特尔® 至强® 铂金 8180 处理器
6
云服务提供商需要进行规划,以满足数据库和分析服务的服务
级别协议。将服务器更新到英特尔®至强®可扩展平台可以支
持更高的每秒操作数和更多用户。
例如,ApacheCassandra是一个高度可扩展的高性能分布式
NoSQL数据库。其用途是处理多个节点中的大量数据和实时
Web应用,并且没有任何单点故障。Cassandra压力测试是
一个基于Java*的压力测试工具。英特尔使用这一压力测试证
明了云服务提供商在通过英特尔®至强®铂金8180处理器提
供20msSLA服务的情况下所能实现的性能提升。与四年前的
英特尔®至强®处理器E5-2697v2相比,新平台支持的客户端
数量最高是原来的5倍 1,4,每秒操作数是原来的4.6倍 1,4。
媒体和机器学习工作负载往往能从矢量化技术中获益,通过矢量
化技术,一个指令可以同时处理多个数据项。随着英特尔®至强®
可扩展平台的发布,由于引入了超宽512位矢量,因此数据寄
存器的宽度也翻倍。使用英特尔®高级矢量扩展512(英特尔®
AVX-512)后,可以加快媒体转码和机器学习等工作负载。
例如,中国云服务提供商腾讯提供了一种视频拼接应用,允许
客户为虚拟现实、360度视频和其他应用创建沉浸式视频内容。
腾讯通过优化软件对英特尔®AVX-512的使用,与使用较早的
英特尔®AVX2相比,性能提升了34%1,5。英特尔®至强®铂金
8180处理器的更多内核和高内存带宽让这家公司能够将总体
延迟降低72%1,5。
英特尔®AVX-512还有助于加速延迟敏感型机器学习应用,比
如采取逐项实时评分的流式推理应用。其中包括搜索引擎和实
时物联网(IoT)传感器分析等应用。与上一代服务器上的每服
务器160个用户会话相比,利用专为英特尔®至强®可扩展平
台上运行的英特尔®AVX-512而优化的应用后,云服务提供商
可以实现每服务器274个用户会话 1,6。
优化数据库和分析工作负载
优化媒体和 机器学习工作负载
英特尔® 至强® 铂金 8180 处理器最高支持
Cassandra 压力测试
客户端 1, 4 操作数 1, 4
5 倍 4.6 倍
6
7
使用分层存储可以帮助云服务提供商在存储介质速度
与数据存储成本之间取得平衡。省下的成本可用于对
性能SLA要求不太高的客户,或者重新投资于云服
务提供商的业务。有不同方法来划分层次,下面只是
其中一种模式:
活动数据
活动数据可能只占数据的不到10%,但会对客户体
验产生巨大影响。这种分层适用于活动应用所使用的
数据,而且这种数据可能是临时的,也可能是持久的。
此处的机会在于通过良好的性能来提高每个虚拟机的
收入。这一层的存储可以使用英特尔®傲腾™固态盘
(SSD)和英特尔®3DNAND固态盘的组合。可使
用英特尔®QAT加速压缩和加密。
稳定数据
这一层可能代表大型数据集(以PB计),而且SLA
要求适中。这种模式适用于频繁写入而读取不太高的
情况。这种模式面临的挑战在于要创建一个平衡的存
储解决方案,以最优的成本满足工作负载要求。稳
定数据可以保留在SATA硬盘上,使用英特尔®3D
NAND固态盘进行缓冲来实现加速。与活动数据一
样,可使用英特尔®QAT加速压缩和加密。
优化存储
归档存储
这一层代表非常大的数据集(EB),这些数据集是
在线的,但极少有人访问。由于SLA要求很低,因
此可以按照最低成本进行优化。可以使用SATA硬
盘来满足该层的要求,而引导设备则基于英特尔®
3DNAND固态盘。
深度归档存储
这一层用于应用无法直接可见的大规模存储,比
如灾难恢复数据。SLA要求最低,但规模可能巨
大,可能代表了全部数据的一半以上。也可以按照
最低成本来优化这一层。与归档存储一样,可以用
SATA硬盘来满足这一层的要求,并将英特尔®3D
NAND固态盘用于引导设备。
面向数据中心应用的英特尔®固态盘DCP4510
系列采用英特尔®3DNAND技术,使最终用户
能够在每台服务器上执行更多工作,支持更广泛
的工作负载,提高空间利用率。与上一代相比,
P4510系列最高支持4倍于原来的容量(每服务
器TB),而且在保持99.99%服务质量时,随
机读取延迟只有原来的十分之一 7。该硬盘还将每
TB的每秒输入输出操作(IOPS)翻倍 7。
英特尔®虚拟RAIDonCPU(VROC)提供了
到PCIe固态盘的RAID。通过将RAID卡替换
为英特尔®VROC,云服务提供商能够将IOP
性能翻倍,并且最高可节省70%的成本(PCIe
固态盘直接连接到CPU),提升固态盘存储
的投资回报率 7。
建立最佳的存储基础设施后,可能需要在软件
方面进行进一步的优化。英特尔®智能存储加
速库(英特尔®ISA-L)是一个免费的优化存
储算法库,利用了英特尔®处理器的最新功能。
ISA-L将纠删码的速度提高了100%1,而且
提升了横向扩展存储集群(比如Ceph、Swift
和HDFS)的性能。ISA-L还将哈希计算的执
行速度提高了200%1,加快了数据去重速度,
并且将加密性能提高了20%1,8。
活动 数据
(热)
稳定数据(暖)
归档存储(冷)
深度归档存储
图 1:四种可能的云存储层
不到 10% 的
数据
超过 50% 的
数据
大约 40% 的
数据
8
人工智能、视频转码和加密等工作负载让云服务提供商有
机会赢得新业务并实现性能上的领先。如本电子指南所述,
云服务提供商可以使用其他技术(比如英特尔®FPGA)或
通过优化工作负载来利用所述的技术(比如英特尔®QAT
或英特尔®AVX-512),以此加速这些工作负载。另外,
还可以使用英特尔®固态盘和ISA-L软件库来优化存储。
寻找适合贵公司的解决方案。请联系您的英特尔
代表或访问 intel.cn/CSP。
结论 1 性能测试中使用的软件和工作负荷可能仅在英特尔微处理器上进行了性能优化。诸如SYSmark和MobileMark等测试均系基于特定
计算机系统、硬件、软件、操作系统及功能。上述任何要素的变动都有可能导致测试结果的变化。请参考其他信息及性能测试(包括结
合其他产品使用时的运行性能)以对目标产品进行全面评估。有关更完整的信息,请访问http://www.intel.cn/content/www/cn/zh/
benchmarks/intel-product-performance.html。基准性能测试(或估测)结果在实施近期针对“Spectre”和“Meltdown”漏洞的软件补
丁和固件更新之前发布。实施更新后,这些结果可能不再适用于您的设备或系统。
2已经使用英特尔内部分析预测结果,该等结果仅供您参考。1个节点,2个英特尔®至强®处理器E5-2690(Romley-EP平台),总内存
为256GB,使用VMwareESXi*6.0GA、GuestOSRHEL6.4、glassfish3.1.2.2、postgresql9.2。数据来源:请求号:1718,基准测试:
SPECvirt_sc*2013,得分:377.6@21。比较配置:1个节点,2个英特尔®至强®铂金8160处理器(WolfPass平台),总内存为768
GB,使用VMwareESXi*6.0Update2、RH6.4guestOSPostgreSQL9.2、glassfish3.1.22apache-tomcat-7.0.47dovovot-2.2.5、
fastcgi2.4.6。数据来源:2600,基准测试:SPECvirt_sc*2013,得分:1256@71VMsif。
3 东软配置详情。东软SaCa*Aclome*:SaCa*Aclome工作负载(针对一般性能)和压缩 /解压缩工作负载(针对QAT)。操作系统:
CentOS7.3.1611。由英特尔和东软于2017年5月测试。基准:双路英特尔®至强®处理器E5-2699v4,2.2GHz,22核,启用英特尔®
睿频加速技术和英特尔®超线程技术,128GB总内存,8插槽 /16GB/2400MT/s/DDR4,SATA固态盘。新平台:英特尔®至强®铂金处
理器8180,2.5GHz,28核,启用英特尔®睿频加速技术和英特尔®超线程技术,LewisburgC627,128GB总内存,8插槽 /16GB/2666
MT/s/DDR4,SATA固态盘。备注:数据压缩 /解压缩使用Zlib1.2.8。QAT驱动程序版本:S4PR1-Linux-QAT1.7.Upstream.L.0.9.0-36
4 Cassandra 压力测试配置。操作系统:CentOS7.3内核4.10.1.x86_64。Cassandra版本:apache-cassandra-3.10。Java:Oracle
JDK1.8.0_121。输入数据集:1.7TB压缩数据集(LZ4压缩)。基准:英特尔®至强®E5-2697v2(2.7GHz,130W)。12核 /路,双路,
每核2线程。DDR3双排128GB=8x16GB@1866MHz6x400GB。英特尔®SATA固态盘DCS3700系列(2.5英寸)。BIOS2.15.1229。
新平台:英特尔®至强®铂金8180处理器(2.50GHz,205W)。28核 / 路,双路,每核2线程 DDR4双排192GB=12x16GB@
2400MHz。3x1.6TBSSDPCIeNVMe英特尔P3700系列
5 腾讯视频拼接配置。操作系统:CentOS7.3.1611Linuxkernel4.9.8。由英特尔于2017年4月测试。基准:双路英特尔®至强®处理器
E5-2699v4,2.2GHz,22核,启用英特尔®睿频加速技术和英特尔®超线程技术,128GB总内存,8插槽 /16GB/2400MT/s/DDR4,
SATA34TB。新平台:英特尔®至强®铂金处理器8180,2.5GHz,28核,启用英特尔®睿频加速技术和英特尔®超线程技术,192GB总内存,
12插槽 /16GB/2666MT/s/DDR4,s3700800G固态盘。
6已经使用英特尔内部分析或架构模拟或建模预测或模拟结果,该等结果仅供您参考。系统硬件、软件或配置中的任何差异将可能影响您的
实际性能。DNN推理的假设应用,用于比较24核SkylakeCPU与18核BroadwellCPU。Skylake:96线程分布在双路上;每个用户
350ms(新应用,AVX-512经过优化);大约每秒每线程2.85个用户;每个服务器274个用户会话。Broadwell:72线程分布在2个路上;
每个用户450ms(新应用,AVX2优化);大约每秒每线程2.22个用户;每个服务器160个用户会话。
7 https://newsroom.intel.com/news/intel-reimagines-data-center-storage-new-3d-nand-ssds
8 ISA-L基于每字节周期数进行的性能比较。运行的所有测试都是使用RedHatEnterpriseLinuxServer7.164位操作系统,内核4.2.3,
根据gcc4.8.5和nasm2.11.08编译。为保证测试的一致性,测试时禁用了Turbo、SpeedStep、PowerPerformanceTuning、P状态
和C状态。测试功能从用户空间运行,结果取多次周期数的平均值。
英特尔编译器针对英特尔微处理器的优化程度可能与针对非英特尔微处理器的优化程度不同。这些优化包括SSE2、SSE3和SSSE3指令集
和其他优化。对于非英特尔微处理器上的任何优化是否存在、其功能或效力,英特尔不做任何保证。本产品中取决于微处理器的优化是针对
英特尔微处理器。不具体针对英特尔微架构的特定优化为英特尔微处理器保留。请参考适用的产品用户与参考指南,获取有关本声明中具体
指令集的更多信息。
此处提供的所有信息可在不通知的情况下随时发生变更。关于英特尔最新的产品规格和路线图,请联系您的英特尔代表。
英特尔技术特性和优势取决于系统配置,并可能需要支持的硬件、软件或服务得以激活。产品性能会基于系统配置有所变化。没有计算机系
统是绝对安全的。更多信息,请见intel.cn/CSP,或从原始设备制造商或零售商处获得更多信息。
英特尔、英特尔标识、至强、傲腾是英特尔公司或其子公司在美国和 /或其他国家的商标。
*其他的名称和品牌可能是其他所有者的资产。
©英特尔公司版权所有 0518/CAT/LH/PDF
8