英特尔® 傲腾? 长期内存是一款革命性的长期内存产品,补齐了DRAM与磁盘之间的需求缺口,重构内存/存储条理架构,集大容量、经济性和长期性于一身,资助用户优化数据中心基础设施,知足大数据剖析、数据库、云与虚拟化、漫衍式存储等多种应用场景需求。为了资助用户通过傲腾长期内存来实现应用立异优化,助力企业营业系统实现性能突破,豪运国际宣布了基于英特尔® 傲腾? 长期内存的多种场景计划,本计划是基于英特尔® 傲腾? 长期内存200系列的Spark应用计划。
Spark 是一种快速、通用、可扩展的大数据剖析引擎,现在已经生长成为一个包括多个子项目荟萃的生态系统。Spark 基于内存盘算,提高峻数据情形下数据处置惩罚的实时性,同时提供高容错性和高可伸缩性,用户可以将 Spark以集群的形式安排在大宗廉价的硬件之上,知足低本钱下高性能盘算需求。
Spark 搭载了高效的 DAG 执行引擎,可以通过基于内存来高效处置惩罚数据流。与Hadoop 的 MapReduce 相比,Spark 基于内存的运算要快100倍以上,基于硬盘的运算也要快10 倍以上。Spark 提供了统一的解决计划,支持批处置惩罚、交互式盘问(Spark SQL)、实时流处置惩罚(Spark Streaming)、机械学习(Spark MLlib)和图盘算(GraphX),这些差别类型的数据处置惩罚都可以在统一个应用中无缝使用。
Spark拥有众多的优势,普遍应用于云盘算、物联网、机械学习等前沿领域的超大型数据集快速剖析处置惩罚,并获得众多大数据公司的支持。
挑战:本钱限制了内存容量扩展
Spark的内存盘算能力受限于服务器自身关于内存容量的支持,这导致Spark作业执行时代经常泛起内存缺乏,中心数据落磁盘,Spark内存盘算的性能优势无法施展的情形。
古板的解决计划是使用Spark的漫衍式系统结构,使其在集群上运行,以解决内存缺乏的问题,为了扩展内存,企业将不得不安排更多的服务器,这显然增添了企业的本钱压力。
英特尔®傲腾?长期内存立异性解决计划新增内存扩展方法专为突破服务器内存容量限制而优化,补齐了DRAM内存与磁盘之间的需求缺口,打造高性能、大容量的长期内存层,有助于越发高效地挖掘数据的潜在价值。
图1:英特尔®傲腾?长期内存存储层
英特尔®傲腾?长期内存新一代产品200系列(Barlow Pass,即BPS)基于第三代英特尔®至强®可扩展处置惩罚器优化,容量有128GB、256GB和512GB三种。相关于上一代100系列产品,Ice Lake平台单颗CPU容量最大支持到4TB,内存频率提升至3200MT/Sec,单通道平均性能提升25%。
英特尔®傲腾?长期内存200系列具有两种事情模式:内存模式(MM)和App Direct 模式(AD)。
内存模式,CPU内存控制器将所有英特尔®傲腾?长期内存200系列视为易失性系统内存(无数据长期性),以更低的本钱提供更大的内存容量,无需更改应用,并且性能靠近 DRAM。
App Direct模式,能够实现较大内存容量和数据长期性,支持长期内存编程,软件和应用能够直接与英特尔®傲腾?长期内存通讯,降低了客栈的重大性,并充分使用缓存一致性的字节可寻址特征,将长期内存的使用扩展到外地节点之外;App Direct模式提供一致的低延迟,同时支持更大的数据集。
图2:英特尔®傲腾?长期内存事情模式
本计划使用App Direct模式,使用BPS的数据长期化、高容量、高可用性特征来加速Spark数据存储速率,实现以更低的内存本钱抵达更高的性能。
图3:BPS内存扩展计划与DRAM计划比照
本次使用TPC-DS测试了Spark在DRAM和BPS平台下的性能
测试设置(表)
设置项 |
BPS |
DRAM |
|
情形设置 |
CPU |
2*Icelake 6348 2.60GHz(112 vcore) |
|
Memory |
256G(16*16G) |
1T(32*32G) |
|
BPS |
1T(8*128G)App Direct |
None |
|
Disk Drive |
8*2T HDD |
表1:测试设置比照表
集群网络拓扑图(图4)
图4:测试计划集群网络拓扑图
测试效果
Spark SQL测试效果
图5:Spark SQL集群性能测试效果
Spark SQL集群比照测试效果说明: 数据cache后,BPS整体性能是DRAM的6.5倍。BPS通过OAP缓存了9个I/0需求高的SQL所有数据,而DRAM受服务器内存资源的限制测试数据不可所有放在内存中,部分数据落在磁盘上,导致Spark数据处置惩罚能力无法充分验展。
在Spark场景下,英特尔®傲腾?长期内存200系列体现了优异的稳固性和性能,可作为内存扩展计划使用,知足Spark应用更大容量内存的需求。英特尔®傲腾?长期内存扩展计划让Spark以更低的本钱使用更多的内存,从而施展Spark基于内存盘算的性能优势,该计划相关于DRAM计划有显着的性能提升。