【优于GPU】英特尔SSF在深度学习中的表现如何？

周四, 1 十二月 2016 - 11:23

英特尔SSF，可以为HPC用户减少面对众多新科技选择时的烦恼，同时为用户提供最有效的软硬件组合的相关建议。

英特尔SSF集成了一系列软件与硬件技术，包括英特尔OPA，基于3D XPoint 技术的英特尔Optane SSDs，以及最新的英特尔硅光子技术。同时它集成了包括英特尔至强处理器，英特尔至强融核处理器以及英特尔Lustre 软件企业版在内的的一系列英特尔计算与储存产品。

从性能基准来看，相比基于GPU的AlexNet以及GoogleNet，英特尔SSF技术组合（英特尔至强融核处理器和英特尔OPA）可以为用户在深度学习的神经网络中提供更好地集成性和性能。

<center><img src="http://intel.eetrend.com/files/2016-12/wen_zhang_/100004173-13867-1.jpg…; alt="深度学习领域英特尔至强融核处理器胜于GPU产品"></center>
<center>深度学习领域英特尔至强融核处理器胜于GPU产品</center>

Intel Xeon Phi Processor
英特尔至强融核处理器

英特尔至强融核处理器可以为训练神经网络提供更佳性能，通过利用最多72颗处理核心，其中每颗核心包括两枚英特尔AVX-512矢量处理单元。这些处理单元你可以为机器学习和深度学习提供T字节的浮点运算能力。每一枚处理器内置16GB快速MCDRAM堆叠内存。MCDRAM与硬件预取和乱序执行处理器一起，加速了对内存带宽非常敏感的机器学习算法，同时保证了每颗矢量处理单元都被完全利用。

Intel Omni-Path Architecture

英特尔OPA在以下三个方面加速了分布式机器学习算法：

同上一代技术相比获得了4.6倍小讯息吞吐量提升

65纳秒的交换机延迟缩减

100GB/S的网络带宽

对于网络架构超过总预算30%的HPC，机器学习和云计算社区来说，英特尔OPA尤为重要。因为它可以通过最经济的方式提高集成性与性能。

<center><img src="http://intel.eetrend.com/files/2016-12/wen_zhang_/100004173-13868-2.jpg…; alt="Intel OPA 正是为了减少网络架构费用而设计的 "></center>
<center>Intel OPA 正是为了减少网络架构费用而设计的 </center>

MPI是一个重要的通讯层，尤其是对于许多科学计算应用和包含机器学习和深度学习在内的一些工业商业应用。一般来说，所有的分布式通讯都会通过MPI API(Application Programming Interface)。这也就是为什么英特尔花费了大量的时间将不同的处理器家族和网络类型与拓扑融入英特尔MPI库中。

低延迟
与EDR InfiniBand相比，英特尔OPA有更低的MPI延迟。
<center><img src="http://intel.eetrend.com/files/2016-12/wen_zhang_/100004173-13869-3.jpg…; alt=""></center>

更高的MPI消息率
英特尔OPA也能提供更高的MPI消息率。测试设备条件包括一个Switch Hop。

大规模集群下更低的延迟：
测试结果显示英特尔OPA相比于EDR可以在大规模下有更低的延迟
<center><img src="http://intel.eetrend.com/files/2016-12/wen_zhang_/100004173-13871-5.jpg…; alt="各节点数量下的延迟"></center>
<center>各节点数量下的延迟</center>

更低的CPU占用率
通讯应该尽量少的占用CPU资源，可以腾出资源运行其他的HPC引用
<center><img src="http://intel.eetrend.com/files/2016-12/wen_zhang_/100004173-13872-6.jpg…; alt=" osu_mbw_mr 信息率测试下的CPU占用率 "></center>
<center> osu_mbw_mr 信息率测试下的CPU占用率 </center>

英特尔软件

软件库也是英特尔SSF的组成部分之一。比如视频采用Intel Performance Libraries 后更快的机器学习与数据分析中的Intel Data Analytics Acceleration Library，它将为用户提供现成可用的算法，同时Intel Math Kernel Library 将会为用户提供加速数据分析与机器学习的低层次原始功能支持。英特尔还计划推出Intel MKL – Deep Learning Neural Network，这将会为深度学习神经网络提供开源现实。这将会促进流行的的开源深度学习架构的整合和应用。

<center><img src="http://intel.eetrend.com/files/2016-12/wen_zhang_/100004173-13873-7.jpg…; alt=""></center>
<center>机器学习与数据分析应用的重要构件</center>

训练解决复杂问题的机器学习算法，会产生大量的数据，这会极大地增加对计算，内存和网络的要求。英特尔SSF可以在机器学习与深度学习方面为您提供最合适的技术组合。

来源：微信号：英特尔商用频道（ intelbizweixin）