想干掉有16000个核的AI大脑？你得硬件跑得快，软件效率高！

周四, 1 九月 2016 - 11:57

不知道你还记不记得，2012年，有一条大新闻：谷歌大脑项目，这个用16000个CPU 模拟人脑的软件系统平台，在无人工提示的情况下，自主学习，自动识别出了猫脸。《纽约时报》认为，该技术“将给机器视觉和知觉、语音辨识以及语言翻译等诸多领域带来重要进步。”

然而，同年的另一条新闻却没人注意。在由斯坦福和普林斯顿大学联合举办的机器学习图片分类竞赛 ImageNet 上，谷歌败在了几个来自多伦多大学的学生手下，他们夺得桂冠的致胜点在于：大大降低了图片识别的错误率。就这么两三个大学生，竟然能战胜拥有“大脑”的谷歌，学术界和工业界为此一片哗然。

这几个学生之所以有这样的成绩，主要是因为他们有个好老师——多伦多大学研究人工智能的资深教授Geoffrey Hinton，他提出的深度学习多隐层神经网络，不仅帮他的学生战胜了谷歌，更为人工智能的研究开启了全新篇章。

Hinton 教授曾有一段著名的话：要想让人工智能更有效，有三个条件——计算机足够快、数据足够大、初始权重值足够完美，而这三个条件现在都已经满足了。

经过广大技术人员的反复实践、不懈努力，对于初始权重的设定越来越接近理想值。

足够大的数据？在这样一个万物互联的时代，完全不是问题。

足够快的计算机？实际上，对于人工智能从业者来说，计算机再快，也不嫌快。英特尔就在让它变得越来越快。

没有最快，只有更快

机器学习是人工智能领域中增长最为迅速的分支。在世界上所有的服务器中，有将近10%都在运行跟机器学习有关的负载，其中大多数都使用了英特尔的处理器。

机器学习应用的支撑平台需要涵盖计算、存储、网络等多种资源，没有十八般武艺样样精通的本事，是揽不了这个瓷器活的。英特尔的至强E5 v4系列处理器，非常适合处理机器学习模型评分（scoring）应用。

更值得注意的，适用于超级计算领域的新一代至强融核处理器家族（Xeon Phi），专攻高度并行的工作负载，为机器学习模型训练（training）提供强劲性能，同时可以运行多种分析工作负载，可扩展性也有大幅提升：Viscovery是一家专门从事视频识别的公司，他们使用至强融核处理器，构建了只使用 CPU 的视频深度学习平台，其效果比传统方案提升了3到6倍。

能够完成机器学习计算的芯片，在传统CPU的基础上，又涌现出了很多新星：越来越多科学家使用现场可编程门阵列逻辑电路器件（简称FPGA）。

因为FPGA 不但可以提供高度并行计算能力，而且在同样单位能耗下性能更强劲，同时还有灵活的架构能力，可以满足不同特定应用需求。

这些优点对深度学习技术人员来说都非常重要。同时，FPGA 的使用，早已不仅限于学术领域。只要你使用微软的搜索引擎 Bing ，其后台就已经有不少负载跑在 Altera 公司研发的 FPGA 芯片上，而 Altera 也已在去年被英特尔收购。

英特尔相信：到2020年，有三分之一的数据中心节点，将会使用FPGA。因此，英特尔现在一直在开发统一的接口。原来在至强系列处理器上运行的深度学习、机器学习负载，以后就可以在至强融核、FPGA 上以互补、配合的方式运行。

从计算领域的至强到至强融核处理器，再到FPGA，从SSD存储领域最新的 3D XPoint DIMM 技术再到光网络互联Omni-Path（Intel OPA）架构，英特尔一直在不断努力提升自己的硬件方案，加快数据处理速度，降低数据分析成本和系统能耗。

数据够大，还要会处理

人工智能要想有成效，Hinton 教授的第二个条件是：数据足够大。而目前全世界90%的数据量，都是过去两、三年时间产生的。4年之后，到2020年，将会有500亿台互联设备，每年会产生超过 2 万亿GB的数据量。

面对如此海量的数据，机器学习应用要想处理得有效，光靠越来越快的硬件基础设施还不行，很多基础性的处理，比如一些数学变换，如果能提升这些操作的效率，那才是事半功倍。

在这方面，英特尔数学核心函数库（Intel Math Kernel Library，简称MKL）和提供较高级别算法的数据分析加速库（Intel Data Analytics Acceleration Library，简称DAAL）能够大显身手以高性能的算法，供开发人员调用。

接下来，针对深度学习，英特尔还将发布数学核心函数库——深度学习神经网络 (Intel MKL-DNN)，提供 MKL 深度学习神经网络层的开源实现。

在这些项目之上，有专门针对高性能计算平台的英特尔可扩展系统框架（Intel Scalable System Framework，简称 SSF），提供全面的参考架构和设计，让各种技术之间可以互相协作，让部署变得更简单，同时显著减少分布式深度学习计算模型运行需要的时间。

可信分析平台计划 TAP（Trusted Analytics Platform，简称 TAP）也是一个英特尔积极参与的开源项目，其目的是要优化数据分析和机器学习解决方案的性能和安全性，以统一的平台，提供协作、灵活的环境、工具和组件，提升数据科学家、应用开发人员和系统运维人员的工作效率。

多快好省，都是为了社区、为了行业、为了用户

能用快速的硬件、高效的软件分析海量数据，同时降低分析的成本。这样“多快好省”的解决方案，英特尔可没有当成自己的“小秘密”，而是一直与开源社区合作，为社会提供更好的开源软件。前面提到的几个开源基础库，还有在开源生态系统中的贡献，就是很好的例子。

在机器学习行业内，Caffe 和 Theano 深受开发人员喜爱，称得上是标准框架。前者专门针对图像识别，后者是基于 Python 语言的深度学习基础库，可以用来创建深度学习模型，简化开发人员的工作。英特尔一直在和开源社区合作，优化二者的性能。比起主流版本，使用经过优化的 Caffe 框架，已经实现了30倍的性能提升（注1）。

最近，英特尔完成收购深度学习创业公司Nervana，更是体现了英特尔对于人工智能领域的重视，希望藉此推进行业的更快发展，让更多企业受益，并最终体现在消费者的日常体验中。

在英特尔的帮助下，京东、奇虎360使用的机器学习模块可扩展性提高了10倍，有些机器学习的周期缩短了8倍。京东现在可以更详细地分析客流行为，为用户提供更好的推荐。还有一些支付企业，使用了完整的端到端机器学习流水线，卷积神经网络收敛速度提高30倍，从而能更精准地预防欺诈行为，保护用户的资产。

信息时代之后，人类社会必将进入人工智能时代。未来几年，英特尔不但会持续优化新产品，同时会加强开源的力度，与开源合作伙伴共同进行优化深度学习的算法框架，与顶尖的学术机构合作开展早期合作计划。

现在，参与到英特尔开发人员专区的有十多万开发者，他们可以使用英特尔提供的全面的机器学习工具培训。如果你不想错过这样一个风起云涌的新时代，那就赶紧加入，成为这十万人工智能大军的一员！

注1：高达 30 倍的软件优化改进，基于运行双路英特尔:至强处理器 E5-2680 v3 的客户 CNN 培训工作负载，先运行 Berkeley Vision 和 Learning Center* (BVLC) Caffe + OpenBlas* 库，然后在英特尔Optimized Caffe（内部开发版本）+ 英特尔数学核心函数库（英特尔MKL）上运行调整。

文章来源：<a href="http://mp.weixin.qq.com/s?__biz=MjM5MjA5NDQ4Mg==&mid=2649430790&amp…;英特尔商用频道