观点丨深度神经网络中深度究竟带来了什么？（上）

周四, 15 十二月 2016 - 16:02

作者：赵黎明

在计算机视觉领域，大部分的问题都已经开始使用深度神经网络进行解决，也确实取得了广泛的成功。本文作者是微软亚洲研究院实习生，在本文中介绍了其团队提出的deep fusion概念，沿着deep fusion的思路研究了类似ResNet、Highway、Inception等结构的深度融合网络，探索了“深度”在神经网络当中究竟带来了什么，并提出了一个新的网络模型，在不同数据集上均取得了不错的表现。

缘起
人工智能近几年实现了爆炸式发展，深度学习可以说是其主要的推动力。笔者对于能来微软实习并从事深度学习方面的研究感到十分荣幸，因为微软研究院在该领域一直处于领先的地位，其优秀的人才配备和强大的计算资源都非常适合做这方面的研究。

在计算机视觉领域，大部分的问题都已经开始使用深度神经网络进行解决，也确实取得了广泛的成功。在很多视觉任务中，如图像识别、语义分割、目标检测与跟踪、图像检索等，作为提取特征的CNN网络模型往往起到了关键的作用。我们经常见到最新的方法将基础网络换一下，性能就会得到很大的提升。因此，研究并设计一个更好的网络模型变得至关重要。

<center><img src="http://intel.eetrend.com/files/2016-12/wen_zhang_/100004391-14488-1.jpe…; alt=“基础网络模型的结构样例” width="600"></center>
<center>基础网络模型的结构样例</center>

最新研究进展
经典的神经网络模型主要在“宽度”与“深度”方面进行不同程度的扩增。借助于大规模数据的训练，AlexNet、VGG-16、VGG-19等经典网络通过宽度或深度增加的参数可以有效地提升其模型的表达能力。但当网络变得越来越深，其训练难度也随之相应增加，反而会导致性能的下降。最近的ResNet和Highway Networks等方法通过引入Skip跳跃结构来试图解决极深网络在优化上带来的问题。

<center><img src="http://intel.eetrend.com/files/2016-12/wen_zhang_/100004391-14489-2.jpe…; alt=“ResNet和Highway Networks结构的简单示意图” width="600"></center>
<center>ResNet和Highway Networks结构的简单示意图</center>

最新的一些研究尝试从其他角度来解释Highway、ResNet和GoogLeNet等网络结构表现优异的原因。其中我在微软实习的导师王井东研究员、实习生魏祯和张婷以及曾文君研究员提出Deep Fusion (Jingdong Wang, Zhen Wei, Ting Zhang, Wenjun Zeng: Deeply-Fused Nets. CoRR abs/1605.07716 (2016))深度融合的概念，认为不同分支的网络在中间层进行融合（加和或拼接等方式）能够(1)产生很多潜在的共享参数的基础网络，(2)同时优化信息的流动，(3)从而帮助深层网络的训练过程。

<center><img src="http://intel.eetrend.com/files/2016-12/wen_zhang_/100004391-14490-3.jpe…; alt=“Deep Fusion深度融合最简单形式的概念示意图” width="600"></center>
<center>Deep Fusion深度融合最简单形式的概念示意图</center>

我们可以发现很多有代表性的网络结构基本都可以按照深度融合的概念进行理解。除去LeNet、AlexNet、VGGNet等单分支网络，近两年提出的ResNet、Highway Networks、GoogLeNet系列等网络均可以看作是不同程度上的深度融合网络。在这个概念下，我们发现今年新的Inception-v4、FractalNet、DenseNet、ResNeXt以及我们新提出的Merge-and-Run等网络结构在融合方式上进行了更多的设计和探索，使得中间的融合次数和分支数目更多，从而得到更多的基础网络和更优的信息流动，最终取得更好的性能表现。

<center><img src="http://intel.eetrend.com/files/2016-12/wen_zhang_/100004391-14491-4.jpe…; alt=“近期一些深度神经网络模型的基本结构示意图” width="600"></center>
<center>近期一些深度神经网络模型的基本结构示意图</center>

康奈尔大学的Serge Belongie团队也有类似的观察与发现，他们解释ResNet其实是众多相对较浅的潜在网络的一个集成。在模型的测试阶段发现将网络中的一些模块去掉，剩下的网络模型依然具有不错的表现。

<center><img src="http://intel.eetrend.com/files/2016-12/wen_zhang_/100004391-14492-5.jpe…; alt=“将ResNet中的某些模块移除的实验示意图” width="600"></center>
<center>将ResNet中的某些模块移除的实验示意图</center>
　　
最近提出的一些新的深度神经网络方法也从侧面印证了这方面的研究，如ResNet with Stochastic Depth、FractalNet和Swapout等使用Drop-path的方法与上述移除Residual模块的研究有着异曲同工之妙。ResNet of ResNet、ResNeXt、Multi-Residual Networks和DenseNet等增加分支或路径数目的方法均得到了性能上的提升，从某种程度上验证了增加基础网络数目对整体网络模型的影响。