现在的位置: 首页资讯>正文

深度网络为何不能完全记住狄拉克函数?傅里叶分析发现固有频谱偏差

2018年07月16日 作者: 暂无评论 442+ 0

过参数化的深度神经网络是一类表达能力极强的函数,甚至能 100% 记住随机数据。这向我们提出了一个问题:为什么它们不会轻易地过拟合数据?为了回答这个问题,来自海德堡大学和 MILA 等机构的研究者使用傅立叶分析研究了深度神经网络,并通过实验尝试回答以下问题:深度神经网络表征数据的频谱偏差;网络的深度、宽度对建模高频数据的作用;深度网络为何不能完全记住狄拉克函数;深度网络如何逼近复杂函数;以及数据样本在网络参数空间的路径关系等。

众所周知,过参数化的深度神经网络(DNN)是一类表达能力极强的函数,它们甚至可以以 100% 的训练准确率记住随机数据。这种现象就提出了一个问题:为什么它们不会轻易地过度拟合真实数据?为了回答这个问题,我们使用傅立叶分析研究了深度神经网络。我们证明了具有有限权重(或者经过有限步训练)的深度神经网络天然地偏向于在输入空间上表示光滑的函数。具体而言,深度 ReLU 网络函数的一个特定频率分量(k)的大小至少以 O(k^(-2))的速率衰减,网络的宽度和深度分别以多项式和指数级别帮助网络对更高的频率建模。

这就说明了为什么深度神经网络不能完全记住 delta 型的峰函数。我们的研究还表明深度神经网络可以利用低维数据流形的几何结构来用简单的函数逼近输入空间中存在于简单函数流形上的复杂函数。结果表明,被网络分类为属于某个类的所有样本(包括对抗性样本)都可以通过一条路径连接起来,这样沿着该路径上的网络预测结果就不会改变。最后,我们发现对应于高频分量的深度神经网络(DNN)参数在参数空间中所占的体积较小。

如今,人们已经做出了许多关于深度神经网络表达能力的理论研究(Hornik et al., 1989; Cybenko, 1989; Montufar et al., 2014; Poole et al., 2016)。最近的研究表明,深度神经网络(DNN)实际上能够以 100% 的训练准确率记忆随机数据,这表明它们在过参数化的机制中确实有很强的表达能力(Zhang et al., 2017)。

这大大激发了人们对深度学习的另一个领域(泛化理论)进行研究的兴趣,从而理解为什么实际上的表现如此优秀,因为能够记住随机数据的过参数化的神经网络会使传统的泛化边界(例如,VC 维、Rademacher 复杂度等)变得无意义。在这些研究中,一个路线将目光投向了研究深度神经网络(DNN)泛化问题的新方法(Neyshabur et al., 2015, 2017; Dziugaite and Roy, 2017);另一个路线则研究基于随机梯度下降(SGD)的方法如何在寻找最小值的问题中作为隐式正则项提升泛化能力(Mandt et al., 2017; Chaudhari and Soatto, 2017; Jastrz?ebski et al., 2017; Smith and Le, 2017)。

基于这些研究,研究者注意到过参数化的深度神经网络(DNN)在训练过程中优先学习简单(或光滑)的函数,从而捕获到数据中出现的全局性结构而不是过度拟合单个样本(Arpit et al., 2017; Advani and Saxe, 2017)。有趣的是,这种现象已经被证明无论是在真实数据或是随机生成的数据上都是成立的(Arpit et al., 2017)。因此,尽管这样的深度神经网络(DNN)是过参数化的并且具有很强的表达能力,它们似乎更偏向于拟合光滑函数。这也暗示着表征这些函数的参数空间的容量很大。在本文中,研究者使用傅立叶分析来展示深度神经网络(DNN)天然地就偏向于拟合光滑函数,而不是研究泛化问题或深度神经网络优化方法的行为。据作者所知,这是首次使用傅立叶分析研究深度神经网络的工作。本文的贡献如下:

图 2:展示训练期间(y 轴)频谱演变(x 轴)的热图。颜色代表测量出的在相应的频率上网络频谱的幅值,其值用相同的频率的目标幅值进行了归一化操作。此图说明,尽管更高频率的训练数据具有 g 的振幅,深度神经网络仍然优先训练低频数据。

图 3: 一个深度为 D、宽度为 W,权重修剪 K=0.1 的网络被训练去预测一个 delta 峰(所有频率的振幅都相同)。在图(a)和图(b)中,y 轴对应于不断增加的训练迭代次数(向上递增),x 轴则代表频域(右图)和输入域(左图)。更亮的颜色表示数值更大。此图说明,根据理论所阐述的,宽度和深度分别以多项式和指数级帮助网络捕获高频分量。这一点在输入域和频域上都可以看出来(注:64^4=8^8)。更多的图片请参见附录(图 11)。

图 5: 在图 3 中所使用的 delta 峰数据集上,一个深度为 D 层、宽度为 W 个单元的网络的所有权重的谱范数(y 轴)与训练过程中迭代次数(x 轴)的关系图。

对于矩阵值权重,它们的谱范数是通过估计由 10 次幂迭代得到的特征向量的特征值计算而来。对于向量值权重,则仅使用了 L2 范数。此图说明,随着神经网络通过学习去拟合更大的频率,神经网络权值的谱范数也增大,从而松弛频谱的边界

图 6: 在图(a)和图(b)中,左图:L=0 瓣(虚线圆);右图:L=20 瓣(由 20 瓣组成的虚线花)定义了数据的流形。

对于这两个流形,我们沿着流形定义了一个频率为 k Hz 的正弦信号,并将它二值化,得到一个 0/1 的目标(点的颜色)。对于每种情况,研究者训练了一个 6 层深的 ReLU 网络,将数据样本从流形映射到它相应的目标上。填充的颜色表示预测出的类,等高线表示该网络经过 sigmoid 函数处理的对数 logits 的绝对值。此图说明,对应较大的 L 的流形,即使在两种流形沿着流形的目标频率相同时,也能使深度神经网络在其域空间学习到更光滑的函数。可以看到,网络会学习利用 L 值较大的流形的几何结构去学习关于其输入空间的低频函数。这个结论在另一个实验中得到了证实。

图 8: 用于预测定义在一个 L 瓣的流形(y 轴)上的给定频率(x 轴)的二值化正弦波的训练分类准确率的热图。此图说明,如果目标信号的频率较低或数据定义在一个具有更大的 L 的流形上,固定大小的网络的准确率越高。后者的结果表明,随着流形中瓣数的增加,在一个流形上学习一个高频目标就变得更容易。

图 9: 每一行都展示了图像空间中的一条路径,从右至左显示了从对抗性样本变为一个真实训练图像的过程。

所有的图像都被一个 ResNet-20 以不少于 95% 的 softmax 概率分类为右侧所示的训练样本的类别。本实验表明,我们可以找到一条路径,分类为某一个特定类别(「飞机」)的对抗性样本(右侧,例如「猫」)与真实的训练样本类别(左侧,「飞机」)相连,这样以来沿着这条路径的左右样本都会被网络预测为同一个类别(「猫」)。

论文:On the Spectral Bias of Deep Neural Networks

论文链接:https://arxiv.org/pdf/1806.08734.pdf

原文地址: http://www.eeboard.com/news/shenjingwangluo/

搜索"爱板网"加关注,每日最新的开发板、智能硬件、开源硬件、活动等信息可以让你一手全掌握。推荐关注!
【微信扫描下图可直接关注】

发表评论

相关文章

独立NPU的强大运算能力,让HiKey 970实现高速计算

自去年华为发布麒麟970集成NPU、苹果发布A11 Bionic神经引擎后,终端AI化逐渐成为行业发展的潮流。而不同于苹果推出封闭的AI机器学习框架Core ML,华为将AI应用开发的能力开放给了众多开发者...

MIT发布2018年“全球十大突破性技术”,并点评各科技领域的“新贵”

近日,《麻省理工科技评论》(MIT Technology Review)揭晓了2018年“全球十大突破性技术”。作为当今知名的技术榜单之一,《麻省理工科技评论》延续17年的历史,日前遴选出2018年全球“十大突...

自动驾驶系统:基于Zynq的CNN(卷积神经网络)系统

Xilinx推出的Zynq-7000和UltraScale+ MPSoC系列是机器视觉应用的理想选择,能够为复杂多任务的并行设计提供无与伦比的性能,并且满足降低的成本和功耗要求。尤其是它们所支持的reVISION Stac...

美国科学家研究出无需训练的神经网络,能够基于当前的对话预测未来的结果

这个被称为储备池计算系统的神经网络,它能够基于当前的对话预测未来的结果

回顾2017与前瞻2018:机器学习和人工智能最重要的发展是什么

时隔一年,科技媒体 KDnuggets 最近向大数据、数据科学、人工智能和机器学习领域的一些顶尖专家征询了他们对于 2017 年这些领域最重要的发展,以及 2018 年的主要发展趋势的看法。这篇文章是...