为什么神经网络走向了“深度”,而不是“广度”的方向,深度网络相比于广度网络的优势在哪里?

发布时间:
2023-08-24 12:41
阅读量:
19

关键在于激活函数,没有激活函数剩下的全是仿射变换。

一万层隐层和一层隐层没有区别。

从空间变换的角度很好理解。

ReLU是最直观的。

神经网络的前馈可以简单描述为:

  1. 对超平面仿射变换
  2. 沿坐标轴弯折(负值部分变成轴上的投影)。
  3. 结果为后一层超平面的定义域

想要拟合[0,2PI]的一段正弦(周期函数需要自回归得用RNN,全连接搞不定),最起码也得双隐层折个两下弄个Z字形出来。

层数愈多,弯折的次数愈多,可以塑造的形状也就大幅增加,模型表达能力提升。

而浅层网络没办法整体上过多弯折,直观来看是另一种思路,经过两层激活可以表达异或之后,每个神经元都可以是一个脉冲函数。没学过信号与系统的都知道,脉冲函数列和的极限可以表示任意函数。

浅层网络基本就是纯打表,数据密集还行,稀疏了就别指望什么泛化性了,而且打表是什么性能。

而深度网络可以通过维持较低的参数范数(就是参数少)来提高泛化性,可以通过傅里叶变换证明(参数多->谱范数大->高频分量大->函数不平滑->过拟合)。

退一步讲,就算某些情况下深度网络没有优势,加了残差(ResNet)之后也可以退化成浅层网络。

END