为什么神经网络走向了“深度”，而不是“广度”的方向，深度网络相比于广度网络的优势在哪里？

发布时间：

2023-08-24 12:41

阅读量：

关键在于激活函数，没有激活函数剩下的全是仿射变换。

$A[p_1p_2...p_n]=AP$

一万层隐层和一层隐层没有区别。

从空间变换的角度很好理解。

ReLU是最直观的。

神经网络的前馈可以简单描述为：

想要拟合[0,2PI]的一段正弦(周期函数需要自回归得用RNN，全连接搞不定)，最起码也得双隐层折个两下弄个Z字形出来。

层数愈多，弯折的次数愈多，可以塑造的形状也就大幅增加，模型表达能力提升。

而浅层网络没办法整体上过多弯折，直观来看是另一种思路，经过两层激活可以表达异或之后，每个神经元都可以是一个脉冲函数。没学过信号与系统的都知道，脉冲函数列和的极限可以表示任意函数。

浅层网络基本就是纯打表，数据密集还行，稀疏了就别指望什么泛化性了，而且打表是什么性能。

而深度网络可以通过维持较低的参数范数(就是参数少)来提高泛化性，可以通过傅里叶变换证明(参数多->谱范数大->高频分量大->函数不平滑->过拟合)。

退一步讲，就算某些情况下深度网络没有优势，加了残差(ResNet)之后也可以退化成浅层网络。

END