为什么神经网络走向了“深度”,而不是“广度”的方向,深度网络相比于广度网络的优势在哪里?
发布时间:
2023-08-24 12:41
阅读量:
19
关键在于激活函数,没有激活函数剩下的全是仿射变换。
一万层隐层和一层隐层没有区别。
从空间变换的角度很好理解。
ReLU是最直观的。
神经网络的前馈可以简单描述为:
- 对超平面仿射变换
- 沿坐标轴弯折(负值部分变成轴上的投影)。
- 结果为后一层超平面的定义域
想要拟合[0,2PI]的一段正弦(周期函数需要自回归得用RNN,全连接搞不定),最起码也得双隐层折个两下弄个Z字形出来。
层数愈多,弯折的次数愈多,可以塑造的形状也就大幅增加,模型表达能力提升。
而浅层网络没办法整体上过多弯折,直观来看是另一种思路,经过两层激活可以表达异或之后,每个神经元都可以是一个脉冲函数。没学过信号与系统的都知道,脉冲函数列和的极限可以表示任意函数。
浅层网络基本就是纯打表,数据密集还行,稀疏了就别指望什么泛化性了,而且打表是什么性能。
而深度网络可以通过维持较低的参数范数(就是参数少)来提高泛化性,可以通过傅里叶变换证明(参数多->谱范数大->高频分量大->函数不平滑->过拟合)。
退一步讲,就算某些情况下深度网络没有优势,加了残差(ResNet)之后也可以退化成浅层网络。
END