
为什么神经网络走向了“深度”,而不是“广度”的方向,深度网络相比于广度网络的优势在哪里?
关键在于激活函数,没有激活函数剩下的全是仿射变换。 [公式] 一万层隐层和一层隐层没有区别。 从空间变换的角度很好理解。 ReLU是最直观的。 神经网络的前馈可以简单描述为: 对超平面仿射变换沿坐标轴弯折(负值部分变成轴上的投影)。结果为后一层超平面的定义域想要拟合[0,2PI]的一段正弦(周期函数需要自回归得用RNN,全连接搞不定),最起码也得双隐层折个两下弄个Z字形出来。 层数愈多,弯折的次数愈多,可以塑造…