第44章 馅饼! (6 / 8)
“不过我们的基站选址模型输入维度超过两百,网络训练到后面,梯度几乎归零,模型完全学不动。”
漆昊听到这里有些想不明白了,他看到旁边有一块白板,就走过去,拿起笔写了起来。
“假设网络有n层,每一层的激活函数是σ,那反向传播的时候,梯度要经过n次链式法则……十层网络,梯度衰减系数是0.25的十次方。“
他在旁边写下结果:0.251?≈ 0.0000009537。
漆昊放下笔,转过身:“梯度没有消失,它只是在指数级衰减,这是激活函数选取带来的结构性缺陷,不是优化算法的问题。”
老王在旁边看得连连点头。
他这个学生说的确实没问题。
汪总问道:“那怎么解?”
“换激活函数。”
陈工盯着那条折线,嘴唇动了动:“这么简单?”
“数学上最优美的东西往往都简单,当然,这只是我的直觉,具体的收敛性证明还需要时间,但从梯度传播的角度看,这个方向应该是对的。”
The content is not finished, continue reading on the next page