四个基本等式的证明(选读)


现在我们开始证明(BP1)-(BP4)这四个等式。所有这四个都是多变量微积分中链式法则的结果。如果你对链式法则很熟悉,那么强烈支持你在读之前试着自己推导。

让我们从等式(BP1)开始,它给出了输出误差的表达式。为证明这个等式,回顾一下其定义

使用链式法则,我们可以用输出激活值的偏导数来重写公式里的偏导数,

这里的和求得是输出层里所有的神经元。显然,第个神经元的输出激活值只依赖于时第个神经元的权重输入。因此当没有导数。然后我们就可以将上面的等式简化为

回想,右面第二个公式可以写成,然后等式变为

这就是(BP1)的分量形式。

然后,我们来证明(BP2),它给出了误差用下一层误差表示的等式。为此,将重写为用的形式。我们可以用链式法则这样做,

这里的最后一行,在右手边有两个可以相互交换的项,并替换了的定义形式。求最后一行的第一项时,需要注意的是

求微分后得到,

代换到(42)中得到

这就是(BP2)的分量形式。

最后要证明的两个等式是(BP3)和(BP4)。它们也是用链式法则,像上面两个等式相似的证明方式。留下来让你们做一下练习。

练习

  • 证明等式(BP3)和(BP4)

这就完成了反向传播四个基本等式的证明。这些证明看起来很复杂,但真的只是仔细运用链式法则的结果。有点绕嘴的说,可以把反向传播看成是通过按部就班的运用多变量微积分的链式法则来计算损失函数的梯度。这就是反向传播的全部内容——剩下的是一些细节。


练习题证明

  • 证 BP3

求证:

证明:

  • 证 BP4

求证:

证明:


results matching ""

    No results matching ""