【式展開】2値分類問題における交差エントロピー誤差関数及びパラメータに対する勾配の導出について

『詳解ディープラーニング』（PP.88-91）を読んだので、復習を兼ねて該当ページの式展開をより詳細に記載してみました。

交差エントロピー誤差関数の導出について

$\begin{eqnarray} y := \sigma(w^{T}x+b) \end{eqnarray}$

としたとき、入力データ $x$ に対して、分類されるクラス値を取る確率変数を $C$ とする。
２値分類問題では $C=t, t \in \{0, 1\}$ となるので、このときクラス $t$ に $x$ が分類される確率は

$\begin{eqnarray} P(C=t|x) = y^{t}(1-y)^{1-t} \end{eqnarray}$

として表現できる。
これより、N個の入力データ $x_n(n=1,2,\cdots,N)$ とそれぞれの入力データに対応する正解の出力データ $t_n$ が与えられたときのウェイト $w$ とバイアス $b$ を最尤推定するための尤度関数 $L(w, b)$ は

$\begin{eqnarray} L(w, b) &=& \prod_{n=1}^{N}p(C=t_n|x_n)\\ &=& \prod_{n=1}^{N} y_n^{t_n}(1-y_n)^{1-t_n} \end{eqnarray}$

のように表すことができる。

このとき尤度関数の計算を簡便にする（積ではなく和として計算したい）ため対数変換し、尤度の最小化問題を解くため符号を反転させると、

$\begin{eqnarray} E(w, b) &:=& -logL(w, b)\\ &=& - \sum_{n=1}^{N}{t_nlogy_n+(1-t_n)log(1-y_n)} \end{eqnarray}$

が得られる。この関数 $E(w, b)$ のことを交差（クロス）エントロピー誤差（損失）関数という。

パラメータに対する勾配（ウエイト $w$ に対する勾配とバイアス $b$ に対する勾配）の算出

この交差エントロピー誤差関数の最適なパラメータ $w$ と $b$ を勾配降下法（gradient descent）で求める。これは以下の式で表される。

$\begin{eqnarray} w^{(k+1)} &=& w^{(k)}-\eta\frac{\partial E(w,b)}{\partial w} \end{eqnarray}$

$\begin{eqnarray} b^{(k+1)} &=& b^{(k)}-\eta\frac{\partial E(w,b)}{\partial b} \end{eqnarray}$

$\eta(>0)$ は学習率であり、上式においてパラメータが更新されなくなったときが勾配がゼロになったことを表わす。これは反復学習で探索した範囲内において最適な解が求められたことを意味する。
ここで $E_n := -\{t_nlogy_n+(1-t_n)log(1-y_n)\}$ とし、このとき各パラメータに対する勾配（ウエイト $w$ に対する勾配とバイアス $b$ に対する勾配）を求めてみる。この偏微分の式展開を記述するのが今回の記事の主目的です。

ウエイト $w$ に対する勾配

ウエイト $w$ に対する勾配は合成関数の微分により以下の式のように表現できる。

$\begin{eqnarray} \frac{\partial E(w, b)}{\partial w} &=& \sum_{n=1}^{N}\frac{\partial E_n}{\partial y_n}\frac{\partial y_n}{\partial w}\\ \end{eqnarray}$

ここで、 $E_n := -\{t_nlogy_n+(1-t_n)log(1-y_n)\}$ 、 $y := \sigma(w^{T}x+b)$ としており、シグモイド関数 $\sigma(\cdot)$ より $\sigma(w^{T}x+b)=(1+e^{-(w^{T}x+b)})^{-1}$ となるので、合成関数の微分を行うと、

$\begin{eqnarray} \frac{\partial E_n}{\partial y_n} &=& -\biggl\{\frac{t_n}{y_n}+\frac{(1-t_n)}{(1-y_n)}(-1)\biggl\}\\ &=& -\biggl\{\frac{t_n}{y_n}-\frac{(1-t_n)}{(1-y_n)}\biggl\} \end{eqnarray}$

$\begin{eqnarray} \frac{\partial y_n}{\partial w} &=& \frac{\partial \sigma(w^{T}x_n+b)}{\partial w}\\ &=& (1+e^{-(w^{T}x+b)})^{-2}e^{-(w^{T}x_n+b)}x_n\\ &=& \frac{1}{1+e^{-(w^{T}x_n+b)}}\frac{e^{-(w^{T}x_n+b)}}{1+e^{-(w^{T}x_n+b)}}x_n\\ &=& \frac{1}{1+e^{-(w^{T}x_n+b)}}\biggl\{ \frac{1+e^{-(w^{T}x_n+b)}}{1+e^{-(w^{T}x_n+b)}}-\frac{1}{1+e^{-(w^{T}x_n+b)}} \biggl\}x_n\\ &=& \frac{1}{1+e^{-(w^{T}x_n+b)}}\biggl( 1-\frac{1}{1+e^{-(w^{T}x_n+b)}} \biggl)x_n\\ &=& \sigma(w^{T}x_n+b)(1-\sigma(w^{T}x_n+b))x_n\\ &=& y_n(1-y_n)x_n \end{eqnarray}$

となる。これらより、ウエイト $w$ に対する勾配は、以下のように表すことができる。

$\begin{eqnarray} \frac{\partial E(w, b)}{\partial w} &=& \sum_{n=1}^{N}\frac{\partial E_n}{\partial y_n}\frac{\partial y_n}{\partial w}\\ &=& -\sum_{n=1}^{N}\biggl(\frac{t_n}{y_n}-\frac{1-t_n}{1-y_n}\biggl)y_n(1-y_n)x_n\\ &=& -\sum_{n=1}^{N}\frac{(t_n(1-y_n)-y_n(1-t_n))}{y_n(1-t_n)}y_n(1-y_n)x_n\\ &=& -\sum_{n=1}^{N}(t_n(1-y_n)-y_n(1-t_n))x_n\\ &=& -\sum_{n=1}^{N}(t_n-y_n)x_n \end{eqnarray}$

バイアス $b$ に対する勾配

バイアス $b$ に対する勾配もウエイト $w$ に対する勾配を求めるときと同様に、合成関数の微分により以下の式のように表現できる。

$\begin{eqnarray} \frac{\partial E(w, b)}{\partial b} &=& \sum_{n=1}^{N}\frac{\partial E_n}{\partial y_n}\frac{\partial y_n}{\partial b}\\ &=& -\sum_{n=1}^{N}\biggl(\frac{t_n}{y_n}-\frac{1-t_n}{1-y_n}\biggl)\frac{\partial y_n}{\partial b}\\ &=& -\sum_{n=1}^{N}\biggl(\frac{t_n(1-y_n)-y_n(1-t_n)}{y_n(1-y_n)}\biggl)y_n(1-y_n)\\ &=& -\sum_{n=1}^{N}(t_n(1-y_n)-y_n(1-t_n))\\ &=& -\sum_{n=1}^{N}(t_n-t_ny_n-y_n+t_ny_n)\\ &=& -\sum_{n=1}^{N}(t_n-y_n) \end{eqnarray}$

交差エントロピー誤差関数の導出について

パラメータに対する勾配（ウエイトに対する勾配とバイアスに対する勾配）の算出

ウエイトに対する勾配

バイアスに対する勾配

パラメータに対する勾配（ウエイト $w$ に対する勾配とバイアス $b$ に対する勾配）の算出

ウエイト $w$ に対する勾配

バイアス $b$ に対する勾配