【式展開】2値分類問題における交差エントロピー誤差関数及びパラメータに対する勾配の導出について
『詳解ディープラーニング』(PP.88-91)を読んだので、復習を兼ねて該当ページの式展開をより詳細に記載してみました。
交差エントロピー誤差関数の導出について
シグモイド関数を用いて
としたとき、入力データに対して、分類されるクラス値を取る確率変数をとする。
2値分類問題ではとなるので、このときクラスにが分類される確率は
として表現できる。
これより、N個の入力データとそれぞれの入力データに対応する正解の出力データが与えられたときのウェイトとバイアスを最尤推定するための尤度関数は
のように表すことができる。
このとき尤度関数の計算を簡便にする(積ではなく和として計算したい)ため対数変換し、尤度の最小化問題を解くため符号を反転させると、
が得られる。この関数のことを交差(クロス)エントロピー誤差(損失)関数という。
パラメータに対する勾配(ウエイトに対する勾配とバイアスに対する勾配)の算出
この交差エントロピー誤差関数の最適なパラメータとを勾配降下法(gradient descent)で求める。これは以下の式で表される。
は学習率であり、上式においてパラメータが更新されなくなったときが勾配がゼロになったことを表わす。これは反復学習で探索した範囲内において最適な解が求められたことを意味する。
ここでとし、このとき各パラメータに対する勾配(ウエイトに対する勾配とバイアスに対する勾配)を求めてみる。この偏微分の式展開を記述するのが今回の記事の主目的です。