「データ学習アルゴリズム」
第3章 複雑な学習モデル
3.1 関数近似モデル
…..
3.1.3 3層パーセプトロン
…..
6月25日(水)
発表者 新納浩幸
3層パーセプトロンとは
関数近似モデルの代表例
出力
y=(
y (1)
y (1) ,y (2)
,・・・ , y (N) )
x  ( x(1) , x( 2) ,, x( M ) )
y (2)
y (N)
から中間層の各ユニットの
入出力をつくり、そこから
・・・
y  ( y (1) , y ( 2) ,, y ( N ) )
W ij
・・・
θj
をつくる。結局、関数を作っている。
W jk
・・・
任意の関数を近似できる
x (1)
入力
X=(
x (2)
x (1) ,x (2)
x (M)
,・・・ ,x (M) )
ユニットの入出力
第 j 番目の中間ユニットの入出力
M

(k )
o j     w jk x   j 
 k 1

第 i 番目の出力ユニットの入出力
 H

f i ( x, w)     wij o j   i 
 j 1

H は中間層のユニット数
σはシグモイド関数
1
 ( x) 
1  exp( x)
求めるべきパラメータ wij , wjk ,i , j
バイアス
バイアスの削除
出力
y=(
y (1)
y (1) ,y (2)
,・・・ , y (N) )
y (2)
y (N)
・・・
θi
W ij
・・・
1
θj
W jk
・・・
1
x (1)
入力
X=(
x (2)
x (1) ,x (2)
常に1を出力する中間ユニットを
考えると、そこから出力ユニット i へ
の重みが、  i となる
常に1を出力する入力ユニットを
考えると、そこから中間ユニット j へ
の重みが、  となる
j
x (M)
,・・・ ,x (M) )
求めるべきパラメータ
wij , w jk
誤差逆伝播法(1)
パーセプトロンのパラメータを求めるアルゴリズム
最急降下法を利用
w(t  1)  w(t ) (t )w ( x, y, w)   (t )(w(t )  w(t 1))
(参照 pp.41)
この部分を求めることができるかどうかかポイント
|| y  f ( x, w) ||2 1 N (i )
 ( x, y, w) 
  ( y  f i ( x, w))2
2
2 i 1
誤差逆伝播法(2)
シグモイド関数には以下の性質がある!
d ( x)
  ( x)(1   ( x))
dx
出力 i の差分:
 i  ( fi ( x, w)  y(i ) ) fi ( x, w)(1  fi ( x, w))
N
中間ユニット j :
 j    i wij o j (1  o j )
i 1
を定義すると
 ( x, y, w)
  io j
wij
 ( x, y, w)
  j x(k )
w jk
合成関数の部分を繰り返せば
簡単に導ける
 w ( x, y, w) が求まる
誤差逆伝播法(3)
 ( x, y, w)
  io j
wij
中間ユニット j から出力ユニット i への
重みの誤差が、 中間ユニット j の出力に
出力ユニット i の誤差をかけた形
 ( x, y, w)
  j x(k )
w jk
入力ユニット k から中間ユニット j への
重みの誤差が、 入力ユニット k の出力に
中間ユニット k の誤差をかけた形
出力層の誤差が中間層、入力層に伝播してゆく
注20 (学習誤差と予測誤差)
パーセプトロンの実際の学習
予測誤差
誤
差
過学習
適当に学習を
止めないとだめ
学習誤差
学習回数
例39 (誤差の変化と学習の変
化)
英語の文章をモールス信号に変換する仕事を学習
1文字単位の変換の学習から
単語単位の変換の学習へ
誤差が変化しない状態から
ある時期に変化が生じる
誤
差
学習の質の変化
学習回数
例40(雑音の効用)
画像や音声の識別は特徴量が高次元
普遍性のある学習は困難
入力に雑音を加えて学習データを増やすことで
振る舞いがかなり改善されることがある
例41 (学習対象の特性の学習)
• 学習対象の特性までを含めて学習させるこ
とは不可能ではないが、効率的ではない。
• 特性がわかっている対象については、デー
タをそれに応じて変換しておくか、モデルを
その変化に依存しないように作成していた
方がよい。
モデル選択の問題
• 階層型の学習モデルでは、正則モデルの情報量
規準を、原理的に、適用できない。
• 無理に情報量規準を用いると、何もしないよりも予
測誤差は小さくなるが、導入せずに適度な反復回
数で停止する場合に比べて予測誤差が小さくなる
とは限らない。
• モデル選択を行っても、学習回数を増やすと予測
誤差は悪化する。
• モデル選択を行うと小さなモデルが構成でき、
データからの法則発見には役立つこともある。
荷重減衰と事前確率密度関数
荷重減衰法(忘却つき学習法)
損失関数として以下を利用する方法
1 N (i )
 ( x, y, w)   ( y  f i ( x, w))2   || w ||2
2 i 1
事前確率密度関数を設定することに相当する?
|| w ||2
小さなパラメータ、突出して大きなものが少なくなる
|| w ||2
1 || w ||2
突出して大きなものと0 になるものとに分かれる
|| w ||2
  || w ||2
 0
情報量規準によるモデル選択と同じ効果が得られる
荷重減衰についてのメモ
• 適度な反復で学習を停止する場合と比較して、
必ずしも予測誤差は減少しない。
• 荷重減衰を行う場合でも、学習を適当に停止し
た方がよい。
• 小さなモデルが得られることもあり、法則発見に
は役立つこともある。
• 学習を繰り返し行ってもパラメータの崩壊は起こ
りにくい。
• λの定め方は4章。
アンサンブル学習とベイズ推定
アンサンブル学習
複数得られたパラメータの重み付き平均により関数を作る方法
f ( x)   c p f ( x, wp )
p 1
ただし
c
p
1
p
ベイズ法を一般化したもの
3層パーセプトロンにアンサンブル学習を用いると
予測誤差を小さくできる。原因は不明。
また、当然、データ中の法則発見はさらに困難になる。
応用
複雑なモデルを使うと、学習対象の性質をそれほど検討しなくても
まずまずの認識精度が得られる。これは学習したい対象に対する
知識を持っていてもモデルの設計に盛り込むことが困難であること
も意味する。
工夫が必要な点
(1) 特徴量を何にするか
(2) 入力データ固有の変形を吸収できるようなモデルの設計
応用例
例42:文字認識
例43:音声認識
例44:パーセプトロンについては非常に多くの応用例がある
注21(隠れマルコフモデル)
時系列を学習するモデル
N個の状態
aij 状態 i から状態 j へ移る確率
状態 i のときパラメータ bi により観測値 x が発生
する確率が p( x, bi )
観測値 x1 , x2 ,
aij bi を学習
EMアルゴリズムが有効
音声認識、形態素解析などに効果的なモデル
砂時計型モデル
*5層(以上)になっている。
*中間層のユニット数が少ない。
*中間層のユニットはデータが
本質的に持っている自由度に対応。
主成分分析に相当
非線形主成分分析と呼ばれる
ダウンロード

shinnou3