Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

パーセプトロン型学習規則

2,256 views

Published on

はじめてのパターン認識輪講会資料

Published in: Science
  • Login to see the comments

パーセプトロン型学習規則

  1. 1. はじパタ勉強会 第7章 パーセプトロン型学習規則 曽和 修平
  2. 2. パーセプトロン 入力 1 x1 x2 xd w0 w1 w2 wd 出力 望みの出力となるように各重み(wi)を調節
  3. 3. パーセプトロンの学習規則 • 学習データxiを入力した時の出力値について ・正しければ ・正しくなければ • 片方のクラスの符号を反転させた時、分類が正しけれ ばf(x) ≧ 0となり、誤っていればf(x) < 0となる ・f(xi) ≧ 0なら ・f(xi) < 0なら ηは学習の収束速度を決めるパラメータ η = 1の場合を固定増分誤り訂正法と呼ぶ
  4. 4. 学習の難しさの尺度 • テストデータにノイズが含まれていると,ノイズのないデータで学 習した識別関数はノイズ分だけ誤り易くなる • マージンhを取る事によってノイズに強くする i番目の学習におけるwiの変更量⊿wiは符号反転を行った学習デ
  5. 5. 学習の難しさの尺度(2) • ある識別関数に対して取れるマージンの大きさは クラス間マージンρ(w)の半分 従って最大マージンDmaxは最大クラスマージンを用いて
  6. 6. パーセプトロンの収束定理 • 2クラスの学習データが線形分離可能であればパーセプ トロンの学習規則は有限回の学習で収束する (証明) ・マージンhは次元毎にαの大きさをとるとする h=αd ・学習総数 ・係数ベクトル ・解ベクトルはw*とする 誤りを起こす学習データのみの系列を考える (Miはデータxiが学習で使用された回数)
  7. 7. パーセプトロンの収束定理(2) 解ベクトルw*とwの内積を計算すると (式7.4 より) ここから、解ベクトルw*と係数ベクトルwの内積は学習回数 Mに比例して増加していくことがわかる つまり、係数ベクトルwは解ベクトルw*に近づいていく
  8. 8. パーセプトロンの収束定理(3) ||w||の上限を求めるために,各学習データの長さが||xi||^2≦d を満たしていると仮定し、係数ベクトルの変更量を求める (仮定より) (学習が行われたのでw^Tx_i≦h=αdであるから) これより、M回学習した係数ベクトルは に抑えられる
  9. 9. パーセプトロンの収束定理(3) wとw*の方向余弦の2乗は となるので より と を用いて => となる。これをMについて解くと 従って、学習回数Mには上限があるので学習は収束する. T T
  10. 10. 多層パーセプトロン • 1層のパーセプトロンでは線形分離できず正しく識別でき ないようなデータに対して,多層にすることで線形分離可能 にする 入力層 隠れ層 出力層
  11. 11. 多層パーセプトロン(2) 係数ベクトルとの内積演算は図7.9の学習回路で実現することが n番目学習データの入力は
  12. 12. 多層パーセプトロン(3) n番目学習データが入力されるとVjには の入力が入り 出力関数g(u)を介して が出力される 隠れ素子の出力関数が線形であれば,多層回路を構成しても 等価的に1層の回路で表現できてしまうので、g(u)は非線形 でなければならない。 よく使用される非線形出力関数はシグモイド関数
  13. 13. 多層パーセプトロン(4) 出力素子ok(k=1…K)への入力は で与えられ、その出力は で与えられる は出力素子用の(非)線型出力関数である. ソフトマックス関数を用いて確率的な解釈を与える場合も ある シグモイド関数は1つの出力素子の値のみに依存しているが ソフトマックス関数は全ての出力素子の値と関係している.
  14. 14. 誤差逆伝播法の学習規則 最小2乗誤差の最小化を最急降下法によって行う n番目の学習データによる誤差の評価関数は となる. 学習データ全体では
  15. 15. 誤差逆伝播法の学習規則(2) E(w)を評価関数として用いるバッチアルゴリズムでは学習 データ全体を用いて結合係数の修正量を計算し更新するこ とを1エポックと言う τエポック目の修正量は、合成関数の微分法を用いて 誤差信号 出力関数がシグモイド関数の場合、微分すると出力値が0と1に近い部分で0に なり学習が進まなくなる場合があることに注意.
  16. 16. 誤差逆伝播法の学習規則(3) 入力素子xiから隠れ素子Vjへの結合係数wjiの評価関数は出力素子wkj の場合と同じだが、wjiで微分する為、合成関数の微分を2度行う必 要がある
  17. 17. 誤差逆伝播法の学習規則(4) 隠れ素子jの誤差信号を で定義すれば と表現できる このアルゴリズムが誤差逆伝播法 確率降下法では となる
  18. 18. 誤差逆伝搬法の学習特性 ・初期値依存性 局所最小値がたくさんあり、大域的な最適解を得るのが 難しい。 どのような局所最適解にいきつくかは初期値に依存する ・隠れ素子の数 隠れ素子の数を増やしすぎると、学習データのノイズ 成分にも適合してしまい、汎化誤差が増加する(過学習) 最適な隠れ素子の数はホールドアウト法や交差確認法 などで求める必要がある
  19. 19. 過学習と正則化 ・過学習の原因は隠れ素子の数が多くなる事だけではない ・学習が進み、結合係数が大きくなりシグモイド関数の非線 形領域に入り、非線形性が強くなると過学習が生じやすい ・早期終了規則 ・正則化 交差確認法などで汎化誤差を推定し、汎化誤差が上昇する 手前で学習を終わらせる方法 誤差逆伝搬法が提案された当初に使われていた 学習が進んでも結合係数の大きさを抑える方法 最近ではこちらがよく用いられる
  20. 20. 過学習と正則化(2) ・正則化 評価関数に結合係数の増加が大きくなる事にたいするペナ ルティ項を追加する この正則化を荷重減衰ペナルティという λは正則化の大きさを決める正則化パラメータ
  21. 21. 過学習と正則化(3) 正則化項を加えた時の学習規則は wkjが重みに負帰還をかける形になって,結合係数が大きくなる 事が抑えられる
  22. 22. 学習回路の尤度 活性化関数をソフトマックス関数にし、出力に確率的解釈 を与える場合、評価関数は で与えられる.この場合は最尤推定法より結合係数の更新式 を得ることができる 出力okをK個の無関係な確率とみなす場合はベルヌーイ試行 と解釈できる
  23. 23. 学習回路の尤度 負の対数尤度は交差エントロピー型誤差関数 出力素子の学習は 出力関数がシグモイド関数の場合は なので となり,出力関数の微分が消え,2乗誤差基準のように非線形部分で 学習が進まなくなるということがないという利点がある

×