Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Nl220 Pitman-Yor Hidden Semi Markov Model

7,430 views

Published on

第220回自然言語処理研究会で隠れセミマルコフモデルに基づく教師無し形態素解析手法の提案を行いました.

Published in: Science
  • Login to see the comments

Nl220 Pitman-Yor Hidden Semi Markov Model

  1. 1. 隠れセミマルコフモデルに基づく 品詞と単語の同時ベイズ学習 内海慶<kuchiumi@d-itlab.co.jp> デンソーアイティーラボラトリ 塚原裕史<htsukahara@d-itlab.co.jp> デンソーアイティーラボラトリ 持橋大地<daichi@ism.ac.jp> 統計数理研究所 1
  2. 2. はじめに  形態素解析は言語処理の基盤技術  日本語・中国語等のアジア語では単語境界が与えられていない  前処理として使用されている  文書検索の索引付け  名詞句,固有表現抽出  構文解析  重要単語・文抽出 2
  3. 3. 形態素解析  自然言語で書かれた文を形態素(意味を持つ最小単位)の列に分割し, それぞれの品詞を判別する(※Wikipediaより引用) 3
  4. 4. 代表的な形態素解析器(日本語)  Chasen:ラベル付きデータからHSMMのパラメータを最尤推定)  Juman:人手によるコスト調整が行われた辞書に基づく  KyTea:点推定で単語境界の推定を行う.品詞推定の場合はカスケード  MeCab:CRFによる系列ラベリング(Semi-Markov Model) 上記の手法は全てラベル付きデータが必要になる 話し言葉や多言語への対応には相応のコスト(辞書や学習コーパスの作成)が掛かる 4
  5. 5. CGMデータ解析の需要  ブログや交流サイト,ミニブログ等のデータの増加  解析の需要が高い  製品の評判を知りたい,ミニブログに広告を出したい,etc.  学習データや辞書の作成・保守の問題  書き言葉と話し言葉の混在  顔文字等を用いた感情表現  未知語  etc. とにかく新しい表現が産まれ続けている 従来手法で対処するのはコストが高い 教師なし学習が望まれる 5
  6. 6. 教師無し形態素解析  既存手法  MDLに基づく手法  MDLに基づくグリーディアルゴリズム: Argamon 2004  branching entropy+MDL: Zhikov 2010, Magistry 2013  etc.  ノンパラメトリックベイズ手法  Nested Pitman-Yor Language Model: Mochihashi 2009 分かち書きのみを対象としていて,品詞は考慮されていない 品詞を推定する場合には分かち書きの出力に対して別の手法で品詞付けを行う 6
  7. 7. 分かち書きでも品詞は必要  以下の例文を考える  文法的な知識なしで解析する場合  名詞からは動詞・接尾には接続しにくいという制約 この先生きのこれるのか? この/先生/きのこ/れる/の/か/? 文法的に”きのこ”→”れる”は出にくいと分かる この/先/生き/のこれる/の/か/? (MeCabの解析結果) 7
  8. 8. 本研究の提案  品詞と分かち書きの同時学習を提案する  同時学習を行うことで,分かち書きの精度も向上するはず 8
  9. 9. 形態素解析の定式化  形態素解析:  :単語, :品詞, :文字, :文  確率 を最大化するような w を推定する問題 9
  10. 10. 部分問題に分割  ある形態素解析結果 w の確率を以下のように置く  以下のように変形  i番目の単語はそれまでの単語列と,i番目の品詞のみに依存すると仮定する  i番目の品詞は,それまでの品詞列のみに依存すると仮定する → 品詞毎の単語ngram → 品詞ngram 10
  11. 11. 提案手法の生成モデル  品詞からの単語の生起確率,及び品詞遷移確率がngramになっている (図はN=2としている) zizi-1 wiwi-1 ci0,…,ciN 観測値は文字列のみ zi+1 wi-1 zizi-1 wiwi-1 zi+1 wi-1 HMMのグラフィカルモデル 11
  12. 12. 単語 ngram 確率  単語 ngram 確率には品詞 z ごとの Nested Pitman-Yor Language Model を用いる  t : CRP におけるテーブル=親の文脈から単語 w が生成された回数  h : 品詞 z のもとでの文脈  θ,d : Pitman-Yor過程のハイパーパラメータ  単語 unigram の事前分布には文字 ngram HPYLM が用いられる 12
  13. 13. 品詞 ngram 確率  品詞 ngram 確率の事前分布には HPYP を用いる  e, η : Pitman-Yor過程のハイパーパラメータ  単語 ngram と異なり,品詞 unigram の事前分布には一様分布を用いる 13
  14. 14. 学習アルゴリズム  動的計画法とMCMCを組み合わせた手法(blocked Gibbs Samling)で を推定する : 単語 ngram 言語モデル,品詞 ngram モデルのパラメータ  各文にランダムに品詞を割当て,文を単語と見なしてパラメータを更新する  収束するまで以下を繰り返す  ランダムに文sを選択し,sの現在の形態素解析結果w(s)をパラメータから除去  除去後のパラメータを用いて形態素解析結果w(s)’をサンプリング  w(s)’ をパラメータに追加し更新 14
  15. 15. 形態素解析のサンプリング N L 研 NL L研 で 研で す です 単語長 品詞ID B E 品詞の数K=2, 単語の最大長L=2としたラティス 0 1 2 3 4 5 • 前向き確率と品詞遷移確率,生起確率の積に従って1つ前の形態素をサンプル • 文頭まで繰り返す 15
  16. 16. 前向き確率の計算  品詞を考慮した前向き確率 (N=2)  r:1つ前の品詞  z:現在の品詞  t:カレントの単語候補の終了位置  k:カレントの単語候補の長さ  j:接続される1つ前の単語候補の長さ 16
  17. 17. 前向き確率の計算 N L 研 NL L研 で 研で す です 単語長 品詞ID B E 0 1 2 3 4 5 文末Eの前向き確率 17
  18. 18. ラティスの圧縮  与えられた部分文字列から,生起し得る最大の単語長を予測する  ラティスから不要な単語候補を除くことで高速化できる  実験を行うにあたって,先に単語の最大長を予測してラティスの圧 縮を行った N L 研 NL L研 で 研 で す で す 単語長 B 各位置ごとに 単語長の最大値 を予測する 18
  19. 19. 単語の長さの分布 0 0.1 0.2 0.3 0.4 0.5 0.6 1 2 3 4 5 6 7 8 9 10 11 日本語 中国語 タイ語 ある長さでピークがあって,指数的に減衰する ガンマ分布 19
  20. 20. 単語の長さはガンマ分布  x:単語の長さ  a,b: ガンマ分布のパラメータ  これらを回帰すれば良い  実際には同一言語内でも,観測文字列毎に単語の長さは変化する  接尾辞が「株式会社」なら単語の最大文字列長は20とかになりそう  接尾辞が「が」や「を」,「に」なら単語の最大文字列長はだいたい1になる  etc. 20
  21. 21. 接尾辞毎にパラメータを変えたい  f: 接尾辞の特徴ベクトル  w,v: a,b を回帰するパラメータ 21
  22. 22. ガンマ分布のフィッティング  gamglmを使用  http://chasen.org/~daiti-m/dist/gamglm  詳細は論文を参照 22
  23. 23. 形態素解析の評価実験  データセット データセット 全体サイズ 訓練データ テストデータ 京大コーパス(日本語) 38400 10000 1000 BCCWJ PN(日本語) 78607 10000 1000 BCCWJ OC(日本語) 678475 10000 1000 SIGHAN MSR(中国語) 90909 10000 3985 SIGHAN CITYU(中国語) 54511 10000 1492 CTB8.0(中国語) 20412 10000 937 InterBEST Novel(タイ語) 50139 10000 1000 23
  24. 24. 実験設定  教師なし学習  訓練データに付与されている分かち書きを削除して学習  潜在クラスの数は15とした  半教師あり学習  訓練データとテストデータに含まれないデータから無作為に抽出 した10000文を教師データとして使用した  潜在クラスは各データセットの品詞の大分類の数に揃えた  品詞の付与されているデータセットのみで評価を行った 24
  25. 25. 評価尺度  分かち書きの評価  単語の開始位置と終了位置が教師データと一致した時のみ正解とする  評価尺度にはF値を用いた  品詞推定の評価  正しく分割できた単語についての品詞精度を用いる  教師データと潜在クラスの対応は,潜在クラスごとに共起した品詞ラベ ルの頻度を求め,最も多く共起した品詞と潜在クラスを対応付けた 25
  26. 26. 評価結果-教師なし単語分割 PYHSMM NPYLM MDL(Zhikov 2010) 京大コーパス 0.714 0.631 0.713 BCCWJ PN 0.716 0.656 - BCCWJ OC 0.787 0.595 - CTB8.0 0.743 0.693 - SIGHAN MSR 0.787 0.802 0.782 SIGHAN CITYU 0.795 0.824 0.787 BEST 0.777 0.821 0.733 26
  27. 27. 評価結果-半教師あり単語分割 PYHSMM NPYLM 京大コーパス 0.930 0.913 BCCWJ PN 0.934 BCCWJ OC 0.947 CTB8.0 0.926 27
  28. 28. 評価結果-教師なし品詞推定 PYHSMM NPYLM+BHMM 京大コーパス 0.590 0.508 BCCWJ PN 0.559 0.455 BCCWJ OC 0.549 0.450 CTB8.0 0.489 0.416 28
  29. 29. 評価結果-半教師あり品詞推定 半教師あり 教師なし 京大コーパス 0.894 0.590 BCCWJ PN 0.906 0.559 BCCWJ OC 0.866 0.549 CTB8.0 0.916 0.489 29
  30. 30. 単語分割誤りの傾向  多くは活用形を分割してしまい誤りとなっている 30
  31. 31. チャンキングによる補正  潜在クラスの数が15では品詞が上手く分かれていないため, 品詞ルールによるチャンキングは難しい  潜在クラスの数を50にして京大コーパスで再度評価を行った  解析結果の誤りの例(品詞ID付き)  わずか/10 に/22.堅調/10 に/22  品詞を使ったルールを使ってチャンキングを行った チャンキングルールの例 1つ前の潜在クラスが10,カレントの潜在クラスが22の「に」を1つ前と繋げる 1つ前の潜在クラスが22,カレントの潜在クラスが14の「た」を1つ前と繋げる 1つ前の潜在クラスが22,カレントの潜在クラスが22の「て」を1つ前と繋げる etc. 31
  32. 32. チャンキング後の単語分割精度  品詞IDを使ったチャンキングによって単語分割の改善が行えた 品詞精度 単語分割F値 チャンキング後の単語分割F値 0.603 0.716 0.755 32
  33. 33. チャンキング後の誤り  「て」や「た」等頻度400以上の誤りは改善  「に」,「ている」,「の」の誤りが残る  形容詞や連体詞を分割してしまう  形容詞:「積極的に」,「一気に」,「急 速に」  連体詞,指示詞:「他の」,「どの」  動詞と接尾辞の分割位置の誤り  「増えている」,「表れている」etc.  正解:「増えて/いる」,「表れて/いる」  これらについてはルールが書けない,また はルールを適用すると精度が下がってし まった 33
  34. 34. まとめ  品詞推定と単語分割の同時推定手法の提案を行った  複数の言語で評価を行い,品詞を考慮することで単語分割の 精度も向上することを示した  半教師あり学習でも,同様の効果を確認した 34

×