Signl213

内海慶，塚原裕史
K U C H I U M I @ D - I T L A B . C O . J P
H T S U K A H A R A @ D - I T L A B . C O . J P
デンソーアイティーラボラトリ
ベイズ階層言語モデルとSemi-Markov
SHDCRF の協調学習による
教師なし形態素解析
1

アジェンダ
1. 研究背景
2. 問題設定
3. 本研究の提案
4. パラメータ推定
5. 評価実験
6. 実験条件
7. 実験結果
8. まとめ
2

1. 研究背景(1/6)
 形態素解析は自然言語処理の基盤技術
 文書分類，固有表現抽出，係り受け解析，文書検索の索引付
け等
 従来は書き言葉を対象(Juman, ChaSen, MeCab)
3

1. 研究背景(2/6)
 ブログやSNS, Twitter 等の CGM の増加
 CGM分析の需要
 評判や意見の抽出
 Twitterのホットトピック検出
 スパム検出
4

1. 研究背景(3/6)
5
 CGMでは書き言葉と話し言葉が混在
 造語等が作られる
http://ameblo.jp/nakagawa-shoko/しょこたん

1. 研究背景(4/6)
6
 書き言葉で学習した形態素解析で解析
ず助動詞,*,*,*,特殊・ヌ,連用ニ接続,ぬ,ズ,ズ
も助詞,係助詞,*,*,*,*,も,モ,モ
もも名詞,一般,*,*,*,*,もも,モモ,モモ
も助詞,係助詞,*,*,*,*,も,モ,モ
ぺろぺろ副詞,一般,*,*,*,*,ぺろぺろ,ペロペロ,ペロペロ
ぺろぺろ副詞,一般,*,*,*,*,ぺろぺろ,ペロペロ,ペロペロ
マミタスマミタスラブマミタス名詞,一般,*,*,*,*,*
た助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
だい名詞,一般,*,*,*,*,だい,ダイ,ダイ
マミタス名詞,一般,*,*,*,*,*
た助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
だい名詞,一般,*,*,*,*,だい,ダイ,ダイ
マミタスマミタスマミタスラブマミタス名詞,一
般,*,*,*,*,*
…

1. 研究背景(5/6)
7
 (若者言葉を含む)話し言葉の特徴
 変化の早さ
 明治前期 - 書生言葉
 明治後期 - てよだわ言葉
 90年代半ば - ギャル語
 2000年代 - KY語, 2ちゃん語（ネットスラング）, しょこたん語,
etc.
 未知語の問題
 常に新しい単語が産まれ続ける
 アノテーションの難しさ
 正解を決めるだけでも一苦労
 人手で常時アノテーションし続けるのは難しい

1. 研究背景(6/6)
8
 教師なし形態素解析の需要
 大量のデータから自動で分かち書きを獲得したい
 深い言語処理に繋げるために品詞推定も同時に行いたい
 e.g. 係り受け解析，固有表現抽出，etc.
#/ずもももも /ぺろぺろ /ぺろぺろ /マミタス /マミタス /ラブマミタ
ス /ただいマミタス /ただいマミタス /マミタス /マミタス /ラブマミ
タス /愛の神話マミタス /愛の讃歌 /マミタス /マミタス /マミタス /ラ
ブマミタス
教師なし形態素解析によるしょこたんブログの解析結果
の例

2. 問題設定
1. 適切な分かち書きの学習
9
Input: ずももももぺろぺ
ろ
ずももももぺろぺろ
ずもももぺろぺろ
もぺろ
可能な分かち書きの中から適切なパスを学習する

2. 問題設定
1. 適切な分かち書きの学習
10
Input: ずももももぺろぺ
ろ
ずももももぺろぺろ
もぺろ
可能な分かち書きの中から適切なパスを学習する
NPYLM[Mochihashi, et al., ACL2009]
NPYCRF[持橋，他., NLP2011]

感動詞感動詞
2. 問題設定
2. 適切な品詞の学習
11
名詞名詞
動詞
形容詞
副詞
助詞
動詞
形容詞
副詞
助詞
名詞
形態素に対する適切な品詞と品詞間の遷移を学習す
る

感動詞感動詞
2. 問題設定
2. 適切な品詞の学習
12
名詞名詞
動詞
形容詞
副詞
助詞
動詞
形容詞
副詞
助詞
名詞
形態素に対する適切な品詞と品詞間の遷移を学習す
る
HMM[Brown et al., CL1992]
PYP-HMM[Blunsom, et al., ACL2011]
等，HMMを用いた手法

3. 本研究の提案
教師なし・半教師あり形態素解析
13
 NPYLM+Semi-Markov SHDCRF
 分かち書きと品詞推定を同時に行う
 主な貢献
 潜在クラスを導入したCRFとNPYLMの協調学習の提案
 分かち書きと品詞推定の同時学習を試みた
NPYLM の構築
テキスト
SHDCRFの更新
NPYLMの更新
品詞を考慮した分かち書き
のサンプリングとパラメータ更
新
(NPYLMを素性として使用)
サンプリングされた分かち書き
を用いてNPYLMを更新

3. 1 提案手法のアイデア
14
 分かち書きで獲得した形態素ごとに潜在クラスを割り当てる
 割り当てられた潜在クラスを形態素の品詞と見なす
 品詞間の遷移確率も学習するため，文法も獲得できる

3. 2 SHDCRF(1/2)[Shen et al., WWW2011]
15
CRF の入力と出力の間に潜在クラスの層を導入したモデル
ラベル遷移ではなく潜在クラスの遷移を学習することで，ラ
ベル遷移では見れなかったサブクラスの遷移まで見ることが
できる

3. 2 SHDCRF(2/2)[Shen et al., WWW2011]
16
 SHDCRFは元々は検索クエリに対するユーザの意図推
定を目的として作られている
 入力はセグメンテーション済みを想定しており，その
ままでは分かち書きと品詞推定の同時学習には利用で
きない
分かち書きと品詞推定の同時学習に適用するために，
Semi-Markov モデルに拡張する

3. 3 Semi-Markov SHDCRF
17
 入力文字列xに対する分かち書きsの条件付き確率
 h={h1,h2,…,hM}は潜在クラスの列
 pΛ(s|h), pΛ(h|x) は次のようにモデル化セグメント列と潜在
クラス列の長さが一
致し，
かつ入力文字列の長
さを超えないための
制約

3. 4 NPYLMとの協調学習
18
 SHDCRFの素性関数の1つとしてNPYLMを利用する
NPYLM
入力系列と潜在クラスの間
の関係についての素性関数
セグメンテーションと潜在ク
ラスの間の関係についての素
性関数

3. 5 マルコフ素性関数の追加
19
 セグメント素性関数をマルコフ素性関数の和とおく
 j: セグメンテーションが与えられた時のセグメント
の位置
 i: マルコフモデルで見た時の入力系列の位置
 s(.): セグメントの先頭位置
 e(.): セグメントの終了位置

3. 6 マルコフ素性関数
20
 追加したマルコフ素性関数
 セグメント中の位置情報を考慮
※ 現在の実装では潜在クラスの遷移はマルコフ素性関数では見ていない
φ(先頭, 文字=ぺ, h=名詞) φ(先頭, 文字=ぺ, h=動詞)
φ(終端, 文字=ろ, h=名詞) φ(終端, 文字=ろ, h=動詞)
φ(2, 文字 =ろ, h=名詞) φ(2, 文字=ろ, h=動詞)
φ(3, 文字=ぺ, h=名詞) φ(3, 文字=ぺ, h=動詞)
仮想的にセグメント内のローカルなIOBラベルを見ることに
相当
感動詞
名詞
動詞
形容詞
副詞
助詞
名詞

4. パラメータ推定(1/3)
21
 以下の損失関数を最大化
 Hは条件付きエントロピー
 獲得した形態素に対して潜在クラスがスパースに割
り当てられるように学習する

22
 パラメータの更新には勾配法を使用

23
 学習アルゴリズム
文字N-gramだけを最初に学習して基底測度として使用す
る
品詞付きの分かち書きをサンプリング（最尤のパスを選
択）
NPYLMの更新のための分かち書きのサンプリ
ング
SHDCRFのパラメータ更
新NPYLMの更新

5. 評価実験
24
 使用データ
 京大コーパス
 毎日新聞1995年1月1日〜17日までの全記事約２万文
 毎日新聞1995年1月〜12月の社説記事約2万文
 テストデータ：ランダムで選んだ1000文
 訓練データ：テストデータ以外
 しょこたんブログ
 2010年8月16日から2013年6月17日までの約13000記事

6. 実験条件(1/2)
25
 分かち書きの評価
1. 教師なし学習
 訓練データに付与されている分かち書きを削除し，文字列のみを使
用
2. 半教師あり学習
 ランダムに抽出した10K文を教師データ，残りは正解の分かち書き
を削除して使用
3. 教師あり学習
 訓練データの分かち書きを全て使用
 品詞推定
 人手で付与された品詞と獲得した潜在クラスの対応関係を確認

6. 実験条件(2/2)
26
 使用した素性
 セグメント素性
 セグメントの長さ
 潜在クラスの遷移
 単語 unigram 確率
 単語 bigram 確率
 マルコフ素性
 観測文字列の文字unigram
 観測文字列の文字bigram
 観測文字列の文字種unigram
 観測文字列の文字種bigram ※文字種はUnicodeのCharacter nameを使
用
NPYLM

7. 実験結果-分かち書きの精度
27
半教師あり学習が最も高いF値となった．
教師なしで獲得した形態素と人間の基準とは異
なる

7. 実験結果-教師なしの分かち書き
28
 複合語が獲得されてしまうため，不正解となる事例が
多い
 獲得した複合語の例
教師なし学習で獲得される形態素と人間が決め
た
形態素との間では乖離が見られた

7. 実験結果 - 品詞推定(1/3)
29
 潜在クラスの軸で正規化
普通名詞と殆どの
潜在クラスが結びつ
く

30
 正解と一致した形態素の品詞の分布
普通名詞: 106442
*: 84384
格助詞: 78642
サ変名詞: 52958
接続助詞: 38623
読点: 36484
．．．
終助詞: 321
ナ形容詞接頭辞: 189
アルファベット: 3
動詞接頭辞: 2
正しく分かち書きできた
形態素の品詞は名詞が
多く，偏りがある

31
 品詞の軸で正規化
潜在クラスの7, 8, 9 が
名詞と結びつく傾向
他，各品詞ごとに少数
の潜在クラスが割り当
てられているように見
える
しかし，潜在クラスの
12のように殆どの品詞
と結びつくクラスも見
られ，人間の直感とは
一致しない

7. 実験結果 - ブログ記事の分かち書き
32
教師なしによるブログ記事の分かち書き
の例
顔文字や未知語の検出ができている
定量的な評価は正解を決めるのが難しいため今回は行っていない．

8. まとめ
33
 NPYLMとSemi-Markov SHDCRFの協調学習による教
師なし・半教師あり形態素解析を提案
 分かち書きと品詞推定の同時学習を実現
 京大コーパスを用いた評価で効果を示した
 しょこたんブログを用いた実験で未知語や新語への対応ができる
ことを示した
 今後の課題
 品詞推定精度の向上
 e.g. 品詞についても半教師あり学習を行うことで人間の直感と一致さ
せる
 高速化

9. 従来研究
34
 教師なし学習に基づく分かち書き
 MDL原理に基づく手法
[松原他, NLP2007], [Argamon et al., ACL2004]
 ノンパラメトリックベイズ法による形態素解析のための言語モデル
学習
[Mochihashi et al., ACL2009]
 半教師あり学習に基づく分かち書き
 NPYLMとCRFを用いた半教師あり形態素解析[持橋他, NLP2011]
 教師あり学習に基づく形態素解析
 MEMMを用いた能動学習でアノテーションコストを削減[内元他,
NLP2003]
 書き言葉のアノテーション済みコーパスに少量の話し言葉のコーパ
スを追加して形態素解析の性能を改善
[松本他, 自然言語処理研究会報告2001]

Signl213

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Signl213

Similar to Signl213 (15)

More from Kei Uchiumi

More from Kei Uchiumi (9)

Signl213