大規模な単語活用辞書を用いた英単語の見出し語化

大規模な単語活用辞書を用いた
英単語の見出し語化
奈良先端科学技術大学院大学
駒井雅之進藤裕之松本裕治
2016/3/2 @ Deim2016: C8-5

研究の背景
● 見出し語化 (lemmatization) は自然言語処理において重要
●
高精度な見出し語化には単語活用辞書が必要
– 単語活用辞書: 単語に品詞や見出し語が付与された資源
– 例: ■ awards: 名詞 – 複数形 – 見出し語: award
→ さらに未知語に対しては統計的なモデル統計的なモデルが必要
見出し語化の例: free-running → free-run

関連研究
● 関連研究1. 英語の言語資源:
– Penn Treebank [Marcus+ 1994]: 新聞記事のコーパス
● 注釈情報: 品詞・構文情報, ( 見出し語は未注釈 )
– CELEX [Piepenbrock+ 1995]: 辞書データベース
●
語彙の大きさは数万規模
● 関連研究2. 見出し語化のモデル:
– 品詞と見出し語を同時推論するモデル
[Chrupala+ 2008, Toutanoba+ 2009, Muller+ 2015]
→ 品詞と見出し語の両方の注釈が必要

関連研究 - 問題点
● 関連研究1. 英語の言語資源:
– Penn Treebank [Marcus+ 1994]: 新聞記事のコーパス
● 注釈情報: 品詞・構文情報, ( 見出し語は未注釈 )
– CELEX [Piepenbrock+ 1995]: 辞書データベース
●
語彙の大きさは数万規模
● 関連研究2. 見出し語化のモデル:
– 品詞と見出し語を同時推論するモデル
[Chrupala+ 2008, Toutanoba+ 2009, Muller+ 2015]
→ 品詞と見出し語の両方の注釈が必要
Problem
1. 英語の言語資源が不足している
- 特に単語活用辞書が十分に整備されていない
2. リソース不足に伴い, 英語のテキストに対し
既存のモデルを適用するのは困難

本研究の目的・貢献
Wiktionaryを用いて単語活用辞書を構築・公開する
→ 辞書を参照することで既知語の見出し語化が可能
言語非依存な未知語の見出し語化モデルを提案する
1. ルールベースのモデル
2. SVMを用いたモデル
3. ニューラルネットワークを用いたモデル
– 辞書 + 平文 (ラベル無しのテキスト) を必要とする
Wiktionary: 誰でも自由に使えるWiki形式の辞書サイト

貢献1: 単語活用辞書の構築
● Wiktionaryダンプデータを用いた辞書構築法
1. ダンプデータから全ての (単語, 屈折表) の組を抽出する
屈折表: 単語の活用形が表された項目 (表記乱れ有)
2. (単語, 屈折表) の情報を展開する
　規則活用の例: 組
ダンプデータ: Wiktionaryのページ群を集積したファイル
(award, {{en-noun}} )
■ award : 名詞 – 単数形 – 見出し語: award
■ awards : 名詞 – 複数形 – 見出し語: award

不規則活用の例: 組
(take, {{en-verb|takes|took … }} )
■ take : 動詞 – 現在形 – 見出し語: take
■ took : 動詞 – 過去形 – 見出し語: take
...

辞書統計量: 803,694 種類の辞書情報を獲得
# 種類
見出し語 597,149
表層語 803,694

貢献2: 未知語の見出し語化のモデル
● 平文の語と表層語との間の編集 (レーベンシュタイン) 距離を計算
→ 距離が0より大きい語から, 最近傍の語を見出し語とする
● K個の見出し語候補を用意 → SVMを (候補, 表層語) に適用
→ 最良のスコアの語を見出し語する
– 正例・負例は辞書から導出
● 素性: 編集距離 + N-Gramアラインメント
Method 1. ルールベース (要: 平文)
Method 2. SVMを用いた手法 (要: 平文, 辞書)
p l a y e d
p l a y
pp-1p-2

t t+3t-3 ・・・・・・
● 表層語から, 文字レベルで見出し語を生成する
● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成
Method 3. ニューラルネットワークの手法（要: 辞書)
p al y e d
p
文字
a
b
・
・
p
・
確率値
0.01
0.01
・
・
0.94
・

t t+3t-3 ・・・・・・
p al y e d
p l
文字
a
b
・
・
l
・
確率値
0.01
0.01
・
・
0.91
・

t t+3t-3 ・・・・・・
p al y e d
p l
文字
a
b
・
・
p
・
確率値
0.88
0.01
・
・
0.01
・
a

t t+3t-3 ・・・・・・
p al y e d
p l
文字
a
b
・
・
y
・
確率値
0.01
0.01
・
・
0.79
・
a y

t t+3t-3 ・・・・・・
p al y e d
p l
文字
a
b
・
・
・
/s
確率値
0.01
0.01
・
・
・
0.62
a y /s
注: “/s” は終了記号とする

ot = softmax(W o h + bo)
Output Layer:
ht = tanh (Wh x + bh)
Hidden Layer:
xt = concat(xt
s
, xt
l
)
Input Layer:
yal e dp yalp
/sa b ...
/s
注: “/s” は終了記号とする

実験
●
未知語の見出し語化の実験
– Task: 屈折を伴う表層語 (未知語) → 見出し語
– 手法: ルールベース, SVMの手法, ニューラルネットワークの手法
●
評価データ［データ数：１００事例］
– Wikipediaコーパス [Muller+ 2015] (平文) から未知語を選定
– 人手で適切な見出し語を注釈
●
ラベル無しデータ＜Ｗｉｋｉｐｅｄｉａコーパス＞の利用
– 表層語とコーパスの単語の編集距離を計算
– 1-Best → ルールベース, 200-Best → SVMの手法

実験結果
●
未知語の見出し語化の実験結果を示す
– SVMで, 200-Best中に見出し語が含まれる割合: 0.82
ニューラルネットワークの手法が最良の結果を示した
正解率
1. ルールベースの手法 0.10
2. SVM (K=200) を用いた手法
0.79
(上限: 0.82)
3. ニューラルネットワークの手法 0.94

実験結果 - モデルごとの出力例
● SVM・ニューラルネットワークのモデルによる出力例の比較
– 正しい見出し語がＫ−Ｂｅｓｔに含まれない時:
→ SVMのモデルは正解できない
正解がK-Bestに含まれる正解がK-Bestに含まれない
表層語 (入力) free-running populares tonaries hellenized
ＳＶＭのモデル free-run populare tonare hellenized
ニューラル
ネットワーク
free-run populare tonary hellenize
正しい見出し語 free-run popularis tonary hellenize

まとめ
英語の単語活用辞書の構築法を提示した
● Webで公開予定
未知語のための見出し語化モデルを提案した
●
ニューラルネットワークのモデルが最良の結果を示した
●
デモとして公開済み・オープンソースとして公開予定
●
見出し語化のシステムを応用タスクに組み込む
● Long Short Term Memory や文字埋め込みベクトルの活用
今後の課題

大規模な単語活用辞書を用いた英単語の見出し語化

Recommended

Recommended

More Related Content

What's hot

What's hot (9)

Similar to 大規模な単語活用辞書を用いた英単語の見出し語化

Similar to 大規模な単語活用辞書を用いた英単語の見出し語化 (20)

More from 奈良先端大情報科学研究科

More from 奈良先端大情報科学研究科 (20)