SlideShare a Scribd company logo
1 of 19
Download to read offline
大規模な単語活用辞書を用いた
英単語の見出し語化
奈良先端科学技術大学院大学
駒井雅之 進藤裕之 松本裕治
2016/3/2 @ Deim2016: C8-5
研究の背景
● 見出し語化 (lemmatization) は自然言語処理において重要
●
高精度な見出し語化には単語活用辞書が必要
– 単語活用辞書: 単語に品詞や見出し語が付与された資源
– 例: ■ awards: 名詞 – 複数形 – 見出し語: award
→ さらに未知語に対しては統計的なモデル統計的なモデルが必要
見出し語化の例: free-running → free-run
関連研究
● 関連研究1. 英語の言語資源:
– Penn Treebank [Marcus+ 1994]: 新聞記事のコーパス
● 注釈情報: 品詞・構文情報, ( 見出し語は未注釈 )
– CELEX [Piepenbrock+ 1995]: 辞書データベース
●
語彙の大きさは数万規模
● 関連研究2. 見出し語化のモデル:
– 品詞と見出し語を同時推論するモデル
[Chrupala+ 2008, Toutanoba+ 2009, Muller+ 2015]
→ 品詞と見出し語の両方の注釈が必要
関連研究 - 問題点
● 関連研究1. 英語の言語資源:
– Penn Treebank [Marcus+ 1994]: 新聞記事のコーパス
● 注釈情報: 品詞・構文情報, ( 見出し語は未注釈 )
– CELEX [Piepenbrock+ 1995]: 辞書データベース
●
語彙の大きさは数万規模
● 関連研究2. 見出し語化のモデル:
– 品詞と見出し語を同時推論するモデル
[Chrupala+ 2008, Toutanoba+ 2009, Muller+ 2015]
→ 品詞と見出し語の両方の注釈が必要
Problem
1. 英語の言語資源が不足している
- 特に単語活用辞書が十分に整備されていない
2. リソース不足に伴い, 英語のテキストに対し
既存のモデルを適用するのは困難
本研究の目的・貢献
Wiktionaryを用いて単語活用辞書を構築・公開する
→ 辞書を参照することで既知語の見出し語化が可能
言語非依存な未知語の見出し語化モデルを提案する
1. ルールベースのモデル
2. SVMを用いたモデル
3. ニューラルネットワークを用いたモデル
– 辞書 + 平文 (ラベル無しのテキスト) を必要とする
Wiktionary: 誰でも自由に使えるWiki形式の辞書サイト
貢献1: 単語活用辞書の構築
● Wiktionaryダンプデータを用いた辞書構築法
1. ダンプデータから全ての (単語, 屈折表) の組を抽出する
屈折表: 単語の活用形が表された項目 (表記乱れ有)
2. (単語, 屈折表) の情報を展開する
 規則活用の例: 組
ダンプデータ: Wiktionaryのページ群を集積したファイル
(award, {{en-noun}} )
■ award : 名詞 – 単数形 – 見出し語: award
■ awards : 名詞 – 複数形 – 見出し語: award
貢献1: 単語活用辞書の構築
● Wiktionaryダンプデータを用いた辞書構築法
1. ダンプデータから全ての (単語, 屈折表) の組を抽出する
屈折表: 単語の活用形が表された項目 (表記乱れ有)
2. (単語, 屈折表) の情報を展開する
不規則活用の例: 組
ダンプデータ: Wiktionaryのページ群を集積したファイル
(take, {{en-verb|takes|took … }} )
■ take : 動詞 – 現在形 – 見出し語: take
■ took : 動詞 – 過去形 – 見出し語: take
...
貢献1: 単語活用辞書の構築
● Wiktionaryダンプデータを用いた辞書構築法
1. ダンプデータから全ての (単語, 屈折表) の組を抽出する
屈折表: 単語の活用形が表された項目 (表記乱れ有)
2. (単語, 屈折表) の情報を展開する
辞書統計量: 803,694 種類の辞書情報を獲得
ダンプデータ: Wiktionaryのページ群を集積したファイル
# 種類
見出し語 597,149
表層語 803,694
貢献2: 未知語の見出し語化のモデル
● 平文の語と表層語との間の編集 (レーベンシュタイン) 距離を計算
→ 距離が0より大きい語から, 最近傍の語を見出し語とする
● K個の見出し語候補を用意 → SVMを (候補, 表層語) に適用
→ 最良のスコアの語を見出し語する
– 正例・負例は辞書から導出
● 素性: 編集距離 + N-Gramアラインメント
Method 1. ルールベース (要: 平文)
Method 2. SVMを用いた手法 (要: 平文, 辞書)
p l a y e d
p l a y
pp-1p-2
t t+3t-3 ・・・ ・・・
貢献2: 未知語の見出し語化のモデル
● 表層語から, 文字レベルで見出し語を生成する
● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成
Method 3. ニューラルネットワークの手法 (要: 辞書)
p al y e d
p
文字
a
b
・
・
p
・
確率値
0.01
0.01
・
・
0.94
・
t t+3t-3 ・・・ ・・・
貢献2: 未知語の見出し語化のモデル
● 表層語から, 文字レベルで見出し語を生成する
● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成
p al y e d
p l
文字
a
b
・
・
l
・
確率値
0.01
0.01
・
・
0.91
・
Method 3. ニューラルネットワークの手法 (要: 辞書)
t t+3t-3 ・・・ ・・・
貢献2: 未知語の見出し語化のモデル
● 表層語から, 文字レベルで見出し語を生成する
● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成
p al y e d
p l
文字
a
b
・
・
p
・
確率値
0.88
0.01
・
・
0.01
・
a
Method 3. ニューラルネットワークの手法 (要: 辞書)
t t+3t-3 ・・・ ・・・
貢献2: 未知語の見出し語化のモデル
● 表層語から, 文字レベルで見出し語を生成する
● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成
p al y e d
p l
文字
a
b
・
・
y
・
確率値
0.01
0.01
・
・
0.79
・
a y
Method 3. ニューラルネットワークの手法 (要: 辞書)
t t+3t-3 ・・・ ・・・
貢献2: 未知語の見出し語化のモデル
● 表層語から, 文字レベルで見出し語を生成する
● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成
p al y e d
p l
文字
a
b
・
・
・
/s
確率値
0.01
0.01
・
・
・
0.62
a y /s
Method 3. ニューラルネットワークの手法 (要: 辞書)
注: “/s” は終了記号とする
貢献2: 未知語の見出し語化のモデル
● 表層語から, 文字レベルで見出し語を生成する
● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成
ot = softmax(W o h + bo)
Output Layer:
ht = tanh (Wh x + bh)
Hidden Layer:
xt = concat(xt
s
, xt
l
)
Input Layer:
yal e dp yalp
/sa b ...
/s
Method 3. ニューラルネットワークの手法 (要: 辞書)
注: “/s” は終了記号とする
実験
●
未知語の見出し語化の実験
– Task: 屈折を伴う表層語 (未知語) → 見出し語
– 手法: ルールベース, SVMの手法, ニューラルネットワークの手法
●
評価データ [データ数: 100事例]
– Wikipediaコーパス [Muller+ 2015] (平文) から未知語を選定
– 人手で適切な見出し語を注釈
●
ラベル無しデータ <Wikipediaコーパス> の利用
– 表層語とコーパスの単語の編集距離を計算
– 1-Best → ルールベース, 200-Best → SVMの手法
実験結果
●
未知語の見出し語化の実験結果を示す
– SVMで, 200-Best中に見出し語が含まれる割合: 0.82
ニューラルネットワークの手法が最良の結果を示した
正解率
1. ルールベースの手法 0.10
2. SVM (K=200) を用いた手法
0.79
(上限: 0.82)
3. ニューラルネットワークの手法 0.94
実験結果 - モデルごとの出力例
● SVM・ニューラルネットワークのモデルによる出力例の比較
– 正しい見出し語がK−Bestに含まれない時:
→ SVMのモデルは正解できない
正解がK-Bestに含まれる 正解がK-Bestに含まれない
表層語 (入力) free-running populares tonaries hellenized
SVMのモデル free-run populare tonare hellenized
ニューラル
ネットワーク
free-run populare tonary hellenize
正しい見出し語 free-run popularis tonary hellenize
まとめ
英語の単語活用辞書の構築法を提示した
● Webで公開予定
未知語のための見出し語化モデルを提案した
●
ニューラルネットワークのモデルが最良の結果を示した
●
デモとして公開済み ・ オープンソースとして公開予定
●
見出し語化のシステムを応用タスクに組み込む
● Long Short Term Memory や 文字埋め込みベクトルの活用
今後の課題

More Related Content

What's hot

111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッションShohei Hido
 
110828 tokyo scipy1_hido_dist
110828 tokyo scipy1_hido_dist110828 tokyo scipy1_hido_dist
110828 tokyo scipy1_hido_distShohei Hido
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングYuya Unno
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理Preferred Networks
 
Pythonで始めた数値計算の授業@わんくま勉強会2018-04
Pythonで始めた数値計算の授業@わんくま勉強会2018-04Pythonで始めた数値計算の授業@わんくま勉強会2018-04
Pythonで始めた数値計算の授業@わんくま勉強会2018-04Katsuhiro Morishita
 
TF-IDFで文書カテゴリ分類
TF-IDFで文書カテゴリ分類TF-IDFで文書カテゴリ分類
TF-IDFで文書カテゴリ分類yuf yufkky
 
ニューラルネットワーク勉強会3
ニューラルネットワーク勉強会3ニューラルネットワーク勉強会3
ニューラルネットワーク勉強会3yhide
 
L-1グランプリ "D言語"
L-1グランプリ "D言語"L-1グランプリ "D言語"
L-1グランプリ "D言語"det coder
 
D言語にまだ入っていない新機能 (Dの日#2)
D言語にまだ入っていない新機能 (Dの日#2)D言語にまだ入っていない新機能 (Dの日#2)
D言語にまだ入っていない新機能 (Dの日#2)tom-tan
 

What's hot (9)

111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション
 
110828 tokyo scipy1_hido_dist
110828 tokyo scipy1_hido_dist110828 tokyo scipy1_hido_dist
110828 tokyo scipy1_hido_dist
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理
 
Pythonで始めた数値計算の授業@わんくま勉強会2018-04
Pythonで始めた数値計算の授業@わんくま勉強会2018-04Pythonで始めた数値計算の授業@わんくま勉強会2018-04
Pythonで始めた数値計算の授業@わんくま勉強会2018-04
 
TF-IDFで文書カテゴリ分類
TF-IDFで文書カテゴリ分類TF-IDFで文書カテゴリ分類
TF-IDFで文書カテゴリ分類
 
ニューラルネットワーク勉強会3
ニューラルネットワーク勉強会3ニューラルネットワーク勉強会3
ニューラルネットワーク勉強会3
 
L-1グランプリ "D言語"
L-1グランプリ "D言語"L-1グランプリ "D言語"
L-1グランプリ "D言語"
 
D言語にまだ入っていない新機能 (Dの日#2)
D言語にまだ入っていない新機能 (Dの日#2)D言語にまだ入っていない新機能 (Dの日#2)
D言語にまだ入っていない新機能 (Dの日#2)
 

Similar to 大規模な単語活用辞書を用いた英単語の見出し語化

Chainer with natural language processing hands on
Chainer with natural language processing hands onChainer with natural language processing hands on
Chainer with natural language processing hands onOgushi Masaya
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合うYuya Unno
 
読解支援@2015 08-10-4
読解支援@2015 08-10-4読解支援@2015 08-10-4
読解支援@2015 08-10-4sekizawayuuki
 
単語・句の分散表現の学習
単語・句の分散表現の学習単語・句の分散表現の学習
単語・句の分散表現の学習Naoaki Okazaki
 
スペル修正プログラムの作り方 #pronama
スペル修正プログラムの作り方 #pronamaスペル修正プログラムの作り方 #pronama
スペル修正プログラムの作り方 #pronamaHiroyoshi Komatsu
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションantibayesian 俺がS式だ
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクールYuya Unno
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generationharmonylab
 
機械学習を民主化する取り組み
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組みYoshitaka Ushiku
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05sekizawayuuki
 
論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...
論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...
論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...Akira Taniguchi
 
鬱くしい日本語のための形態素解析入門
鬱くしい日本語のための形態素解析入門鬱くしい日本語のための形態素解析入門
鬱くしい日本語のための形態素解析入門Hiroyoshi Komatsu
 
子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN 子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN Chiba Institute of Technology
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020Yuki Saito
 
Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介Masayoshi Kondo
 
【文献紹介】Automatic community creation for abstractive spoken conversation summar...
【文献紹介】Automatic community creation for abstractive spoken conversation summar...【文献紹介】Automatic community creation for abstractive spoken conversation summar...
【文献紹介】Automatic community creation for abstractive spoken conversation summar...Takashi YAMAMURA
 

Similar to 大規模な単語活用辞書を用いた英単語の見出し語化 (20)

Chainer with natural language processing hands on
Chainer with natural language processing hands onChainer with natural language processing hands on
Chainer with natural language processing hands on
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
読解支援@2015 08-10-4
読解支援@2015 08-10-4読解支援@2015 08-10-4
読解支援@2015 08-10-4
 
単語・句の分散表現の学習
単語・句の分散表現の学習単語・句の分散表現の学習
単語・句の分散表現の学習
 
スペル修正プログラムの作り方 #pronama
スペル修正プログラムの作り方 #pronamaスペル修正プログラムの作り方 #pronama
スペル修正プログラムの作り方 #pronama
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
 
機械学習を民主化する取り組み
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組み
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05
 
論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...
論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...
論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...
 
鬱くしい日本語のための形態素解析入門
鬱くしい日本語のための形態素解析入門鬱くしい日本語のための形態素解析入門
鬱くしい日本語のための形態素解析入門
 
子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN 子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN
 
comp_pfiseminar
comp_pfiseminarcomp_pfiseminar
comp_pfiseminar
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介
 
【文献紹介】Automatic community creation for abstractive spoken conversation summar...
【文献紹介】Automatic community creation for abstractive spoken conversation summar...【文献紹介】Automatic community creation for abstractive spoken conversation summar...
【文献紹介】Automatic community creation for abstractive spoken conversation summar...
 
Extract and edit
Extract and editExtract and edit
Extract and edit
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 

More from 奈良先端大 情報科学研究科

マイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろうマイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろう奈良先端大 情報科学研究科
 
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析奈良先端大 情報科学研究科
 
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!奈良先端大 情報科学研究科
 
16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう奈良先端大 情報科学研究科
 
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう奈良先端大 情報科学研究科
 
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法奈良先端大 情報科学研究科
 
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発奈良先端大 情報科学研究科
 
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発奈良先端大 情報科学研究科
 
9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう奈良先端大 情報科学研究科
 
14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築奈良先端大 情報科学研究科
 

More from 奈良先端大 情報科学研究科 (20)

テレコミュニケーションを支援してみよう
テレコミュニケーションを支援してみようテレコミュニケーションを支援してみよう
テレコミュニケーションを支援してみよう
 
マイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろうマイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろう
 
5G時代を支えるNFVによるネットワーク最適設計
5G時代を支えるNFVによるネットワーク最適設計5G時代を支えるNFVによるネットワーク最適設計
5G時代を支えるNFVによるネットワーク最適設計
 
21.Raspberry Piを用いたIoTアプリの開発
21.Raspberry Piを用いたIoTアプリの開発21.Raspberry Piを用いたIoTアプリの開発
21.Raspberry Piを用いたIoTアプリの開発
 
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
 
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
 
8. ミニ・スーパコンピュータを自作しよう!
8. ミニ・スーパコンピュータを自作しよう!8. ミニ・スーパコンピュータを自作しよう!
8. ミニ・スーパコンピュータを自作しよう!
 
16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう
 
15. テレイグジスタンスシステムを制作してみよう
15. テレイグジスタンスシステムを制作してみよう15. テレイグジスタンスシステムを制作してみよう
15. テレイグジスタンスシステムを制作してみよう
 
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
 
19. 生物に学ぶ人工知能とロボット制御
19. 生物に学ぶ人工知能とロボット制御19. 生物に学ぶ人工知能とロボット制御
19. 生物に学ぶ人工知能とロボット制御
 
13. SDRで学ぶ無線通信
13. SDRで学ぶ無線通信13. SDRで学ぶ無線通信
13. SDRで学ぶ無線通信
 
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
 
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
 
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
 
9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう
 
6. 生物に学ぶ人工知能とロボット制御
6. 生物に学ぶ人工知能とロボット制御6. 生物に学ぶ人工知能とロボット制御
6. 生物に学ぶ人工知能とロボット制御
 
14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築
 
17. 100台の小型ロボットを協調させよう
17. 100台の小型ロボットを協調させよう17. 100台の小型ロボットを協調させよう
17. 100台の小型ロボットを協調させよう
 
5. ミニ・スーパコンピュータを自作しよう!
5. ミニ・スーパコンピュータを自作しよう!5. ミニ・スーパコンピュータを自作しよう!
5. ミニ・スーパコンピュータを自作しよう!
 

大規模な単語活用辞書を用いた英単語の見出し語化

  • 2. 研究の背景 ● 見出し語化 (lemmatization) は自然言語処理において重要 ● 高精度な見出し語化には単語活用辞書が必要 – 単語活用辞書: 単語に品詞や見出し語が付与された資源 – 例: ■ awards: 名詞 – 複数形 – 見出し語: award → さらに未知語に対しては統計的なモデル統計的なモデルが必要 見出し語化の例: free-running → free-run
  • 3. 関連研究 ● 関連研究1. 英語の言語資源: – Penn Treebank [Marcus+ 1994]: 新聞記事のコーパス ● 注釈情報: 品詞・構文情報, ( 見出し語は未注釈 ) – CELEX [Piepenbrock+ 1995]: 辞書データベース ● 語彙の大きさは数万規模 ● 関連研究2. 見出し語化のモデル: – 品詞と見出し語を同時推論するモデル [Chrupala+ 2008, Toutanoba+ 2009, Muller+ 2015] → 品詞と見出し語の両方の注釈が必要
  • 4. 関連研究 - 問題点 ● 関連研究1. 英語の言語資源: – Penn Treebank [Marcus+ 1994]: 新聞記事のコーパス ● 注釈情報: 品詞・構文情報, ( 見出し語は未注釈 ) – CELEX [Piepenbrock+ 1995]: 辞書データベース ● 語彙の大きさは数万規模 ● 関連研究2. 見出し語化のモデル: – 品詞と見出し語を同時推論するモデル [Chrupala+ 2008, Toutanoba+ 2009, Muller+ 2015] → 品詞と見出し語の両方の注釈が必要 Problem 1. 英語の言語資源が不足している - 特に単語活用辞書が十分に整備されていない 2. リソース不足に伴い, 英語のテキストに対し 既存のモデルを適用するのは困難
  • 5. 本研究の目的・貢献 Wiktionaryを用いて単語活用辞書を構築・公開する → 辞書を参照することで既知語の見出し語化が可能 言語非依存な未知語の見出し語化モデルを提案する 1. ルールベースのモデル 2. SVMを用いたモデル 3. ニューラルネットワークを用いたモデル – 辞書 + 平文 (ラベル無しのテキスト) を必要とする Wiktionary: 誰でも自由に使えるWiki形式の辞書サイト
  • 6. 貢献1: 単語活用辞書の構築 ● Wiktionaryダンプデータを用いた辞書構築法 1. ダンプデータから全ての (単語, 屈折表) の組を抽出する 屈折表: 単語の活用形が表された項目 (表記乱れ有) 2. (単語, 屈折表) の情報を展開する  規則活用の例: 組 ダンプデータ: Wiktionaryのページ群を集積したファイル (award, {{en-noun}} ) ■ award : 名詞 – 単数形 – 見出し語: award ■ awards : 名詞 – 複数形 – 見出し語: award
  • 7. 貢献1: 単語活用辞書の構築 ● Wiktionaryダンプデータを用いた辞書構築法 1. ダンプデータから全ての (単語, 屈折表) の組を抽出する 屈折表: 単語の活用形が表された項目 (表記乱れ有) 2. (単語, 屈折表) の情報を展開する 不規則活用の例: 組 ダンプデータ: Wiktionaryのページ群を集積したファイル (take, {{en-verb|takes|took … }} ) ■ take : 動詞 – 現在形 – 見出し語: take ■ took : 動詞 – 過去形 – 見出し語: take ...
  • 8. 貢献1: 単語活用辞書の構築 ● Wiktionaryダンプデータを用いた辞書構築法 1. ダンプデータから全ての (単語, 屈折表) の組を抽出する 屈折表: 単語の活用形が表された項目 (表記乱れ有) 2. (単語, 屈折表) の情報を展開する 辞書統計量: 803,694 種類の辞書情報を獲得 ダンプデータ: Wiktionaryのページ群を集積したファイル # 種類 見出し語 597,149 表層語 803,694
  • 9. 貢献2: 未知語の見出し語化のモデル ● 平文の語と表層語との間の編集 (レーベンシュタイン) 距離を計算 → 距離が0より大きい語から, 最近傍の語を見出し語とする ● K個の見出し語候補を用意 → SVMを (候補, 表層語) に適用 → 最良のスコアの語を見出し語する – 正例・負例は辞書から導出 ● 素性: 編集距離 + N-Gramアラインメント Method 1. ルールベース (要: 平文) Method 2. SVMを用いた手法 (要: 平文, 辞書) p l a y e d p l a y pp-1p-2
  • 10. t t+3t-3 ・・・ ・・・ 貢献2: 未知語の見出し語化のモデル ● 表層語から, 文字レベルで見出し語を生成する ● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成 Method 3. ニューラルネットワークの手法 (要: 辞書) p al y e d p 文字 a b ・ ・ p ・ 確率値 0.01 0.01 ・ ・ 0.94 ・
  • 11. t t+3t-3 ・・・ ・・・ 貢献2: 未知語の見出し語化のモデル ● 表層語から, 文字レベルで見出し語を生成する ● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成 p al y e d p l 文字 a b ・ ・ l ・ 確率値 0.01 0.01 ・ ・ 0.91 ・ Method 3. ニューラルネットワークの手法 (要: 辞書)
  • 12. t t+3t-3 ・・・ ・・・ 貢献2: 未知語の見出し語化のモデル ● 表層語から, 文字レベルで見出し語を生成する ● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成 p al y e d p l 文字 a b ・ ・ p ・ 確率値 0.88 0.01 ・ ・ 0.01 ・ a Method 3. ニューラルネットワークの手法 (要: 辞書)
  • 13. t t+3t-3 ・・・ ・・・ 貢献2: 未知語の見出し語化のモデル ● 表層語から, 文字レベルで見出し語を生成する ● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成 p al y e d p l 文字 a b ・ ・ y ・ 確率値 0.01 0.01 ・ ・ 0.79 ・ a y Method 3. ニューラルネットワークの手法 (要: 辞書)
  • 14. t t+3t-3 ・・・ ・・・ 貢献2: 未知語の見出し語化のモデル ● 表層語から, 文字レベルで見出し語を生成する ● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成 p al y e d p l 文字 a b ・ ・ ・ /s 確率値 0.01 0.01 ・ ・ ・ 0.62 a y /s Method 3. ニューラルネットワークの手法 (要: 辞書) 注: “/s” は終了記号とする
  • 15. 貢献2: 未知語の見出し語化のモデル ● 表層語から, 文字レベルで見出し語を生成する ● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成 ot = softmax(W o h + bo) Output Layer: ht = tanh (Wh x + bh) Hidden Layer: xt = concat(xt s , xt l ) Input Layer: yal e dp yalp /sa b ... /s Method 3. ニューラルネットワークの手法 (要: 辞書) 注: “/s” は終了記号とする
  • 16. 実験 ● 未知語の見出し語化の実験 – Task: 屈折を伴う表層語 (未知語) → 見出し語 – 手法: ルールベース, SVMの手法, ニューラルネットワークの手法 ● 評価データ [データ数: 100事例] – Wikipediaコーパス [Muller+ 2015] (平文) から未知語を選定 – 人手で適切な見出し語を注釈 ● ラベル無しデータ <Wikipediaコーパス> の利用 – 表層語とコーパスの単語の編集距離を計算 – 1-Best → ルールベース, 200-Best → SVMの手法
  • 17. 実験結果 ● 未知語の見出し語化の実験結果を示す – SVMで, 200-Best中に見出し語が含まれる割合: 0.82 ニューラルネットワークの手法が最良の結果を示した 正解率 1. ルールベースの手法 0.10 2. SVM (K=200) を用いた手法 0.79 (上限: 0.82) 3. ニューラルネットワークの手法 0.94
  • 18. 実験結果 - モデルごとの出力例 ● SVM・ニューラルネットワークのモデルによる出力例の比較 – 正しい見出し語がK−Bestに含まれない時: → SVMのモデルは正解できない 正解がK-Bestに含まれる 正解がK-Bestに含まれない 表層語 (入力) free-running populares tonaries hellenized SVMのモデル free-run populare tonare hellenized ニューラル ネットワーク free-run populare tonary hellenize 正しい見出し語 free-run popularis tonary hellenize
  • 19. まとめ 英語の単語活用辞書の構築法を提示した ● Webで公開予定 未知語のための見出し語化モデルを提案した ● ニューラルネットワークのモデルが最良の結果を示した ● デモとして公開済み ・ オープンソースとして公開予定 ● 見出し語化のシステムを応用タスクに組み込む ● Long Short Term Memory や 文字埋め込みベクトルの活用 今後の課題