Submit Search
Upload
Nl220 Pitman-Yor Hidden Semi Markov Model
•
Download as PPTX, PDF
•
19 likes
•
8,899 views
Kei Uchiumi
Follow
第220回自然言語処理研究会で隠れセミマルコフモデルに基づく教師無し形態素解析手法の提案を行いました.
Read less
Read more
Science
Report
Share
Report
Share
1 of 34
Download now
Recommended
Signl213
Signl213
Kei Uchiumi
文脈の多様性に基づく名詞換言の評価
文脈の多様性に基づく名詞換言の評価
Tomoyuki Kajiwara
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
長岡技術科学大学 自然言語処理研究室
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
Yusuke Matsubara
鬱くしい日本語のための形態素解析入門
鬱くしい日本語のための形態素解析入門
Hiroyoshi Komatsu
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ
Hiroshi Nakagawa
Python nlp handson_20220225_v5
Python nlp handson_20220225_v5
博三 太田
スペル修正プログラムの作り方 #pronama
スペル修正プログラムの作り方 #pronama
Hiroyoshi Komatsu
Recommended
Signl213
Signl213
Kei Uchiumi
文脈の多様性に基づく名詞換言の評価
文脈の多様性に基づく名詞換言の評価
Tomoyuki Kajiwara
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
長岡技術科学大学 自然言語処理研究室
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
Yusuke Matsubara
鬱くしい日本語のための形態素解析入門
鬱くしい日本語のための形態素解析入門
Hiroyoshi Komatsu
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ
Hiroshi Nakagawa
Python nlp handson_20220225_v5
Python nlp handson_20220225_v5
博三 太田
スペル修正プログラムの作り方 #pronama
スペル修正プログラムの作り方 #pronama
Hiroyoshi Komatsu
Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127
博三 太田
Logics 18th ota_20211201
Logics 18th ota_20211201
博三 太田
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
Kosuke Futamata
固有表現抽出について
固有表現抽出について
Syo Kyojin
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
Hayahide Yamagishi
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
Asahiko Matsuda
Sigconf 2019 slide_ota_20191123
Sigconf 2019 slide_ota_20191123
博三 太田
Dynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language Models
Shun Kiyono
小林敏:ルビの配置方法 1 2_2
小林敏:ルビの配置方法 1 2_2
Japan Electronic Publishing Association
2016word embbed
2016word embbed
Shin Asakawa
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
Tomoyuki Kajiwara
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
Shin Asakawa
機械翻訳の今昔物語
機械翻訳の今昔物語
Hiroshi Nakagawa
普通名詞換言辞書の構築
普通名詞換言辞書の構築
長岡技術科学大学 自然言語処理研究室
最先端NLP勉強会 Context Gates for Neural Machine Translation
最先端NLP勉強会 Context Gates for Neural Machine Translation
Masahiro Yamamoto
Japan.r 2018 slide ota_20181201
Japan.r 2018 slide ota_20181201
博三 太田
文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向
Tomoyuki Kajiwara
Machine translation
Machine translation
Hiroshi Matsumoto
形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について
Kow Kuroda
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
Takehiko Ito
Dsirnlp#7
Dsirnlp#7
Kei Uchiumi
Deep Learning Chapter12
Deep Learning Chapter12
Kei Uchiumi
More Related Content
What's hot
Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127
博三 太田
Logics 18th ota_20211201
Logics 18th ota_20211201
博三 太田
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
Kosuke Futamata
固有表現抽出について
固有表現抽出について
Syo Kyojin
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
Hayahide Yamagishi
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
Asahiko Matsuda
Sigconf 2019 slide_ota_20191123
Sigconf 2019 slide_ota_20191123
博三 太田
Dynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language Models
Shun Kiyono
小林敏:ルビの配置方法 1 2_2
小林敏:ルビの配置方法 1 2_2
Japan Electronic Publishing Association
2016word embbed
2016word embbed
Shin Asakawa
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
Tomoyuki Kajiwara
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
Shin Asakawa
機械翻訳の今昔物語
機械翻訳の今昔物語
Hiroshi Nakagawa
普通名詞換言辞書の構築
普通名詞換言辞書の構築
長岡技術科学大学 自然言語処理研究室
最先端NLP勉強会 Context Gates for Neural Machine Translation
最先端NLP勉強会 Context Gates for Neural Machine Translation
Masahiro Yamamoto
Japan.r 2018 slide ota_20181201
Japan.r 2018 slide ota_20181201
博三 太田
文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向
Tomoyuki Kajiwara
Machine translation
Machine translation
Hiroshi Matsumoto
形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について
Kow Kuroda
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
Takehiko Ito
What's hot
(20)
Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127
Logics 18th ota_20211201
Logics 18th ota_20211201
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
固有表現抽出について
固有表現抽出について
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
Sigconf 2019 slide_ota_20191123
Sigconf 2019 slide_ota_20191123
Dynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language Models
小林敏:ルビの配置方法 1 2_2
小林敏:ルビの配置方法 1 2_2
2016word embbed
2016word embbed
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
機械翻訳の今昔物語
機械翻訳の今昔物語
普通名詞換言辞書の構築
普通名詞換言辞書の構築
最先端NLP勉強会 Context Gates for Neural Machine Translation
最先端NLP勉強会 Context Gates for Neural Machine Translation
Japan.r 2018 slide ota_20181201
Japan.r 2018 slide ota_20181201
文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向
Machine translation
Machine translation
形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
Viewers also liked
Dsirnlp#7
Dsirnlp#7
Kei Uchiumi
Deep Learning Chapter12
Deep Learning Chapter12
Kei Uchiumi
Go-ICP: グローバル最適(Globally optimal) なICPの解説
Go-ICP: グローバル最適(Globally optimal) なICPの解説
Yusuke Sekikawa
FLAT CAM: Replacing Lenses with Masks and Computationの解説
FLAT CAM: Replacing Lenses with Masks and Computationの解説
Yusuke Sekikawa
DSIRNLP06 Nested Pitman-Yor Language Model
DSIRNLP06 Nested Pitman-Yor Language Model
Kei Uchiumi
ディープラーニングの車載応用に向けて
ディープラーニングの車載応用に向けて
Ikuro Sato
Pylm public
Pylm public
Kei Uchiumi
Gamglm
Gamglm
Kei Uchiumi
CNNチュートリアル
CNNチュートリアル
Ikuro Sato
Halide, Darkroom - 並列化のためのソフトウェア・研究
Halide, Darkroom - 並列化のためのソフトウェア・研究
Yuichi Yoshida
RNNLM
RNNLM
Kei Uchiumi
Vanishing Component Analysisの試作(補足)
Vanishing Component Analysisの試作(補足)
Hiroshi Tsukahara
Information extraction 1
Information extraction 1
Hiroshi Tsukahara
Notes on the low rank matrix approximation of kernel
Notes on the low rank matrix approximation of kernel
Hiroshi Tsukahara
On the eigenstructure of dft matrices(in japanese only)
On the eigenstructure of dft matrices(in japanese only)
Koichiro Suzuki
Gitのすすめ
Gitのすすめ
Yuichi Yoshida
マーク付き点過程
マーク付き点過程
Yoshiaki Sakakura
Vanishing Component Analysisの試作と簡単な実験
Vanishing Component Analysisの試作と簡単な実験
Hiroshi Tsukahara
Holonomic Gradient Descent
Holonomic Gradient Descent
Yoshiaki Sakakura
Swift 2 (& lldb) シンポジウム
Swift 2 (& lldb) シンポジウム
Yuichi Yoshida
Viewers also liked
(20)
Dsirnlp#7
Dsirnlp#7
Deep Learning Chapter12
Deep Learning Chapter12
Go-ICP: グローバル最適(Globally optimal) なICPの解説
Go-ICP: グローバル最適(Globally optimal) なICPの解説
FLAT CAM: Replacing Lenses with Masks and Computationの解説
FLAT CAM: Replacing Lenses with Masks and Computationの解説
DSIRNLP06 Nested Pitman-Yor Language Model
DSIRNLP06 Nested Pitman-Yor Language Model
ディープラーニングの車載応用に向けて
ディープラーニングの車載応用に向けて
Pylm public
Pylm public
Gamglm
Gamglm
CNNチュートリアル
CNNチュートリアル
Halide, Darkroom - 並列化のためのソフトウェア・研究
Halide, Darkroom - 並列化のためのソフトウェア・研究
RNNLM
RNNLM
Vanishing Component Analysisの試作(補足)
Vanishing Component Analysisの試作(補足)
Information extraction 1
Information extraction 1
Notes on the low rank matrix approximation of kernel
Notes on the low rank matrix approximation of kernel
On the eigenstructure of dft matrices(in japanese only)
On the eigenstructure of dft matrices(in japanese only)
Gitのすすめ
Gitのすすめ
マーク付き点過程
マーク付き点過程
Vanishing Component Analysisの試作と簡単な実験
Vanishing Component Analysisの試作と簡単な実験
Holonomic Gradient Descent
Holonomic Gradient Descent
Swift 2 (& lldb) シンポジウム
Swift 2 (& lldb) シンポジウム
Similar to Nl220 Pitman-Yor Hidden Semi Markov Model
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
antibayesian 俺がS式だ
Machine Learning Seminar (5)
Machine Learning Seminar (5)
Tomoya Nakayama
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
長岡技術科学大学 自然言語処理研究室
Jacet2014ykondo_final
Jacet2014ykondo_final
早稲田大学
英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.
Yutaka Ishii
第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション
antibayesian 俺がS式だ
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
長岡技術科学大学 自然言語処理研究室
言語資源と付き合う
言語資源と付き合う
Yuya Unno
統語的曖昧性・普遍性判定問題の決定可能性
統語的曖昧性・普遍性判定問題の決定可能性
Ryoma Sin'ya
文字の正統性
文字の正統性
t yamo
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
STAIR Lab, Chiba Institute of Technology
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT
nlab_utokyo
COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...
COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...
Yuki Tomo
Similar to Nl220 Pitman-Yor Hidden Semi Markov Model
(13)
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
Machine Learning Seminar (5)
Machine Learning Seminar (5)
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
Jacet2014ykondo_final
Jacet2014ykondo_final
英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.
第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
言語資源と付き合う
言語資源と付き合う
統語的曖昧性・普遍性判定問題の決定可能性
統語的曖昧性・普遍性判定問題の決定可能性
文字の正統性
文字の正統性
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT
COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...
COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...
Nl220 Pitman-Yor Hidden Semi Markov Model
1.
隠れセミマルコフモデルに基づく 品詞と単語の同時ベイズ学習 内海慶<kuchiumi@d-itlab.co.jp> デンソーアイティーラボラトリ 塚原裕史<htsukahara@d-itlab.co.jp> デンソーアイティーラボラトリ 持橋大地<daichi@ism.ac.jp>
統計数理研究所 1
2.
はじめに 形態素解析は言語処理の基盤技術 日本語・中国語等のアジア語では単語境界が与えられていない
前処理として使用されている 文書検索の索引付け 名詞句,固有表現抽出 構文解析 重要単語・文抽出 2
3.
形態素解析 自然言語で書かれた文を形態素(意味を持つ最小単位)の列に分割し, それぞれの品詞を判別する(※Wikipediaより引用) 3
4.
代表的な形態素解析器(日本語) Chasen:ラベル付きデータからHSMMのパラメータを最尤推定) Juman:人手によるコスト調整が行われた辞書に基づく
KyTea:点推定で単語境界の推定を行う.品詞推定の場合はカスケード MeCab:CRFによる系列ラベリング(Semi-Markov Model) 上記の手法は全てラベル付きデータが必要になる 話し言葉や多言語への対応には相応のコスト(辞書や学習コーパスの作成)が掛かる 4
5.
CGMデータ解析の需要 ブログや交流サイト,ミニブログ等のデータの増加 解析の需要が高い
製品の評判を知りたい,ミニブログに広告を出したい,etc. 学習データや辞書の作成・保守の問題 書き言葉と話し言葉の混在 顔文字等を用いた感情表現 未知語 etc. とにかく新しい表現が産まれ続けている 従来手法で対処するのはコストが高い 教師なし学習が望まれる 5
6.
教師無し形態素解析 既存手法 MDLに基づく手法
MDLに基づくグリーディアルゴリズム: Argamon 2004 branching entropy+MDL: Zhikov 2010, Magistry 2013 etc. ノンパラメトリックベイズ手法 Nested Pitman-Yor Language Model: Mochihashi 2009 分かち書きのみを対象としていて,品詞は考慮されていない 品詞を推定する場合には分かち書きの出力に対して別の手法で品詞付けを行う 6
7.
分かち書きでも品詞は必要 以下の例文を考える 文法的な知識なしで解析する場合
名詞からは動詞・接尾には接続しにくいという制約 この先生きのこれるのか? この/先生/きのこ/れる/の/か/? 文法的に”きのこ”→”れる”は出にくいと分かる この/先/生き/のこれる/の/か/? (MeCabの解析結果) 7
8.
本研究の提案 品詞と分かち書きの同時学習を提案する 同時学習を行うことで,分かち書きの精度も向上するはず 8
9.
形態素解析の定式化 形態素解析: :単語,
:品詞, :文字, :文 確率 を最大化するような w を推定する問題 9
10.
部分問題に分割 ある形態素解析結果 w
の確率を以下のように置く 以下のように変形 i番目の単語はそれまでの単語列と,i番目の品詞のみに依存すると仮定する i番目の品詞は,それまでの品詞列のみに依存すると仮定する → 品詞毎の単語ngram → 品詞ngram 10
11.
提案手法の生成モデル 品詞からの単語の生起確率,及び品詞遷移確率がngramになっている (図はN=2としている) zizi-1 wiwi-1 ci0,…,ciN 観測値は文字列のみ zi+1 wi-1 zizi-1 wiwi-1 zi+1 wi-1 HMMのグラフィカルモデル 11
12.
単語 ngram 確率
単語 ngram 確率には品詞 z ごとの Nested Pitman-Yor Language Model を用いる t : CRP におけるテーブル=親の文脈から単語 w が生成された回数 h : 品詞 z のもとでの文脈 θ,d : Pitman-Yor過程のハイパーパラメータ 単語 unigram の事前分布には文字 ngram HPYLM が用いられる 12
13.
品詞 ngram 確率
品詞 ngram 確率の事前分布には HPYP を用いる e, η : Pitman-Yor過程のハイパーパラメータ 単語 ngram と異なり,品詞 unigram の事前分布には一様分布を用いる 13
14.
学習アルゴリズム 動的計画法とMCMCを組み合わせた手法(blocked Gibbs
Samling)で を推定する : 単語 ngram 言語モデル,品詞 ngram モデルのパラメータ 各文にランダムに品詞を割当て,文を単語と見なしてパラメータを更新する 収束するまで以下を繰り返す ランダムに文sを選択し,sの現在の形態素解析結果w(s)をパラメータから除去 除去後のパラメータを用いて形態素解析結果w(s)’をサンプリング w(s)’ をパラメータに追加し更新 14
15.
形態素解析のサンプリング N L 研 NL
L研 で 研で す です 単語長 品詞ID B E 品詞の数K=2, 単語の最大長L=2としたラティス 0 1 2 3 4 5 • 前向き確率と品詞遷移確率,生起確率の積に従って1つ前の形態素をサンプル • 文頭まで繰り返す 15
16.
前向き確率の計算 品詞を考慮した前向き確率 (N=2)
r:1つ前の品詞 z:現在の品詞 t:カレントの単語候補の終了位置 k:カレントの単語候補の長さ j:接続される1つ前の単語候補の長さ 16
17.
前向き確率の計算 N L 研 NL
L研 で 研で す です 単語長 品詞ID B E 0 1 2 3 4 5 文末Eの前向き確率 17
18.
ラティスの圧縮 与えられた部分文字列から,生起し得る最大の単語長を予測する ラティスから不要な単語候補を除くことで高速化できる
実験を行うにあたって,先に単語の最大長を予測してラティスの圧 縮を行った N L 研 NL L研 で 研 で す で す 単語長 B 各位置ごとに 単語長の最大値 を予測する 18
19.
単語の長さの分布 0 0.1 0.2 0.3 0.4 0.5 0.6 1 2 3
4 5 6 7 8 9 10 11 日本語 中国語 タイ語 ある長さでピークがあって,指数的に減衰する ガンマ分布 19
20.
単語の長さはガンマ分布 x:単語の長さ a,b:
ガンマ分布のパラメータ これらを回帰すれば良い 実際には同一言語内でも,観測文字列毎に単語の長さは変化する 接尾辞が「株式会社」なら単語の最大文字列長は20とかになりそう 接尾辞が「が」や「を」,「に」なら単語の最大文字列長はだいたい1になる etc. 20
21.
接尾辞毎にパラメータを変えたい f: 接尾辞の特徴ベクトル
w,v: a,b を回帰するパラメータ 21
22.
ガンマ分布のフィッティング gamglmを使用 http://chasen.org/~daiti-m/dist/gamglm
詳細は論文を参照 22
23.
形態素解析の評価実験 データセット データセット 全体サイズ
訓練データ テストデータ 京大コーパス(日本語) 38400 10000 1000 BCCWJ PN(日本語) 78607 10000 1000 BCCWJ OC(日本語) 678475 10000 1000 SIGHAN MSR(中国語) 90909 10000 3985 SIGHAN CITYU(中国語) 54511 10000 1492 CTB8.0(中国語) 20412 10000 937 InterBEST Novel(タイ語) 50139 10000 1000 23
24.
実験設定 教師なし学習 訓練データに付与されている分かち書きを削除して学習
潜在クラスの数は15とした 半教師あり学習 訓練データとテストデータに含まれないデータから無作為に抽出 した10000文を教師データとして使用した 潜在クラスは各データセットの品詞の大分類の数に揃えた 品詞の付与されているデータセットのみで評価を行った 24
25.
評価尺度 分かち書きの評価 単語の開始位置と終了位置が教師データと一致した時のみ正解とする
評価尺度にはF値を用いた 品詞推定の評価 正しく分割できた単語についての品詞精度を用いる 教師データと潜在クラスの対応は,潜在クラスごとに共起した品詞ラベ ルの頻度を求め,最も多く共起した品詞と潜在クラスを対応付けた 25
26.
評価結果-教師なし単語分割 PYHSMM NPYLM MDL(Zhikov
2010) 京大コーパス 0.714 0.631 0.713 BCCWJ PN 0.716 0.656 - BCCWJ OC 0.787 0.595 - CTB8.0 0.743 0.693 - SIGHAN MSR 0.787 0.802 0.782 SIGHAN CITYU 0.795 0.824 0.787 BEST 0.777 0.821 0.733 26
27.
評価結果-半教師あり単語分割 PYHSMM NPYLM 京大コーパス 0.930
0.913 BCCWJ PN 0.934 BCCWJ OC 0.947 CTB8.0 0.926 27
28.
評価結果-教師なし品詞推定 PYHSMM NPYLM+BHMM 京大コーパス 0.590
0.508 BCCWJ PN 0.559 0.455 BCCWJ OC 0.549 0.450 CTB8.0 0.489 0.416 28
29.
評価結果-半教師あり品詞推定 半教師あり 教師なし 京大コーパス 0.894
0.590 BCCWJ PN 0.906 0.559 BCCWJ OC 0.866 0.549 CTB8.0 0.916 0.489 29
30.
単語分割誤りの傾向 多くは活用形を分割してしまい誤りとなっている 30
31.
チャンキングによる補正 潜在クラスの数が15では品詞が上手く分かれていないため, 品詞ルールによるチャンキングは難しい 潜在クラスの数を50にして京大コーパスで再度評価を行った
解析結果の誤りの例(品詞ID付き) わずか/10 に/22.堅調/10 に/22 品詞を使ったルールを使ってチャンキングを行った チャンキングルールの例 1つ前の潜在クラスが10,カレントの潜在クラスが22の「に」を1つ前と繋げる 1つ前の潜在クラスが22,カレントの潜在クラスが14の「た」を1つ前と繋げる 1つ前の潜在クラスが22,カレントの潜在クラスが22の「て」を1つ前と繋げる etc. 31
32.
チャンキング後の単語分割精度 品詞IDを使ったチャンキングによって単語分割の改善が行えた 品詞精度 単語分割F値
チャンキング後の単語分割F値 0.603 0.716 0.755 32
33.
チャンキング後の誤り 「て」や「た」等頻度400以上の誤りは改善 「に」,「ている」,「の」の誤りが残る
形容詞や連体詞を分割してしまう 形容詞:「積極的に」,「一気に」,「急 速に」 連体詞,指示詞:「他の」,「どの」 動詞と接尾辞の分割位置の誤り 「増えている」,「表れている」etc. 正解:「増えて/いる」,「表れて/いる」 これらについてはルールが書けない,また はルールを適用すると精度が下がってし まった 33
34.
まとめ 品詞推定と単語分割の同時推定手法の提案を行った 複数の言語で評価を行い,品詞を考慮することで単語分割の 精度も向上することを示した
半教師あり学習でも,同様の効果を確認した 34
Editor's Notes
ngram確率の計算の際に,ngramの頻度をディスカウントして求め,ディスカウントした分について次数を1つ減らしたn-1 gramの確率で補完しています.n-1 gramの確率もまた,更に次数を減らした確率で補完されるという,階層的なスムージングが行われるのが階層Pitman-Yor言語モデルの特徴です.
我々もBESTの結果に疑問を持ちまして,原因を調べていたところ基底測度に使っている文字ngram言語のオーダーのサンプリングの実装に問題があることが分かりまして,そこを修正すれば良くなる可能性があります. 再実験の方がまだ終わっていないのですが,途中経過での評価ではMSRとBESTでは数値の上昇が確認できています.
Download now