SlideShare a Scribd company logo
1 of 34
隠れセミマルコフモデルに基づく
品詞と単語の同時ベイズ学習
内海慶<kuchiumi@d-itlab.co.jp> デンソーアイティーラボラトリ
塚原裕史<htsukahara@d-itlab.co.jp> デンソーアイティーラボラトリ
持橋大地<daichi@ism.ac.jp> 統計数理研究所
1
はじめに
 形態素解析は言語処理の基盤技術
 日本語・中国語等のアジア語では単語境界が与えられていない
 前処理として使用されている
 文書検索の索引付け
 名詞句,固有表現抽出
 構文解析
 重要単語・文抽出
2
形態素解析
 自然言語で書かれた文を形態素(意味を持つ最小単位)の列に分割し,
それぞれの品詞を判別する(※Wikipediaより引用)
3
代表的な形態素解析器(日本語)
 Chasen:ラベル付きデータからHSMMのパラメータを最尤推定)
 Juman:人手によるコスト調整が行われた辞書に基づく
 KyTea:点推定で単語境界の推定を行う.品詞推定の場合はカスケード
 MeCab:CRFによる系列ラベリング(Semi-Markov Model)
上記の手法は全てラベル付きデータが必要になる
話し言葉や多言語への対応には相応のコスト(辞書や学習コーパスの作成)が掛かる
4
CGMデータ解析の需要
 ブログや交流サイト,ミニブログ等のデータの増加
 解析の需要が高い
 製品の評判を知りたい,ミニブログに広告を出したい,etc.
 学習データや辞書の作成・保守の問題
 書き言葉と話し言葉の混在
 顔文字等を用いた感情表現
 未知語
 etc.
とにかく新しい表現が産まれ続けている
従来手法で対処するのはコストが高い
教師なし学習が望まれる
5
教師無し形態素解析
 既存手法
 MDLに基づく手法
 MDLに基づくグリーディアルゴリズム: Argamon 2004
 branching entropy+MDL: Zhikov 2010, Magistry 2013
 etc.
 ノンパラメトリックベイズ手法
 Nested Pitman-Yor Language Model: Mochihashi 2009
分かち書きのみを対象としていて,品詞は考慮されていない
品詞を推定する場合には分かち書きの出力に対して別の手法で品詞付けを行う
6
分かち書きでも品詞は必要
 以下の例文を考える
 文法的な知識なしで解析する場合
 名詞からは動詞・接尾には接続しにくいという制約
この先生きのこれるのか?
この/先生/きのこ/れる/の/か/?
文法的に”きのこ”→”れる”は出にくいと分かる
この/先/生き/のこれる/の/か/? (MeCabの解析結果)
7
本研究の提案
 品詞と分かち書きの同時学習を提案する
 同時学習を行うことで,分かち書きの精度も向上するはず
8
形態素解析の定式化
 形態素解析:
 :単語, :品詞, :文字, :文
 確率 を最大化するような w を推定する問題
9
部分問題に分割
 ある形態素解析結果 w の確率を以下のように置く
 以下のように変形
 i番目の単語はそれまでの単語列と,i番目の品詞のみに依存すると仮定する
 i番目の品詞は,それまでの品詞列のみに依存すると仮定する
→ 品詞毎の単語ngram
→ 品詞ngram
10
提案手法の生成モデル
 品詞からの単語の生起確率,及び品詞遷移確率がngramになっている
(図はN=2としている)
zizi-1
wiwi-1
ci0,…,ciN
観測値は文字列のみ
zi+1
wi-1
zizi-1
wiwi-1
zi+1
wi-1
HMMのグラフィカルモデル
11
単語 ngram 確率
 単語 ngram 確率には品詞 z ごとの Nested Pitman-Yor Language
Model を用いる
 t : CRP におけるテーブル=親の文脈から単語 w が生成された回数
 h : 品詞 z のもとでの文脈
 θ,d : Pitman-Yor過程のハイパーパラメータ
 単語 unigram の事前分布には文字 ngram HPYLM が用いられる
12
品詞 ngram 確率
 品詞 ngram 確率の事前分布には HPYP を用いる
 e, η : Pitman-Yor過程のハイパーパラメータ
 単語 ngram と異なり,品詞 unigram の事前分布には一様分布を用いる
13
学習アルゴリズム
 動的計画法とMCMCを組み合わせた手法(blocked Gibbs Samling)で
を推定する
: 単語 ngram 言語モデル,品詞 ngram モデルのパラメータ
 各文にランダムに品詞を割当て,文を単語と見なしてパラメータを更新する
 収束するまで以下を繰り返す
 ランダムに文sを選択し,sの現在の形態素解析結果w(s)をパラメータから除去
 除去後のパラメータを用いて形態素解析結果w(s)’をサンプリング
 w(s)’ をパラメータに追加し更新
14
形態素解析のサンプリング
N L 研
NL L研
で
研で
す
です
単語長
品詞ID
B E
品詞の数K=2, 単語の最大長L=2としたラティス
0 1 2 3 4 5
• 前向き確率と品詞遷移確率,生起確率の積に従って1つ前の形態素をサンプル
• 文頭まで繰り返す
15
前向き確率の計算
 品詞を考慮した前向き確率 (N=2)
 r:1つ前の品詞
 z:現在の品詞
 t:カレントの単語候補の終了位置
 k:カレントの単語候補の長さ
 j:接続される1つ前の単語候補の長さ
16
前向き確率の計算
N L 研
NL L研
で
研で
す
です
単語長
品詞ID
B E
0 1 2 3 4 5
文末Eの前向き確率
17
ラティスの圧縮
 与えられた部分文字列から,生起し得る最大の単語長を予測する
 ラティスから不要な単語候補を除くことで高速化できる
 実験を行うにあたって,先に単語の最大長を予測してラティスの圧
縮を行った
N L 研
NL L研
で
研
で
す
で
す
単語長
B
各位置ごとに
単語長の最大値
を予測する
18
単語の長さの分布
0
0.1
0.2
0.3
0.4
0.5
0.6
1 2 3 4 5 6 7 8 9 10 11
日本語 中国語 タイ語
ある長さでピークがあって,指数的に減衰する ガンマ分布
19
単語の長さはガンマ分布
 x:単語の長さ
 a,b: ガンマ分布のパラメータ
 これらを回帰すれば良い
 実際には同一言語内でも,観測文字列毎に単語の長さは変化する
 接尾辞が「株式会社」なら単語の最大文字列長は20とかになりそう
 接尾辞が「が」や「を」,「に」なら単語の最大文字列長はだいたい1になる
 etc.
20
接尾辞毎にパラメータを変えたい
 f: 接尾辞の特徴ベクトル
 w,v: a,b を回帰するパラメータ
21
ガンマ分布のフィッティング
 gamglmを使用
 http://chasen.org/~daiti-m/dist/gamglm
 詳細は論文を参照
22
形態素解析の評価実験
 データセット
データセット 全体サイズ 訓練データ テストデータ
京大コーパス(日本語) 38400 10000 1000
BCCWJ PN(日本語) 78607 10000 1000
BCCWJ OC(日本語) 678475 10000 1000
SIGHAN MSR(中国語) 90909 10000 3985
SIGHAN CITYU(中国語) 54511 10000 1492
CTB8.0(中国語) 20412 10000 937
InterBEST Novel(タイ語) 50139 10000 1000
23
実験設定
 教師なし学習
 訓練データに付与されている分かち書きを削除して学習
 潜在クラスの数は15とした
 半教師あり学習
 訓練データとテストデータに含まれないデータから無作為に抽出
した10000文を教師データとして使用した
 潜在クラスは各データセットの品詞の大分類の数に揃えた
 品詞の付与されているデータセットのみで評価を行った
24
評価尺度
 分かち書きの評価
 単語の開始位置と終了位置が教師データと一致した時のみ正解とする
 評価尺度にはF値を用いた
 品詞推定の評価
 正しく分割できた単語についての品詞精度を用いる
 教師データと潜在クラスの対応は,潜在クラスごとに共起した品詞ラベ
ルの頻度を求め,最も多く共起した品詞と潜在クラスを対応付けた
25
評価結果-教師なし単語分割
PYHSMM NPYLM MDL(Zhikov 2010)
京大コーパス 0.714 0.631 0.713
BCCWJ PN 0.716 0.656 -
BCCWJ OC 0.787 0.595 -
CTB8.0 0.743 0.693 -
SIGHAN MSR 0.787 0.802 0.782
SIGHAN CITYU 0.795 0.824 0.787
BEST 0.777 0.821 0.733
26
評価結果-半教師あり単語分割
PYHSMM NPYLM
京大コーパス 0.930 0.913
BCCWJ PN 0.934
BCCWJ OC 0.947
CTB8.0 0.926
27
評価結果-教師なし品詞推定
PYHSMM NPYLM+BHMM
京大コーパス 0.590 0.508
BCCWJ PN 0.559 0.455
BCCWJ OC 0.549 0.450
CTB8.0 0.489 0.416
28
評価結果-半教師あり品詞推定
半教師あり 教師なし
京大コーパス 0.894 0.590
BCCWJ PN 0.906 0.559
BCCWJ OC 0.866 0.549
CTB8.0 0.916 0.489
29
単語分割誤りの傾向
 多くは活用形を分割してしまい誤りとなっている
30
チャンキングによる補正
 潜在クラスの数が15では品詞が上手く分かれていないため,
品詞ルールによるチャンキングは難しい
 潜在クラスの数を50にして京大コーパスで再度評価を行った
 解析結果の誤りの例(品詞ID付き)
 わずか/10 に/22.堅調/10 に/22
 品詞を使ったルールを使ってチャンキングを行った
チャンキングルールの例
1つ前の潜在クラスが10,カレントの潜在クラスが22の「に」を1つ前と繋げる
1つ前の潜在クラスが22,カレントの潜在クラスが14の「た」を1つ前と繋げる
1つ前の潜在クラスが22,カレントの潜在クラスが22の「て」を1つ前と繋げる
etc.
31
チャンキング後の単語分割精度
 品詞IDを使ったチャンキングによって単語分割の改善が行えた
品詞精度 単語分割F値 チャンキング後の単語分割F値
0.603 0.716 0.755
32
チャンキング後の誤り
 「て」や「た」等頻度400以上の誤りは改善
 「に」,「ている」,「の」の誤りが残る
 形容詞や連体詞を分割してしまう
 形容詞:「積極的に」,「一気に」,「急
速に」
 連体詞,指示詞:「他の」,「どの」
 動詞と接尾辞の分割位置の誤り
 「増えている」,「表れている」etc.
 正解:「増えて/いる」,「表れて/いる」
 これらについてはルールが書けない,また
はルールを適用すると精度が下がってし
まった
33
まとめ
 品詞推定と単語分割の同時推定手法の提案を行った
 複数の言語で評価を行い,品詞を考慮することで単語分割の
精度も向上することを示した
 半教師あり学習でも,同様の効果を確認した
34

More Related Content

What's hot

Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127博三 太田
 
Logics 18th ota_20211201
Logics 18th ota_20211201Logics 18th ota_20211201
Logics 18th ota_20211201博三 太田
 
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討Kosuke Futamata
 
固有表現抽出について
固有表現抽出について固有表現抽出について
固有表現抽出についてSyo Kyojin
 
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...Hayahide Yamagishi
 
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English ProficiencyAsahiko Matsuda
 
Sigconf 2019 slide_ota_20191123
Sigconf 2019 slide_ota_20191123Sigconf 2019 slide_ota_20191123
Sigconf 2019 slide_ota_20191123博三 太田
 
Dynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language ModelsDynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language ModelsShun Kiyono
 
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical SimplificationTomoyuki Kajiwara
 
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecTensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecShin Asakawa
 
機械翻訳の今昔物語
機械翻訳の今昔物語機械翻訳の今昔物語
機械翻訳の今昔物語Hiroshi Nakagawa
 
最先端NLP勉強会 Context Gates for Neural Machine Translation
最先端NLP勉強会 Context Gates for  Neural Machine Translation最先端NLP勉強会 Context Gates for  Neural Machine Translation
最先端NLP勉強会 Context Gates for Neural Machine TranslationMasahiro Yamamoto
 
Japan.r 2018 slide ota_20181201
Japan.r 2018 slide ota_20181201Japan.r 2018 slide ota_20181201
Japan.r 2018 slide ota_20181201博三 太田
 
文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向Tomoyuki Kajiwara
 
形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方についてKow Kuroda
 
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...Takehiko Ito
 

What's hot (20)

Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127
 
Logics 18th ota_20211201
Logics 18th ota_20211201Logics 18th ota_20211201
Logics 18th ota_20211201
 
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
 
固有表現抽出について
固有表現抽出について固有表現抽出について
固有表現抽出について
 
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
 
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
 
Sigconf 2019 slide_ota_20191123
Sigconf 2019 slide_ota_20191123Sigconf 2019 slide_ota_20191123
Sigconf 2019 slide_ota_20191123
 
Dynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language ModelsDynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language Models
 
小林敏:ルビの配置方法 1 2_2
小林敏:ルビの配置方法 1 2_2小林敏:ルビの配置方法 1 2_2
小林敏:ルビの配置方法 1 2_2
 
2016word embbed
2016word embbed2016word embbed
2016word embbed
 
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
 
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecTensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
 
機械翻訳の今昔物語
機械翻訳の今昔物語機械翻訳の今昔物語
機械翻訳の今昔物語
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 
最先端NLP勉強会 Context Gates for Neural Machine Translation
最先端NLP勉強会 Context Gates for  Neural Machine Translation最先端NLP勉強会 Context Gates for  Neural Machine Translation
最先端NLP勉強会 Context Gates for Neural Machine Translation
 
Japan.r 2018 slide ota_20181201
Japan.r 2018 slide ota_20181201Japan.r 2018 slide ota_20181201
Japan.r 2018 slide ota_20181201
 
文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向
 
Machine translation
Machine translationMachine translation
Machine translation
 
形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について
 
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
R015 田原俊司・朴媛叔・伊藤武彦 (1987). 韓国語単文理解における主題助詞と主格助詞の動作主性とその発達:日本語の助詞ハとガとの比較 教育心理学...
 

Viewers also liked

Deep Learning Chapter12
Deep Learning Chapter12Deep Learning Chapter12
Deep Learning Chapter12Kei Uchiumi
 
Go-ICP: グローバル最適(Globally optimal) なICPの解説
Go-ICP: グローバル最適(Globally optimal) なICPの解説Go-ICP: グローバル最適(Globally optimal) なICPの解説
Go-ICP: グローバル最適(Globally optimal) なICPの解説Yusuke Sekikawa
 
FLAT CAM: Replacing Lenses with Masks and Computationの解説
FLAT CAM: Replacing Lenses with Masks and Computationの解説FLAT CAM: Replacing Lenses with Masks and Computationの解説
FLAT CAM: Replacing Lenses with Masks and Computationの解説Yusuke Sekikawa
 
DSIRNLP06 Nested Pitman-Yor Language Model
DSIRNLP06 Nested Pitman-Yor Language ModelDSIRNLP06 Nested Pitman-Yor Language Model
DSIRNLP06 Nested Pitman-Yor Language ModelKei Uchiumi
 
ディープラーニングの車載応用に向けて
ディープラーニングの車載応用に向けてディープラーニングの車載応用に向けて
ディープラーニングの車載応用に向けてIkuro Sato
 
CNNチュートリアル
CNNチュートリアルCNNチュートリアル
CNNチュートリアルIkuro Sato
 
Halide, Darkroom - 並列化のためのソフトウェア・研究
Halide, Darkroom - 並列化のためのソフトウェア・研究Halide, Darkroom - 並列化のためのソフトウェア・研究
Halide, Darkroom - 並列化のためのソフトウェア・研究Yuichi Yoshida
 
Vanishing Component Analysisの試作(補足)
Vanishing Component Analysisの試作(補足)Vanishing Component Analysisの試作(補足)
Vanishing Component Analysisの試作(補足)Hiroshi Tsukahara
 
Notes on the low rank matrix approximation of kernel
Notes on the low rank matrix approximation of kernelNotes on the low rank matrix approximation of kernel
Notes on the low rank matrix approximation of kernelHiroshi Tsukahara
 
On the eigenstructure of dft matrices(in japanese only)
On the eigenstructure of dft matrices(in japanese only)On the eigenstructure of dft matrices(in japanese only)
On the eigenstructure of dft matrices(in japanese only)Koichiro Suzuki
 
Vanishing Component Analysisの試作と簡単な実験
Vanishing Component Analysisの試作と簡単な実験Vanishing Component Analysisの試作と簡単な実験
Vanishing Component Analysisの試作と簡単な実験Hiroshi Tsukahara
 
Swift 2 (& lldb) シンポジウム
Swift 2 (& lldb) シンポジウムSwift 2 (& lldb) シンポジウム
Swift 2 (& lldb) シンポジウムYuichi Yoshida
 

Viewers also liked (20)

Dsirnlp#7
Dsirnlp#7Dsirnlp#7
Dsirnlp#7
 
Deep Learning Chapter12
Deep Learning Chapter12Deep Learning Chapter12
Deep Learning Chapter12
 
Go-ICP: グローバル最適(Globally optimal) なICPの解説
Go-ICP: グローバル最適(Globally optimal) なICPの解説Go-ICP: グローバル最適(Globally optimal) なICPの解説
Go-ICP: グローバル最適(Globally optimal) なICPの解説
 
FLAT CAM: Replacing Lenses with Masks and Computationの解説
FLAT CAM: Replacing Lenses with Masks and Computationの解説FLAT CAM: Replacing Lenses with Masks and Computationの解説
FLAT CAM: Replacing Lenses with Masks and Computationの解説
 
DSIRNLP06 Nested Pitman-Yor Language Model
DSIRNLP06 Nested Pitman-Yor Language ModelDSIRNLP06 Nested Pitman-Yor Language Model
DSIRNLP06 Nested Pitman-Yor Language Model
 
ディープラーニングの車載応用に向けて
ディープラーニングの車載応用に向けてディープラーニングの車載応用に向けて
ディープラーニングの車載応用に向けて
 
Pylm public
Pylm publicPylm public
Pylm public
 
Gamglm
GamglmGamglm
Gamglm
 
CNNチュートリアル
CNNチュートリアルCNNチュートリアル
CNNチュートリアル
 
Halide, Darkroom - 並列化のためのソフトウェア・研究
Halide, Darkroom - 並列化のためのソフトウェア・研究Halide, Darkroom - 並列化のためのソフトウェア・研究
Halide, Darkroom - 並列化のためのソフトウェア・研究
 
RNNLM
RNNLMRNNLM
RNNLM
 
Vanishing Component Analysisの試作(補足)
Vanishing Component Analysisの試作(補足)Vanishing Component Analysisの試作(補足)
Vanishing Component Analysisの試作(補足)
 
Information extraction 1
Information extraction 1Information extraction 1
Information extraction 1
 
Notes on the low rank matrix approximation of kernel
Notes on the low rank matrix approximation of kernelNotes on the low rank matrix approximation of kernel
Notes on the low rank matrix approximation of kernel
 
On the eigenstructure of dft matrices(in japanese only)
On the eigenstructure of dft matrices(in japanese only)On the eigenstructure of dft matrices(in japanese only)
On the eigenstructure of dft matrices(in japanese only)
 
Gitのすすめ
GitのすすめGitのすすめ
Gitのすすめ
 
マーク付き点過程
マーク付き点過程マーク付き点過程
マーク付き点過程
 
Vanishing Component Analysisの試作と簡単な実験
Vanishing Component Analysisの試作と簡単な実験Vanishing Component Analysisの試作と簡単な実験
Vanishing Component Analysisの試作と簡単な実験
 
Holonomic Gradient Descent
Holonomic Gradient DescentHolonomic Gradient Descent
Holonomic Gradient Descent
 
Swift 2 (& lldb) シンポジウム
Swift 2 (& lldb) シンポジウムSwift 2 (& lldb) シンポジウム
Swift 2 (& lldb) シンポジウム
 

Similar to Nl220 Pitman-Yor Hidden Semi Markov Model

さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションantibayesian 俺がS式だ
 
Machine Learning Seminar (5)
Machine Learning Seminar (5)Machine Learning Seminar (5)
Machine Learning Seminar (5)Tomoya Nakayama
 
英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.Yutaka Ishii
 
第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッションantibayesian 俺がS式だ
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合うYuya Unno
 
統語的曖昧性・普遍性判定問題の決定可能性
統語的曖昧性・普遍性判定問題の決定可能性統語的曖昧性・普遍性判定問題の決定可能性
統語的曖昧性・普遍性判定問題の決定可能性Ryoma Sin'ya
 
文字の正統性
文字の正統性文字の正統性
文字の正統性t yamo
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPTnlab_utokyo
 
COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...
COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...
COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...Yuki Tomo
 

Similar to Nl220 Pitman-Yor Hidden Semi Markov Model (13)

さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
 
Machine Learning Seminar (5)
Machine Learning Seminar (5)Machine Learning Seminar (5)
Machine Learning Seminar (5)
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.
 
第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション
 
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
統語的曖昧性・普遍性判定問題の決定可能性
統語的曖昧性・普遍性判定問題の決定可能性統語的曖昧性・普遍性判定問題の決定可能性
統語的曖昧性・普遍性判定問題の決定可能性
 
文字の正統性
文字の正統性文字の正統性
文字の正統性
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPT
 
COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...
COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...
COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...
 

Nl220 Pitman-Yor Hidden Semi Markov Model

Editor's Notes

  1. ngram確率の計算の際に,ngramの頻度をディスカウントして求め,ディスカウントした分について次数を1つ減らしたn-1 gramの確率で補完しています.n-1 gramの確率もまた,更に次数を減らした確率で補完されるという,階層的なスムージングが行われるのが階層Pitman-Yor言語モデルの特徴です.
  2. 我々もBESTの結果に疑問を持ちまして,原因を調べていたところ基底測度に使っている文字ngram言語のオーダーのサンプリングの実装に問題があることが分かりまして,そこを修正すれば良くなる可能性があります. 再実験の方がまだ終わっていないのですが,途中経過での評価ではMSRとBESTでは数値の上昇が確認できています.