SlideShare a Scribd company logo
1 of 38
大阪電気通信大学 2012 1
IT を活用した日本語分析
目で見てわかる日本の歌ことば
山 元 啓 史
東京工業大学
カリフォルニア大学サンディエゴ校
20 March 2012
大阪電気通信大学 2012 2
概要
1. 研究目的
• 歌ことばのコノテーションを調べる。
• 古今集(905 年頃、OP)と現代語訳(CT)を比
べる。
2. シソーラスの開発
3. 応用
大阪電気通信大学 2012 3
和歌: Japanese Songs
立田姫
手向くる神の / あればこそ
秋の木の葉の / 幣と散るらめ
because Princess Tatsuta
has a god to whom she offers brocades,
the leaves of trees
in autumn will scatter
as an offering.
兼覧王(?–832)
古今和歌集 298 番歌
大阪電気通信大学 2012 4
コノテーションって定義できるの?
Octopus
weird たこやき
spooky ... VS (fried octopus!)
= おいしい!
‘コノテーション’ は受け手に依存する意味である。
大阪電気通信大学 2012 5
比較対象: 立田 と 吉野
Tatsuta
Yoshino
「うたまくら」 とは:
1. 地名
2. 歌にちなんだ特別な意味
→どうちがう?!
大阪電気通信大学 2012 6
問題: 正書法がない!
漢字
ひらがな 立田
たつた 竜田
龍田
→上記はすべて「たつた」 (地名)
大阪電気通信大学 2012 7
問題: 処理単位のサイズが決まっていない!
処理単位のサイズは文脈の意味によってちがう。
• 単位 →卯の花 or 卯/の/花 (中野, 1998)
• 正書法 →さびしい/さみしい/寂しい/淋しい (sad)
• 意味 →卯の花 ∈ plant or 卯の花 ∈ food (unohana = a
deutzia or bean curd refuse)
大阪電気通信大学 2012 8
シソーラスの例: 神 (God)
BG-01-2030-01-030-A-かみ-神
↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑
(1) (2) (3) (4) (5) (6) (7) (8)
Figure 1: Structure of an item of BG database in the case of kami (god):
(1) database ID (BG = short-unit general vocabulary);
(2) part of speech ID (01 = noun);
(3) group ID (2030 = Shinto deities and Buddhas);
(4) field ID;
(5) exact ID (030 = god);
(6) era-flag (A = contemporary, C = classic);
(7) Chinese character reading;
(8) Chinese character
大阪電気通信大学 2012 9
開発: シソーラス, KH, t2c
• 和歌用語のシソーラス
• KH (形態素解析システム: tokenizer)
• t2c (分類コードつけシステム: token to code converter)
大阪電気通信大学 2012 10
材料: 八代集
• 八代集(905 年頃–1205 年)
• 国文学研究資料館編集の二十一代集データベース
• 正保本版の八代集
46 56 79 38 20 44 17
900 950 1000 1050 1100 1150 1200 1250
大阪電気通信大学 2012 11
方法: 処理の手順
A B C D E F
大阪電気通信大学 2012 12
開発: シソーラス, KH, t2c
• 和歌用語のシソーラス
• KH (形態素解析システム: tokenizer)
• t2c (分類コードつけシステム: token to code converter)
大阪電気通信大学 2012 13
Table 1: 形態素解析/語分割 KH / 後撰集 664 番歌
input: 000664 わすられて思ふなげきのしげるをや身をはづかしのもりといふらん
output:000664
わすら (ラ四-未:忘る:わする:忘ら:わすら)
れ (自可受-用:る:る:れ:れ)
て (接助:て:て)
思ふ (ハ四-終体:思ふ:おもふ:思ふ:おもふ)
なげき (カ四-用:嘆く:なげく:嘆き:なげき)
の (格助:の:の)
しげる (ラ四-終体:茂る:しげる:茂る:しげる)
を (*助:を:を)
や (係助:や:や)
身 (名:身:み)
を (*助:を:を)
---
はづかし (名-地名:羽束師:はづかし)
の (格助:の:の)
---
はづかし (形シク-終:恥づかし:はづかし:恥づかし:はづかし)
の (格助:の:の)
---
もり (名:森:もり)
と (格助-引用:と:と)
いふ (ハ四-終体:言ふ:いふ:言ふ:いふ)
らん (推-終体:らむ:らむ:らむ:らむ)
大阪電気通信大学 2012 14
開発: 語分割からシソーラスへ
単位分割 コードづけ
詳細コードの付加
表記の統一
品詞タグづけ
代表形の付加
八代集
シソーラス
和歌テキスト kh t2c
未登録語追加
解析用古語辞書
(A)
未登録語追加
分類語彙表(一般)
地名・人名辞書
(B)
大阪電気通信大学 2012 15
(A) コーパス開発: 和歌 (OP)
KW00029801|A|兼覧王=かねみの王
KW00029801|B|たつたひめ [名-地名:立田姫]£
たむくる [カ下二-体:手向くる], かみ [名:神] の [格助-主格]£
あれ [ラ変-已:有れ] ば [接助-確定] こそ [係助-係]£
あき [名:秋] の [格助-連体], このは [名:木の葉] の [格助-連体]£
ぬさ [名:幣] と [格助-一般], ちる [ラ四-終:散る] らめ [推-已-結]/
Figure 2: 和歌データベースのフォーマット: →は行を折り返していることを意味
する。第1行目の|A|は和歌の作者を示す。第1行目の|B|は和歌の内容
と品詞を示す。
大阪電気通信大学 2012 16
(A) コーパス開発: 現代語訳 (CT)
$A|000298
$B|秋の末近くなって帰り道についた龍田姫が、道中の無事を願って手向け £
をする神があるからこそ、秋の木の葉が幣となって散っているのだろう。
$C|秋の歌
$D|秋の末近くなって帰り道についた龍田姫が、道中の無事を願って手向け £
をする神があるからこそ、秋の木の葉が幣となって散っているのだろう。
$I|あきのすえちかくなってかえりみちについたたつたひめが、どうちゅう £
のぶじをねがってたむけをするかみがあるからこそ、あきのこのはがぬさ £
となってちっているのだろう。
Figure 3: 現代語訳データベースのフォーマット
大阪電気通信大学 2012 17
(B) 語分割: Tokenisation
もとの和歌
立田姫手向ける神の有ればこそ秋の木の葉の幣と散るらめ
↓
語分割
立田姫/手向ける/神/の/[有れ]/ば/こそ/秋/の/木の葉/の/幣/と/散る/[らめ]
↓
基本形に変換する
立田姫/手向ける/神/の/[有り]/ば/こそ/秋/の/木の葉/の/幣/と/散る/[らむ]
Figure 4: 現代語訳を語分割した例
大阪電気通信大学 2012 18
(C) 語を分類するために番号に変換する
CH-29-2130-01-010-A たつたひめ 立田姫 Tatsutahime Princess-Tatsuta
CH-29-0000-14-010-A -- 立田
BG-01-2030-01-101-A -- 姫
-- Tatsuta Tatsuta
-- hime princess
BG-02-3770-04-080-C たむくる 手向く tamukuru present(verb)
handBG-01-5730-02-010-A -- 手
BG-02-1700-01-040-A -- 向ける
BG-01-2030-01-030-A かみ 神
BG-08-0061-07-010-A の の
BG-02-1200-01-010-C あれ 有り
BG-08-0064-26-010-A ば ば
BG-04-1120-05-150-A -- ば
BG-08-0065-01-010-A こそ こそ
-- te
-- mukeru
kami
no
for
god
SUB (particle)
beare
ba because (particle)
because (reason)
KP (emphasis)
-- ba
koso
Figure 5: 分類番号への変換(OP)
大阪電気通信大学 2012 19
(C) 分類番号の形式–1
BG-01-2030-01-030-A-かみ-神
↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑
(1) (2) (3) (4) (5) (6) (7) (8)
Figure 6: BG データベースの例「神」:
(1) database ID (BG = short-unit general vocabulary);
(2) part of speech ID (01 = noun);
(3) group ID (2030 = Shinto deities and Buddhas);
(4) field ID;
(5) exact ID (030 = god);
(6) era-flag (A = contemporary, C = classic);
(7) Chinese character reading;
(8) Chinese character
大阪電気通信大学 2012 20
(C) 分類番号の形式–2
BG-01-2600-01-020-A (1) = BG-01-2610-01-040-A (2)
世の中 (world) 世 (world)
+ BG-08-0010-01-021-A (3)
の (of)
+ BG-01-1770-01-080-A (4)
中 (inside)
Figure 7: BG データベースの構造の例「世の中」(world)
大阪電気通信大学 2012 21
(C) 分類番号の形式–3
CH-29-2130-01-010-A たつたひめ 立田姫 Tatsutahime Princess-Tatsuta
CH-29-0000-14-010-A -- 立田
BG-01-2030-01-101-A -- 姫
-- Tatsuta Tatsuta
-- hime princess
BG-02-3770-04-080-C たむくる 手向く tamukuru present(verb)
handBG-01-5730-02-010-A -- 手
BG-02-1700-01-040-A -- 向ける
BG-01-2030-01-030-A かみ 神
BG-08-0061-07-010-A の の
BG-02-1200-01-010-C あれ 有り
BG-08-0064-26-010-A ば ば
BG-04-1120-05-150-A -- ば
BG-08-0065-01-010-A こそ こそ
-- te
-- mukeru
kami
no
for
god
SUB (particle)
beare
ba because (particle)
because (reason)
KP (emphasis)
-- ba
koso
Figure 8: BG データベース変換の例
大阪電気通信大学 2012 22
10th century 20th century
Field of experience Field of experience (expert)
poet expert readerwrite OP read
write
CT
read
novice reader
20th century
Field of experience
(novice)
Figure 9: OP と CT の位置づけの整理(まとめ)
大阪電気通信大学 2012
+-------- # of pair
23
| +----- value of matching level, exact=17, field=13, group=10
| | +-- # of POS
| | |
| | | # of element of OP ----+ +- # of element of CT
| +--- element of CT
| |
| | |
| | |
1 17 11
2 17 47
3 17 47
4 17 2
element of OP -+ |
| |
立田姫 00 <-> 12 龍田姫 (Tatsutahime)
手 04 <-> 25 手
(hand)
向ける 05 <-> 26 向ける (toward)神 06 <-> 32 神 (god)
(SUB)
(be)
(because)
(EM)
(autumn)
5 10 61
6 17 47
7 10 64
8 17 65
9 17 2
10 17 71
11 17 2
12 17 2
13 17 61
14 17 47
15 13 74
の 07 <-> 33 が
有り 08 <-> 34 ある
ば 09 <-> 35 から
こそ 11 <-> 36 こそ
秋 12 <-> 38 秋
の 13 <-> 39 の
木の葉 14 <-> 40 木の葉 (leaf of tree)
(CON)
幣 19 <-> 45 幣
と 20 <-> 46 と
散る 21 <-> 49 散る
らむ 22 <-> 54 う
(present)
(CRD)
(fall)
(CJR)
Figure 10: OP と CT のマッチング処理の例 古今集 298 番歌
大阪電気通信大学 2012 24
差分はどこに?あまりは?
CT (秋の末近くなって帰り道についた)龍田姫(が道中の無事を願って)手 向け
OP ——— — — — — — — — 立田姫 — — — — — — —手向ける
CT (をする)神があるからこそ秋の木の葉(が)幣(となって)散っ(ているのだろ) う
OP — — 神のあれ ば こそ秋の木の葉[の]幣 と — — 散る — — — — らめ
Figure 11: 小町谷 (1982) による古今集 298 番歌のマッチング結果
大阪電気通信大学 2012 25
OP の成分
Table 2: CT から OP を引いた結果
OP (valid number of element) = 16
E
F
G
T
U
(ratio of exact match)
(ratio of field match)
(ratio of group match)
(ratio of total match)
(ratio of unmatched OP)
12/16 = 0.750
1/16 = 0.062
2/16 = 0.125
15/16 = 0.938
1 - T = 0.062
大阪電気通信大学 2012 26
差分の計算
OP
D = 1 − (1)
CT
16
= 1 −
= 0.61
(2)
(3)
41
大阪電気通信大学 2012 27
CT の成分
Table 3: CT の成分: 古今集 298 番歌の小町谷 (1982) による現代語訳: fabs(D-H)
は実験値 D から理論値 H を引いて絶対値で示したもの
CT (valid number of element)
W (ratio of original word use)
A (ratio of annotation)
=41
12/41=0.293(E/CT)
1-0.293=0.707(1-W)
---breakdown of the annotation---
P1(ratio of F+G paraphrased) (0.62+0.12)/0.707=0.073(F+G)/A
P2(ratio of U paraphrased) (0.707-0.073)*0.062=0.040(A-P1)*U
D (ratio of purely added)
H (theoretical value of D)
Gap
0.707-(0.073+0.040)=0.595A-(P1+P2)
1-16/41=0.6101-OP/CT
fabs(0.595-0.610)=0.015fabs(D-H)
大阪電気通信大学 2012 28
差分: CT - OP
P1 3 (7.3%)
P2 1 (4.0%) W 12 (29.3%)
Exact 12 (75.0%)
Unmatched 1 (6.2%)
Group 2 (12.5%)
D 25 (59.5%)
Field 1 (6.2%)
OP : 16 elements CT(298,koma) : 41 elements(298)
Figure 12: OP と CT の成分と対応を示す円グラフ(Pie-charts)
大阪電気通信大学 2012 29
(E) 数理モデル
√
cw(t , t )=(1+log ctf(t , t )) idf(t ) idf(t ) (4)
1
1 2 1 2 2
N
idf(t) = log (5)
df(t)
大阪電気通信大学 2012 30
共出現パターンを作る
ひとつのテキストに出てくる任意の1つの単語の組み合わせパターン
ゆき の うち に はる は き に けり うくひす の...
snow of inside at spring (topic)come (past) (perfect) warbler of
すべての歌毎にこれを繰り返すとパターンの種類は 5,000 以上
大阪電気通信大学 2012 31
グラフの例「 手
山
10
春霞
10
触れる 9
隠れる
とまる
鳴く 立田 立つ6 10
10
15
縫う 7
花 10
まだ145
30
106 枝4 138
散る35
23
10
挿頭す
鴬
52
88
笠4
4
梅10 56
春62
29
声22
青柳 6
17
泣く 9
10
折る
7 香
野辺老 誘い出す
8
毎朝
4
4 送る
5
6
案内
近く 添える
鴬 (23/229,3.73): CT cw.>15;
non-dist=off; idf=on(2)
大阪電気通信大学 2012 32
ふりしぼる
手 6
山時鳥
老
青柳 10
夏山 9
横
挿頭す 鳴き声6 五月雨 8 8
4
聞く触れる4 4 11 聞える 夏
10
一声14
69
21
37縫う 6
春笠 枝 39
借り12る
6 10 10
7 23
10
時鳥 19
とまる 20
去年
隠れる 梅 泣く 35
88
174
声 29
10
15
6
29
56
20261
110
4262
145鴬 今朝 羽ばたく26
花 138 鳴く
五月 6
44
梢20 910
17
22
山 9
野辺 11 1030
52
まだ
19
毎朝 8
10
10
9
20
6
近く 10
音羽9
越える7 10
折る 8
立田
何時の間に
散る 5
7
誘い出す 4 はるか4 10 6 7 あやめ草
条理案内
9 10
梢高い4
7
5
7 木高い 別れ惜しむ送る
春霞 立つ
添える
香
鴬-CT-23-229-3.73-15 時鳥-CT-40-370-3.27-16
大阪電気通信大学 2012 33
ひとり
「立田」
4
沖5
夜中
祈る 9
5
9
5
白波
4
10
越える
通り過ぎる
安全
降る
4
5
3
上流 9 8
もみじ葉3
湊12 手向ける4 御室 神奈備8 神74 4
流す 9
9
毎年
6
8
9 9
3 5 8 12
10 流れる17 78 88
10 56 17
時雨5 8 7
幣
28 山河口 12
紅葉
5
手向け 木の葉
20 7 5
10 10 7
川
20
雨 5
竪糸 9
8
10
43
10 神無月9 1010
15
葉8 149 810 8
9
織る 10 7 20 4 5
9 横糸 19
8 絞り染め
錦 17
9
括り染める
水 4
供え物9
3 4
渡る ささげる2
9
神代
乱れ流れる 5
3
9
紅
2
3
断ち切れる 4 聞く
不思議 唐紅色
立田 (12/116,8.52): CT cw.>13;
non-dist=off; idf=on(2); pruned 立田
kks 994
風吹けば 沖つ白波 立田山
夜半にや君が 一人越ゆらむ
大阪電気通信大学 2012 34
「立田川」のモデル
山聞く
kks 294
たつたひめ
通り過ぎる括り染める 神
たむくるかみの
あればこそ
17 5
9
不思議 84
あきのこのはの
ぬさとちるらめ
紅葉4
7
幣12
神奈備 5
神代
水 9
流れる 9
8
7
手向け43 17
9
28 9
手向ける4
8
9
8 御室10
絞り染め
川 kks 300
かむなびの
20
渡る 17 9
時雨
やまをすぎゆく
あきなれば
たつたがはにぞ
ぬさはたむくる
8 8
10
20 10 10
10
降る7 横糸 10
98
98
竪糸108
10
7
錦 10
9
河口 9 9
神無月織る
6
流す 5
毎年
立田/川 (12/116,8.52): CT cw.>14.5;
non-dist=off; idf=on(2); pruned 立田
大阪電気通信大学 2012 35
「吉野川」のモデル
kks 828
ながれては
いもせのやまの
なかにおつる
よしののかはの
よしやよのなか
4
3
4
3
4
8
8
10 26
6
21
11 8
4
6 18 9
11 4
kks 471
よしのがは
いはなみたかく
ゆくみづの
22
16
6 15 4
14
15
30
4
7
9
13 11
10
はやくぞひとを
おもひそめてし
15
8
7
8
7
8
6
8
5
5
non-dist=off; idf=on(2); pruned
大阪電気通信大学 2012 36
「吉野山」のモデル
山奥
4
kks 950
みよしのの
3
入る
麓
やまのあなたに
やどもがな
よのうきときの
かくれがにせむ
その後
6
5
4
照る
ふみ分ける
降りしきる
4
7 7
里
在明 9
降り積もる8
白雪 7
9
月
22
「かくれが」は
世の中を厭い隠れる
ための場所山日
雪
46
10
10
9
近い 向こう隠れ所10 6
6
降る 6
10 9 4
ほしい
夕方 世の中一日 いや積もる 6
寒い6
5 6
奈良
吉野/山 (23/193,6.08): CT cw.>13.5;
non-dist=off; idf=on(2); pruned 吉野,御吉野
大阪電気通信大学 2012 37
おわりに
シソーラスを作って数理モデルを作ってみると
1. 表記のちがう語を処理することができた。
2. ちがう長さの単位でも処理することもできる。
3. 同じ語でもちがう意味をもつかもしれない語も処理できる。
4. 相対的なちがうを見つけることができた。
大阪電気通信大学 2012 38
質問
• 和歌の数理モデルについては
http://warbler.ryu.titech.ac.jp/ yamagen/~
をご覧ください。
• その他ご質問については:
山元啓史 Hilofumi Yamamoto までお気軽にどうぞ。
yamagen@ryu.titech.ac.jp

More Related Content

More from Hilo Yamamoto

More from Hilo Yamamoto (12)

Keio slide
Keio slideKeio slide
Keio slide
 
Ch2008slide01
Ch2008slide01Ch2008slide01
Ch2008slide01
 
Ch2007slide02
Ch2007slide02Ch2007slide02
Ch2007slide02
 
Ch2006slide
Ch2006slideCh2006slide
Ch2006slide
 
Asialex201103slide02
Asialex201103slide02Asialex201103slide02
Asialex201103slide02
 
Goiken2008 slide01
Goiken2008 slide01Goiken2008 slide01
Goiken2008 slide01
 
2009 jinmon0102
2009 jinmon01022009 jinmon0102
2009 jinmon0102
 
Jinmon2007slide02
Jinmon2007slide02Jinmon2007slide02
Jinmon2007slide02
 
Corpus2008ws slide01
Corpus2008ws slide01Corpus2008ws slide01
Corpus2008ws slide01
 
Database2010 01slide
Database2010 01slideDatabase2010 01slide
Database2010 01slide
 
Ch2010slide01
Ch2010slide01Ch2010slide01
Ch2010slide01
 
Ch2011slide01
Ch2011slide01Ch2011slide01
Ch2011slide01
 

Japanese Analysis Utilizing IT:Japanese poetic vocabulary through visualization

  • 1. 大阪電気通信大学 2012 1 IT を活用した日本語分析 目で見てわかる日本の歌ことば 山 元 啓 史 東京工業大学 カリフォルニア大学サンディエゴ校 20 March 2012
  • 2. 大阪電気通信大学 2012 2 概要 1. 研究目的 • 歌ことばのコノテーションを調べる。 • 古今集(905 年頃、OP)と現代語訳(CT)を比 べる。 2. シソーラスの開発 3. 応用
  • 3. 大阪電気通信大学 2012 3 和歌: Japanese Songs 立田姫 手向くる神の / あればこそ 秋の木の葉の / 幣と散るらめ because Princess Tatsuta has a god to whom she offers brocades, the leaves of trees in autumn will scatter as an offering. 兼覧王(?–832) 古今和歌集 298 番歌
  • 4. 大阪電気通信大学 2012 4 コノテーションって定義できるの? Octopus weird たこやき spooky ... VS (fried octopus!) = おいしい! ‘コノテーション’ は受け手に依存する意味である。
  • 5. 大阪電気通信大学 2012 5 比較対象: 立田 と 吉野 Tatsuta Yoshino 「うたまくら」 とは: 1. 地名 2. 歌にちなんだ特別な意味 →どうちがう?!
  • 6. 大阪電気通信大学 2012 6 問題: 正書法がない! 漢字 ひらがな 立田 たつた 竜田 龍田 →上記はすべて「たつた」 (地名)
  • 7. 大阪電気通信大学 2012 7 問題: 処理単位のサイズが決まっていない! 処理単位のサイズは文脈の意味によってちがう。 • 単位 →卯の花 or 卯/の/花 (中野, 1998) • 正書法 →さびしい/さみしい/寂しい/淋しい (sad) • 意味 →卯の花 ∈ plant or 卯の花 ∈ food (unohana = a deutzia or bean curd refuse)
  • 8. 大阪電気通信大学 2012 8 シソーラスの例: 神 (God) BG-01-2030-01-030-A-かみ-神 ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ (1) (2) (3) (4) (5) (6) (7) (8) Figure 1: Structure of an item of BG database in the case of kami (god): (1) database ID (BG = short-unit general vocabulary); (2) part of speech ID (01 = noun); (3) group ID (2030 = Shinto deities and Buddhas); (4) field ID; (5) exact ID (030 = god); (6) era-flag (A = contemporary, C = classic); (7) Chinese character reading; (8) Chinese character
  • 9. 大阪電気通信大学 2012 9 開発: シソーラス, KH, t2c • 和歌用語のシソーラス • KH (形態素解析システム: tokenizer) • t2c (分類コードつけシステム: token to code converter)
  • 10. 大阪電気通信大学 2012 10 材料: 八代集 • 八代集(905 年頃–1205 年) • 国文学研究資料館編集の二十一代集データベース • 正保本版の八代集 46 56 79 38 20 44 17 900 950 1000 1050 1100 1150 1200 1250
  • 11. 大阪電気通信大学 2012 11 方法: 処理の手順 A B C D E F
  • 12. 大阪電気通信大学 2012 12 開発: シソーラス, KH, t2c • 和歌用語のシソーラス • KH (形態素解析システム: tokenizer) • t2c (分類コードつけシステム: token to code converter)
  • 13. 大阪電気通信大学 2012 13 Table 1: 形態素解析/語分割 KH / 後撰集 664 番歌 input: 000664 わすられて思ふなげきのしげるをや身をはづかしのもりといふらん output:000664 わすら (ラ四-未:忘る:わする:忘ら:わすら) れ (自可受-用:る:る:れ:れ) て (接助:て:て) 思ふ (ハ四-終体:思ふ:おもふ:思ふ:おもふ) なげき (カ四-用:嘆く:なげく:嘆き:なげき) の (格助:の:の) しげる (ラ四-終体:茂る:しげる:茂る:しげる) を (*助:を:を) や (係助:や:や) 身 (名:身:み) を (*助:を:を) --- はづかし (名-地名:羽束師:はづかし) の (格助:の:の) --- はづかし (形シク-終:恥づかし:はづかし:恥づかし:はづかし) の (格助:の:の) --- もり (名:森:もり) と (格助-引用:と:と) いふ (ハ四-終体:言ふ:いふ:言ふ:いふ) らん (推-終体:らむ:らむ:らむ:らむ)
  • 14. 大阪電気通信大学 2012 14 開発: 語分割からシソーラスへ 単位分割 コードづけ 詳細コードの付加 表記の統一 品詞タグづけ 代表形の付加 八代集 シソーラス 和歌テキスト kh t2c 未登録語追加 解析用古語辞書 (A) 未登録語追加 分類語彙表(一般) 地名・人名辞書 (B)
  • 15. 大阪電気通信大学 2012 15 (A) コーパス開発: 和歌 (OP) KW00029801|A|兼覧王=かねみの王 KW00029801|B|たつたひめ [名-地名:立田姫]£ たむくる [カ下二-体:手向くる], かみ [名:神] の [格助-主格]£ あれ [ラ変-已:有れ] ば [接助-確定] こそ [係助-係]£ あき [名:秋] の [格助-連体], このは [名:木の葉] の [格助-連体]£ ぬさ [名:幣] と [格助-一般], ちる [ラ四-終:散る] らめ [推-已-結]/ Figure 2: 和歌データベースのフォーマット: →は行を折り返していることを意味 する。第1行目の|A|は和歌の作者を示す。第1行目の|B|は和歌の内容 と品詞を示す。
  • 16. 大阪電気通信大学 2012 16 (A) コーパス開発: 現代語訳 (CT) $A|000298 $B|秋の末近くなって帰り道についた龍田姫が、道中の無事を願って手向け £ をする神があるからこそ、秋の木の葉が幣となって散っているのだろう。 $C|秋の歌 $D|秋の末近くなって帰り道についた龍田姫が、道中の無事を願って手向け £ をする神があるからこそ、秋の木の葉が幣となって散っているのだろう。 $I|あきのすえちかくなってかえりみちについたたつたひめが、どうちゅう £ のぶじをねがってたむけをするかみがあるからこそ、あきのこのはがぬさ £ となってちっているのだろう。 Figure 3: 現代語訳データベースのフォーマット
  • 17. 大阪電気通信大学 2012 17 (B) 語分割: Tokenisation もとの和歌 立田姫手向ける神の有ればこそ秋の木の葉の幣と散るらめ ↓ 語分割 立田姫/手向ける/神/の/[有れ]/ば/こそ/秋/の/木の葉/の/幣/と/散る/[らめ] ↓ 基本形に変換する 立田姫/手向ける/神/の/[有り]/ば/こそ/秋/の/木の葉/の/幣/と/散る/[らむ] Figure 4: 現代語訳を語分割した例
  • 18. 大阪電気通信大学 2012 18 (C) 語を分類するために番号に変換する CH-29-2130-01-010-A たつたひめ 立田姫 Tatsutahime Princess-Tatsuta CH-29-0000-14-010-A -- 立田 BG-01-2030-01-101-A -- 姫 -- Tatsuta Tatsuta -- hime princess BG-02-3770-04-080-C たむくる 手向く tamukuru present(verb) handBG-01-5730-02-010-A -- 手 BG-02-1700-01-040-A -- 向ける BG-01-2030-01-030-A かみ 神 BG-08-0061-07-010-A の の BG-02-1200-01-010-C あれ 有り BG-08-0064-26-010-A ば ば BG-04-1120-05-150-A -- ば BG-08-0065-01-010-A こそ こそ -- te -- mukeru kami no for god SUB (particle) beare ba because (particle) because (reason) KP (emphasis) -- ba koso Figure 5: 分類番号への変換(OP)
  • 19. 大阪電気通信大学 2012 19 (C) 分類番号の形式–1 BG-01-2030-01-030-A-かみ-神 ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ (1) (2) (3) (4) (5) (6) (7) (8) Figure 6: BG データベースの例「神」: (1) database ID (BG = short-unit general vocabulary); (2) part of speech ID (01 = noun); (3) group ID (2030 = Shinto deities and Buddhas); (4) field ID; (5) exact ID (030 = god); (6) era-flag (A = contemporary, C = classic); (7) Chinese character reading; (8) Chinese character
  • 20. 大阪電気通信大学 2012 20 (C) 分類番号の形式–2 BG-01-2600-01-020-A (1) = BG-01-2610-01-040-A (2) 世の中 (world) 世 (world) + BG-08-0010-01-021-A (3) の (of) + BG-01-1770-01-080-A (4) 中 (inside) Figure 7: BG データベースの構造の例「世の中」(world)
  • 21. 大阪電気通信大学 2012 21 (C) 分類番号の形式–3 CH-29-2130-01-010-A たつたひめ 立田姫 Tatsutahime Princess-Tatsuta CH-29-0000-14-010-A -- 立田 BG-01-2030-01-101-A -- 姫 -- Tatsuta Tatsuta -- hime princess BG-02-3770-04-080-C たむくる 手向く tamukuru present(verb) handBG-01-5730-02-010-A -- 手 BG-02-1700-01-040-A -- 向ける BG-01-2030-01-030-A かみ 神 BG-08-0061-07-010-A の の BG-02-1200-01-010-C あれ 有り BG-08-0064-26-010-A ば ば BG-04-1120-05-150-A -- ば BG-08-0065-01-010-A こそ こそ -- te -- mukeru kami no for god SUB (particle) beare ba because (particle) because (reason) KP (emphasis) -- ba koso Figure 8: BG データベース変換の例
  • 22. 大阪電気通信大学 2012 22 10th century 20th century Field of experience Field of experience (expert) poet expert readerwrite OP read write CT read novice reader 20th century Field of experience (novice) Figure 9: OP と CT の位置づけの整理(まとめ)
  • 23. 大阪電気通信大学 2012 +-------- # of pair 23 | +----- value of matching level, exact=17, field=13, group=10 | | +-- # of POS | | | | | | # of element of OP ----+ +- # of element of CT | +--- element of CT | | | | | | | | 1 17 11 2 17 47 3 17 47 4 17 2 element of OP -+ | | | 立田姫 00 <-> 12 龍田姫 (Tatsutahime) 手 04 <-> 25 手 (hand) 向ける 05 <-> 26 向ける (toward)神 06 <-> 32 神 (god) (SUB) (be) (because) (EM) (autumn) 5 10 61 6 17 47 7 10 64 8 17 65 9 17 2 10 17 71 11 17 2 12 17 2 13 17 61 14 17 47 15 13 74 の 07 <-> 33 が 有り 08 <-> 34 ある ば 09 <-> 35 から こそ 11 <-> 36 こそ 秋 12 <-> 38 秋 の 13 <-> 39 の 木の葉 14 <-> 40 木の葉 (leaf of tree) (CON) 幣 19 <-> 45 幣 と 20 <-> 46 と 散る 21 <-> 49 散る らむ 22 <-> 54 う (present) (CRD) (fall) (CJR) Figure 10: OP と CT のマッチング処理の例 古今集 298 番歌
  • 24. 大阪電気通信大学 2012 24 差分はどこに?あまりは? CT (秋の末近くなって帰り道についた)龍田姫(が道中の無事を願って)手 向け OP ——— — — — — — — — 立田姫 — — — — — — —手向ける CT (をする)神があるからこそ秋の木の葉(が)幣(となって)散っ(ているのだろ) う OP — — 神のあれ ば こそ秋の木の葉[の]幣 と — — 散る — — — — らめ Figure 11: 小町谷 (1982) による古今集 298 番歌のマッチング結果
  • 25. 大阪電気通信大学 2012 25 OP の成分 Table 2: CT から OP を引いた結果 OP (valid number of element) = 16 E F G T U (ratio of exact match) (ratio of field match) (ratio of group match) (ratio of total match) (ratio of unmatched OP) 12/16 = 0.750 1/16 = 0.062 2/16 = 0.125 15/16 = 0.938 1 - T = 0.062
  • 26. 大阪電気通信大学 2012 26 差分の計算 OP D = 1 − (1) CT 16 = 1 − = 0.61 (2) (3) 41
  • 27. 大阪電気通信大学 2012 27 CT の成分 Table 3: CT の成分: 古今集 298 番歌の小町谷 (1982) による現代語訳: fabs(D-H) は実験値 D から理論値 H を引いて絶対値で示したもの CT (valid number of element) W (ratio of original word use) A (ratio of annotation) =41 12/41=0.293(E/CT) 1-0.293=0.707(1-W) ---breakdown of the annotation--- P1(ratio of F+G paraphrased) (0.62+0.12)/0.707=0.073(F+G)/A P2(ratio of U paraphrased) (0.707-0.073)*0.062=0.040(A-P1)*U D (ratio of purely added) H (theoretical value of D) Gap 0.707-(0.073+0.040)=0.595A-(P1+P2) 1-16/41=0.6101-OP/CT fabs(0.595-0.610)=0.015fabs(D-H)
  • 28. 大阪電気通信大学 2012 28 差分: CT - OP P1 3 (7.3%) P2 1 (4.0%) W 12 (29.3%) Exact 12 (75.0%) Unmatched 1 (6.2%) Group 2 (12.5%) D 25 (59.5%) Field 1 (6.2%) OP : 16 elements CT(298,koma) : 41 elements(298) Figure 12: OP と CT の成分と対応を示す円グラフ(Pie-charts)
  • 29. 大阪電気通信大学 2012 29 (E) 数理モデル √ cw(t , t )=(1+log ctf(t , t )) idf(t ) idf(t ) (4) 1 1 2 1 2 2 N idf(t) = log (5) df(t)
  • 30. 大阪電気通信大学 2012 30 共出現パターンを作る ひとつのテキストに出てくる任意の1つの単語の組み合わせパターン ゆき の うち に はる は き に けり うくひす の... snow of inside at spring (topic)come (past) (perfect) warbler of すべての歌毎にこれを繰り返すとパターンの種類は 5,000 以上
  • 31. 大阪電気通信大学 2012 31 グラフの例「 手 山 10 春霞 10 触れる 9 隠れる とまる 鳴く 立田 立つ6 10 10 15 縫う 7 花 10 まだ145 30 106 枝4 138 散る35 23 10 挿頭す 鴬 52 88 笠4 4 梅10 56 春62 29 声22 青柳 6 17 泣く 9 10 折る 7 香 野辺老 誘い出す 8 毎朝 4 4 送る 5 6 案内 近く 添える 鴬 (23/229,3.73): CT cw.>15; non-dist=off; idf=on(2)
  • 32. 大阪電気通信大学 2012 32 ふりしぼる 手 6 山時鳥 老 青柳 10 夏山 9 横 挿頭す 鳴き声6 五月雨 8 8 4 聞く触れる4 4 11 聞える 夏 10 一声14 69 21 37縫う 6 春笠 枝 39 借り12る 6 10 10 7 23 10 時鳥 19 とまる 20 去年 隠れる 梅 泣く 35 88 174 声 29 10 15 6 29 56 20261 110 4262 145鴬 今朝 羽ばたく26 花 138 鳴く 五月 6 44 梢20 910 17 22 山 9 野辺 11 1030 52 まだ 19 毎朝 8 10 10 9 20 6 近く 10 音羽9 越える7 10 折る 8 立田 何時の間に 散る 5 7 誘い出す 4 はるか4 10 6 7 あやめ草 条理案内 9 10 梢高い4 7 5 7 木高い 別れ惜しむ送る 春霞 立つ 添える 香 鴬-CT-23-229-3.73-15 時鳥-CT-40-370-3.27-16
  • 33. 大阪電気通信大学 2012 33 ひとり 「立田」 4 沖5 夜中 祈る 9 5 9 5 白波 4 10 越える 通り過ぎる 安全 降る 4 5 3 上流 9 8 もみじ葉3 湊12 手向ける4 御室 神奈備8 神74 4 流す 9 9 毎年 6 8 9 9 3 5 8 12 10 流れる17 78 88 10 56 17 時雨5 8 7 幣 28 山河口 12 紅葉 5 手向け 木の葉 20 7 5 10 10 7 川 20 雨 5 竪糸 9 8 10 43 10 神無月9 1010 15 葉8 149 810 8 9 織る 10 7 20 4 5 9 横糸 19 8 絞り染め 錦 17 9 括り染める 水 4 供え物9 3 4 渡る ささげる2 9 神代 乱れ流れる 5 3 9 紅 2 3 断ち切れる 4 聞く 不思議 唐紅色 立田 (12/116,8.52): CT cw.>13; non-dist=off; idf=on(2); pruned 立田 kks 994 風吹けば 沖つ白波 立田山 夜半にや君が 一人越ゆらむ
  • 34. 大阪電気通信大学 2012 34 「立田川」のモデル 山聞く kks 294 たつたひめ 通り過ぎる括り染める 神 たむくるかみの あればこそ 17 5 9 不思議 84 あきのこのはの ぬさとちるらめ 紅葉4 7 幣12 神奈備 5 神代 水 9 流れる 9 8 7 手向け43 17 9 28 9 手向ける4 8 9 8 御室10 絞り染め 川 kks 300 かむなびの 20 渡る 17 9 時雨 やまをすぎゆく あきなれば たつたがはにぞ ぬさはたむくる 8 8 10 20 10 10 10 降る7 横糸 10 98 98 竪糸108 10 7 錦 10 9 河口 9 9 神無月織る 6 流す 5 毎年 立田/川 (12/116,8.52): CT cw.>14.5; non-dist=off; idf=on(2); pruned 立田
  • 35. 大阪電気通信大学 2012 35 「吉野川」のモデル kks 828 ながれては いもせのやまの なかにおつる よしののかはの よしやよのなか 4 3 4 3 4 8 8 10 26 6 21 11 8 4 6 18 9 11 4 kks 471 よしのがは いはなみたかく ゆくみづの 22 16 6 15 4 14 15 30 4 7 9 13 11 10 はやくぞひとを おもひそめてし 15 8 7 8 7 8 6 8 5 5 non-dist=off; idf=on(2); pruned
  • 36. 大阪電気通信大学 2012 36 「吉野山」のモデル 山奥 4 kks 950 みよしのの 3 入る 麓 やまのあなたに やどもがな よのうきときの かくれがにせむ その後 6 5 4 照る ふみ分ける 降りしきる 4 7 7 里 在明 9 降り積もる8 白雪 7 9 月 22 「かくれが」は 世の中を厭い隠れる ための場所山日 雪 46 10 10 9 近い 向こう隠れ所10 6 6 降る 6 10 9 4 ほしい 夕方 世の中一日 いや積もる 6 寒い6 5 6 奈良 吉野/山 (23/193,6.08): CT cw.>13.5; non-dist=off; idf=on(2); pruned 吉野,御吉野
  • 37. 大阪電気通信大学 2012 37 おわりに シソーラスを作って数理モデルを作ってみると 1. 表記のちがう語を処理することができた。 2. ちがう長さの単位でも処理することもできる。 3. 同じ語でもちがう意味をもつかもしれない語も処理できる。 4. 相対的なちがうを見つけることができた。
  • 38. 大阪電気通信大学 2012 38 質問 • 和歌の数理モデルについては http://warbler.ryu.titech.ac.jp/ yamagen/~ をご覧ください。 • その他ご質問については: 山元啓史 Hilofumi Yamamoto までお気軽にどうぞ。 yamagen@ryu.titech.ac.jp