Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Oec2012032001slide01

402 views

Published on

  • If you are looking for trusted essay writing service I highly recommend ⇒⇒⇒WRITE-MY-PAPER.net ⇐⇐⇐ The service I received was great. I got an A on my final paper which really helped my grade. Knowing that I can count on them in the future has really helped relieve the stress, anxiety and workload. I recommend everyone to give them a try. You'll be glad you did.
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Download or read that Ebooks here ... ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • -- DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT -- ......................................................................................................................... ......................................................................................................................... Download FULL PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... (Unlimited)
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • ..............ACCESS that WEBSITE Over for All Ebooks ................ ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full EPUB Ebook here { http://bit.ly/2m6jJ5M } .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD THI5 BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

Oec2012032001slide01

  1. 1. 大阪電気通信大学 2012 1 IT を活用した日本語分析 目で見てわかる日本の歌ことば 山 元 啓 史 東京工業大学 カリフォルニア大学サンディエゴ校 20 March 2012
  2. 2. 大阪電気通信大学 2012 2 概要 1. 研究目的 • 歌ことばのコノテーションを調べる。 • 古今集(905 年頃、OP)と現代語訳(CT)を比 べる。 2. シソーラスの開発 3. 応用
  3. 3. 大阪電気通信大学 2012 3 和歌: Japanese Songs 立田姫 手向くる神の / あればこそ 秋の木の葉の / 幣と散るらめ because Princess Tatsuta has a god to whom she offers brocades, the leaves of trees in autumn will scatter as an offering. 兼覧王(?–832) 古今和歌集 298 番歌
  4. 4. 大阪電気通信大学 2012 4 コノテーションって定義できるの? Octopus VS weird spooky ... たこやき (fried octopus!) = おいしい! ‘コノテーション’ は受け手に依存する意味である。
  5. 5. 大阪電気通信大学 2012 5 比較対象: 立田 と 吉野 Yoshino Tatsuta 「うたまくら」 とは: 1. 地名 2. 歌にちなんだ特別な意味 → どうちがう?!
  6. 6. 大阪電気通信大学 2012 6 問題: 正書法がない! ひらがな たつた 漢字 立田 竜田 龍田 → 上記はすべて「たつた」 (地名)
  7. 7. 大阪電気通信大学 2012 7 問題: 処理単位のサイズが決まっていない! 処理単位のサイズは文脈の意味によってちがう。 • 単位 → 卯の花 or 卯/の/花 (中野, 1998) • 正書法 → さびしい/さみしい/寂しい/淋しい (sad) • 意味 → 卯の花 ∈ plant or 卯の花 ∈ food (unohana = a deutzia or bean curd refuse)
  8. 8. 大阪電気通信大学 2012 8 シソーラスの例: 神 (God) BG-01-2030-01-030-A-かみ-神 ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ (1) (2) (3) (4) (5) (6) (7) (8) Figure 1: Structure of an item of BG database in the case of kami (god): (1) database ID (BG = short-unit general vocabulary); (2) part of speech ID (01 = noun); (3) group ID (2030 = Shinto deities and Buddhas); (4) field ID; (5) exact ID (030 = god); (6) era-flag (A = contemporary, C = classic); (7) Chinese character reading; (8) Chinese character
  9. 9. 大阪電気通信大学 2012 9 開発: シソーラス, KH, t2c • 和歌用語のシソーラス • KH (形態素解析システム: tokenizer) • t2c (分類コードつけシステム: token to code converter)
  10. 10. 大阪電気通信大学 2012 10 材料: 八代集 • 八代集(905 年頃–1205 年) • 国文学研究資料館編集の二十一代集データベース • 正保本版の八代集 900 ¡ 古 今 集 (•905) 46 950 ¡ 後 撰 集 (•951) 56 1000 ¡ 拾 遺 集 (•1007) 79 1050 ¡後 拾 遺 集 (1086) 38 1100 ¡ 金 葉 集 (•1124) 20 ¡ 詞 花 集 (•1144) 44 1150 ¡ 千 載 集 (1188) 17 1200 ¡ 新 古 今 集 (1205) 1250
  11. 11. 大阪電気通信大学 2012 11 方法: 処理の手順 A コーパスの開発 B 語分割 C 意味コードづけ D モデリング E モデルを使った演算操作 F 可視化
  12. 12. 大阪電気通信大学 2012 12 開発: シソーラス, KH, t2c • 和歌用語のシソーラス • KH (形態素解析システム: tokenizer) • t2c (分類コードつけシステム: token to code converter)
  13. 13. 大阪電気通信大学 2012 13 Table 1: 形態素解析/語分割 KH / 後撰集 664 番歌 input: 000664 わすられて思ふなげきのしげるをや身をはづかしのもりといふらん output:000664 わすら (ラ四-未:忘る:わする:忘ら:わすら) れ (自可受-用:る:る:れ:れ) て (接助:て:て) 思ふ (ハ四-終体:思ふ:おもふ:思ふ:おもふ) なげき (カ四-用:嘆く:なげく:嘆き:なげき) の (格助:の:の) しげる (ラ四-終体:茂る:しげる:茂る:しげる) を (*助:を:を) や (係助:や:や) 身 (名:身:み) を (*助:を:を) --- はづかし (名-地名:羽束師:はづかし) の (格助:の:の) --- はづかし (形シク-終:恥づかし:はづかし:恥づかし:はづかし) の (格助:の:の) --- もり (名:森:もり) と (格助-引用:と:と) いふ (ハ四-終体:言ふ:いふ:言ふ:いふ) らん (推-終体:らむ:らむ:らむ:らむ)
  14. 14. 大阪電気通信大学 2012 14 開発: 語分割からシソーラスへ 和歌テキスト kh t2c コードづけ 代表形の付加 単位分割 品詞タグづけ 詳細コードの付加 表記の統一 八代集 シソーラス (A) (B) 未登録語追加 解析用古語辞書 分類語彙表(一般) 地名・人名辞書 未登録語追加
  15. 15. 大阪電気通信大学 2012 15 (A) コーパス開発: 和歌 (OP) KW00029801|A|兼覧王=かねみの王 KW00029801|B|たつたひめ [名-地名:立田姫]£ たむくる [カ下二-体:手向くる], かみ [名:神] の [格助-主格]£ あれ [ラ変-已:有れ] ば [接助-確定] こそ [係助-係]£ あき [名:秋] の [格助-連体], このは [名:木の葉] の [格助-連体]£ ぬさ [名:幣] と [格助-一般], ちる [ラ四-終:散る] らめ [推-已-結]/ Figure 2: 和歌データベースのフォーマット: → は行を折り返していることを意味 する。第1行目の|A|は和歌の作者を示す。第2行目の|B|は和歌の内容 と品詞を示す。
  16. 16. 大阪電気通信大学 2012 16 (A) コーパス開発: 現代語訳 (CT) $A|000298 $B|秋の末近くなって帰り道についた龍田姫が、道中の無事を願って手向け £ をする神があるからこそ、秋の木の葉が幣となって散っているのだろう。 $C|秋の歌 $D|秋の末近くなって帰り道についた龍田姫が、道中の無事を願って手向け £ をする神があるからこそ、秋の木の葉が幣となって散っているのだろう。 $I|あきのすえちかくなってかえりみちについたたつたひめが、どうちゅう £ のぶじをねがってたむけをするかみがあるからこそ、あきのこのはがぬさ £ となってちっているのだろう。 Figure 3: 現代語訳データベースのフォーマット
  17. 17. 大阪電気通信大学 2012 17 (B) 語分割: Tokenisation もとの和歌 立田姫手向ける神の有ればこそ秋の木の葉の幣と散るらめ ↓ 語分割 立田姫/手向ける/神/の/[有れ]/ば/こそ/秋/の/木の葉/の/幣/と/散る/[らめ] ↓ 基本形に変換する 立田姫/手向ける/神/の/[有り]/ば/こそ/秋/の/木の葉/の/幣/と/散る/[らむ] Figure 4: 現代語訳を語分割した例
  18. 18. 大阪電気通信大学 2012 18 (C) 語を分類するために番号に変換する CH-29-2130-01-010-A たつたひめ 立田姫 Tatsutahime Princess-Tatsuta CH-29-0000-14-010-A -- 立田 -- Tatsuta Tatsuta BG-01-2030-01-101-A -- 姫 -- hime princess BG-02-3770-04-080-C たむくる 手向く tamukuru present(verb) BG-01-5730-02-010-A -- 手 -- te hand BG-02-1700-01-040-A -- 向ける -- mukeru for BG-01-2030-01-030-A かみ 神 kami god BG-08-0061-07-010-A の の no SUB (particle) BG-02-1200-01-010-C あれ 有り are be BG-08-0064-26-010-A ば ば ba because (particle) BG-04-1120-05-150-A -- ば -- ba because (reason) BG-08-0065-01-010-A こそ こそ koso KP (emphasis) Figure 5: 分類番号への変換(OP)
  19. 19. 大阪電気通信大学 2012 19 (C) 分類番号の形式–1 BG-01-2030-01-030-A-かみ-神 ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ (1) (2) (3) (4) (5) (6) (7) (8) Figure 6: BG データベースの例「神」: (1) database ID (BG = short-unit general vocabulary); (2) part of speech ID (01 = noun); (3) group ID (2030 = Shinto deities and Buddhas); (4) field ID; (5) exact ID (030 = god); (6) era-flag (A = contemporary, C = classic); (7) Chinese character reading; (8) Chinese character
  20. 20. 大阪電気通信大学 2012 20 (C) 分類番号の形式–2 BG-01-2600-01-020-A 世の中 (world) (1) = BG-01-2610-01-040-A 世 (world) (2) + BG-08-0010-01-021-A の (of) (3) + BG-01-1770-01-080-A 中 (inside) (4) Figure 7: BG データベースの構造の例「世の中」(world)
  21. 21. 大阪電気通信大学 2012 21 (C) 分類番号の形式–3 CH-29-2130-01-010-A たつたひめ 立田姫 Tatsutahime Princess-Tatsuta CH-29-0000-14-010-A -- 立田 -- Tatsuta Tatsuta BG-01-2030-01-101-A -- 姫 -- hime princess BG-02-3770-04-080-C たむくる 手向く tamukuru present(verb) BG-01-5730-02-010-A -- 手 -- te hand BG-02-1700-01-040-A -- 向ける -- mukeru for BG-01-2030-01-030-A かみ 神 kami god BG-08-0061-07-010-A の の no SUB (particle) BG-02-1200-01-010-C あれ 有り are be BG-08-0064-26-010-A ば ば ba because (particle) BG-04-1120-05-150-A -- ば -- ba because (reason) BG-08-0065-01-010-A こそ こそ koso KP (emphasis) Figure 8: BG データベース変換の例
  22. 22. 大阪電気通信大学 2012 22 poet write OP read expert reader write CT read novice reader compare 10th century Field of experience 20th century Field of experience (expert) 20th century Field of experience (novice) Figure 9: OP と CT の位置づけの整理(まとめ)
  23. 23. 大阪電気通信大学 2012 23 +-------- # of pair | +----- value of matching level, exact=17, field=13, group=10 | | +-- # of POS | | | | | | # of element of OP ----+ +- # of element of CT | | | element of OP -+ | | +--- element of CT | | | | | | | 1 17 11 立田姫 00 <-> 12 龍田姫 (Tatsutahime) 2 17 47 手 04 <-> 25 手 (hand) 3 17 47 向ける 05 <-> 26 向ける (toward) 4 17 2 神 06 <-> 32 神 (god) 5 10 61 の 07 <-> 33 が (SUB) 6 17 47 有り 08 <-> 34 ある (be) 7 10 64 ば 09 <-> 35 から (because) 8 17 65 こそ 11 <-> 36 こそ (EM) 9 17 2 秋 12 <-> 38 秋 (autumn) 10 17 71 の 13 <-> 39 の (CON) 11 17 2 木の葉 14 <-> 40 木の葉 (leaf of tree) 12 17 2 幣 19 <-> 45 幣 (present) 13 17 61 と 20 <-> 46 と (CRD) 14 17 47 散る 21 <-> 49 散る (fall) 15 13 74 らむ 22 <-> 54 う (CJR) Figure 10: OP と CT のマッチング処理の例 古今集 298 番歌
  24. 24. 大阪電気通信大学 2012 24 差分はどこに?あまりは? CT (秋の末近くなって帰り道についた)龍田姫(が道中の無事を願って)手 向け OP — —— — — — — — — — 立田姫 — — — — — — — 手向ける CT (をする)神があるからこそ秋の木の葉(が)幣(となって)散っ(ているのだろ) う OP — — 神のあれ ば こそ秋の木の葉[の]幣 と — — 散る — — — — らめ Figure 11: 小町谷 (1982) による古今集 298 番歌のマッチング結果
  25. 25. 大阪電気通信大学 2012 25 OP の成分 Table 2: CT から OP を引いた結果 OP (valid number of element) = 16 E (ratio of exact match) 12/16 = 0.750 F (ratio of field match) 1/16 = 0.062 G (ratio of group match) 2/16 = 0.125 T (ratio of total match) 15/16 = 0.938 U (ratio of unmatched OP) 1 - T = 0.062
  26. 26. 大阪電気通信大学 2012 26 差分の計算 D = 1 − OP CT (1) = 1 − 16 41 (2) = 0.61 (3)
  27. 27. 大阪電気通信大学 2012 27 CT の成分 Table 3: CT の成分: 古今集 298 番歌の小町谷 (1982) による現代語訳: fabs(D-H) は実験値 D から理論値 H を引いて絶対値で示したもの CT (valid number of element) =41 W (ratio of original word use) 12/41=0.293(E/CT) A (ratio of annotation) 1-0.293=0.707(1-W) ---breakdown of the annotation--- P1(ratio of F+G paraphrased) (0.62+0.12)/0.707=0.073(F+G)/A P2(ratio of U paraphrased) (0.707-0.073)*0.062=0.040(A-P1)*U D (ratio of purely added) 0.707-(0.073+0.040)=0.595A-(P1+P2) H (theoretical value of D) 1-16/41=0.6101-OP/CT Gap fabs(0.595-0.610)=0.015fabs(D-H)
  28. 28. 大阪電気通信大学 2012 28 差分: CT - OP Exact 12 (75.0%) Field 1 (6.2%) Group 2 (12.5%) Unmatched 1 (6.2%) W 12 (29.3%) P1 3 (7.3%) P2 1 (4.0%) D 25 (59.5%) OP : 16 elements CT : 41 elements(298) (298,koma) Figure 12: OP と CT の成分と対応を示す円グラフ(Pie-charts)
  29. 29. 大阪電気通信大学 2012 29 (E) 数理モデル cw(t1, t2)=(1+log ctf(t1, t2)) √ idf(t1) idf(t2) (4) idf(t) = log N df(t) (5)
  30. 30. 大阪電気通信大学 2012 30 共出現パターンを作る ひとつのテキストに出てくる任意の2つの単語の組み合わせパターン ゆき snow の of うち inside に at はる spring は (topic) き come に (past) けり (perfect) うくひす warbler の of ... すべての歌毎にこれを繰り返すとパターンの種類は 5,000 以上
  31. 31. 大阪電気通信大学 2012 31 グラフの例「うぐいす」 鴬 (23/229,3.73): CT cw.>15; non-dist=off; idf=on(2) 毎朝 野辺 8 鴬 17 老 笠 6 10 青柳 4 挿頭す 4 縫う 6 春 88 10 立田 10 枝 35 花 138 とまる 15 折る 22 泣く 29 鳴く 145 まだ 30 近く 6 声 62 案内 誘い出す 4 9 送る 4 4 香7 山 10 春霞 9 立つ10 梅10 56 23 隠れる 7 6 散る 52 10 触れる 10 手 10 添える 5
  32. 32. 大阪電気通信大学 2012 32 鴬-CT-23-229-3.73-15 時鳥-CT-40-370-3.27-16 毎朝 野辺 8 鴬 17 老 笠 6 10 青柳 4 挿頭す 4 縫う 6 春 88 10 立田 10 枝 35 花 138 とまる 15 折る 22 泣く 29 鳴く145 まだ 30 夏 横 8 時鳥 39 一声 8 五月 42 音羽 20 声 174 山 110 261 鳴き声 21 五月雨 14 聞く 69 聞える 37 去年 10 あやめ草 7 梢9 12 20 20 11 今朝 29 9 19 越える10 惜しむ 10 木高い 4 10 近く 6 62 26 条理 8 6 案内 誘い出す4 9 送る 4 別れ 7 4 香 7 20 10 春霞 9 立つ 10 夏山 11 ふりしぼる 6 梅 10 56 23 44 山時鳥 9 隠れる 7 6 10 散る 52 10 触れる 10 手 10 添える 5 羽ばたく 6 6 借りる 19 何時の間に 9 梢高い 7 7 はるか 5
  33. 33. 大阪電気通信大学 2012 33 立田 (12/116,8.52): CT cw.>13; non-dist=off; idf=on(2); pruned 立田 神代 紅 3 唐紅色 3 水 9 川 9 19 神無月 10 織る 9 横糸 8 流す 8 毎年 7 神奈備 17 河口 7 葉15 もみじ葉 8 流れる 28 竪糸 10 錦 10 9 10 8 20 10 9 8 渡る 9 9 7 時雨 9 夜中 白波 5 越える 5 ひとり 4 沖 9 10 神 幣 8 7 手向ける 9 手向け 5 5 供え物 ささげる2 絞り染め 4 4 8 8 20 1010 10 上流 4 紅葉 12 17 8 8 通り過ぎる 4 安全 3 湊 6 4 4 5 雨 5 43 14 御室 8 5 9 山 20 17 78 12 7 降る 8 3 6 5 9 9 木の葉5 10 9 3 10 乱れ流れる 3 断ち切れる 2 5 12 9 聞く 9 括り染める 5 4 5 祈る 4 不思議 4 「立田」 kks 994 風吹けば 沖つ白波 立田山 夜半にや君が 一人越ゆらむ
  34. 34. 大阪電気通信大学 2012 34 「立田川」のモデル 立田/川 (12/116,8.52): CT cw.>14.5; non-dist=off; idf=on(2); pruned 立田 神代 水 9 川 9 神無月 10 織る 9 横糸 8 神奈備 17 河口 7 流れる 28 竪糸 10錦 10 9 10 8 20 10 9 8 9 7 時雨 9 神 幣 8 手向ける 9 手向け 5 絞り染め 4 8 8 20 10 1010 8 8 山 17 7 8 紅葉 12 御室 7 流す 6 毎年 5 9 43 渡る 17 10 9 通り過ぎる 5 降る 9 聞く 9 括り染める 4不思議 4 kks 294 たつたひめ たむくるかみの あればこそ あきのこのはの ぬさとちるらめ kks 300 かむなびの やまをすぎゆく あきなれば たつたがはにぞ ぬさはたむくる
  35. 35. 大阪電気通信大学 2012 35 「吉野川」のモデル   ¡ ¢ £ ¤ ¥ ¦ ¢ ¥ § ¨ © ¨ ¥ ! non-dist=off; idf=on(2); pruned   ¡ # $ % 4 ' 4 ( 8 ) 0 % 1 6 2 10 3 4 8 5 6 3 7 5 8 8 9 7 @ 15 22 A B C 11 D E F 9 14 G H I P 4 13 15 10 30 11 Q R 8 S T U V W 6 X Y 15 ` a 21 16 b c a 8 4 4 d T 4 6 6 e 8 7 9 5 8 7 f g h 26 i p q r W 3 11 18 4 kks 828 ながれては いもせのやまの なかにおつる よしののかはの よしやよのなか kks 471 よしのがは いはなみたかく ゆくみづの はやくぞひとを おもひそめてし
  36. 36. 大阪電気通信大学 2012 36 「吉野山」のモデル 吉野/山 (23/193,6.08): CT cw.13.5; non-dist=off; idf=on(2); pruned 吉野,御吉野 日 近い 10 在明 月 9 照る 4 その後 ふみ分ける 4 白雪 7 入る 6 山奥 3 一日 9 里 9 隠れ所 向こう 6 世の中 6 いや 4 雪10 山46 9 22 7降り積もる8 4 降る 10 夕方 10 積もる 奈良 5 降りしきる 7 麓 5 ほしい 6 寒い 6 6 6 kks 950 みよしのの やまのあなたに やどもがな よのうきときの かくれがにせむ 「かくれが」は 世の中を厭い隠れる ための場所
  37. 37. 大阪電気通信大学 2012 37 おわりに シソーラスを作って数理モデルを作ってみると 1. 表記のちがう語を処理することができた。 2. ちがう長さの単位でも処理することもできる。 3. 同じ語でもちがう意味をもつかもしれない語も処理できる。 4. 相対的なちがうを見つけることができた。
  38. 38. 大阪電気通信大学 2012 38 質問 • 和歌の数理モデルについては http://warbler.ryu.titech.ac.jp/∼yamagen/ をご覧ください。 • その他ご質問については: 山元啓史 Hilofumi Yamamoto までお気軽にどうぞ。 yamagen@ryu.titech.ac.jp

×