More Related Content
Similar to 言語資源と付き合う (20)
言語資源と付き合う
- 2. ⾃自⼰己紹介
l 海野 裕也
l @unnonouno
l unno/no/uno
l 研究開発部⾨門
l Jubatusチームリーダー
l 専⾨門
l ⾃自然⾔言語処理理
l 統語解析、⽂文圧縮、同義語抽出+クエリ拡張、⼊入⼒力力⽀支援
l テキストマイニング
l ⾔言語横断テキストマイニング、曖昧パターンマッチ
2
- 4. 今⽇日のゴール
l ⾔言語処理理における⾔言語資源の重要性を認識識する
l ⾔言語資源に絡む⽤用語を知る
l ⾔言語資源に関連する研究の紹介
l これから⾔言語資源とどう付き合うべきか
4
- 5. アジェンダ
1. ⾔言語処理理と⾔言語資源
2. ⾔言語資源とは何か
3. ⾔言語資源の作成
4. ⾔言語資源と付き合う
5
- 7. ⾃自然⾔言語処理理のタスク
テキスト 何か⾔言語処理理 ⾔言語処理理
結果
l ⼊入⼒力力は⾃自然⽂文
l 出⼒力力はタスクによって違う
l 形態素解析なら形態素列列が出⼒力力
7
- 8. 処理理とリソース(規則)の分離離
テキスト エン ⾔言語処理理
ジン +
辞書 結果
l 処理理と規則(辞書)の分離離
l 辞書は肥⼤大化、複雑化、メンテナンスの低下
l 辞書のメンテナンス性も主要な課題(前回のセミナー)
8
- 9. 機械学習時代の⾃自然⾔言語処理理
タグ付き
コーパス 学習 辞書
エン パラメー ⾔言語処理理
テキスト +
ジン タ 結果
l 今まで⼿手で作っていたパラメータは⾃自動調整
l 辞書の⽐比重は⼩小さく
l 代わりに膨⼤大なタグ付きコーパスが必要になった
9
- 10. お客さんが絡むと・・・
タグ付き
コーパス 学習 辞書
エン パラメー ⾔言語処理理
テキスト +
ジン タ 結果
l お客さんの分野でちゃんと動くのか?
l 辞書のメンテナンスは困難
l データを作ってもらうのも困難
l そうはいっても真の課題がわかるのはお客さんだけ
10
- 11. 課題は増えていく
l 辞書のメンテナンス
l 「辞書に追加したのに⾒見見つけてくれないよ!」
l 「変な単語が出てきちゃうよ!」
l コーパス作成
l 「データは何件作ればいいの?」
l 「データ作るの⼤大変なんだけど」
技術で解決したい!
11
- 12. ⼿手法よりもデータが重要
l タスクの複雑さは⼿手法よりもデータに依存
l データに依存して難易易度度が変わる
l 形態素解析しやすい⽂文書、しにくい⽂文書、しやすい⾔言語、しに
くい⾔言語
l 精度度を担っているのはほとんどが⾔言語資源
l 良良い規則を作る
l 良良い辞書を作る
l 良良い正解データを作る
12
- 16. アノテーション(注釈)とは?
l テキストデータに対して付与された正解情報
l 固有表現抽出なら正解タグ
l 単語分割なら分割ラベル
l 統語解析なら句句構造や依存構造
l 正解付与する⼈人のことをアノテーターと呼ぶ
16
ChaKi
- 17. 注釈の整合性とタスクの難易易度度
l ⼈人間が注釈をつけても曖昧なことがある
l 例例:係り受け解析の⼈人間同⼠士の⼀一致率率率は90%くらい
l 数値上これ以上の精度度はそもそも不不可能
l AさんがOKと⾔言っても、BさんはNOと⾔言う
l ⼀一致率率率がそもそも70%くらいにしかならないタスクもあ
る
17
- 18. 「κはいくつですか?」
l Inter-annotator agreement
l アノテーター間でどれくらい同意が取れるか
l ⼀一般的にはκ統計量量を⽤用いる
l Pr(a): 評価が⼀一致する確率率率
l Pr(e): 独⽴立立だと仮定した場合に⼀一致する確率率率
18
- 19. 注釈付きコーパスあれこれ
l ツリーバンク
l 統語構造のアノテーションがついたコーパス
l 統語構造は⽊木構造で表現されることが多いため、こう呼ばれる
l 対訳コーパス
l 翻訳関係にある⽂文対を集めたコーパス
19
- 20. 「辞書」とは?
l 特定の⾔言語単位に対する⾔言語情報資源
l 例例:⾳音素、形態素、単語、意味役割…
l データによって情報の粒粒度度は様々
l 単なる単語集合
l 品詞情報
l 各種情報
l いわゆる「辞典」のことではない
l お客様先で使うときは注意
l NLPの⽂文脈だと機械が利利⽤用するためのリソースの意味
20
- 21. 辞書あれこれ
l 単語辞書
l 何かしらの「単語」の⼀一覧
l その他の情報(品詞、読み、活⽤用など)が付与されることもあ
る
l シソーラス
l 類語や上位語・下位語関係など、語と語の意味の粒粒度度の関係が
付与された辞書
l 紙に書かれたシソーラスもあります
l 訳語辞書
l 訳語関係にある単語対の⼀一覧
21
- 22. コーパスと辞書の違いは?
l コーパスは「⽂文書の事例例」ベース、辞書は「単語や複合
語などの⾔言語単位」ベース
l ・・・と書いてみたが、たぶん割りと曖昧
22
- 23. メジャーな⾔言語資源を幾つか・・・
l コーパス
l 京都⼤大学テキストコーパス
l 現代⽇日本語書き⾔言葉葉均衡コーパス
l EDRコーパス
l ATR⾳音素バランス503⽂文
l Penn Treebank
l 辞書
l IPA辞書
l ⽇日本語語彙体系
l EDR辞書
l WordNet
23
- 24. 京都⼤大学テキストコーパス
l 京⼤大⿊黒橋研究室
l 毎⽇日新聞1995年年データに対して、⼈人⼿手でタグ付け
l 形態素解析、係り受け解析、照応解析などの情報
* 0 26D
村山 むらやま * 名詞 人名 * *
富市 とみいち * 名詞 人名 * *
首相 しゅしょう * 名詞 普通名詞 * *
は は * 助詞 副助詞 * *
* 1 2D
年頭 ねんとう * 名詞 普通名詞 * *
に に * 助詞 格助詞 * *
* 2 6D
あたり あたり あたる 動詞 * 子音動詞ラ行 基本連用形
24
- 25. 現代⽇日本語書き⾔言葉葉均衡コーパス (BCCWJ)
l 国⽴立立国語研究所
l 世の中に流流通する様々な分野の⽂文書から、均等にサンプ
リングしたようなコーパスを⽬目指している
<corpus lang="japanese">
<article articleID="OC14_03054m" genre="OC">
<sentence>
<mor pos="名詞-普通名詞-一般" rd="チエ">知恵</mor>
<mor pos="名詞-普通名詞-一般" rd="ブクロ">袋</mor>
<mor pos="助詞-格助詞" rd="ニ">に</mor>
<mor pos="動詞-非自立可能" rd="シ" bfm="スル">し</mor>
<mor pos="助動詞" rd="タ" bfm="タ">た</mor>
<mor pos="名詞-普通名詞-サ変可能" rd="シツモン">質問</mor>
<mor pos="助詞-格助詞" rd="デ">で</mor>
25
- 26. ATR⾳音素バランス503⽂文
l ATR (国際電気通信基礎技術研究所)
l ⾳音声認識識⽤用のデータセット
l 味のある例例⽂文で有名(by @tkng)
l 「あらゆる現実を全て⾃自分の⽅方へねじ曲げたのだ」
26
- 27. Penn Treebank
l ペンシルバニア⼤大学
l Wall Street JournalやBrown Corpusに品詞と統語構造
をタグ付け
l 最も有名なタグ付きコーパスの1つ
( (S
(NP-SBJ
(NP (NNP Pierre) (NNP Vinken) )
(, ,)
(ADJP
(NP (CD 61) (NNS years) )
(JJ old) )
(, ,) )
(VP (MD will)
…
27
- 28. Google N-gram コーパス
l Google
l ウェブ上でクロールしたデータに単語1~7グラムの中で、
頻度度の⾼高いものとその頻度度をまとめたデータ
の 呼び声 王宮 の お触れ × 2 30
の 呼び声 王宮 の お触れ × 3 51
の 呼び声 砂塵 の 大 竜巻 × 28
の 呼び声 破 界 伝 ( 5 43
の 呼び声 神 の 宣告 × 3 25
の 呼び声 第 壱 章 チェーン ・ 20
の 呼び声 罠 【 永続 】 自分 22
の 呼び声 聖なる バリア - ミラーフォース - 194
28
- 29. タグ付きコーパスの探し⽅方
l 紹介しているページ
l NAIST松本研のページ
l ⾔言語資源を管理理しているサイト
l Linguistic Data Consortium (LDC)
l ⾔言語資源協会 (GSK)
l 個別に⼊入⼿手
l 個⼈人が作成している場合がある
29
- 31. ⾔言語資源を作るのは⼤大変!
しかし,大規模コーパスは通常,膨大な試行錯誤の累積
として成立している。当初に定めた仕様にしたがって実装
を進めるなかで多くの問題が発見され,それらに対処す
る過程で,仕様が精密化されてゆくが,ときとして仕様に
矛盾が発見されることもあり,その結果,過去の作業に遡
及した修正作業を行わなければならない事態なども発生
する。 「日本語話し言葉コーパスの構築法」より
l 統制のとれた⾔言語資源を作るのは⼤大変
l 統括マネージャー+アノテーター複数⼈人
l 同⼀一データに対して2⼈人以上のアノテーション
l 定例例ミーティング、問題の洗い出し
l ⼀一般的に年年単位のプロジェクトになる
l 膨⼤大な⼈人件費
31
- 32. コーパス作成の例例
l GENIA corpus
l @東⼤大辻井研
l 分⼦子⽣生物学論論⽂文中に記載される、タンパク質の反応に関する情
報抽出のアノテーションつきコーパス
l BCCWJ
l @国⽴立立国語研究所
l 8つのグループ、5年年間(2006~2010年年)
l EDRコーパス
l @NICT
l 1辞書、1ライセンス120万円
32
- 35. 1. タグ無しコーパスの利利⽤用
l 半教師有り学習
l ラベル付きデータ(タグ付きコーパス)と⼤大量量のラベルなし
データ(⽣生コーパス)から学習
l ラベル付きデータのみの時よりも効率率率が良良い
l 転移学習
l 学習データと適応先のデータで分野が異異なるという問題設定
l 学習データのみを使うよりも、適応先ドメインのタグ無しデー
タを使ったほうが効率率率が良良い
35
- 36. 2. コーパス作成の効率率率化
l 能動学習
l 最も効率率率良良く学習できる正解ラベル(アノテーション)から順
番につけていく
l 単純にランダムな順序で学習するよりも効率率率が良良い
l ⼤大岩さんのPFIセミナーを参照
36
- 37. 3. ⾮非専⾨門家の利利⽤用
l Learning From Crowds
l ノイズがある、アノテーターに能⼒力力差があるという前提での機
械学習の⽅方法論論
l Amazon Mechanical Turkを利利⽤用した研究などが近年年盛ん
37
- 38. 4. コーパス作成環境の整備
l アノテーション⾃自体の研究
l アノテーションのツール
l 実際にコーパスを作ったときの報告
l テキストアノテーションワークショップ
l http://nlp.nii.ac.jp/tawc/
l アノテーションの設計、⽅方法論論、⽀支援等に関する会議
l 2012/8/6, 7 @NII
38
- 40. ある⽇日ルールが適⽤用できなくなる瞬間
l 「NMB à ミネベア」だと思ってたら、ある⽇日から
NMB48が・・・
l 「スイカ à ⻄西⽠瓜」だと思ってたら、ある⽇日からSuica
が・・・
l 機械学習 or ルールベースとは独⽴立立の問題
l モデルが適⽤用できなくなる
l ルールが適⽤用できなくなる
40
- 42. 分類基準が変えたら何が起こるのか?
l 誤分類が改善される
l 新しいルールの追加
l ルールの修正
l 再学習を⾛走らせる
l 今までうまく動いていたデータは?
l 影響がないとは思えない
l それは充分に検証しましたか?
l そんなこといってもイタチごっこじゃないか
l そうですね
l だから何もしなくていいとは思えない
42
- 43. 疑⼼心暗⻤⿁鬼
l いつか破綻するかもしれない
l 実はもう破綻しているのかもしれない
l ⾒見見つかる間違い、増える問い合わせ
l 説明できないロジック・・・
43
- 44. 全てを疑ったとき、信じられるのは⽤用例例だけ
用例のよさは,それが実際に人間によって使われた表現で
あるという意味で,健全でかつ安定した情報であるという点
にあるだろう. (自然言語処理, 岩波より)
l ⽤用例例に対する判断は変わらない
l 「NMBのキーボードを買った」がNMB48になることはない
l 「スイカ割りをした」がSuicaになることはない
l 信じられるものだけを信じる
l ⽤用例例は単体テストのようなもの
l ロジック(ルール)だけあってテスト(事例例)のないプログラ
ムを信⽤用できますか?
l テストで全てを⾔言えるわけではないが、何もないより説得⼒力力が
ある
44
- 45. お客さんが報告できるのは⽤用例例だけ
l どの例例をどう間違えたか
l 「NMB48がたくさん引っかかるんだけど!」
l 内部がどうなっているかはわからない
l 内部の詳細なロジックを理理解して使ってもらうのは厳しい
l どの例例をどう間違えたかならわかるはず(多分)
45
- 47. 考えるべき問題設定?
タグ付き
辞書 学習 コーパス
検証
エン パラメー ⾔言語処理理
テキスト +
ジン タ 結果
l 既存の⾔言語資源+⽣生コーパス+お客様保有資源+お客様
⾃自⾝身+⾮非専⾨門家
l 使えるものはなんでも使う
47
- 48. まとめ
l ⾔言語処理理の振る舞いを決めるうえで⾔言語資源は重要
l ⼤大別するとコーパスと辞書がある
l ⾔言語資源を作るのは⼤大変
l 数億という単位でお⾦金金がかかっている・・・
l ⽤用例例をベースとして考える
l 規則はいつか破綻する可能性がある
l ⽤用例例をためる、管理理する、全体の仕組みを考える
48