ゼロから始める自然言語処理【FIT2016チュートリアル】

ゼロから始める自然言語処理
大阪大学大学院情報科学研究科
荒瀬由紀

自己紹介
荒瀬由紀
2010年：
博士号（情報科学）取得
2010年～2014年：
Microsoft Research (Beijing)にて
自然言語処理研究に従事
2014年～：
大阪大学大学院情報科学研究科准教授
初めて自然言語
処理に触れる！

自然言語処理に初めてふれる方の：
・テキストデータを扱いたい！
・テキストから知識を抽出したい！
をお助けするためのチュートリアルです．

例題：
Twitterから話題のポケGo用語を抽出

処理の流れ
• データの準備
• データクリーニング
• 前処理
• 形態素解析
• 後処理
• 特徴語抽出

データ準備
• ダウンロードする
– アノテーション付データが多い
– 研究機関が作成・公開していることが多い
• NII 情報学研究データリポジトリ
http://www.nii.ac.jp/dsc/idr/datalist.html
• ALAGIN 言語資源・音声資源サイト
https://alaginrc.nict.go.jp/
– Pros:
• 既存研究と実験結果を比較できる．
• 無料！
– Cons:
• 最新のデータは手に入りにくい．

データ準備
• 購入する
– 新聞記事，アノテーション付データ
– Pros:
• フォーマットされている
• ノイズが少ない（ことが多い）
– Cons:
• 結構高い
• 契約の年次更新が必要なことも

データ準備
• 自分でクロールする
– Pros:
• 欲しいデータが手に入る
• 速報性
– Cons:
• ノイズ除去が大変
• 時間がかかる．テクニックも必要．

データクローリング
• クローリングのマナー
– 相手のサーバに負荷をかけない．
– API利用制限
Twitter search API:
180 requests/queries per 15 minutes
– 違反すると，所属全体のIPがBanされたり怒られた
り．
• 取得失敗時のリカバリ
– 壊れたデータを保存しないようロールバック
– 重複チェック
• ネットワーク障害，サーバダウン，停電，etc.

形態素解析
• 形態素への分割と品詞タグ付け
– 意味を構成する最小単位
• 精度の高いツールがあります！
– Chasen，Mecab
http://chasen-legacy.osdn.jp/
http://taku910.github.io/mecab/
– JUMAN
http://nlp.ist.i.kyoto-
u.ac.jp/index.php?JUMAN

Mecabの分析例
新宿名詞,固有名詞,地域,一般,*,*,新宿,シンジュク,シンジュク
御苑名詞,一般,*,*,*,*,御苑,ギョエン,ギョエン
で助詞,格助詞,一般,*,*,*,で,デ,デ
ピカチュウ名詞,固有名詞,一般,*,*,*,ピカチュウ,ピカチュウ,ピカチュウ
に助詞,格助詞,一般,*,*,*,に,ニ,ニ
会い動詞,自立,*,*,五段・ワ行促音便,連用形,会う,アイ,アイ
たかっ助動詞,*,*,*,特殊・タイ,連用タ接続,たい,タカッ,タカッ
た助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
形態素の
表層読み
原形
品詞情報発音

特徴語抽出
• TF-IDF強し
– Term Frequency
– Inverse Document Frequency
TF−IDF = tf 𝑡𝑡, 𝑑𝑑 idf 𝑡𝑡, 𝐷𝐷
idf 𝑡𝑡, 𝐷𝐷 = log
𝑁𝑁
𝑑𝑑𝑑𝑑(𝑡𝑡, 𝐷𝐷)
tf 𝑡𝑡, 𝑑𝑑 :ターム𝑡𝑡のドキュメント𝑑𝑑での頻度
𝑑𝑑𝑑𝑑(𝑡𝑡, 𝐷𝐷): 全てのドキュメント𝐷𝐷で𝑡𝑡を含む𝑑𝑑の数
𝑁𝑁：ドキュメント数

TF-IDFの注意点
• 𝐷𝐷を定義（用意）できるか？
• ドキュメントを扱う場合IDFは重要
• Tweetのような短文ではTFのみで良
いことも

あれ，思てたんと違う…
…

データクリーニング
現実のデータは…
ノイズだらけ！

よくあるノイズ
• URL
• 非文（@mention，hashtag，商品コー
ド，etc.）
• アクセント記号：ã，ä，é
• 対象以外の言語データ
• 記号のバリエーション
-－﹣ ‐ - ⁃ ˗ − ➖ ‒ –
～ ~ ∼ ˜ ˷ ∽ ∾ ∿ 〜〰﹏
• 謎のUnicode文字

ノイズ除去
• URL，非テキスト，記号のバリエーション
-->データに頻繁に出現するパターンを観察して，
ルールで除去
• アクセント記号
-->文字コードに注意すれば大丈夫．
HTMLでは特殊記号に置き替えられるので置換
• 対象言語以外
-->Unicodeの範囲指定である程度何とかなる．
本気を出すならLanguage Identification
• 謎のUnicode文字
-->テキストをまずデコード，失敗したものは排除．

リュウ
「単語」とのずれ

「単語」とのずれ
• 形態素解析の単位は「形態素」
• 「単語」って実はすごく曖昧
– 「大阪」「大学」vs「大阪大学」
• ルールで形態素を合併
– 連続した（固有）名詞はつなげる
• 辞書の追加

• URL, @mentionの除去
• 「。！？」でテキストを
分割
• ポケモン，ポケモン技の
辞書作成
• 形態素解析の結果，ポケ
モンとポケモンの技のみ
抽出
• 出現頻度カウント

発展編
• 単語ペアを扱う！
--> コロケーション抽出
• 文の意味を考慮したい！
--> 係り受け解析

コロケーション抽出
• 頻繁に共起する単語のペアを特定
• Pointwise Mutual Information
（PMI）
𝑃𝑃𝑃𝑃𝑃𝑃 𝑡𝑡1, 𝑡𝑡2 = log
𝑝𝑝(𝑡𝑡1, 𝑡𝑡2)
𝑝𝑝 𝑡𝑡1 𝑝𝑝(𝑡𝑡2)
– 𝑃𝑃𝑃𝑃𝑃𝑃 𝑡𝑡1, 𝑡𝑡2 > 0：共起しやすい
– 𝑃𝑃𝑃𝑃𝑃𝑃 𝑡𝑡1, 𝑡𝑡2 = 0：関連無し（独立）
– 𝑃𝑃𝑃𝑃𝑃𝑃 𝑡𝑡1, 𝑡𝑡2 < 0：共起しにくい

コロケーション抽出
• 単語の出現確率 𝑝𝑝 𝑡𝑡1 の推定
– 簡単なのは最尤推定
𝑝𝑝 ピカチュウ = 200/1000000
– 低頻度の単語ペアのPMI値が非常に高く
なってしまう
-->出現確率の推定が正しくない
• 解決策
– 頻度を考慮する
– 事後分布最大化推定値

係り受け解析
• 係り受けを解析
– 文節単位
• 固有表現抽出
上野公園で強いギャラドスに会いたかった
LOC ART

係り受け解析
• 「誰が」「どうした」を抽出できる．
• 単純な単語の共起よりも，文の意味を反
映した情報抽出が可能
• 精度の高いツールあります！
– Cabocha
https://taku910.github.io/cabocha/
– KNP
http://nlp.ist.i.kyoto-
u.ac.jp/index.php?KNP

係り受け解析 & PMI
イーブイって出やすいのか？
ソーラービームが強すぎる！
カイリューゲットしたんだけど育てるべき？
ラプラスがれいとうビームだったんだけど
「はがねのつばさカイ
リュー」って
ハズレなの？
カイリューに勝てる・・・だと？
ミュウツーを GETするには？
ギャラドス作って
フーディンって強いの？
かえんほうしゃは、はずれだよね？
シャワーズ虐めすぎたら調整入るぞ！
イワークが捕まらない

おまけ：おススメの環境
• Python
– 強力な文字列処理ライブラリ
– 自然言語処理・機械学習ライブラリも充実
NLTK：http://www.nltk.org/
scikit-learn：http://scikit-
learn.org/stable/
– MecabなどのNLPツールとバインディング
• C#, Java, Perl もよい
• 速度を求めるならC++

まとめ
• 利用できるデータは積極的に利用
• 自然言語処理ツールはたくさん
– 辞書，ルールの活用
• 地道なノイズ除去が肝心
– データの観察
– 諦めも大事

ゼロから始める自然言語処理【FIT2016チュートリアル】

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ゼロから始める自然言語処理【FIT2016チュートリアル】

Similar to ゼロから始める自然言語処理【FIT2016チュートリアル】 (20)

More from Yuki Arase

More from Yuki Arase (6)