More Related Content
Similar to ゼロから始める自然言語処理 【FIT2016チュートリアル】 (20)
ゼロから始める自然言語処理 【FIT2016チュートリアル】
- 7. データ準備
• ダウンロードする
– アノテーション付データが多い
– 研究機関が作成・公開していることが多い
• NII 情報学研究データリポジトリ
http://www.nii.ac.jp/dsc/idr/datalist.html
• ALAGIN 言語資源・音声資源サイト
https://alaginrc.nict.go.jp/
– Pros:
• 既存研究と実験結果を比較できる.
• 無料!
– Cons:
• 最新のデータは手に入りにくい.
- 10. データクローリング
• クローリングのマナー
– 相手のサーバに負荷をかけない.
– API利用制限
Twitter search API:
180 requests/queries per 15 minutes
– 違反すると,所属全体のIPがBanされたり怒られた
り.
• 取得失敗時のリカバリ
– 壊れたデータを保存しないようロールバック
– 重複チェック
• ネットワーク障害,サーバダウン,停電,etc.
- 12. 形態素解析
• 形態素への分割と品詞タグ付け
– 意味を構成する最小単位
• 精度の高いツールがあります!
– Chasen,Mecab
http://chasen-legacy.osdn.jp/
http://taku910.github.io/mecab/
– JUMAN
http://nlp.ist.i.kyoto-
u.ac.jp/index.php?JUMAN
- 13. Mecabの分析例
新宿 名詞,固有名詞,地域,一般,*,*,新宿,シンジュク,シンジュク
御苑 名詞,一般,*,*,*,*,御苑,ギョエン,ギョエン
で 助詞,格助詞,一般,*,*,*,で,デ,デ
ピカチュウ 名詞,固有名詞,一般,*,*,*,ピカチュウ,ピカチュウ,ピカチュウ
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
会い 動詞,自立,*,*,五段・ワ行促音便,連用形,会う,アイ,アイ
たかっ 助動詞,*,*,*,特殊・タイ,連用タ接続,たい,タカッ,タカッ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
形態素の
表層 読み
原形
品詞情報 発音
- 15. 特徴語抽出
• TF-IDF強し
– Term Frequency
– Inverse Document Frequency
TF−IDF = tf 𝑡𝑡, 𝑑𝑑 idf 𝑡𝑡, 𝐷𝐷
idf 𝑡𝑡, 𝐷𝐷 = log
𝑁𝑁
𝑑𝑑𝑑𝑑(𝑡𝑡, 𝐷𝐷)
tf 𝑡𝑡, 𝑑𝑑 :ターム𝑡𝑡のドキュメント𝑑𝑑での頻度
𝑑𝑑𝑑𝑑(𝑡𝑡, 𝐷𝐷): 全てのドキュメント𝐷𝐷で𝑡𝑡を含む𝑑𝑑の数
𝑁𝑁:ドキュメント数
- 29. コロケーション抽出
• 頻繁に共起する単語のペアを特定
• Pointwise Mutual Information
(PMI)
𝑃𝑃𝑃𝑃𝑃𝑃 𝑡𝑡1, 𝑡𝑡2 = log
𝑝𝑝(𝑡𝑡1, 𝑡𝑡2)
𝑝𝑝 𝑡𝑡1 𝑝𝑝(𝑡𝑡2)
– 𝑃𝑃𝑃𝑃𝑃𝑃 𝑡𝑡1, 𝑡𝑡2 > 0:共起しやすい
– 𝑃𝑃𝑃𝑃𝑃𝑃 𝑡𝑡1, 𝑡𝑡2 = 0:関連無し(独立)
– 𝑃𝑃𝑃𝑃𝑃𝑃 𝑡𝑡1, 𝑡𝑡2 < 0:共起しにくい
- 30. コロケーション抽出
• 単語の出現確率 𝑝𝑝 𝑡𝑡1 の推定
– 簡単なのは最尤推定
𝑝𝑝 ピカチュウ = 200/1000000
– 低頻度の単語ペアのPMI値が非常に高く
なってしまう
-->出現確率の推定が正しくない
• 解決策
– 頻度を考慮する
– 事後分布最大化推定値
- 34. 係り受け解析 & PMI
イーブイって 出やすいのか?
ソーラービームが 強すぎる!
カイリューゲットしたんだけど 育てるべき?
ラプラスが れいとうビームだったんだけど
「はがねのつばさカイ
リュー」って
ハズレなの?
カイリューに 勝てる・・・だと?
ミュウツーを GETするには?
ギャラドス 作って
フーディンって 強いの?
かえんほうしゃは、 はずれだよね?
シャワーズ虐めすぎたら 調整入るぞ!
イワークが 捕まらない
- 35. おまけ:おススメの環境
• Python
– 強力な文字列処理ライブラリ
– 自然言語処理・機械学習ライブラリも充実
NLTK:http://www.nltk.org/
scikit-learn:http://scikit-
learn.org/stable/
– MecabなどのNLPツールとバインディング
• C#, Java, Perl もよい
• 速度を求めるならC++