More Related Content Similar to [最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 (20) [最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 3. 自然言語処理でできること(代表例)
• 基礎
• 単語分割
• 構文解析
• 固有表現抽出
• パラフレーズ etc.
• 応用
• テキスト分類(ラベル予測)
• 知識抽出
• 要約
• 翻訳、対話
3
俺は海賊王に なるすごい かっこいい
https://news.yahoo.co.jp/pickup/6284525
→IT
23. サブワードの抽出手法
BPE (Byte Pair Encoding)
• データ圧縮のため提案された手法
• 頻出する文字列を新たな記号(サブワード)とする
手法
• データからサブワードを抽出、分割
• アプリケーションにおいて最適な分割かどうかは
不明
• 分割における曖昧性が存在
23
employer →employ er; em p loyer; e m p l o y e r
28. IDF (Inverse Document Frequency)
あるドキュメントに集中して現れる単語は、特徴
的な単語
𝐼𝐼 𝐼𝐼 𝐼𝐼 𝑡𝑡 = log
全ドキュメント数
単語𝑡𝑡が現れるドキュメント数
IDF 大:単語𝑡𝑡は様々なドキュメントに現れる
(冠詞、前置詞)
28
33. InferSent
•SNLI (Stanford Natural Language Inference) で学習
• 2つの文に含意関係があるか、矛盾しているか、
どちらでもないかを予測
•あらゆるアプリケーションで高い性能を発揮する、
汎用的な文ベクトルを生成
美味しいスイーツをプレゼント 人気スイーツを購入
https://github.com/facebookresearch/InferSent
33
64. 学習データがないとき:
目的を置き換えてみる
•quick thoughts (Logeswaran & Lee 2018)
文を上手くベクトル化できていれば、周辺の文を
判別できるはず
Logeswaran & Lee: An efficient framework for learning sentence representations, ICLR 2018.
美味しいスイーツをプレゼント RNN
商品がすぐに壊れた RNN
ケーキと一緒にコーヒーを飲んだ RNN
いい天気ですね RNN
Classifier
2
64