SlideShare a Scribd company logo
1 of 32
Download to read offline
ソーシャルメディア分析サービスにおけ
るNLPに関する諸問題について
株式会社ホットリンク
榊 剛史 水木 栄
サービス紹介
ソーシャルメディア分析ツール
Copyright© Hottolink, Inc.
▶TOPICS ソーシャルメディア分析ツールの機能
検索機能 記事数集計
本文抽出
Copyright© Hottolink, Inc.
▶TOPICS ソーシャルメディア分析ツールの機能
話題語
関連語
Copyright© Hottolink, Inc.
▶TOPICS 分析機能とNLP技術の関係
検索 関連語話題語 評判
属性推定 スパム判定
形態素解析
(分かち書き)
複合語処理 評判分析
スパムフィルタユーザ属性
係り受け解析
ソーシャルメディアの文書
前処理
Copyright© Hottolink, Inc.
▶TOPICS
Copyright© Hottolink, Inc.
▶TOPICS ソーシャルメディアに見られる文書の特徴
「高飛車」だけじゃない…過去に起きたジェットコースター
の事故 http://dlvr.it/Kjs0CJ #事件 #事故
ファミマのおそ松さんクリアファイルとクリアコースター
の推し松買えた♡♡.+*:゚+。7時に行ったのに最後の
全松最後の1枚だった(笑)凄い人気だな(笑)さてまた
お菓子が増えた…(:3)っ⌒つ
【おそ松さん】予約のオススメ① 5月発売予定
「ラバーコースターvol.2」が好評予約受付中どす
え!! 六つ子の変顔、ヤバ顔、おもろ顔、ドヤ顔、
あざと顔、チョロ顔といろんな表情がぜんぶカワイイ
グッズどすぅ!ご予約はアニメイト京都店で!
種類 説明
複合名詞 一般単名詞が連接して作られる名詞
固有表現(複合名詞含む) 人名や地名などといった固有名詞や、日付表現、時間表現など
専門用語(jargon) 特定の集団のみで通じる用語
口語表現(Slang) 話し言葉のようなくだけた表現
顔文字・絵文字(emoticon) 表情や動作を図的に表現する文字や記号、単独の文字の集合
テキストメタ情報 テキスト形式で本文に埋め込まれたメタ情報
Copyright© Hottolink, Inc.
▶TOPICS 目的に即した分かち書きの必要性
目的 望ましい要件
検索インデックスの作成
([高橋ら 2016])
・短単位志向であること(Recall確保のため)
・再現性が高いこと
・高速に動作すること
固有表現/エンティティ抽出
単語分散表現の前処理
・長単位志向であること、
理想的には固有表現/エンティティと同一単位であること
・未知語に頑健であること
未知語の自動獲得 ・辞書に依存しないこと
・人手による整備を必要としないこと
• 分かち書き=文を「意味の基本単位」である語に分割すること
• 日本語NLPにおいて、基本単位をどのように定めるかは難しい問題である(黒
橋[2016])
• NLP応用サービスにおいても、適切な分かち書きの方法は目的に応じて異な
る。代表的なものとして下表の3例を挙げる
• 目的に応じて要件が異なるため、汎用的手法のみによる解決は困難である
Copyright© Hottolink, Inc.
▶TOPICS 目次
1. 前処理
• 文字の正規化
• テキストメタ情報の除去・抽出
2. 分かち書き・形態素解析
• 辞書の拡張
• カタカナ複合語の分割
• 顔文字の認識
3. 複合語処理
• ルールに基づく連結
• 連接頻度に基づく統計的な連結
Copyright© Hottolink, Inc.
▶TOPICS 1. 前処理
検索 関連語話題語
形態素解析
(分かち書き)
複合語処理
ソーシャルメディアの文書
前処理
Copyright© Hottolink, Inc.
▶TOPICS 文字の正規化
問題例
Playstation3(全角) ⇔ Playstation3(半角) ㍉ ⇔ ミリ ハ゛ラモス ⇔ バラモス
• 見た目上は同じような・類似した表記でも、内部表現(文字コード)としては
異なる表記として扱われる場合が多数ある。
• 見た目上の表記が同じであれば、同じ文字列として扱いたい
解決策 Unicode正規化(NFKC)を用いる
• Unicode正規化:等価な文字や文字の並びを統一的な内部表現に変換すること
正規化前 NFD(正規分解) NFKD(互換分解) NFC(正規合成) NFKC(互換合成)
が か+゛ か+゛ が が
か+゛ か+゛ か+゛ が が
ア(全角) ア ア ア ア
ア(半角) ア ア ア ア
Copyright© Hottolink, Inc.
▶TOPICS 文字の正規化
• Unicodeの正規化(Unicode[1998])
– NFD(Normalization Form Canonical Decomposition)
• 正準等価性に基づく分解
– NFC(Normalization Form Canonical Composition)
• 正準等価性に基づく分解後、正準等価性に基づいて再度合成
– NFKD(Normalization Form Compatibility Decomposition)
• 互換等価性に基づく分解
– NFKC(Normalization Form Compatibility Composition)
• 互換等価性に基づく分解後、正準等価性に基づいて再度合成
分解: が(U+304c)→か(U+304b)+゛ (U+3099)
合成: か(U+304b)+゛ (U+3099)→が(U+304c)
互換等価性:見た目がまったく同じではないが、内部表現が異なる
ア(U+FF71)→ア(30a2)
正準等価性:文字コードは異なるが、外見上は同じである
が(U+304c)→か(U+304b)+゛ (U+3099)
参考
Copyright© Hottolink, Inc.
▶TOPICS 文字の正規化
参考 正規化対象外の文字→ ‘Punctuation, Dash’ カテゴリ
http://www.fileformat.info/info/unicode/category/Pd/list.htm
https://hydrocul.github.io/wiki/blog/2014/1101-hyphen-minus-wave-tilde.html
Copyright© Hottolink, Inc.
▶TOPICS テキストメタ情報の除去・抽出
問題例
• ソーシャルメディアの場合、文書に対するメタ情報がテキスト形式で本文に
埋め込まれることが多い
• これらのメタ情報により分かち書き誤りが発生する場合がある
種類 事例 正規表現
URL pic.twitter.com/oW4JAHFfBF 秘伝のタレのため削除
ハッシュタグ #nlp2016, ¥#¥S+
ユーザ名 @noroke_miner ¥@[a-zA-Z0-9_]
解決策 正規表現による除去・抽出
• 除去:URLやユーザ名(screen_name)のように、単語として扱わない語は、正規表現
で除去
• 抽出:ハッシュタグのように、単語として扱いたい語は、正規表現で除去した後、最後
の分かち書き結果に追加する
Copyright© Hottolink, Inc.
▶TOPICS 2. 分かち書き・形態素解析
検索 関連語話題語
分かち書き
形態素解析
複合語処理
ソーシャルメディアの文書
前処理
Copyright© Hottolink, Inc.
▶TOPICS 辞書の拡張
• 固有表現/エンティティ抽出を志向する場合、固有表現の単位で分かち書き
されることが望ましい
• 汎用志向の辞書(ipadic, unidicなど)を用いると、分割が過剰になりやすい
分類 固有表現 MeCab + IPADIC(Ver.2.7.0)
新語 スマートフォン スマート|フォン
人名 福山雅治 福山|雅治
ランドマーク 東京スカイツリー 東京|スカイ|ツリー
専門用語 消費者態度指数 消費|者|態度|指数
問題例
アプローチ
• 固有表現を簡便かつ高精度に獲得したい場合、辞書の拡張が有効である
• 特にソーシャルメディアに対しては、ウェブ上の情報から獲得した語彙との親
和性が高い
– 芸能、社会、政治・経済、組織・企業、音楽、ゲーム・アニメ…
• 情報ソースとしては、ユーザー生成型百科事典の見出し語が特に有用である
– Wikipedia日本語版、はてなキーワード(© 2001 Hatena)
Copyright© Hottolink, Inc.
▶TOPICS 辞書の拡張
• mecab-ipadic-NEologd(Sato[2015])は、ウェブ上の言語資源から得た新語を
追加したMeCab用辞書を一般に公開する試みである
• 利用の障壁が低く、処理速度・網羅性に優れた方法である
分類 固有表現 MeCab + mecab-ipadic-NEologd(Ver.2016-02-01)
新語 スマートフォン スマートフォン
人名 福山雅治 福山雅治
ランドマーク 東京スカイツリー 東京スカイツリー
専門用語 消費者態度指数 消費者態度指数
解決策
対処困難な事象
• ウェブ上の言語資源、特にウェブ百科事典の見出し語には、形態素辞書エ
ントリとして不適切なものも含まれているため、取捨選択処理が必要である
– 不適当な見出し語の例: 「あ」「1月1日」「企業一覧」「明日の私」「よろしくお願いします」…
• JUMAN辞書の手法(柴田ら[2012])のように、既存の形態素解析器の出力を素
性として利用するアプローチが有力である
– 一形態素とみなすルールを定義する、二値分類器を学習する など
Copyright© Hottolink, Inc.
▶TOPICS カタカナ複合語の分割
• 英語複合語は、カタカナ複合語として表記される場合が多い
– 例:Crew Neck Raglan Shirt = クルーネックラグランシャツ
– 特に衣料品・食料品・化粧品に多い印象
• IPADICは多くの場合に望ましい結果を返してくれるが、カタカナ複合語は分
かち書きされないことが多い。これは検索のRecallなどに悪影響を及ぼしうる
問題例
アプローチ
• 短単位を志向したユーザ辞書を併用する、あるいはシステム辞書を利用する
ことが有効である
英語複合語 カタカナ複合語 MeCab + IPADIC(Ver.2.7.0)
Crew Neck Raglan Shirt クルーネックラグランシャツ クルーネックラグランシャツ
Sliced Tomato Salad スライストマトサラダ スライストマトサラダ
Face Cleansing Oil フェイスクレンジングオイル フェイスクレンジングオイル
Copyright© Hottolink, Inc.
▶TOPICS カタカナ複合語の分割
• IPADICを用いて形態素解析を行ってから、長文字数のカタカナ語のみを抽
出して、UniDic(小木曽ら[2013])を用いて再解析を行う
• UniDicは揺れの少ない短単位で設計されているため、一般名詞については
分かち書きされる場合が多い
• 利用の障壁が低く、処理速度・再現性に優れた方法である
解決策
対処困難な事象
• 品詞体系が異なるため、分析者自身が適宜補正する必要がある
• 未知語(特に新語)を含む場合は不十分
英語複合語 カタカナ複合語 MeCab + UniDic(Ver.2.1.2)
Crew Neck Raglan Shirt クルーネックラグランシャツ クルー|ネック|ラグラン|シャツ
Sliced Tomato Salad スライストマトサラダ スライス|トマト|サラダ
Face Cleansing Oil フェイスクレンジングオイル フェイス|クレンジング|オイル
Copyright© Hottolink, Inc.
▶TOPICS 顔文字の認識
• 顔文字は、顔のように見える文字・記号列を用いた表現である。ソーシャル
データにおいては頻繁に利用される
– 「\(^o^)/」「(>_<)」「(^^)」「(*^^*)」いずれかを含むブログ記事は、全記事の3.6%を占める
• 汎用志向の辞書を用いると、記号列として分かち書きされる場合が多い
– IPADICの場合、厳密には「名詞-サ変接続」品詞が付与される場合が多い
• 理想的には、感情語の一種として取り扱いたい
– 評判分析などの特徴量として有効
顔文字 MeCab + IPADIC(Ver.2.7.0)
\(^o^)/ \(^␣o␣^)/
(´・ω・`) (´␣・␣ω␣・␣`)
(´Д` ) (´␣Д␣` ␣)
問題例
アプローチ
• 簡便かつ分かち書きのみを目的とする場合、ルールベースの処理が有効
• Precisionを制御しつつ感情語への置換を目的とする場合、辞書の拡張が有効
Copyright© Hottolink, Inc.
▶TOPICS (参考)顔文字の統計的性質
• 顔文字を単語とみなして単語分散表現を推定、次元圧縮を行うと、おおむ
ね感情語と整合的な配置が得られる
出典:弊社・風間研究室の共同研究
Word2Vec + t-SNE
Copyright© Hottolink, Inc.
▶TOPICS 顔文字の認識
• 顔文字の規則性を利用して、抽出する(風間ら[2013],三好[2013])
※本技術は、和歌山大学 風間研究室からの技術提供による
• 短所は、(1)誤認識が生じること (2)対応する感情語が自明でないこと
解決策その1
解決策その2
• 顔文字頻度分布がZipFの法則に従うことを仮定して、出現頻度の高い顔文
字を辞書に登録する
– 実際にZipFの法則はよく当てはまる。上位5,000種類で約90%(推定値)を網羅できる
• 原形に感情語を登録することにより、顔文字を単語に置換・集約できる
– 感情語は単語分散表現を用いて推定する(黒崎[2015])
• mecab-ipadic-NEologdにも一部の顔文字が登録されている
顔文字 MeCab + mecab-ipadic-NEologd(Ver.2016-02-01) 原形
\(^o^)/ \(^o^)/ バンザイ
(´・ω・`) (´␣・␣ω␣・␣`) -
(´Д` ) (´Д` ) カオモジ
Copyright© Hottolink, Inc.
▶TOPICS 顔文字の認識
対処困難な事象
• 顔文字は改変が容易であるため、活用形(?)が大量に存在する
– 改変の例:パーツの置換、装飾の付与・除去、スペースの挿入、繰り返し など
– 活用形を別種と認識すると、顔文字の種類は数十万に上る
• 活用形を自動的に認識して、基本形(?)に集約することが望ましい
• 文字n-gramを素性に用いることで、相応の精度を実現することができる
– 下表は Bag-of-char-{uni+bi}gram + NMF(dim=20) + L2.distance(top-k) で作成したもの
基本形 活用形1 活用形2 活用形3 活用形4
(〃∇〃) (〃∇〃)ゞ (〃~∇~〃) (ノ∇〃) (>∧<)
ヽ(≧▽≦)/ ヽ(〃▽〃)/ ヽ(≧∇≦)/ ヽ(≧▽≦)/♪ ♪ヽ(≧▽≦)/
(#^_^#) (^_^#) (^_^)# (^_^)q p(^_^)
(^-^)o o(^-^) (o^-^) (^-^o) ヾ(^o^-)
(ρ_-)ノ (ノ_-) (ρ_-) (つ_-) (σ_-)
((´^ω^)) ((´^ω^))♪ ((´^ω^) ((´^ω^))♥ ヾ(´^ω^)ノ
出典:弊社分析
Copyright© Hottolink, Inc.
▶TOPICS 3. 複合語処理
検索 関連語話題語
分かち書き
形態素解析
複合語処理
ソーシャルメディアの文書
前処理
Copyright© Hottolink, Inc.
▶TOPICS ルールに基づく連結
問題例
• 複合名詞において、結合される品詞には一定のパターンがある
• 上記パターンに注目し、複合名詞となりうるかの手がかりとして用いる
種類 複合名詞 MeCab + IPADIC(Ver.2.7.0)
固有表現(地名) アスティ三島駅 アスティ|三島|駅
固有表現(地名) 裏なんば 裏|なんば
固有表現(製品名) 牧場の朝 牧場|の|朝
固有表現(製品名) 有吉の怒り新党 有吉|の|怒り|新党
専門用語(ジャニーズ) スマ兄さん スマ|兄さん
専門用語(ソシャゲ) 無課金 無|課金
アプローチ
• 固有表現/エンティティ抽出のほか、特徴語抽出・トピック抽出・係り受け解
析における専門用語抽出においては、未知語を固有表現の単位で分かち
書きされることが望ましい
• 汎用志向の辞書(ipadic, unidicなど)を用いると、分割が過剰になりやすい
Copyright© Hottolink, Inc.
▶TOPICS ルールに基づく連結
解決策 複合名詞として認識すべき品詞の連接パターンを予め定めておく
アスティ|三島|駅
名詞,固有名詞,組織 名詞,固有名詞,組織 名詞,接尾,地域
牧場|の|朝
名詞,一般,* 助詞,連体化,* 名詞,副詞可能,*
複合名詞 種類 品詞の連接情報 名詞
アスティ三島駅 固有表現(地名) (名詞,固有名詞,組織)(名詞,固有名詞,組織)(名詞,接尾,地域) TRUE
裏なんば 固有表現(地名) (名詞,一般,*)(名詞,固有名詞,地域) TRUE
牧場の朝 固有表現(製品名) (名詞,一般,*)( 助詞,連体化,*)(名詞,副詞可能,*) TRUE
有吉の怒り新党 固有表現(製品名) (名詞,固有名詞,人名)(助詞,連体化,*)(名詞,一般,*)(名詞,一般,*) TRUE
スマ兄さん 専門用語(ジャニーズ) (名詞,固有名詞,一般)(名詞,一般,*) TRUE
無課金 専門用語(ソシャゲ) (接頭詞,名詞接続,*)(名詞,サ変接続,*) TRUE
はがない 専門用語(オタク) (動詞,自立,*)(助動詞,*,*) FALSE
ごはんですよ 固有表現(製品名) (名詞,一般,*)(助動詞,*,*)(助詞,終助詞,*) FALSE
対象困難な事例
・未知語への対応が可能
・ルールベースであるため、事前学習が不要
・確実性の高いルールのみを採用することで、
Precisionの制御が可能
・既存の文法ルールから外れている固有名詞
例:はがない、よなよなエール、ごはんですよ
Copyright© Hottolink, Inc.
▶TOPICS 連接頻度に基づく統計的な連結
問題例
• 固有表現/エンティティ抽出のみならず、トピック抽出や係り受け解析における専
門用語抽出において、未知語を固有表現の単位で分かち書きされることが望ま
しい
• 汎用志向の辞書(ipadic, unidicなど)を用いると、分割が過剰になりやすい
種類 複合名詞 MeCab + IPADIC(Ver.2.7.0)
固有表現(製品名) ごはんですよ ごはん|です|よ
専門用語 新事業活動促進法 新|事業|活動|促進|法
専門用語 炭素繊維複合素材 炭素|繊維|複合|素材
• 複合名詞は、ある概念を表す単名詞を連接することで構成されることが多い
• コーパスから単名詞について「複合名詞への含まれやすさ」を算出すること
ができれば、単名詞の連接に対して「複合名詞らしさ」のスコアが算出可能
アプローチ
Copyright© Hottolink, Inc.
▶TOPICS 連接頻度に基づく統計的な連結
新|事業|活動|促進|法
解決策
𝐿𝑅 新|事業|活動|促進|法 = 𝐹𝐿 𝑁𝑖 + 1
𝐿
𝑖=1
𝐹𝑅 𝑁𝑖 + 1
1
2𝐿
𝐹𝐿 𝑁 (𝐹𝑅 𝑁 ):単名詞Nの左方(右方)に連接した際の複合名詞の形成されやすさ
文書中の連接頻度に基づいて統計的に「複合名詞らしさ」を算出する
・単名詞への対応がコーパスに含まれている場合、それらにより構成される未知語を処理可能
・学習データを用いるため、事前知識が不要
・閾値を低く設定することで、Recallを制御しやすい
例:termEX(中川[2003])
対象困難な事例
種類 複合名詞 名詞
固有表現(製品名) ごはんですよ TRUE
専門用語 新事業活動促進法 TRUE
専門用語 炭素繊維複合素材 TRUE
定型句 あけおけ TRUE
定型句 お誕生日おめ TRUE
・定型フレーズの誤認識
あけおめ、お誕生日おめ
・十分な出現頻度が無い語への対応が困難
Copyright© Hottolink, Inc.
▶TOPICS
Copyright© Hottolink, Inc.
▶TOPICS まとめ
• NLP応用サービスには、汎用的手法では対応困難な課題が存在する
– 要因その1:ソーシャルメディア文書に特有の性質
– 要因その2:目的に即した分かち書きの必要性
• 前処理・形態素解析/分かち書き・複合語処理において、特殊な手法を用
いることがしばしば有効である
• 弊社内で用いられる知見・工夫・解決策の一部をご紹介した
– 文字の正規化、テキストメタ情報の処理
– 辞書の拡張、カタカナ複合語の分割、顔文字の認識
– ルールに基づく連結、連接頻度に基づく統計的な連結
• 解決策の考案・実施においては、NLP分野を中心とした先行研究・言語資
源・ツールに依拠する部分が非常に大きい。改めて感謝申し上げます
• 「やわらかい」言語表現に対する研究・関心が継続されることおよび、知
見の体系化が進展することを期待しております
Copyright© Hottolink, Inc.
▶TOPICS
Copyright© Hottolink, Inc.
▶TOPICS 余談:中国語ソーシャルメディア分析
• 中国国内には、独自のソーシャルメディアが存在する
– Weibo(微博:マイクロブログ)
– WeChat(微信:インスタントメッセンジャー)
– Blog(博客)
• 弊社では2015年より、ソーシャルメディア分析を目的とした中
国語NLPの基礎研究に着手した
Copyright© Hottolink, Inc.
▶TOPICS
Copyright© Hottolink, Inc.
▶TOPICS 余談:中国語ソーシャルメディア分析
• Weiboには Chinese Penn Treebank とは異なる世界が広がっていた…
我々の戦いはこれからだ!
日本語/中国語混在 テキストメタ情報
固有表現(商品名)口語表現
絵文字
Copyright© Hottolink, Inc.
▶TOPICS
Copyright© Hottolink, Inc.
▶TOPICS 参考文献
• Unicode, Inc. 1998. Unicode® Standard Annex #15 UNICODE NORMALIZATION FORMS.
– http://www.unicode.org/reports/tr15/
• Toshinori Sato. 2015. Neologism dictionary based on the language resources on the Web for
Mecab.
– https://github.com/neologd/mecab-ipadic-neologd
• 黒橋 禎夫. 自然言語処理. 放送大学教育振興会. 2015.
• 小木曽 智信, 伝 康晴. UniDic2: 拡張性と応用可能性にとんだ電子化辞書. 言語処理学会第
19回年次大会, 2013.
• 風間 一洋, 榊 剛史, 鳥海 不二夫, 篠田 孝祐, 栗原 聡, 野田 五十樹. 顔文字に着目したツ
イートの感情変化の分析. WebDB Forum 2013. A2-3
• 三好辰明, 太田学. ツイートに出現する顔文字等の文字と記号に着目した感情分類. DEIM
Forum,March 2013.
• 黒崎 優太, 高木 友博. Word2Vecを用いた顔文字の感情分類. 言語処理学会第21回年次大
会, 2015.
• 中川裕志, 森辰則, 湯本紘彰. 出現頻度と連接頻度に基づく専門用語抽出. 自然言語処理,
Vol.10 No.1, pp. 27 - 45, 2003.
– http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html
• 柴田 知秀, et al. 実テキスト解析をささえる語彙知識の自動獲得. 言語処理学会第18回年
次大会, 2012.
• 高橋 文彦, 颯々野 学. 情報検索のための単語分割一貫性の定量的評価.言語処理学会第
22回年次大会, 2016.

More Related Content

What's hot

Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
Crfと素性テンプレート
Crfと素性テンプレートCrfと素性テンプレート
Crfと素性テンプレートKei Uchiumi
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向Koichiro Mori
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)Deep Learning JP
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要Kenji Urai
 
[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデルDeep Learning JP
 
次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode
次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode
次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacodeHirotaka Matsumoto
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価Kitamura Laboratory
 
クラシックな機械学習の入門  11.評価方法
クラシックな機械学習の入門  11.評価方法クラシックな機械学習の入門  11.評価方法
クラシックな機械学習の入門  11.評価方法Hiroshi Nakagawa
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)narumikanno0918
 
fastTextの実装を見てみた
fastTextの実装を見てみたfastTextの実装を見てみた
fastTextの実装を見てみたYoshihiko Shiraki
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 

What's hot (20)

Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
Crfと素性テンプレート
Crfと素性テンプレートCrfと素性テンプレート
Crfと素性テンプレート
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
 
[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル
 
TabNetの論文紹介
TabNetの論文紹介TabNetの論文紹介
TabNetの論文紹介
 
次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode
次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode
次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
機械学習と主成分分析
機械学習と主成分分析機械学習と主成分分析
機械学習と主成分分析
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
 
クラシックな機械学習の入門  11.評価方法
クラシックな機械学習の入門  11.評価方法クラシックな機械学習の入門  11.評価方法
クラシックな機械学習の入門  11.評価方法
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
 
fastTextの実装を見てみた
fastTextの実装を見てみたfastTextの実装を見てみた
fastTextの実装を見てみた
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 

Viewers also liked

ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031Jun Okumura
 
第35回 強化学習勉強会・論文紹介 [Lantao Yu : 2016]
第35回 強化学習勉強会・論文紹介 [Lantao Yu : 2016]第35回 強化学習勉強会・論文紹介 [Lantao Yu : 2016]
第35回 強化学習勉強会・論文紹介 [Lantao Yu : 2016]Takayuki Sekine
 
「人工知能」の表紙に関するTweetの分析・続報
「人工知能」の表紙に関するTweetの分析・続報「人工知能」の表紙に関するTweetの分析・続報
「人工知能」の表紙に関するTweetの分析・続報Fujio Toriumi
 
Generative adversarial networks
Generative adversarial networksGenerative adversarial networks
Generative adversarial networksShuyo Nakatani
 
オープンソースを利用した新時代を生き抜くためのデータ解析
オープンソースを利用した新時代を生き抜くためのデータ解析オープンソースを利用した新時代を生き抜くためのデータ解析
オープンソースを利用した新時代を生き抜くためのデータ解析nakapara
 
Twitter炎上分析事例 2014年
Twitter炎上分析事例 2014年Twitter炎上分析事例 2014年
Twitter炎上分析事例 2014年Takeshi Sakaki
 
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...Yuya Unno
 
[DL輪読会]Adversarial Feature Matching for Text Generation
[DL輪読会]Adversarial Feature Matching for Text Generation[DL輪読会]Adversarial Feature Matching for Text Generation
[DL輪読会]Adversarial Feature Matching for Text GenerationDeep Learning JP
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 
あなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイントあなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイントShohei Hido
 
オンコロジストなるためのスキル
オンコロジストなるためのスキルオンコロジストなるためのスキル
オンコロジストなるためのスキルmusako-oncology
 
Uncertainty Awareness in Integrating Machine Learning and Game Theory
Uncertainty Awareness in Integrating Machine Learning and Game TheoryUncertainty Awareness in Integrating Machine Learning and Game Theory
Uncertainty Awareness in Integrating Machine Learning and Game TheoryRikiya Takahashi
 
新たなRNNと自然言語処理
新たなRNNと自然言語処理新たなRNNと自然言語処理
新たなRNNと自然言語処理hytae
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたknjcode
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...Deep Learning JP
 
Deep LearningフレームワークChainerと最近の技術動向
Deep LearningフレームワークChainerと最近の技術動向Deep LearningフレームワークChainerと最近の技術動向
Deep LearningフレームワークChainerと最近の技術動向Shunta Saito
 
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料tm_2648
 
現在のDNNにおける未解決問題
現在のDNNにおける未解決問題現在のDNNにおける未解決問題
現在のDNNにおける未解決問題Daisuke Okanohara
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative ModelsSeiya Tokui
 

Viewers also liked (20)

ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031
 
第35回 強化学習勉強会・論文紹介 [Lantao Yu : 2016]
第35回 強化学習勉強会・論文紹介 [Lantao Yu : 2016]第35回 強化学習勉強会・論文紹介 [Lantao Yu : 2016]
第35回 強化学習勉強会・論文紹介 [Lantao Yu : 2016]
 
「人工知能」の表紙に関するTweetの分析・続報
「人工知能」の表紙に関するTweetの分析・続報「人工知能」の表紙に関するTweetの分析・続報
「人工知能」の表紙に関するTweetの分析・続報
 
Generative adversarial networks
Generative adversarial networksGenerative adversarial networks
Generative adversarial networks
 
オープンソースを利用した新時代を生き抜くためのデータ解析
オープンソースを利用した新時代を生き抜くためのデータ解析オープンソースを利用した新時代を生き抜くためのデータ解析
オープンソースを利用した新時代を生き抜くためのデータ解析
 
Twitter炎上分析事例 2014年
Twitter炎上分析事例 2014年Twitter炎上分析事例 2014年
Twitter炎上分析事例 2014年
 
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
 
[DL輪読会]Adversarial Feature Matching for Text Generation
[DL輪読会]Adversarial Feature Matching for Text Generation[DL輪読会]Adversarial Feature Matching for Text Generation
[DL輪読会]Adversarial Feature Matching for Text Generation
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
Argmax Operations in NLP
Argmax Operations in NLPArgmax Operations in NLP
Argmax Operations in NLP
 
あなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイントあなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイント
 
オンコロジストなるためのスキル
オンコロジストなるためのスキルオンコロジストなるためのスキル
オンコロジストなるためのスキル
 
Uncertainty Awareness in Integrating Machine Learning and Game Theory
Uncertainty Awareness in Integrating Machine Learning and Game TheoryUncertainty Awareness in Integrating Machine Learning and Game Theory
Uncertainty Awareness in Integrating Machine Learning and Game Theory
 
新たなRNNと自然言語処理
新たなRNNと自然言語処理新たなRNNと自然言語処理
新たなRNNと自然言語処理
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみた
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
Deep LearningフレームワークChainerと最近の技術動向
Deep LearningフレームワークChainerと最近の技術動向Deep LearningフレームワークChainerと最近の技術動向
Deep LearningフレームワークChainerと最近の技術動向
 
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
 
現在のDNNにおける未解決問題
現在のDNNにおける未解決問題現在のDNNにおける未解決問題
現在のDNNにおける未解決問題
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
 

Similar to 2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用

サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27Kensuke Mitsuzawa
 
形態素解析器 MeCab の新語・固有表現辞書 mecab-ipadic-NEologd のご紹介
形態素解析器 MeCab の新語・固有表現辞書 mecab-ipadic-NEologd のご紹介形態素解析器 MeCab の新語・固有表現辞書 mecab-ipadic-NEologd のご紹介
形態素解析器 MeCab の新語・固有表現辞書 mecab-ipadic-NEologd のご紹介Toshinori Sato
 
#経済学のための実践的データ分析 10. テキスト分析の方法
#経済学のための実践的データ分析 10. テキスト分析の方法#経済学のための実践的データ分析 10. テキスト分析の方法
#経済学のための実践的データ分析 10. テキスト分析の方法Yasushi Hara
 
ソーシャルデザインパターン -評判と情報収集-
ソーシャルデザインパターン -評判と情報収集-ソーシャルデザインパターン -評判と情報収集-
ソーシャルデザインパターン -評判と情報収集-Koichi Hamada
 
卒研中間発表資料:個人に最適化したフィードリーダの構築
卒研中間発表資料:個人に最適化したフィードリーダの構築卒研中間発表資料:個人に最適化したフィードリーダの構築
卒研中間発表資料:個人に最適化したフィードリーダの構築hirokiky
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネスMie Mori
 
提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)MKT International Inc.
 
Generating word clouds in python
Generating word clouds in pythonGenerating word clouds in python
Generating word clouds in pythonAyakaHonda1
 
講義資料におけるマルチユースなリンクをEPUBとLODで実現するシステムの試作
講義資料におけるマルチユースなリンクをEPUBとLODで実現するシステムの試作講義資料におけるマルチユースなリンクをEPUBとLODで実現するシステムの試作
講義資料におけるマルチユースなリンクをEPUBとLODで実現するシステムの試作yamahige
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理Preferred Networks
 
はてなブックマークの新機能における自然言語処理の活用
はてなブックマークの新機能における自然言語処理の活用はてなブックマークの新機能における自然言語処理の活用
はてなブックマークの新機能における自然言語処理の活用Shunsuke Kozawa
 
MemoQ day Tokyo 2018 Terminology Session by Kaori Myatt
MemoQ day Tokyo 2018 Terminology Session by Kaori MyattMemoQ day Tokyo 2018 Terminology Session by Kaori Myatt
MemoQ day Tokyo 2018 Terminology Session by Kaori MyattKaori Myatt
 
SAS Viya Deep Dive: 自然言語処理&AI
SAS Viya Deep Dive: 自然言語処理&AISAS Viya Deep Dive: 自然言語処理&AI
SAS Viya Deep Dive: 自然言語処理&AISAS Institute Japan
 
CRDF2011(20110225)
CRDF2011(20110225)CRDF2011(20110225)
CRDF2011(20110225)真 岡本
 
Ibm watson api サービス
Ibm watson api サービスIbm watson api サービス
Ibm watson api サービスHiroaki Komine
 
Pattern mining-scrum gatheringtokyo20130115
Pattern mining-scrum gatheringtokyo20130115Pattern mining-scrum gatheringtokyo20130115
Pattern mining-scrum gatheringtokyo20130115Hironori Washizaki
 
Call Center Watsonのご紹介(日本IBM GTS Innovation Forum 2017:2017年11月22日発表)
Call Center Watsonのご紹介(日本IBM GTS Innovation Forum 2017:2017年11月22日発表)Call Center Watsonのご紹介(日本IBM GTS Innovation Forum 2017:2017年11月22日発表)
Call Center Watsonのご紹介(日本IBM GTS Innovation Forum 2017:2017年11月22日発表)Hiroshi Tomioka
 

Similar to 2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用 (20)

サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
 
形態素解析器 MeCab の新語・固有表現辞書 mecab-ipadic-NEologd のご紹介
形態素解析器 MeCab の新語・固有表現辞書 mecab-ipadic-NEologd のご紹介形態素解析器 MeCab の新語・固有表現辞書 mecab-ipadic-NEologd のご紹介
形態素解析器 MeCab の新語・固有表現辞書 mecab-ipadic-NEologd のご紹介
 
#経済学のための実践的データ分析 10. テキスト分析の方法
#経済学のための実践的データ分析 10. テキスト分析の方法#経済学のための実践的データ分析 10. テキスト分析の方法
#経済学のための実践的データ分析 10. テキスト分析の方法
 
ソーシャルデザインパターン -評判と情報収集-
ソーシャルデザインパターン -評判と情報収集-ソーシャルデザインパターン -評判と情報収集-
ソーシャルデザインパターン -評判と情報収集-
 
卒研中間発表資料:個人に最適化したフィードリーダの構築
卒研中間発表資料:個人に最適化したフィードリーダの構築卒研中間発表資料:個人に最適化したフィードリーダの構築
卒研中間発表資料:個人に最適化したフィードリーダの構築
 
Automatic Summarization
Automatic SummarizationAutomatic Summarization
Automatic Summarization
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)
 
言語処理学会へ遊びに行ったよ
言語処理学会へ遊びに行ったよ言語処理学会へ遊びに行ったよ
言語処理学会へ遊びに行ったよ
 
Generating word clouds in python
Generating word clouds in pythonGenerating word clouds in python
Generating word clouds in python
 
講義資料におけるマルチユースなリンクをEPUBとLODで実現するシステムの試作
講義資料におけるマルチユースなリンクをEPUBとLODで実現するシステムの試作講義資料におけるマルチユースなリンクをEPUBとLODで実現するシステムの試作
講義資料におけるマルチユースなリンクをEPUBとLODで実現するシステムの試作
 
Erpと自然言語処理
Erpと自然言語処理Erpと自然言語処理
Erpと自然言語処理
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
 
はてなブックマークの新機能における自然言語処理の活用
はてなブックマークの新機能における自然言語処理の活用はてなブックマークの新機能における自然言語処理の活用
はてなブックマークの新機能における自然言語処理の活用
 
MemoQ day Tokyo 2018 Terminology Session by Kaori Myatt
MemoQ day Tokyo 2018 Terminology Session by Kaori MyattMemoQ day Tokyo 2018 Terminology Session by Kaori Myatt
MemoQ day Tokyo 2018 Terminology Session by Kaori Myatt
 
SAS Viya Deep Dive: 自然言語処理&AI
SAS Viya Deep Dive: 自然言語処理&AISAS Viya Deep Dive: 自然言語処理&AI
SAS Viya Deep Dive: 自然言語処理&AI
 
CRDF2011(20110225)
CRDF2011(20110225)CRDF2011(20110225)
CRDF2011(20110225)
 
Ibm watson api サービス
Ibm watson api サービスIbm watson api サービス
Ibm watson api サービス
 
Pattern mining-scrum gatheringtokyo20130115
Pattern mining-scrum gatheringtokyo20130115Pattern mining-scrum gatheringtokyo20130115
Pattern mining-scrum gatheringtokyo20130115
 
Call Center Watsonのご紹介(日本IBM GTS Innovation Forum 2017:2017年11月22日発表)
Call Center Watsonのご紹介(日本IBM GTS Innovation Forum 2017:2017年11月22日発表)Call Center Watsonのご紹介(日本IBM GTS Innovation Forum 2017:2017年11月22日発表)
Call Center Watsonのご紹介(日本IBM GTS Innovation Forum 2017:2017年11月22日発表)
 

2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用

  • 4. Copyright© Hottolink, Inc. ▶TOPICS ソーシャルメディア分析ツールの機能 検索機能 記事数集計 本文抽出
  • 5. Copyright© Hottolink, Inc. ▶TOPICS ソーシャルメディア分析ツールの機能 話題語 関連語
  • 6. Copyright© Hottolink, Inc. ▶TOPICS 分析機能とNLP技術の関係 検索 関連語話題語 評判 属性推定 スパム判定 形態素解析 (分かち書き) 複合語処理 評判分析 スパムフィルタユーザ属性 係り受け解析 ソーシャルメディアの文書 前処理
  • 7. Copyright© Hottolink, Inc. ▶TOPICS Copyright© Hottolink, Inc. ▶TOPICS ソーシャルメディアに見られる文書の特徴 「高飛車」だけじゃない…過去に起きたジェットコースター の事故 http://dlvr.it/Kjs0CJ #事件 #事故 ファミマのおそ松さんクリアファイルとクリアコースター の推し松買えた♡♡.+*:゚+。7時に行ったのに最後の 全松最後の1枚だった(笑)凄い人気だな(笑)さてまた お菓子が増えた…(:3)っ⌒つ 【おそ松さん】予約のオススメ① 5月発売予定 「ラバーコースターvol.2」が好評予約受付中どす え!! 六つ子の変顔、ヤバ顔、おもろ顔、ドヤ顔、 あざと顔、チョロ顔といろんな表情がぜんぶカワイイ グッズどすぅ!ご予約はアニメイト京都店で! 種類 説明 複合名詞 一般単名詞が連接して作られる名詞 固有表現(複合名詞含む) 人名や地名などといった固有名詞や、日付表現、時間表現など 専門用語(jargon) 特定の集団のみで通じる用語 口語表現(Slang) 話し言葉のようなくだけた表現 顔文字・絵文字(emoticon) 表情や動作を図的に表現する文字や記号、単独の文字の集合 テキストメタ情報 テキスト形式で本文に埋め込まれたメタ情報
  • 8. Copyright© Hottolink, Inc. ▶TOPICS 目的に即した分かち書きの必要性 目的 望ましい要件 検索インデックスの作成 ([高橋ら 2016]) ・短単位志向であること(Recall確保のため) ・再現性が高いこと ・高速に動作すること 固有表現/エンティティ抽出 単語分散表現の前処理 ・長単位志向であること、 理想的には固有表現/エンティティと同一単位であること ・未知語に頑健であること 未知語の自動獲得 ・辞書に依存しないこと ・人手による整備を必要としないこと • 分かち書き=文を「意味の基本単位」である語に分割すること • 日本語NLPにおいて、基本単位をどのように定めるかは難しい問題である(黒 橋[2016]) • NLP応用サービスにおいても、適切な分かち書きの方法は目的に応じて異な る。代表的なものとして下表の3例を挙げる • 目的に応じて要件が異なるため、汎用的手法のみによる解決は困難である
  • 9. Copyright© Hottolink, Inc. ▶TOPICS 目次 1. 前処理 • 文字の正規化 • テキストメタ情報の除去・抽出 2. 分かち書き・形態素解析 • 辞書の拡張 • カタカナ複合語の分割 • 顔文字の認識 3. 複合語処理 • ルールに基づく連結 • 連接頻度に基づく統計的な連結
  • 10. Copyright© Hottolink, Inc. ▶TOPICS 1. 前処理 検索 関連語話題語 形態素解析 (分かち書き) 複合語処理 ソーシャルメディアの文書 前処理
  • 11. Copyright© Hottolink, Inc. ▶TOPICS 文字の正規化 問題例 Playstation3(全角) ⇔ Playstation3(半角) ㍉ ⇔ ミリ ハ゛ラモス ⇔ バラモス • 見た目上は同じような・類似した表記でも、内部表現(文字コード)としては 異なる表記として扱われる場合が多数ある。 • 見た目上の表記が同じであれば、同じ文字列として扱いたい 解決策 Unicode正規化(NFKC)を用いる • Unicode正規化:等価な文字や文字の並びを統一的な内部表現に変換すること 正規化前 NFD(正規分解) NFKD(互換分解) NFC(正規合成) NFKC(互換合成) が か+゛ か+゛ が が か+゛ か+゛ か+゛ が が ア(全角) ア ア ア ア ア(半角) ア ア ア ア
  • 12. Copyright© Hottolink, Inc. ▶TOPICS 文字の正規化 • Unicodeの正規化(Unicode[1998]) – NFD(Normalization Form Canonical Decomposition) • 正準等価性に基づく分解 – NFC(Normalization Form Canonical Composition) • 正準等価性に基づく分解後、正準等価性に基づいて再度合成 – NFKD(Normalization Form Compatibility Decomposition) • 互換等価性に基づく分解 – NFKC(Normalization Form Compatibility Composition) • 互換等価性に基づく分解後、正準等価性に基づいて再度合成 分解: が(U+304c)→か(U+304b)+゛ (U+3099) 合成: か(U+304b)+゛ (U+3099)→が(U+304c) 互換等価性:見た目がまったく同じではないが、内部表現が異なる ア(U+FF71)→ア(30a2) 正準等価性:文字コードは異なるが、外見上は同じである が(U+304c)→か(U+304b)+゛ (U+3099) 参考
  • 13. Copyright© Hottolink, Inc. ▶TOPICS 文字の正規化 参考 正規化対象外の文字→ ‘Punctuation, Dash’ カテゴリ http://www.fileformat.info/info/unicode/category/Pd/list.htm https://hydrocul.github.io/wiki/blog/2014/1101-hyphen-minus-wave-tilde.html
  • 14. Copyright© Hottolink, Inc. ▶TOPICS テキストメタ情報の除去・抽出 問題例 • ソーシャルメディアの場合、文書に対するメタ情報がテキスト形式で本文に 埋め込まれることが多い • これらのメタ情報により分かち書き誤りが発生する場合がある 種類 事例 正規表現 URL pic.twitter.com/oW4JAHFfBF 秘伝のタレのため削除 ハッシュタグ #nlp2016, ¥#¥S+ ユーザ名 @noroke_miner ¥@[a-zA-Z0-9_] 解決策 正規表現による除去・抽出 • 除去:URLやユーザ名(screen_name)のように、単語として扱わない語は、正規表現 で除去 • 抽出:ハッシュタグのように、単語として扱いたい語は、正規表現で除去した後、最後 の分かち書き結果に追加する
  • 15. Copyright© Hottolink, Inc. ▶TOPICS 2. 分かち書き・形態素解析 検索 関連語話題語 分かち書き 形態素解析 複合語処理 ソーシャルメディアの文書 前処理
  • 16. Copyright© Hottolink, Inc. ▶TOPICS 辞書の拡張 • 固有表現/エンティティ抽出を志向する場合、固有表現の単位で分かち書き されることが望ましい • 汎用志向の辞書(ipadic, unidicなど)を用いると、分割が過剰になりやすい 分類 固有表現 MeCab + IPADIC(Ver.2.7.0) 新語 スマートフォン スマート|フォン 人名 福山雅治 福山|雅治 ランドマーク 東京スカイツリー 東京|スカイ|ツリー 専門用語 消費者態度指数 消費|者|態度|指数 問題例 アプローチ • 固有表現を簡便かつ高精度に獲得したい場合、辞書の拡張が有効である • 特にソーシャルメディアに対しては、ウェブ上の情報から獲得した語彙との親 和性が高い – 芸能、社会、政治・経済、組織・企業、音楽、ゲーム・アニメ… • 情報ソースとしては、ユーザー生成型百科事典の見出し語が特に有用である – Wikipedia日本語版、はてなキーワード(© 2001 Hatena)
  • 17. Copyright© Hottolink, Inc. ▶TOPICS 辞書の拡張 • mecab-ipadic-NEologd(Sato[2015])は、ウェブ上の言語資源から得た新語を 追加したMeCab用辞書を一般に公開する試みである • 利用の障壁が低く、処理速度・網羅性に優れた方法である 分類 固有表現 MeCab + mecab-ipadic-NEologd(Ver.2016-02-01) 新語 スマートフォン スマートフォン 人名 福山雅治 福山雅治 ランドマーク 東京スカイツリー 東京スカイツリー 専門用語 消費者態度指数 消費者態度指数 解決策 対処困難な事象 • ウェブ上の言語資源、特にウェブ百科事典の見出し語には、形態素辞書エ ントリとして不適切なものも含まれているため、取捨選択処理が必要である – 不適当な見出し語の例: 「あ」「1月1日」「企業一覧」「明日の私」「よろしくお願いします」… • JUMAN辞書の手法(柴田ら[2012])のように、既存の形態素解析器の出力を素 性として利用するアプローチが有力である – 一形態素とみなすルールを定義する、二値分類器を学習する など
  • 18. Copyright© Hottolink, Inc. ▶TOPICS カタカナ複合語の分割 • 英語複合語は、カタカナ複合語として表記される場合が多い – 例:Crew Neck Raglan Shirt = クルーネックラグランシャツ – 特に衣料品・食料品・化粧品に多い印象 • IPADICは多くの場合に望ましい結果を返してくれるが、カタカナ複合語は分 かち書きされないことが多い。これは検索のRecallなどに悪影響を及ぼしうる 問題例 アプローチ • 短単位を志向したユーザ辞書を併用する、あるいはシステム辞書を利用する ことが有効である 英語複合語 カタカナ複合語 MeCab + IPADIC(Ver.2.7.0) Crew Neck Raglan Shirt クルーネックラグランシャツ クルーネックラグランシャツ Sliced Tomato Salad スライストマトサラダ スライストマトサラダ Face Cleansing Oil フェイスクレンジングオイル フェイスクレンジングオイル
  • 19. Copyright© Hottolink, Inc. ▶TOPICS カタカナ複合語の分割 • IPADICを用いて形態素解析を行ってから、長文字数のカタカナ語のみを抽 出して、UniDic(小木曽ら[2013])を用いて再解析を行う • UniDicは揺れの少ない短単位で設計されているため、一般名詞については 分かち書きされる場合が多い • 利用の障壁が低く、処理速度・再現性に優れた方法である 解決策 対処困難な事象 • 品詞体系が異なるため、分析者自身が適宜補正する必要がある • 未知語(特に新語)を含む場合は不十分 英語複合語 カタカナ複合語 MeCab + UniDic(Ver.2.1.2) Crew Neck Raglan Shirt クルーネックラグランシャツ クルー|ネック|ラグラン|シャツ Sliced Tomato Salad スライストマトサラダ スライス|トマト|サラダ Face Cleansing Oil フェイスクレンジングオイル フェイス|クレンジング|オイル
  • 20. Copyright© Hottolink, Inc. ▶TOPICS 顔文字の認識 • 顔文字は、顔のように見える文字・記号列を用いた表現である。ソーシャル データにおいては頻繁に利用される – 「\(^o^)/」「(>_<)」「(^^)」「(*^^*)」いずれかを含むブログ記事は、全記事の3.6%を占める • 汎用志向の辞書を用いると、記号列として分かち書きされる場合が多い – IPADICの場合、厳密には「名詞-サ変接続」品詞が付与される場合が多い • 理想的には、感情語の一種として取り扱いたい – 評判分析などの特徴量として有効 顔文字 MeCab + IPADIC(Ver.2.7.0) \(^o^)/ \(^␣o␣^)/ (´・ω・`) (´␣・␣ω␣・␣`) (´Д` ) (´␣Д␣` ␣) 問題例 アプローチ • 簡便かつ分かち書きのみを目的とする場合、ルールベースの処理が有効 • Precisionを制御しつつ感情語への置換を目的とする場合、辞書の拡張が有効
  • 21. Copyright© Hottolink, Inc. ▶TOPICS (参考)顔文字の統計的性質 • 顔文字を単語とみなして単語分散表現を推定、次元圧縮を行うと、おおむ ね感情語と整合的な配置が得られる 出典:弊社・風間研究室の共同研究 Word2Vec + t-SNE
  • 22. Copyright© Hottolink, Inc. ▶TOPICS 顔文字の認識 • 顔文字の規則性を利用して、抽出する(風間ら[2013],三好[2013]) ※本技術は、和歌山大学 風間研究室からの技術提供による • 短所は、(1)誤認識が生じること (2)対応する感情語が自明でないこと 解決策その1 解決策その2 • 顔文字頻度分布がZipFの法則に従うことを仮定して、出現頻度の高い顔文 字を辞書に登録する – 実際にZipFの法則はよく当てはまる。上位5,000種類で約90%(推定値)を網羅できる • 原形に感情語を登録することにより、顔文字を単語に置換・集約できる – 感情語は単語分散表現を用いて推定する(黒崎[2015]) • mecab-ipadic-NEologdにも一部の顔文字が登録されている 顔文字 MeCab + mecab-ipadic-NEologd(Ver.2016-02-01) 原形 \(^o^)/ \(^o^)/ バンザイ (´・ω・`) (´␣・␣ω␣・␣`) - (´Д` ) (´Д` ) カオモジ
  • 23. Copyright© Hottolink, Inc. ▶TOPICS 顔文字の認識 対処困難な事象 • 顔文字は改変が容易であるため、活用形(?)が大量に存在する – 改変の例:パーツの置換、装飾の付与・除去、スペースの挿入、繰り返し など – 活用形を別種と認識すると、顔文字の種類は数十万に上る • 活用形を自動的に認識して、基本形(?)に集約することが望ましい • 文字n-gramを素性に用いることで、相応の精度を実現することができる – 下表は Bag-of-char-{uni+bi}gram + NMF(dim=20) + L2.distance(top-k) で作成したもの 基本形 活用形1 活用形2 活用形3 活用形4 (〃∇〃) (〃∇〃)ゞ (〃~∇~〃) (ノ∇〃) (>∧<) ヽ(≧▽≦)/ ヽ(〃▽〃)/ ヽ(≧∇≦)/ ヽ(≧▽≦)/♪ ♪ヽ(≧▽≦)/ (#^_^#) (^_^#) (^_^)# (^_^)q p(^_^) (^-^)o o(^-^) (o^-^) (^-^o) ヾ(^o^-) (ρ_-)ノ (ノ_-) (ρ_-) (つ_-) (σ_-) ((´^ω^)) ((´^ω^))♪ ((´^ω^) ((´^ω^))♥ ヾ(´^ω^)ノ 出典:弊社分析
  • 24. Copyright© Hottolink, Inc. ▶TOPICS 3. 複合語処理 検索 関連語話題語 分かち書き 形態素解析 複合語処理 ソーシャルメディアの文書 前処理
  • 25. Copyright© Hottolink, Inc. ▶TOPICS ルールに基づく連結 問題例 • 複合名詞において、結合される品詞には一定のパターンがある • 上記パターンに注目し、複合名詞となりうるかの手がかりとして用いる 種類 複合名詞 MeCab + IPADIC(Ver.2.7.0) 固有表現(地名) アスティ三島駅 アスティ|三島|駅 固有表現(地名) 裏なんば 裏|なんば 固有表現(製品名) 牧場の朝 牧場|の|朝 固有表現(製品名) 有吉の怒り新党 有吉|の|怒り|新党 専門用語(ジャニーズ) スマ兄さん スマ|兄さん 専門用語(ソシャゲ) 無課金 無|課金 アプローチ • 固有表現/エンティティ抽出のほか、特徴語抽出・トピック抽出・係り受け解 析における専門用語抽出においては、未知語を固有表現の単位で分かち 書きされることが望ましい • 汎用志向の辞書(ipadic, unidicなど)を用いると、分割が過剰になりやすい
  • 26. Copyright© Hottolink, Inc. ▶TOPICS ルールに基づく連結 解決策 複合名詞として認識すべき品詞の連接パターンを予め定めておく アスティ|三島|駅 名詞,固有名詞,組織 名詞,固有名詞,組織 名詞,接尾,地域 牧場|の|朝 名詞,一般,* 助詞,連体化,* 名詞,副詞可能,* 複合名詞 種類 品詞の連接情報 名詞 アスティ三島駅 固有表現(地名) (名詞,固有名詞,組織)(名詞,固有名詞,組織)(名詞,接尾,地域) TRUE 裏なんば 固有表現(地名) (名詞,一般,*)(名詞,固有名詞,地域) TRUE 牧場の朝 固有表現(製品名) (名詞,一般,*)( 助詞,連体化,*)(名詞,副詞可能,*) TRUE 有吉の怒り新党 固有表現(製品名) (名詞,固有名詞,人名)(助詞,連体化,*)(名詞,一般,*)(名詞,一般,*) TRUE スマ兄さん 専門用語(ジャニーズ) (名詞,固有名詞,一般)(名詞,一般,*) TRUE 無課金 専門用語(ソシャゲ) (接頭詞,名詞接続,*)(名詞,サ変接続,*) TRUE はがない 専門用語(オタク) (動詞,自立,*)(助動詞,*,*) FALSE ごはんですよ 固有表現(製品名) (名詞,一般,*)(助動詞,*,*)(助詞,終助詞,*) FALSE 対象困難な事例 ・未知語への対応が可能 ・ルールベースであるため、事前学習が不要 ・確実性の高いルールのみを採用することで、 Precisionの制御が可能 ・既存の文法ルールから外れている固有名詞 例:はがない、よなよなエール、ごはんですよ
  • 27. Copyright© Hottolink, Inc. ▶TOPICS 連接頻度に基づく統計的な連結 問題例 • 固有表現/エンティティ抽出のみならず、トピック抽出や係り受け解析における専 門用語抽出において、未知語を固有表現の単位で分かち書きされることが望ま しい • 汎用志向の辞書(ipadic, unidicなど)を用いると、分割が過剰になりやすい 種類 複合名詞 MeCab + IPADIC(Ver.2.7.0) 固有表現(製品名) ごはんですよ ごはん|です|よ 専門用語 新事業活動促進法 新|事業|活動|促進|法 専門用語 炭素繊維複合素材 炭素|繊維|複合|素材 • 複合名詞は、ある概念を表す単名詞を連接することで構成されることが多い • コーパスから単名詞について「複合名詞への含まれやすさ」を算出すること ができれば、単名詞の連接に対して「複合名詞らしさ」のスコアが算出可能 アプローチ
  • 28. Copyright© Hottolink, Inc. ▶TOPICS 連接頻度に基づく統計的な連結 新|事業|活動|促進|法 解決策 𝐿𝑅 新|事業|活動|促進|法 = 𝐹𝐿 𝑁𝑖 + 1 𝐿 𝑖=1 𝐹𝑅 𝑁𝑖 + 1 1 2𝐿 𝐹𝐿 𝑁 (𝐹𝑅 𝑁 ):単名詞Nの左方(右方)に連接した際の複合名詞の形成されやすさ 文書中の連接頻度に基づいて統計的に「複合名詞らしさ」を算出する ・単名詞への対応がコーパスに含まれている場合、それらにより構成される未知語を処理可能 ・学習データを用いるため、事前知識が不要 ・閾値を低く設定することで、Recallを制御しやすい 例:termEX(中川[2003]) 対象困難な事例 種類 複合名詞 名詞 固有表現(製品名) ごはんですよ TRUE 専門用語 新事業活動促進法 TRUE 専門用語 炭素繊維複合素材 TRUE 定型句 あけおけ TRUE 定型句 お誕生日おめ TRUE ・定型フレーズの誤認識 あけおめ、お誕生日おめ ・十分な出現頻度が無い語への対応が困難
  • 29. Copyright© Hottolink, Inc. ▶TOPICS Copyright© Hottolink, Inc. ▶TOPICS まとめ • NLP応用サービスには、汎用的手法では対応困難な課題が存在する – 要因その1:ソーシャルメディア文書に特有の性質 – 要因その2:目的に即した分かち書きの必要性 • 前処理・形態素解析/分かち書き・複合語処理において、特殊な手法を用 いることがしばしば有効である • 弊社内で用いられる知見・工夫・解決策の一部をご紹介した – 文字の正規化、テキストメタ情報の処理 – 辞書の拡張、カタカナ複合語の分割、顔文字の認識 – ルールに基づく連結、連接頻度に基づく統計的な連結 • 解決策の考案・実施においては、NLP分野を中心とした先行研究・言語資 源・ツールに依拠する部分が非常に大きい。改めて感謝申し上げます • 「やわらかい」言語表現に対する研究・関心が継続されることおよび、知 見の体系化が進展することを期待しております
  • 30. Copyright© Hottolink, Inc. ▶TOPICS Copyright© Hottolink, Inc. ▶TOPICS 余談:中国語ソーシャルメディア分析 • 中国国内には、独自のソーシャルメディアが存在する – Weibo(微博:マイクロブログ) – WeChat(微信:インスタントメッセンジャー) – Blog(博客) • 弊社では2015年より、ソーシャルメディア分析を目的とした中 国語NLPの基礎研究に着手した
  • 31. Copyright© Hottolink, Inc. ▶TOPICS Copyright© Hottolink, Inc. ▶TOPICS 余談:中国語ソーシャルメディア分析 • Weiboには Chinese Penn Treebank とは異なる世界が広がっていた… 我々の戦いはこれからだ! 日本語/中国語混在 テキストメタ情報 固有表現(商品名)口語表現 絵文字
  • 32. Copyright© Hottolink, Inc. ▶TOPICS Copyright© Hottolink, Inc. ▶TOPICS 参考文献 • Unicode, Inc. 1998. Unicode® Standard Annex #15 UNICODE NORMALIZATION FORMS. – http://www.unicode.org/reports/tr15/ • Toshinori Sato. 2015. Neologism dictionary based on the language resources on the Web for Mecab. – https://github.com/neologd/mecab-ipadic-neologd • 黒橋 禎夫. 自然言語処理. 放送大学教育振興会. 2015. • 小木曽 智信, 伝 康晴. UniDic2: 拡張性と応用可能性にとんだ電子化辞書. 言語処理学会第 19回年次大会, 2013. • 風間 一洋, 榊 剛史, 鳥海 不二夫, 篠田 孝祐, 栗原 聡, 野田 五十樹. 顔文字に着目したツ イートの感情変化の分析. WebDB Forum 2013. A2-3 • 三好辰明, 太田学. ツイートに出現する顔文字等の文字と記号に着目した感情分類. DEIM Forum,March 2013. • 黒崎 優太, 高木 友博. Word2Vecを用いた顔文字の感情分類. 言語処理学会第21回年次大 会, 2015. • 中川裕志, 森辰則, 湯本紘彰. 出現頻度と連接頻度に基づく専門用語抽出. 自然言語処理, Vol.10 No.1, pp. 27 - 45, 2003. – http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html • 柴田 知秀, et al. 実テキスト解析をささえる語彙知識の自動獲得. 言語処理学会第18回年 次大会, 2012. • 高橋 文彦, 颯々野 学. 情報検索のための単語分割一貫性の定量的評価.言語処理学会第 22回年次大会, 2016.