SlideShare a Scribd company logo
1 of 52
Download to read offline
情報抽出⼊入⾨門
〜~⾮非構造化データを構造化させる技術〜~
2013/05/16 PFIセミナー
株式会社プリファードインフラストラクチャー  
海野  裕也 (@unnonouno)
⾃自⼰己紹介
l  海野  裕也 (@unnonouno)
l  Jubatusチームリーダー
l  分散オンライン機械学習基盤
l  2011年年4⽉月からPFIにJOIN
専⾨門
l  ⾃自然⾔言語処理理
l  テキストマイニング
宣伝
l  明後⽇日 5/18(⼟土)にTwitter研究会@フューチャーアー
キテクトで発表します
l  6/2(⽇日)にJubatus Casual Talks #1を開催します
l  すでに定員に達してしまいましたが、増員あるカモ
l  発表者、LTも募集中
3
アジェンダ
l  ⾃自⼰己紹介
l  情報抽出と⾮非構造化データ解析
l  情報抽出技術編
l  情報抽出応⽤用編
4
情報抽出と⾮非構造化データ解析
5
情報抽出とは?
l  びっくりするくらい説明が少ない・・・
例例で解説
l  例例えばメールの⽂文⾯面から、スケジュール登録に必要な情報を探しだ
して情報を整理理してほしい
7	
来週の⽊木曜⽇日から、ビッグサイトでクラウ
ドエクスポがあるので、そのための資料料作
りをします。皆様参加してください。
構造化できそうな情報が地の⽂文に埋め
込まれている
Microsoft Academic Searchで探すと・・・
l  論論⽂文数がどんどん減っている・・
8
海野の情報抽出に関する理理解
l  情報は必ず⽣生のデータのどこかに埋まっている
l  埋まっている情報を掘り起こして、加⼯工しやすいように
整理理する技術
9	
⽣生のデータの中に埋め込まれた情報を掘り出す技術
あらゆる⾮非構造化データに同じ問題が潜んでいる
10	
画像	
⼈人
⽝犬
音声	
行動ログ	
P F I
18:03 カメラのサイト
18:04 レンズのサイト
18:05 カメラのサイト
18:06 価格情報サイト
18:09 ニュースサイト
製品⽐比較中
広い意味でみると、⾮非構造化データから情報を抜き
出す技術
l  ⾮非構造化データ=情報が「構造化されていない」データ
l  「ない」のではなくて「されていない」
l  隠れた構造(情報)が埋まっている
l  埋もれた情報を掘り出さないことには分析できない
11
今⽇日は⼀一貫して⾃自然⽂文からの情報抽出の話をします
l  今⽇日は⾃自然⽂文から情報抽出の話をします
l  画像や⾳音声、またそれらの名寄せなどの話はしません
12
応⽤用例例1:イベント情報抽出
l  カレンダー情報の整理理など
l  古典的な問題設定
13	
来週の⽊木曜⽇日から、ビッグサイトでクラウ
ドエクスポがあるので、そのための資料料作
りをします。
応⽤用例例2:商品情報抽出
l  構造化されていないテキストから、商品の属性情報を抽出して整理理
する
l  商品ごとのどのような属性があるかも同時に抽出するような研究も
有る
l  実際に楽天やeBay、Googleなどの研究が多数
14	
属性名 属性値
品名 シメイ
種類 ビール
⾊色 ホワイト
値段 650円
応⽤用例例3:バイオ論論⽂文の情報整理理
l  論論⽂文中の遺伝⼦子、タンパク質、化合物の関係・情報を抽出して整理理
しないと論論⽂文を読み切切れない
l  protein-protein interaction
l  辻井研が⻑⾧長年年研究していた⼤大きなテーマ
15
整理理が出来ればできることが広がる
l  データ分析基盤とつなげる
l  テキストマイニング
l  俗に「前処理理」と呼ばれる処理理は情報抽出に対応する
l  情報検索索基盤とつなげる
l  メタデータの抽出
l  抽出した情報をまとめあげる
l  オントロジーや辞書の⾃自動整理理
l  知⾒見見の発⾒見見
16
表層から意味の世界へ
l  テキスト(表層)から概念念(意味)へのマッピングを⾏行行なっている
ともとれる
l  テキストにかぎらず、画像、⾳音声なども概念念にマッピング出来れば、
概念念の世界でJOINができる
※但し、⾃自然⾔言語処理理で意味処理理というともっと広い
17	
King of Pop
Michael Jackson
情報抽出  技術編
18
情報抽出技術の3つの側⾯面
⼤大雑把には3つの操作が必要
1.  情報の抜き出し
2.  情報の正規化
3.  情報間の関係の整理理
19
情報抽出の3要素
20	
2013年年5⽉月8⽇日〜~10⽇日  東京
ビックサイトにて⾏行行われる第
4回クラウドコンピューティ
ングEXPOにおいて、ネオジャ
パン様のブースをお借りし
Sedue for BigDataを出展致し
ます。
2013/5/8 2013/5/10
東京ビックサイト
第4回クラウド・コン
ピューティングEXPO
項⽬目名 項⽬目
開始⽇日 2013/5/8
終了了⽇日 2013/5/10
場所 東京ビックサイト
イベント
名
第4回クラウドコン
ピューティングEXPO
1. 情報の抜き出し
2. 情報の正規化
3. 関係整理理
※同時に解いても良いし、この順に解かな
ければならないわけではない
1. 情報の抜き出し
l  俗に固有表現抽出(Named Entity Recognition; NER)
と呼ばれる
l  定式化すると、シーケンスからのサブシーケンスの抽出
とそれの分類
21
分類と抽出はここが違う
l  分類
l  ⼊入⼒力力は⽂文書,画像,⾳音声など任意
l  出⼒力力はラベル
l  抽出
l  ⼊入⼒力力は⽂文(シーケンス)
l  出⼒力力は⽂文中の区間と付加情報
スパム?
⼈人名
評判
分類と抽出はここが同じ
l  ⽂文書の解析という意味では同じ
l  ⼊入⼒力力は⽂文書データ、出⼒力力は解析結果
l  結果だけ⾒見見れば同じように⾒見見える
l  機械学習やルールを使うという意味では同じ
l  ルールベースも機械学習も使う⽅方法はある
l  問題設定としては、前者は分類問題、後者はシーケンシャルラ
ベリングなどを応⽤用するのが⼀一般的
BIO法
l  NER問題を系列列ラベリング問題に変換する⽅方法
l  抽出対象の系列列に対して部分列列のどの部分かでラベルを
割り当てる
l  部分列列の開始点をB (Begin)
l  部分列列の開始点以外をI (Inside)
l  部分列列以外をO (Outside)
l  BIOのタグを推定して、BIIII… の部分が⽬目的の部分列列と
判断する
24	
今 ⽇日 は 1 6 ⽇日 だ
B	
 I	
 I	
 O
O
 O
 O
系列列ラベリング問題
l  系列列に割り当てるラベルを当てる問題
l  普通の分類問題は出⼒力力候補がN個だが、系列列ラベリング
だとNL個
l  もちろん、それぞれを独⽴立立に解いてもよい
25	
⼈人 ⼈人 ⼈人 ⼈人 ⼈人
系列ラベリング問題	
入力	
普通の分類問題	
⼈人
出力	
 男 男 ⼥女女 ⼥女女 男 男
ここを当てたい
各ラベルを独⽴立立に求めるよりも同時に求める⽅方がよ
い直感的な理理由
l  構造の情報を使った⽅方が簡単に当てられるはず!
l  例例)同性は隣隣り同⼠士に座りやすいと仮定・・・
l  例例)名詞の前には形容詞が来やすい26	
⼈人 ⼈人 ⼈人 ⼈人 ⼈人
男 ⼥女女 ? ⼥女女 男
両隣隣が⼥女女だから⼥女女な気がする・・・
隠れマルコフモデル (Hidden Markov Model; HMM)
l  隠れ状態の列列と観測列列に分けてモデル化する
l  隠れ状態は左隣隣の隠れ状態のみに依存する(マルコフ性)
l  観測列列は隠れ状態のみに依存する
l  系列列ラベリングの⽂文脈では隠れ状態列列が出⼒力力列列
27	
⼈人 ⼈人 ⼈人 ⼈人 ⼈人
男 男 ⼥女女 ⼥女女 男
こちらを当てたい	
こちらが入力	
隠れ状態列	
観測列	
P(男|男)	
 P(女|男)
条件付き確率率率場 (Conditional Random Field; CRF)
[Lafferty2001]
l  ラベルの同時確率率率を直接モデル化する
l  P(y|x) ∝ exp(∑i f(i)・w)
l  特に⼊入⼒力力が系列列の時をlinear chain CRFと呼ぶ
l  ⾃自然⾔言語処理理の⽂文脈で出てくるとほとんどがこれのこと
28	
⼈人 ⼈人 ⼈人 ⼈人 ⼈人
男 男 ⼥女女 ⼥女女 男
隣接ラベルのみに特徴関数fiが設定されている
2. 情報の正規化
l  同じ意味の事柄を異異なる表現で表記する
l  「同じ」の基準はニーズによって変わる
l  表記が異異なる原因は様々である
l  本質的に由来の異異なる場合以外で、機械的に判定しやす
いものも有るため、これを整理理する
29
同義表現の⽣生成仮定で複数存在する
1.  表記揺れ
2.  略略語
3.  翻字
4.  修飾
5.  表現の異異なり
30	
スペリングの問題	
本質的な意味の問題	
これは私による整理理で、
もっと他の現象もあるかも
表記揺れ
l  同⼀一⾔言語、同⼀一アルファベットでも、同じ発⾳音の単語の
表記に⾃自由度度がある
l  スペルミスもこれの⼀一種とみなしても良良さそう
l  例例
l  サーバ  vs サーバー
l  バイオリン  vs ヴァイオリン
l  color vs colour
31
SimString [岡崎  10]
l  閾値 t 以上の類似疎ベクトルを⾼高速に探索索するアルゴリズム
l  疎ベクトルの類似度度が t 以上になるためには、t に応じた個数以上
の共通⾮非ゼロ要素がなければならない
l  この性質を使って候補を絞り込む
注意:⼀一般の類似ベクトル検索索に使おうとすると、閾値を設定できな
い(ふうつうは上位N件)ため、うまく使えなさそう
32	
$ simstring -u -d web1tja/unigrams.db -t 0.7 -s cosine
スパゲッティー
                スパゲッティ
                スパゲッテー
                スパゲティー
                スパッティー
…
翻字  (Transliteration)
l  例例
l  岩⽥田  vs Iwata
l  中国語の翻字は意味としても通じるように作るのがオ
シャレらしい
33	
翻字(ほんじ、英: transliteration)とは、言語学に
おいて特定の言語を記した文字表記を別の文字によ
る表記に移すことをいう。翻字は印刷物の発行する
際などに技術的な問題や読者の便宜のために行われ
る。
Transliteration Alignment [Pervouchine09]
l  翻字は基本的に同じ⾳音の変換
l  ⽂文字と⽂文字の対応をとるアライメント問題とみなせる
l  アライメント:統計的機械翻訳などで利利⽤用される、単語間の対
応関係
※他の⼿手法もあります
34	
[Li09]
翻字をつかったサービスの例例
l  外国⼈人の名前の翻字を⾃自動⽣生成してステッカーやTシャツを作る
サービス
l  http://shoname.jp/
l  先⽇日エキスポに⾏行行ったら出展していた
35
略略語 (Abbreviation)
l  ⻑⾧長い単語を、アルファベット上の規則で省省略略した単語
l  略略語の⽣生成仮定でも複数の種類がある
l  頭字語 (Acronym): 頭⽂文字をつなげて別の単語を作る
l  ASEAN, APEC, LINUX
l  複数の単語の⼀一部を結合
l  パソコン、ブログ、キムタク
l  単⼀一の単語を省省略略
l  チョコ、ブクロ
36
修飾
l  無視してもよい様な修飾表現を排除したい
l  修飾されている以上、何かしら意味の変化がある
l  同⼀一視したい基準は、アプリケーションやお客さん依存
l  例例
l  岩⽥田  vs 岩⽥田さん
l  例例えばこの例例でも、丁寧に話される場合とそうでない場
合の差を⾒見見ようとすると、「さん」の有無が重要な要素
になってしまう
37
表現の異異なり
l  表記上の差、修飾語の差を超えた変化があるが、意味的
に同⼀一視したい
l  ⼀一般的に同義語というと、このレベルのことを想定する
l  どれを同⼀一視したいかは極めて分野依存
l  例例
l  ⾞車車  vs ⾃自動⾞車車
l  マイケル・ジャクソン  vs キングオブポップ
38
Distributional Hypothesis
l  前後の⽂文脈(前後の単語、動詞、修飾語)をベクトル表
現して、類似⽂文脈を持つ単語を同⼀一の意味だと推定する
l  同義語の発⾒見見に限らず、例例えば訳語の⾃自動抽出など、同
じ意味を持つ表現を探すときによく使われる
39	
同じ⽂文脈で出やすい単語は同じ意味を持ちやすい
そうは簡単に⾏行行かない・・・
「前後⽂文脈」が⾃自明には定義できないため、同義語を超え
て関連語がたくさん⾒見見つかってしまう
l  「Mac」は「Apple」と共起しやすい
l  「Apple」は「iPhone」と共起しやすい
l  ということは、「Mac」と「iPhone」は同義語・・・
だ?
40
3. 情報間の関係の整理理
l  エンティティー間の関係を当てる問題を、関係抽出
(Relation Extraction) という
l  欲しい情報のテンプレートを埋める問題を、Template
Fillingという
41
関係抽出の解き⽅方
l  エンティティー間の関係の有無を分類問題として解く
l  シンプルな分類問題として解く
l  構⽂文情報などをカーネルを使ってうまく特徴化する
l  もちろんルールで⾏行行う⽅方法や、ルールを機械学習的に発⾒見見する
ような⽅方法もある
l  抽出されたエンティティーの間に書かれた情報が特に重
要になる
l  X is located in the Y
42
関係レベルになると構⽂文情報をうまく使いたい
l  関係代名詞などの複雑な構⽂文になると、関係のあるエン
ティティー間に別の句句が⼊入り込む
l  ⽂文の構造を利利⽤用して関係を判断する必要が出てくる
43	
[Sarawagi08]
情報抽出  応⽤用編
44
多段階の処理理を⾏行行うフレームワークが欲しい
l  ⾼高次の情報処理理になればなるほど、処理理が多段階になる
l  多段の処理理のフレームワークがほしい
l  最終的なエラーの原因解析が難しくなる
形態素解析 構⽂文解析 NER
正規化 関係抽出
テキストマイニング
l  情報抽出+データマイング+情報検索索
=  テキストマイニング
l  世の中のテキストマイニングエンジンは、程度度の差こそ
あれ概ね3つの技術の融合
46
正解情報はより複雑なので、正解づくりのUIが必要
l  カテゴリ分類程度度だとテキストエディタでも良良いが、複雑な情報抽
出や関係抽出になると正解の編集が⼤大変
47	
ANNIE
http://www.aktors.org/technologies/annie/
	
Zoguma
さらに外部の知識識とつなげる
l  外部の知識識やリソースとヒモ付ける
l  オントロジーとつなげれば概念念の関係を辿れる
l  別のデータとつなげる別のアプリケーションを作れる
l  ⼤大規模なオントロジーを構築するにはコストが⾼高い
48
外部の情報との連携の例例:地図情報との連携
l  http://areadas.jp/
l  テキスト中のキーワードの発⾒見見と地図情報との
ヒモ付
49
まとめ
l  情報抽出は⾮非構造のデータを整理理する技術
l  ほとんどの⾮非構造データに類似の問題が有る
l  ⼀一般的にはテキストデータに対する処理理
l  情報抽出の3つの処理理がある
l  情報を抜き出す
l  情報を正規化する
l  情報間の関係を整理理する
l  コア以外の技術で考えないといけないことが多数
l  情報抽出を応⽤用したアプリケーション
l  正解データを作るためのUI
50
参考⽂文献
l  S. Sarawagi.
Information Extraction.
Foundations and Treands in Databases, Vol. 1, No. 3 (2007) pp. 261-377,
2008.
l  J. Lafferty, A. McCallum, F. Pereira.
Conditional Random Fields: Probabilistic Models for Segmenting and
Labeling Sequence Data.
ICML2001.
l  岡崎直観, 辻井潤⼀一.
⾼高速な類似⽂文字列列検索索アルゴリズム.
情報処理理学会創⽴立立50周年年記念念全国⼤大会, 1C-1, 2010.
l  V. Pervouchine, H. Li, B. Lin.
Transliteration Alignment.
ACL&IJCNLP 2009, pp. 136-144, 2009.
51
Copyright © 2006-2012
Preferred Infrastructure All Right Reserved.

More Related Content

What's hot

勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper. challenge
 
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方Shinagawa Seitaro
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜Megagon Labs
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)Deep Learning JP
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理Yuya Unno
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理Preferred Networks
 
自然言語処理基礎の基礎
自然言語処理基礎の基礎自然言語処理基礎の基礎
自然言語処理基礎の基礎Takashi Minowa
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明Satoshi Hara
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)Deep Learning JP
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?Fumihiko Takahashi
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?Deep Learning JP
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 
fastTextの実装を見てみた
fastTextの実装を見てみたfastTextの実装を見てみた
fastTextの実装を見てみたYoshihiko Shiraki
 

What's hot (20)

勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
 
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
BERT入門
BERT入門BERT入門
BERT入門
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
 
自然言語処理基礎の基礎
自然言語処理基礎の基礎自然言語処理基礎の基礎
自然言語処理基礎の基礎
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
fastTextの実装を見てみた
fastTextの実装を見てみたfastTextの実装を見てみた
fastTextの実装を見てみた
 

Viewers also liked

非エンジニアに人工知能に 興味を持ってもらう話
非エンジニアに人工知能に興味を持ってもらう話非エンジニアに人工知能に興味を持ってもらう話
非エンジニアに人工知能に 興味を持ってもらう話Satoru Mikami
 
「会社を立て直す仕事」に見る仕事のススメ方のヒント
「会社を立て直す仕事」に見る仕事のススメ方のヒント「会社を立て直す仕事」に見る仕事のススメ方のヒント
「会社を立て直す仕事」に見る仕事のススメ方のヒントHidekatsu Izuno
 
確率統計-機械学習その前に
確率統計-機械学習その前に確率統計-機械学習その前に
確率統計-機械学習その前にHidekatsu Izuno
 
Watson knowledge studio 紹介 - あなたの知識をWatson に教え込む!
Watson knowledge studio 紹介 - あなたの知識をWatson に教え込む!Watson knowledge studio 紹介 - あなたの知識をWatson に教え込む!
Watson knowledge studio 紹介 - あなたの知識をWatson に教え込む!Hiroaki Komine
 
企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端Yuya Unno
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)Yuya Unno
 
Itエンジニアのための自然言語処理入門
Itエンジニアのための自然言語処理入門Itエンジニアのための自然言語処理入門
Itエンジニアのための自然言語処理入門Satoru Mikami
 
「人工知能」をあなたのビジネスで活用するには
「人工知能」をあなたのビジネスで活用するには「人工知能」をあなたのビジネスで活用するには
「人工知能」をあなたのビジネスで活用するにはTakahiro Kubo
 
Watson Explorerを使ったテキストマイニング
Watson Explorerを使ったテキストマイニングWatson Explorerを使ったテキストマイニング
Watson Explorerを使ったテキストマイニングHori Tasuku
 

Viewers also liked (9)

非エンジニアに人工知能に 興味を持ってもらう話
非エンジニアに人工知能に興味を持ってもらう話非エンジニアに人工知能に興味を持ってもらう話
非エンジニアに人工知能に 興味を持ってもらう話
 
「会社を立て直す仕事」に見る仕事のススメ方のヒント
「会社を立て直す仕事」に見る仕事のススメ方のヒント「会社を立て直す仕事」に見る仕事のススメ方のヒント
「会社を立て直す仕事」に見る仕事のススメ方のヒント
 
確率統計-機械学習その前に
確率統計-機械学習その前に確率統計-機械学習その前に
確率統計-機械学習その前に
 
Watson knowledge studio 紹介 - あなたの知識をWatson に教え込む!
Watson knowledge studio 紹介 - あなたの知識をWatson に教え込む!Watson knowledge studio 紹介 - あなたの知識をWatson に教え込む!
Watson knowledge studio 紹介 - あなたの知識をWatson に教え込む!
 
企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
 
Itエンジニアのための自然言語処理入門
Itエンジニアのための自然言語処理入門Itエンジニアのための自然言語処理入門
Itエンジニアのための自然言語処理入門
 
「人工知能」をあなたのビジネスで活用するには
「人工知能」をあなたのビジネスで活用するには「人工知能」をあなたのビジネスで活用するには
「人工知能」をあなたのビジネスで活用するには
 
Watson Explorerを使ったテキストマイニング
Watson Explorerを使ったテキストマイニングWatson Explorerを使ったテキストマイニング
Watson Explorerを使ったテキストマイニング
 

Similar to 情報抽出入門 〜非構造化データを構造化させる技術〜

形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来Preferred Networks
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクールYuya Unno
 
子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得Yuya Unno
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングYuya Unno
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合うYuya Unno
 
どたばたかいぎ成果発表
どたばたかいぎ成果発表どたばたかいぎ成果発表
どたばたかいぎ成果発表Eric Sartre
 
Perl で自然言語処理
Perl で自然言語処理Perl で自然言語処理
Perl で自然言語処理Toshinori Sato
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual TalksYuya Unno
 
Sinatra風マイクロフレームワークで始めるPython
Sinatra風マイクロフレームワークで始めるPythonSinatra風マイクロフレームワークで始めるPython
Sinatra風マイクロフレームワークで始めるPythonkuroneko1988
 
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Yuya Unno
 
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―Hisao Soyama
 
Pythonでアルゴレイヴの世界に足を踏み入れる
Pythonでアルゴレイヴの世界に足を踏み入れるPythonでアルゴレイヴの世界に足を踏み入れる
Pythonでアルゴレイヴの世界に足を踏み入れるksnt
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Yuya Unno
 

Similar to 情報抽出入門 〜非構造化データを構造化させる技術〜 (15)

形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得
 
comp_pfiseminar
comp_pfiseminarcomp_pfiseminar
comp_pfiseminar
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
どたばたかいぎ成果発表
どたばたかいぎ成果発表どたばたかいぎ成果発表
どたばたかいぎ成果発表
 
Perl で自然言語処理
Perl で自然言語処理Perl で自然言語処理
Perl で自然言語処理
 
JapanR
JapanRJapanR
JapanR
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
 
Sinatra風マイクロフレームワークで始めるPython
Sinatra風マイクロフレームワークで始めるPythonSinatra風マイクロフレームワークで始めるPython
Sinatra風マイクロフレームワークで始めるPython
 
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
 
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
 
Pythonでアルゴレイヴの世界に足を踏み入れる
Pythonでアルゴレイヴの世界に足を踏み入れるPythonでアルゴレイヴの世界に足を踏み入れる
Pythonでアルゴレイヴの世界に足を踏み入れる
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
 

More from Yuya Unno

深層学習で切り拓くパーソナルロボットの未来
深層学習で切り拓くパーソナルロボットの未来深層学習で切り拓くパーソナルロボットの未来
深層学習で切り拓くパーソナルロボットの未来Yuya Unno
 
深層学習時代の 自然言語処理ビジネス
深層学習時代の自然言語処理ビジネス深層学習時代の自然言語処理ビジネス
深層学習時代の 自然言語処理ビジネスYuya Unno
 
ベンチャー企業で言葉を扱うロボットの研究開発をする
ベンチャー企業で言葉を扱うロボットの研究開発をするベンチャー企業で言葉を扱うロボットの研究開発をする
ベンチャー企業で言葉を扱うロボットの研究開発をするYuya Unno
 
PFNにおける セミナー活動
PFNにおけるセミナー活動PFNにおけるセミナー活動
PFNにおける セミナー活動Yuya Unno
 
深層学習フレームワーク Chainerとその進化
深層学習フレームワークChainerとその進化深層学習フレームワークChainerとその進化
深層学習フレームワーク Chainerとその進化Yuya Unno
 
進化するChainer
進化するChainer進化するChainer
進化するChainerYuya Unno
 
予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアルYuya Unno
 
深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーションYuya Unno
 
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...Yuya Unno
 
Chainer, Cupy入門
Chainer, Cupy入門Chainer, Cupy入門
Chainer, Cupy入門Yuya Unno
 
Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用Yuya Unno
 
深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴Yuya Unno
 
NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」Yuya Unno
 
Chainer入門と最近の機能
Chainer入門と最近の機能Chainer入門と最近の機能
Chainer入門と最近の機能Yuya Unno
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用Yuya Unno
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてYuya Unno
 
「知識」のDeep Learning
「知識」のDeep Learning「知識」のDeep Learning
「知識」のDeep LearningYuya Unno
 
自然言語処理@春の情報処理祭
自然言語処理@春の情報処理祭自然言語処理@春の情報処理祭
自然言語処理@春の情報処理祭Yuya Unno
 
ピーFIの研究開発現場
ピーFIの研究開発現場ピーFIの研究開発現場
ピーFIの研究開発現場Yuya Unno
 
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-Yuya Unno
 

More from Yuya Unno (20)

深層学習で切り拓くパーソナルロボットの未来
深層学習で切り拓くパーソナルロボットの未来深層学習で切り拓くパーソナルロボットの未来
深層学習で切り拓くパーソナルロボットの未来
 
深層学習時代の 自然言語処理ビジネス
深層学習時代の自然言語処理ビジネス深層学習時代の自然言語処理ビジネス
深層学習時代の 自然言語処理ビジネス
 
ベンチャー企業で言葉を扱うロボットの研究開発をする
ベンチャー企業で言葉を扱うロボットの研究開発をするベンチャー企業で言葉を扱うロボットの研究開発をする
ベンチャー企業で言葉を扱うロボットの研究開発をする
 
PFNにおける セミナー活動
PFNにおけるセミナー活動PFNにおけるセミナー活動
PFNにおける セミナー活動
 
深層学習フレームワーク Chainerとその進化
深層学習フレームワークChainerとその進化深層学習フレームワークChainerとその進化
深層学習フレームワーク Chainerとその進化
 
進化するChainer
進化するChainer進化するChainer
進化するChainer
 
予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル
 
深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション
 
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
 
Chainer, Cupy入門
Chainer, Cupy入門Chainer, Cupy入門
Chainer, Cupy入門
 
Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用
 
深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴
 
NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」
 
Chainer入門と最近の機能
Chainer入門と最近の機能Chainer入門と最近の機能
Chainer入門と最近の機能
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
 
「知識」のDeep Learning
「知識」のDeep Learning「知識」のDeep Learning
「知識」のDeep Learning
 
自然言語処理@春の情報処理祭
自然言語処理@春の情報処理祭自然言語処理@春の情報処理祭
自然言語処理@春の情報処理祭
 
ピーFIの研究開発現場
ピーFIの研究開発現場ピーFIの研究開発現場
ピーFIの研究開発現場
 
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
 

情報抽出入門 〜非構造化データを構造化させる技術〜