SlideShare a Scribd company logo
1 of 23
Download to read offline
無形概念認識の実現に向けて
どんな技術が求められるのか?
2016/12/16
PRMU12月研究会@鳥取大学
京都大学教育学研究科・助教
美濃研究室研究協力
橋本敦史
PRMU グランドチャレンジ(第二期)
発表の概要
■ GC第1期で,究極のチャレンジとして「画像に関するあ
らゆる意味の記述」が挙げられた
■ GC第2期の案内文で「上記の究極のチャレンジすら,
CNNとRNNによる...解かれつつある」とある
■ 本当にそうだろうか??
発表の概要
■ GC第1期で,究極のチャレンジとして「画像に関するあ
らゆる意味の記述」が挙げられた
■ GC第2期の案内文で「上記の究極のチャレンジすら,
CNNとRNNによる...解かれつつある」とある
■ 本当にそうだろうか??
– 物体や動作などに
偏っているのではないか?
冬,寒い?
この女性は旅行者で,道がわからない.
ただし,焦っている様子はない
地元の人?
より抽象度の高い概念の認識も重要では?
Photo Credit: faungg’s photo | Flickr
画像認識における課題の変化
- Wagstaff の指摘@ ICML2012(1から考える-
■ ベンチマークデータセットと現実の問題に乖離がないか?
– アヤメやマッシュルームのDSでの評価に偏り過ぎていないか?
– 精度向上が何%だったかではなく,現実の問題への寄与で評価するべき.
■ 賛否両論ある.
– 特定のベンチマークDSにチューニングされたような手法はそもそも評価
されない
– アルゴリズムや手法の精度向上に注力するコミュニティも認めるべき
■ 根幹は「基礎研究」と「応用研究」の乖離に対する指摘
1) K. Wagstaff, “Machine learning that matters,” ICML2012.
深層学習のImpactは何だったのか?
- 識別精度以外に焦点を当てて -
■ Fine-tuningの存在(+github)
– 基礎研究の精度向上や新手法が,数ヶ月後にはローンチされる?
→ImageNetなどのDSはもはやアヤメのDSとは質的に異なる.
■ 2012年の議論(基礎と応用の乖離)はもはや過去のもの.
(ただし,精度向上(%)ではなく,現実の問題での寄与での評価が大事,
という指摘は忘れては行けない)
■ ただし...
何が出来ていて,何が未だなのか?
- 深層学習時代のコールドスタート問題? -
■ 深層学習の恩恵に預かるには,良い教師データが必要
– クラウドソーシング全盛?ただしマイクロワーカーはインド人?
(インド人の認識が世界基準に???)
– 複雑な教師データの作成コストは馬鹿にならない.
– サービスの中で(明示的・暗黙的に)教師データを収集
→ユーザ体験とのトレードオフ
■ そもそも,良い教師データが作れない識別問題も存在するのでは?
これからのパターン認識の課題
- 有形概念認識から無形概念認識へ -
■ 従来の認識対象: 物体,動作(物理的な動きで定義可能なもの)
■ そもそも正解が曖昧な概念の認識 (無形概念認識?)
–見えない=客観的な合意形成が難しい=主観によるばらつきが大きい
形容詞,オノマトペ,心理状態,(抽象度の高い動作)
–例:「大きい」,「寒い」,「サラサラ」,「よちよち」,「困っている」,「疲れてい
る」...
→ 文脈や使用言語にも大きく影響を受ける.
自然言語と概念
■ 言語・所属コミュニティによって概念の範囲が違う
– 疲れた ≠ müde(独)
– 辛い≒しょっぱい???
■ テキスト内の文脈によってもおそらく異なる
– 「大きな」雪の結晶はかなり小さい - 川がサラサラ, 布がサラサラ
無形概念は使用者集団や文脈の中で意味が確定する
かわいい?
自然言語と画像/映像の対応付け
■ Image Captioning, Image-Sentence Alignment
– 言語表現と画像中の要素の対応付け(物体,動作,物
体間の位置など)
自然言語表現から自動で教師ラベルを抽出
→将来的には無形概念の取扱いも可能ではないか?
Pascal Sentence Dataset(2
■ Pascal DatasetにAmazon MTurkで説明文を付与
2)Cyrus Rashtchian et. al., “Collecting Image Annotations Using Amazon's Mechanical Turk,”
NAACL HLT 2010 Workshop
A bike painted pink sitting on a sidewalk
outside a building.
An old bicycle painted almost completely
pink standing against a city building.
A pink bicycle is in front of a building
A pink bicycle is parked next to a brick
and concrete building.
A pink bicycle with matching tires.
Pascal Sentence Dataset(2
■ Pascal DatasetにAmazon MTurkで説明文を付与
2)Cyrus Rashtchian et. al., “Collecting Image Annotations Using Amazon's Mechanical Turk,”
NAACL HLT 2010 Workshop
A bike painted pink sitting on a sidewalk
outside a building.
An old bicycle painted almost completely
pink standing against a city building.
A pink bicycle is in front of a building
A pink bicycle is parked next to a brick
and concrete building.
A pink bicycle with matching tires.
現状の技術で扱うのが
かなり難しい部類
ほぼ有形な概念
物体同士の位置関係(次スライド)
Grounded Language Learning(3
3) Haonan Yu et. al., “Grounded
Language Learning from Video
Described with Sentences,”
ACL2013
Unlike prior computer-vision
approaches that learn from
videos with verb labels or
images with noun labels,
our labels are sentences
containing nouns, verbs,
prepositions, adjectives, and
adverbs
物体/動作特徴はHand-crafted.
Deep visual-semantic alignment(4
4)A. Karpathy and L. Fei-Fei, “Deep visual-semantic alignments for generating image descriptions,”
CVPR2015
CNN+RNNによる
画像説明文の生成
個々の単語の尤度も
出力可能(左図)
Deep visual-semantic alignment(4
4)A. Karpathy and L. Fei-Fei, “Deep visual-semantic alignments for generating image descriptions,”
CVPR2015
CNN+RNNによる
画像説明文の生成
個々の単語の尤度も
出力可能(左図)
”Visible”に近い形容詞,前
置詞などしか扱えていない
何故”Visible”な概念しか扱えないのか
■ そもそも,教師データとなる文がVisibleな
概念を説明する文になってしまっている
– 画像そのものを説明させても,
無形概念の記述は得られ
にくい?
→MTurkによる正解データ
作成の限界
冬,寒い?
こちらの女性は旅行者で,道がわからない.
ただし,焦っている様子はない
地元の人?
我々の研究事例紹介: 調理過程の食材認識(5
(詳細は2017年1月研究会 オーガナイズドセッション1「食」にて.)
■ クックパッドのレシピテキスト+画像
で学習
– 画像と文の対応は非常にゆるい
■ まだ(混合)食材の種類の学習のみ
– より無形な概念(食材の状態)も扱いたい
図.調理過程で現れる人参の
識別器の自動学習例
5)藤野他, “調理過程画像からの食材認識,” CVIM/PRMU/MVE 2017 1月研究会
無形概念認識に向けて重要になると思う技術
■ より多様な「文と画像の組」による学習
– 表層的な説明文 → 深い概念的理解に基づく文
– User Generated Contentsなどの活用(cold startへの一つの解)
>レシピ,個人のブログ,ニュース,... を教師とした学習
■ 概念の自己組織化
– 「大きな雪の結晶」は「雪の結晶(有形概念)」の一形態
→有形概念の「状態」として学習
→テキストと対応付けるためには,画像のみでの区別が必要
> 深層学習モデルの特徴量を教師無しで解析する技術の開発
まとめ
■ 有形概念の認識はCNN+RNNで確かに出来てきた.
■ 明確な形がない概念の認識はまだまだではないか?
– 学習データの問題
■ ラベルは明確でなければ☓ → 形がないと客観的合意形成不可
■ 自然言語の記述は既に大量に存在,無形の概念を記述可能
– 自然言語を教師データとする学習
■ 現在: 画像そのものの説明文で学習→有形概念ばかりになる
■ 画像と共にある任意の記述での学習が必要
→文集合≒コミュニティが違えば,異なる結果=主観?
Q&A + コメント(その場で上手く答えられ
なかったので勝手にここでまとめてみる.)
■ 見えている物体などと合わせて,その状態などの
形容詞的な部分を認識する手法は既にある.そう
いうものもサーベイしてみては?
– そういうものはもちろんあると思う.画像のみで
形容詞やオノマトペを認識する限り,そこからは
逃れられない.画像の外の知識や推論まで入れ始
めると木村さんの発表のようになるかなと思って
いる.
■ 概念の程度問題,というのを考えたときには,一対
比較のようなものでデータを作るのが妥当では?
– GCということで,無形概念というくくりで考えて一
網打尽にする手法の作成,みたいなものを念頭にお
いている.各論的な研究はもちろん大事だけれど,
それだとCNNに多くの研究が駆逐されたのと似た状
態になるのでは?と危惧している.駆逐される前に
こちらから,無形概念を一網打尽にできるような手
法を作ることがチャレンジだと思う.
– むしろ,一対比較のようなものは,むしろ正解デー
タとして利用するのはありかもしれないと思う.
Q&A + コメント(その場で上手く答えられ
なかったので勝手にここでまとめてみる.)
■ 「サラサラ」は単語が一緒でも,もう一つ上の概念などで
異なる意味かもしれない.例えば,川がサラサラは音が関
係している.音との共起性なども考えても面白いかもしれ
ない.
– 確かに,同じ言葉で違う意味かもしれないが,特にオノマ
トペの場合,音素には言語の違いに依らない共通の印象な
どがあることが知られている.そういう共通の部分と違う
部分をパターン認識的に明確に数値化できると面白いと思
う.もちろん,PRMUは画像よりの人が多いけれど,マル
チモーダルな展開も十分にありえると思うし,やるべきだ
と思う.
– 一方で,この提案の一つは,データセットを新たに作らな
くても良い世界にする,ということでもある.そういう意
味では,各論的なデータ作成は趣旨と外れるかもしれない.
Q&A + コメント(その場で上手く答えられ
なかったので勝手にここでまとめてみる.)
Q&A + コメント(その場で上手く答えられな
かったので勝手にここでまとめてみる.)
■ 正解がある,という風に囚われすぎているのではないか?
– 正解,という言葉を使っているのは確かにミスリーディング
かも知れない.寧ろ,個人的には「正解」は主観によってい
くらでも変わりうる,と考えている.主観を定量化するにあ
たって,コミュニティのような集団を考えるのは一つのアプ
ローチではないか?ということが主張.もちろん強烈な個性
を持つ,他に類を見ない主観を持つ人は扱えないが,多くの
人の主観は帰属コミュニティの影響を受けていて,そのコ
ミュニティ毎にはある種の正解(客観的合意)が形成されて
いなければ,そもそもコミュニケーションというものそのも
のが成り立たないのではないかと思う.
Q&A + コメント(その場で上手く答えられな
かったので勝手にここでまとめてみる.)
■ もっと具体的に何の役に立つかを考えた方が良い
のではないか?
– GCということで,個別の研究の話ではないので,
明確で具体的な案は不要と思い,敢えてそういう
話はしなかったが,人と機械のコミュニケーショ
ンを伴う全てのことに非常に大きなインパクトを
与えると思う.一方で,東ロボなどのGCを見るに,
(有用かはさておき)もっとキャッチーな応用に
問題を着地させておいても良かったかも知れない.
例えば「空気を読む認識」のようなもの?

More Related Content

More from Atsushi Hashimoto

Cvpr2018 参加報告(速報版)3日目
Cvpr2018 参加報告(速報版)3日目Cvpr2018 参加報告(速報版)3日目
Cvpr2018 参加報告(速報版)3日目Atsushi Hashimoto
 
CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目Atsushi Hashimoto
 
CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日Atsushi Hashimoto
 
関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料Atsushi Hashimoto
 
CVPR2017 参加報告 速報版 本会議 4日目
CVPR2017 参加報告 速報版 本会議 4日目CVPR2017 参加報告 速報版 本会議 4日目
CVPR2017 参加報告 速報版 本会議 4日目Atsushi Hashimoto
 
CVPR2017 参加報告 速報版 本会議3日目
CVPR2017 参加報告 速報版 本会議3日目CVPR2017 参加報告 速報版 本会議3日目
CVPR2017 参加報告 速報版 本会議3日目Atsushi Hashimoto
 
CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目Atsushi Hashimoto
 
Kusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationKusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationAtsushi Hashimoto
 
人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告Atsushi Hashimoto
 
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本Atsushi Hashimoto
 

More from Atsushi Hashimoto (10)

Cvpr2018 参加報告(速報版)3日目
Cvpr2018 参加報告(速報版)3日目Cvpr2018 参加報告(速報版)3日目
Cvpr2018 参加報告(速報版)3日目
 
CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目
 
CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日
 
関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料
 
CVPR2017 参加報告 速報版 本会議 4日目
CVPR2017 参加報告 速報版 本会議 4日目CVPR2017 参加報告 速報版 本会議 4日目
CVPR2017 参加報告 速報版 本会議 4日目
 
CVPR2017 参加報告 速報版 本会議3日目
CVPR2017 参加報告 速報版 本会議3日目CVPR2017 参加報告 速報版 本会議3日目
CVPR2017 参加報告 速報版 本会議3日目
 
CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目
 
Kusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationKusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food Preparation
 
人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告
 
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
 

Recently uploaded

これからはじめるAnsible - Ansible Night Tokyo 2024
これからはじめるAnsible - Ansible Night Tokyo 2024これからはじめるAnsible - Ansible Night Tokyo 2024
これからはじめるAnsible - Ansible Night Tokyo 2024Hideki Saito
 
バイオリンの運弓動作計測による初心者と経験者の差異分析
バイオリンの運弓動作計測による初心者と経験者の差異分析バイオリンの運弓動作計測による初心者と経験者の差異分析
バイオリンの運弓動作計測による初心者と経験者の差異分析sugiuralab
 
JAWS DAYS 2024 E-3 ランチにまつわるちょっといい話 〜給食がない町の小中学生に温かい昼食を〜
JAWS DAYS 2024 E-3 ランチにまつわるちょっといい話 〜給食がない町の小中学生に温かい昼食を〜JAWS DAYS 2024 E-3 ランチにまつわるちょっといい話 〜給食がない町の小中学生に温かい昼食を〜
JAWS DAYS 2024 E-3 ランチにまつわるちょっといい話 〜給食がない町の小中学生に温かい昼食を〜Naomi Yamasaki
 
IGDA Japan SIG Audio #22 オンラインセミナー VRの知る.pdf
IGDA Japan SIG Audio #22 オンラインセミナー VRの知る.pdfIGDA Japan SIG Audio #22 オンラインセミナー VRの知る.pdf
IGDA Japan SIG Audio #22 オンラインセミナー VRの知る.pdfIGDA Japan SIG-Audio
 
キンドリル_ネットワーク自動化成熟度診断サービス ご紹介資料 2024年3月版
キンドリル_ネットワーク自動化成熟度診断サービス ご紹介資料 2024年3月版キンドリル_ネットワーク自動化成熟度診断サービス ご紹介資料 2024年3月版
キンドリル_ネットワーク自動化成熟度診断サービス ご紹介資料 2024年3月版Takayuki Nakayama
 
The 86th National Convention of IPSJ (Student Encouragement Award))
The 86th National Convention of IPSJ (Student Encouragement Award))The 86th National Convention of IPSJ (Student Encouragement Award))
The 86th National Convention of IPSJ (Student Encouragement Award))yoshidakids7
 
00001_test_automation_portfolio_20240313
00001_test_automation_portfolio_2024031300001_test_automation_portfolio_20240313
00001_test_automation_portfolio_20240313ssuserf8ea02
 
チームで開発するための環境を整える
チームで開発するための環境を整えるチームで開発するための環境を整える
チームで開発するための環境を整えるonozaty
 
AWS_Bedrock入門 このスライドは2024/03/08の勉強会で発表されたものです。
AWS_Bedrock入門 このスライドは2024/03/08の勉強会で発表されたものです。AWS_Bedrock入門 このスライドは2024/03/08の勉強会で発表されたものです。
AWS_Bedrock入門 このスライドは2024/03/08の勉強会で発表されたものです。iPride Co., Ltd.
 
キャラで動かすGPT ~GPTsでどんな感じに作っているとか考えていることとか~
キャラで動かすGPT ~GPTsでどんな感じに作っているとか考えていることとか~キャラで動かすGPT ~GPTsでどんな感じに作っているとか考えていることとか~
キャラで動かすGPT ~GPTsでどんな感じに作っているとか考えていることとか~honeshabri
 
SIG-AUDIO 2024 Vol.02 オンラインセミナー 「必殺使音人(ひっさつしおとにん)カットシーンを成敗せよ」
SIG-AUDIO 2024 Vol.02 オンラインセミナー 「必殺使音人(ひっさつしおとにん)カットシーンを成敗せよ」SIG-AUDIO 2024 Vol.02 オンラインセミナー 「必殺使音人(ひっさつしおとにん)カットシーンを成敗せよ」
SIG-AUDIO 2024 Vol.02 オンラインセミナー 「必殺使音人(ひっさつしおとにん)カットシーンを成敗せよ」IGDA Japan SIG-Audio
 
AWS Lambdaと AWS API Gatewayを使ったREST API作り
AWS Lambdaと AWS API Gatewayを使ったREST API作りAWS Lambdaと AWS API Gatewayを使ったREST API作り
AWS Lambdaと AWS API Gatewayを使ったREST API作りiPride Co., Ltd.
 

Recently uploaded (12)

これからはじめるAnsible - Ansible Night Tokyo 2024
これからはじめるAnsible - Ansible Night Tokyo 2024これからはじめるAnsible - Ansible Night Tokyo 2024
これからはじめるAnsible - Ansible Night Tokyo 2024
 
バイオリンの運弓動作計測による初心者と経験者の差異分析
バイオリンの運弓動作計測による初心者と経験者の差異分析バイオリンの運弓動作計測による初心者と経験者の差異分析
バイオリンの運弓動作計測による初心者と経験者の差異分析
 
JAWS DAYS 2024 E-3 ランチにまつわるちょっといい話 〜給食がない町の小中学生に温かい昼食を〜
JAWS DAYS 2024 E-3 ランチにまつわるちょっといい話 〜給食がない町の小中学生に温かい昼食を〜JAWS DAYS 2024 E-3 ランチにまつわるちょっといい話 〜給食がない町の小中学生に温かい昼食を〜
JAWS DAYS 2024 E-3 ランチにまつわるちょっといい話 〜給食がない町の小中学生に温かい昼食を〜
 
IGDA Japan SIG Audio #22 オンラインセミナー VRの知る.pdf
IGDA Japan SIG Audio #22 オンラインセミナー VRの知る.pdfIGDA Japan SIG Audio #22 オンラインセミナー VRの知る.pdf
IGDA Japan SIG Audio #22 オンラインセミナー VRの知る.pdf
 
キンドリル_ネットワーク自動化成熟度診断サービス ご紹介資料 2024年3月版
キンドリル_ネットワーク自動化成熟度診断サービス ご紹介資料 2024年3月版キンドリル_ネットワーク自動化成熟度診断サービス ご紹介資料 2024年3月版
キンドリル_ネットワーク自動化成熟度診断サービス ご紹介資料 2024年3月版
 
The 86th National Convention of IPSJ (Student Encouragement Award))
The 86th National Convention of IPSJ (Student Encouragement Award))The 86th National Convention of IPSJ (Student Encouragement Award))
The 86th National Convention of IPSJ (Student Encouragement Award))
 
00001_test_automation_portfolio_20240313
00001_test_automation_portfolio_2024031300001_test_automation_portfolio_20240313
00001_test_automation_portfolio_20240313
 
チームで開発するための環境を整える
チームで開発するための環境を整えるチームで開発するための環境を整える
チームで開発するための環境を整える
 
AWS_Bedrock入門 このスライドは2024/03/08の勉強会で発表されたものです。
AWS_Bedrock入門 このスライドは2024/03/08の勉強会で発表されたものです。AWS_Bedrock入門 このスライドは2024/03/08の勉強会で発表されたものです。
AWS_Bedrock入門 このスライドは2024/03/08の勉強会で発表されたものです。
 
キャラで動かすGPT ~GPTsでどんな感じに作っているとか考えていることとか~
キャラで動かすGPT ~GPTsでどんな感じに作っているとか考えていることとか~キャラで動かすGPT ~GPTsでどんな感じに作っているとか考えていることとか~
キャラで動かすGPT ~GPTsでどんな感じに作っているとか考えていることとか~
 
SIG-AUDIO 2024 Vol.02 オンラインセミナー 「必殺使音人(ひっさつしおとにん)カットシーンを成敗せよ」
SIG-AUDIO 2024 Vol.02 オンラインセミナー 「必殺使音人(ひっさつしおとにん)カットシーンを成敗せよ」SIG-AUDIO 2024 Vol.02 オンラインセミナー 「必殺使音人(ひっさつしおとにん)カットシーンを成敗せよ」
SIG-AUDIO 2024 Vol.02 オンラインセミナー 「必殺使音人(ひっさつしおとにん)カットシーンを成敗せよ」
 
AWS Lambdaと AWS API Gatewayを使ったREST API作り
AWS Lambdaと AWS API Gatewayを使ったREST API作りAWS Lambdaと AWS API Gatewayを使ったREST API作り
AWS Lambdaと AWS API Gatewayを使ったREST API作り
 

PRMU GC第二期 無形概念認識