PRMU GC第二期無形概念認識

無形概念認識の実現に向けて
どんな技術が求められるのか?
2016/12/16
PRMU12月研究会@鳥取大学
京都大学教育学研究科・助教
美濃研究室研究協力
橋本敦史
PRMU グランドチャレンジ（第二期）

発表の概要
■ GC第1期で，究極のチャレンジとして「画像に関するあ
らゆる意味の記述」が挙げられた
■ GC第2期の案内文で「上記の究極のチャレンジすら，
CNNとRNNによる...解かれつつある」とある
■ 本当にそうだろうか？？

発表の概要
■ GC第1期で，究極のチャレンジとして「画像に関するあ
らゆる意味の記述」が挙げられた
■ GC第2期の案内文で「上記の究極のチャレンジすら，
CNNとRNNによる...解かれつつある」とある
■ 本当にそうだろうか？？
– 物体や動作などに
偏っているのではないか？
冬，寒い？
この女性は旅行者で，道がわからない．
ただし，焦っている様子はない
地元の人？
より抽象度の高い概念の認識も重要では？
Photo Credit: faungg’s photo | Flickr

画像認識における課題の変化
- Wagstaff の指摘@ ICML2012(1から考える-
■ ベンチマークデータセットと現実の問題に乖離がないか？
– アヤメやマッシュルームのDSでの評価に偏り過ぎていないか？
– 精度向上が何％だったかではなく，現実の問題への寄与で評価するべき．
■ 賛否両論ある．
– 特定のベンチマークDSにチューニングされたような手法はそもそも評価
されない
– アルゴリズムや手法の精度向上に注力するコミュニティも認めるべき
■ 根幹は「基礎研究」と「応用研究」の乖離に対する指摘
1) K. Wagstaff, “Machine learning that matters,” ICML2012.

深層学習のImpactは何だったのか？
- 識別精度以外に焦点を当てて -
■ Fine-tuningの存在(+github)
– 基礎研究の精度向上や新手法が，数ヶ月後にはローンチされる？
→ImageNetなどのDSはもはやアヤメのDSとは質的に異なる．
■ 2012年の議論（基礎と応用の乖離）はもはや過去のもの．
(ただし，精度向上(%)ではなく，現実の問題での寄与での評価が大事，
という指摘は忘れては行けない）
■ ただし...

何が出来ていて，何が未だなのか？
- 深層学習時代のコールドスタート問題? -
■ 深層学習の恩恵に預かるには，良い教師データが必要
– クラウドソーシング全盛？ただしマイクロワーカーはインド人？
（インド人の認識が世界基準に？？？）
– 複雑な教師データの作成コストは馬鹿にならない．
– サービスの中で（明示的・暗黙的に）教師データを収集
→ユーザ体験とのトレードオフ
■ そもそも，良い教師データが作れない識別問題も存在するのでは？

これからのパターン認識の課題
- 有形概念認識から無形概念認識へ -
■ 従来の認識対象: 物体，動作（物理的な動きで定義可能なもの）
■ そもそも正解が曖昧な概念の認識 (無形概念認識？）
–見えない=客観的な合意形成が難しい=主観によるばらつきが大きい
形容詞，オノマトペ，心理状態，(抽象度の高い動作）
–例:「大きい」,「寒い」,「サラサラ」,「よちよち」,「困っている」,「疲れてい
る」...
→ 文脈や使用言語にも大きく影響を受ける．

自然言語と概念
■ 言語・所属コミュニティによって概念の範囲が違う
– 疲れた ≠ müde（独）
– 辛い≒しょっぱい???
■ テキスト内の文脈によってもおそらく異なる
– 「大きな」雪の結晶はかなり小さい - 川がサラサラ，布がサラサラ
無形概念は使用者集団や文脈の中で意味が確定する
かわいい？

自然言語と画像/映像の対応付け
■ Image Captioning, Image-Sentence Alignment
– 言語表現と画像中の要素の対応付け（物体，動作，物
体間の位置など）
自然言語表現から自動で教師ラベルを抽出
→将来的には無形概念の取扱いも可能ではないか？

Pascal Sentence Dataset(2
■ Pascal DatasetにAmazon MTurkで説明文を付与
2)Cyrus Rashtchian et. al., “Collecting Image Annotations Using Amazon's Mechanical Turk,”
NAACL HLT 2010 Workshop
A bike painted pink sitting on a sidewalk
outside a building.
An old bicycle painted almost completely
pink standing against a city building.
A pink bicycle is in front of a building
A pink bicycle is parked next to a brick
and concrete building.
A pink bicycle with matching tires.

Pascal Sentence Dataset(2
■ Pascal DatasetにAmazon MTurkで説明文を付与
2)Cyrus Rashtchian et. al., “Collecting Image Annotations Using Amazon's Mechanical Turk,”
NAACL HLT 2010 Workshop
A bike painted pink sitting on a sidewalk
outside a building.
An old bicycle painted almost completely
pink standing against a city building.
A pink bicycle is in front of a building
A pink bicycle is parked next to a brick
and concrete building.
A pink bicycle with matching tires.
現状の技術で扱うのが
かなり難しい部類
ほぼ有形な概念
物体同士の位置関係（次スライド）

Grounded Language Learning(3
3) Haonan Yu et. al., “Grounded
Language Learning from Video
Described with Sentences,”
ACL2013
Unlike prior computer-vision
approaches that learn from
videos with verb labels or
images with noun labels,
our labels are sentences
containing nouns, verbs,
prepositions, adjectives, and
adverbs
物体/動作特徴はHand-crafted.

Deep visual-semantic alignment(4
4)A. Karpathy and L. Fei-Fei, “Deep visual-semantic alignments for generating image descriptions,”
CVPR2015
CNN+RNNによる
画像説明文の生成
個々の単語の尤度も
出力可能（左図）

Deep visual-semantic alignment(4
4)A. Karpathy and L. Fei-Fei, “Deep visual-semantic alignments for generating image descriptions,”
CVPR2015
CNN+RNNによる
画像説明文の生成
個々の単語の尤度も
出力可能（左図）
”Visible”に近い形容詞，前
置詞などしか扱えていない

何故”Visible”な概念しか扱えないのか
■ そもそも，教師データとなる文がVisibleな
概念を説明する文になってしまっている
– 画像そのものを説明させても，
無形概念の記述は得られ
にくい？
→MTurkによる正解データ
作成の限界
冬，寒い？
こちらの女性は旅行者で，道がわからない．
ただし，焦っている様子はない
地元の人？

我々の研究事例紹介: 調理過程の食材認識(5
（詳細は2017年1月研究会オーガナイズドセッション1「食」にて.）
■ クックパッドのレシピテキスト+画像
で学習
– 画像と文の対応は非常にゆるい
■ まだ(混合)食材の種類の学習のみ
– より無形な概念（食材の状態）も扱いたい
図．調理過程で現れる人参の
識別器の自動学習例
5)藤野他， “調理過程画像からの食材認識,” CVIM/PRMU/MVE 2017 1月研究会

無形概念認識に向けて重要になると思う技術
■ より多様な「文と画像の組」による学習
– 表層的な説明文 → 深い概念的理解に基づく文
– User Generated Contentsなどの活用(cold startへの一つの解)
>レシピ，個人のブログ，ニュース,... を教師とした学習
■ 概念の自己組織化
– 「大きな雪の結晶」は「雪の結晶（有形概念）」の一形態
→有形概念の「状態」として学習
→テキストと対応付けるためには，画像のみでの区別が必要
> 深層学習モデルの特徴量を教師無しで解析する技術の開発

まとめ
■ 有形概念の認識はCNN+RNNで確かに出来てきた．
■ 明確な形がない概念の認識はまだまだではないか？
– 学習データの問題
■ ラベルは明確でなければ☓ → 形がないと客観的合意形成不可
■ 自然言語の記述は既に大量に存在，無形の概念を記述可能
– 自然言語を教師データとする学習
■ 現在: 画像そのものの説明文で学習→有形概念ばかりになる
■ 画像と共にある任意の記述での学習が必要
→文集合≒コミュニティが違えば，異なる結果=主観？

Q&A + コメント（その場で上手く答えられ
なかったので勝手にここでまとめてみる．）
■ 見えている物体などと合わせて，その状態などの
形容詞的な部分を認識する手法は既にある．そう
いうものもサーベイしてみては？
– そういうものはもちろんあると思う．画像のみで
形容詞やオノマトペを認識する限り，そこからは
逃れられない．画像の外の知識や推論まで入れ始
めると木村さんの発表のようになるかなと思って
いる．

■ 概念の程度問題，というのを考えたときには，一対
比較のようなものでデータを作るのが妥当では？
– GCということで，無形概念というくくりで考えて一
網打尽にする手法の作成，みたいなものを念頭にお
いている．各論的な研究はもちろん大事だけれど，
それだとCNNに多くの研究が駆逐されたのと似た状
態になるのでは？と危惧している．駆逐される前に
こちらから，無形概念を一網打尽にできるような手
法を作ることがチャレンジだと思う．
– むしろ，一対比較のようなものは，むしろ正解デー
タとして利用するのはありかもしれないと思う．

■ 「サラサラ」は単語が一緒でも，もう一つ上の概念などで
異なる意味かもしれない．例えば，川がサラサラは音が関
係している．音との共起性なども考えても面白いかもしれ
ない．
– 確かに，同じ言葉で違う意味かもしれないが，特にオノマ
トペの場合，音素には言語の違いに依らない共通の印象な
どがあることが知られている．そういう共通の部分と違う
部分をパターン認識的に明確に数値化できると面白いと思
う．もちろん，PRMUは画像よりの人が多いけれど，マル
チモーダルな展開も十分にありえると思うし，やるべきだ
と思う．
– 一方で，この提案の一つは，データセットを新たに作らな
くても良い世界にする，ということでもある．そういう意
味では，各論的なデータ作成は趣旨と外れるかもしれない．

Q&A + コメント（その場で上手く答えられな
かったので勝手にここでまとめてみる．）
■ 正解がある，という風に囚われすぎているのではないか？
– 正解，という言葉を使っているのは確かにミスリーディング
かも知れない．寧ろ，個人的には「正解」は主観によってい
くらでも変わりうる，と考えている．主観を定量化するにあ
たって，コミュニティのような集団を考えるのは一つのアプ
ローチではないか？ということが主張．もちろん強烈な個性
を持つ，他に類を見ない主観を持つ人は扱えないが，多くの
人の主観は帰属コミュニティの影響を受けていて，そのコ
ミュニティ毎にはある種の正解（客観的合意）が形成されて
いなければ，そもそもコミュニケーションというものそのも
のが成り立たないのではないかと思う．

Q&A + コメント（その場で上手く答えられな
かったので勝手にここでまとめてみる．）
■ もっと具体的に何の役に立つかを考えた方が良い
のではないか？
– GCということで，個別の研究の話ではないので，
明確で具体的な案は不要と思い，敢えてそういう
話はしなかったが，人と機械のコミュニケーショ
ンを伴う全てのことに非常に大きなインパクトを
与えると思う．一方で，東ロボなどのGCを見るに，
（有用かはさておき）もっとキャッチーな応用に
問題を着地させておいても良かったかも知れない．
例えば「空気を読む認識」のようなもの？

PRMU GC第二期無形概念認識

Recommended

Recommended

More Related Content

More from Atsushi Hashimoto

More from Atsushi Hashimoto (10)

Recently uploaded

Recently uploaded (10)