20160525はじめてのコンピュータビジョン

2016/05/25 情報機構セミナー
はじめてのコンピュータビジョン
「画像認識の仕組みとビジネス事例」
ビジョン＆ITラボ皆川卓也

この講演の目的
2
 はじめての方や技術者以外の方に「コンピュータビジョンで何
ができるのか」の全体像をご理解いただく。
 コンピュータビジョンの基本的な仕組みを理解していただく。
 数式は一切出てきません。
 コンピュータビジョンを使ったビジネスのイメージをつけていた
だく。
 IoT時代におけるコンピュータビジョンの役割について解説いたしま
す。
 ソーシャルメディア、拡張現実感（AR）、自動運転などの事例を紹介
いたします。
 実際に利用するにあたって、便利なライブラリや商用サービスなど
を紹介いたします。
注意：
短い時間時間で全体を理解してもらうため、様々な説明を省略しています。実際
のビジネスにあたっては参考文献の論文等もご参照ください。

自己紹介
3
テクニカル・ソリューション・アーキテクト
皆川卓也（みながわたくや）
フリーエンジニア（ビジョン＆ITラボ）
「コンピュータビジョン勉強会＠関東」主催
博士（工学）
http://visitlab.jp
略歴：
1999-2003年
日本HP（後にアジレント・テクノロジーへ分社）にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、2014年に博士号取得
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事

講演の内容
4
 なぜ今コンピュータビジョンなのか（割愛）
 コンピュータビジョンでできること
 コンピュータビジョンの仕組み
 コンピュータビジョンの活用例
 ライブラリ/APIの紹介

5
コンピュータビジョン
でできること

コンピュータビジョンでできること
6
1. 人や顔の認識
2. 何がどこに写っているかの認識
3. 三次元空間を把握
4. 動画から人の動作や物の動きを認識
5. 画像の加工/品質向上

人や顔を認識する
7
 顔を認識する
 顔検出
 顔認証
 顔器官検出
 顔属性判定
 人を認識する
 人物検出
 姿勢推定
 その他
 ペット認識

顔検出
8
 顔が画像のどこにあるのかを判定する。

顔認証
9
 写真に写っている人物が「誰か」を判定する。
 例：[Turk1991], [Wiskott1997],
[Taigman2014],[Belhumeur1997]
Natalie Portman
Jean Reno

顔器官検出
10
 目、鼻、口、輪郭など、顔の詳細パーツを抽出する。
 顔向き推定、視線推定、目/口の開き、メガネの有無判定なども
Credit:[Cao2012]

顔属性判定
11
 性別、表情、年齢などを判定する。
OKAO Visionのサイト[http://plus-
sensing.omron.co.jp/technology/detail/]
より画像転載

人検出
12
 画像から人の位置を検出する

人姿勢推定
13
 画像から人物の姿勢を推定する。
Credit:[Toshev2014]

ペット検出
14
 画像からペットの顔を検出する
OKAO Visionのサイト[http://plus-sensing.omron.co.jp/technology/movie/]より
画像転載

ビジネス事例（顔検出）
15
 デジタルカメラのオートフォーカス
 Amazon Fire Phoneの３次元IF
 Google Street View
 プライバシー保護目的
Nikon COOLPIX 5900

ビジネス事例（顔認証）
16
 出会い系/結婚紹介サイトの好みの顔検索
 http://internetcom.jp/webtech/20131220/3.html
 http://www.gizmodo.jp/2014/06/matchcom.html
 自分が有名人の誰に似てるかを判別するエンタメサイト
 顔ちぇき！ (2013年1月サービス終了)
 CelebsLike.Me
 http://www.celebslike.me/

ビジネス事例（顔認証）
17
 ライブの入場者確認
 http://trendy.nikkeibp.co.jp/atcl/pickup/15/1008498/040800
231
 顔認証付きホーム用ネットワークカメラ
 netatmo “Welcome”
 https://www.netatmo.com/ja-JP/product/camera

ビジネス事例（顔器官検出）
18
 アバター（ゲーム等）
 SOEmote
https://www.youtube.com/watch?v=cde01HNKQVw
 プリクラ（美顔、デカ目）
バンダイナムコゲームス「Eye mix」

ビジネス事例（顔属性判定）
19
 スマイルシャッター（ソニーサイバーショット）
 http://www.sony.jp/ServiceArea/impdf/pdf/44329430M.w-
JP/jp/contents/04/02/11/11.html
 笑っただけ払えば良いコメディ劇場
 http://kyouki.hatenablog.com/entry/2014/06/12/064138
 タバコ自販機による年齢確認
 http://ja.wikipedia.org/wiki/成人識別自動販売機
 自販機における自動商品推薦機能
 http://www.itmedia.co.jp/news/articles/1008/10/news080.ht
ml

ビジネス事例（ペット認識）
20
 デジタルカメラのペット検出オートーフォーカス
 FinePix Z700EXR、Optio I-10、CX3
 猫の顔認識つき給餌期
 CatFi (http://catfi.com/)
 迷子のペット探し
 PiP (http://www.petrecognition.com/)
PiP CatFi Pro

参考文献
21
 [Belhumeur1997] Belhumeur, P. N., Hespanha, J. P., & Kriegman, D. J. (1997).
Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection.
IEEE Transaction on Pattern Analysis and Machine Intelligence, 19(7), 711–720.
 [Cao2012]Cao, X., Wei, Y., Wen, F., & Sun, J. (2012). Face Alignment by Explicit
Shape Regression. In IEEE Conference on Computer Vision and Pattern
Recognition (CVPR).
 [Taigman2014] Taigman, Y., Ranzato, M. A., & Wolf, L. (2014). DeepFace: Closing
the Gap to Human-Level Performance in Face Verification. In IEEE Conference
on Computer Vision and Pattern Recognition (CVPR).
 [Toshev2014] Toshev, A., & Szegedy, C. (2014). DeepPose: Human pose
estimation via deep neural networks. In IEEE Conference on Computer Vision and
Pattern Recognition (CVPR).
 [Turk1991] Turk, M., & Pentland, A. (1991). Eigenfaces for Recognition. Journal of
Cognitive Neuroscienceo, 3(1), 71–86.
 [Wiskott1997] Wiskott, L., Fellous, J.-M., Kruger, N., & Malsburg, C. von der.
(1997). Face recognition by elastic bunch graph matching. IEEE Transactions on
Pattern Analysis and Machine Intelligence, 19(7), 775–779.

色々な物体を認識
22
 特定物体認識
 一般物体認識
 一般物体検出
 顕著性検出
 Objectness検出
 文字認識

特定物体認識
23
 画像から事前に登録した画像と同一の物体を認識する。
 パンフレット/パッケージ/ランドマークなど
最先端ガイド１
カメラで撮影
認識！

一般物体認識
24
 画像に写っている物体のカテゴリを判別する
飛行機顔自動車
入力
画像
出力
カテゴリ認識

一般物体認識（詳細画像識別）
25
 あるカテゴリ内のサブカテゴリを認識する
 犬種：チワワ、プードル、シベリアンハスキー、ドーベルマン等
 車種：アクセラ、スカイライン、ヴィッツ等
Scarlet Kingfisher African daisy
Flower

一般物体検出
26
 自動車、人、ボトル、牛、など一般的な物体の位置を画
像から見つける。
 顔検出、人検出も一般物体検出に含まれる。
顔
歩行者
車

顕著性検出
27
 画像の中で「目立つ」ところを探す。
 元々は人間が目立つ箇所に無意識に注意が向く仕組み（ボト
ムアップ注意）をモデル化したもの
[木村2012]プレゼン資料より抜粋

Selective Search/Objectness検出
28
 画像から物体っぽいものを検出する。（それがどんな物
体かまでは判別しない。）
 一般物体検出の前処理として使われる。
Credit: [Cheng2014]

文字検出/認識
29
 画像中の文字領域を検出する
 画像中の文字を認識する
 例：[LeCun1998]
あいう

ビジネス事例（特定物体認識）
30
 Google Goggles（ランドマークや書籍などの認識）
 Amazon Fire Phone (書籍やCDジャケット等)
 マーケティング/販促
 TSUTAYA DVDジャケット撮影で作品情報提供
 http://www.nikkei.com/article/DGXNASDD0301Y_T00C13A8TJC000/
 楽天スマホで撮った商品を自動検索
 http://www.nikkei.com/article/DGXNASDD180LC_Y3A710C1TJ1000/
Google Goggles
（Google）

ビジネス事例（一般物体認識）
31
 画像の自動整理/タグ付け
 Adobe Element Organizer “Smart Tag”
 https://blogs.adobe.com/digitalmarketing/tag/smart-tags/
 食事画像認識によるカロリー管理
 FoodLog（http://www.foodlog.jp/）
 バーコードいらずのレジ
 BakerlyScan, http://www.bakeryscan.com/
 食パン識別

ビジネス事例（詳細画像識別）
32
 Pl@ntNet
 http://m.plantnet-project.org/
 植物識別アプリ
 Leaf snap
 http://leafsnap.com/
 植物識別アプリ[Kumar2012]
 Bird snap
 http://birdsnap.com
 鳥識別アプリ[Berg2014]

ビジネス事例（顕著性検出）
33
 Bing画像検索 [Wang2012]
 http://www.bing.com/?scope=images
 検索フィルタ（色）
 背景の色を無視して対象の色を元に検索できる。（花など）
 http://blogs.bing.com/search/2012/06/21/bing-image-search-
updates-roll-out-today/

ビジネス事例（文字検出/認識）
 Evernote
 画像中の文字を認識してIndex化。検索に利用
 Google Goggles
 ナンバープレート認識
 Word Lens
 https://www.youtube.com/watch?v=h2OfQdYrHRs
 Googleが買収済み
34

参考文献
35
 [Berg2014] Berg, T., Liu, J., Lee, S. W., Alexander, M. L., Jacobs, D.
W., & Belhumeur, P. N. (2014). Birdsnap: Large-scale Fine-grained
Visual Categorization of Birds. In IEEE conference on Computer
Vision and Pattern Recognition (CVPR).
 [Cheng2014] Cheng, M.-M., Zhang, Z., Lin, W.-Y., & Torr, P. (2014).
BING : Binarized Normed Gradients for Objectness Estimation at
300fps. In IEEE Conference on Computer Vision and Pattern
Recognition (CVPR).
 [Kumar2012] Kumar, N., Belhumeur, P. N., Biswas, A., Jacobs, D.
W., Kress, W. J., Lopez, I., & Soares, J. V. B. (2012). Leafsnap: A
Computer Vision System for Automatic Plant Species
Identification. In European Conference on Computer Vision.
 [LeCun1998]LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998).
Gradient-based learning applied to document recognition. In
Proceedings of the IEEE (pp. 2278–2324).

参考文献
36
 [Wang2012] Wang, P., Wang, J., Zeng, G., Feng, J., Zha, H., &
Li, S. (2012). Salient object detection for searched web
images via global saliency. In IEEE Conference on Computer
 [木村2012]木村昭悟, 米谷竜, 平山高嗣. (2012). “[サーベイ
論文]人間の視覚的注意の計算モデル”, 電気情報通信学会
技術報告

三次元空間の把握
37
 動画から三次元モデルを復元
 大量の画像から三次元モデルを復元
 プロジェクタとカメラから三次元モデルを復元
 物体の陰影から三次元モデルを復元
 二次元画像から三次元モデルを復元
 二枚以上の画像から中間視点の画像を生成

動画から三次元モデルを復元
38
 ビデオなど連続した画像群から撮影対象を三次元復元
Credit: [Pan2009]
https://www.youtube.com/watch?v=vEOmzjImsVc

画像を集めて三次元モデルを復元する
39
 Flickr等の写真共有サイトには観光地などの写真が大量
に集まる。それらを使用して観光地の三次元モデルを構
築する。
Credit:[Frahm2010]

画像を集めて三次元モデルを復元する
40
 代表的なプロジェクト（リンク先にデモ動画等あり）
 Photo Tourism[Snavely2006]
 http://phototour.cs.washington.edu/
 Building Rome in a Day[Agarwal2009]
 http://grail.cs.washington.edu/rome/
 Building Rome on a cloudless day [Frahm2010]
 https://www.youtube.com/watch?v=4cEQZreQ2zQ

プロジェクタとカメラから三次元復元
41
 一台のプロジェクタから既知のパターン（structured
light）を物体に対して照射し、それをカメラで撮影するこ
とで、三角測量の原理から物体の三次元形状を求める
ことができる。
Credit: [Narasimhan2008]

物体の陰影から三次元復元
42
 光源の位置とカメラの位置、物体の陰影から、物体の表
面の法線方向を求めることで形状を復元する。
 Shape from Shading
 照度差ステレオ
照度差ステレオ [松下2011]

二次元の画像から三次元モデル生成
43
 1枚の入力画像から三次元的なボリュームを推定する。
[Blanz1999]
1枚の顔画像から3次元復元
[Hoiem2005]
1枚の風景画像から3次元復元

44
 代表的な手法（プロジェクトページヘのリンク）
 3D Morphable Model [Blanz2005]
 デモ動画あり
 http://gravis.cs.unibas.ch/Sigg99.html
 Automatic Photo Pop-up [Hoiem2005]
 デモ動画、Matlabコードあり
 http://www.cs.uiuc.edu/~dhoiem/projects/popup/
 Make3D [Saxena2008]
 デモ動画、コード（Matlab/C++）あり
 http://make3d.cs.cornell.edu/

中間視点の画像を生成
45
 ２つの視点の異なる画像から、中間の視点から見た画
像を生成する。（View Morphing [Seitz1996]）
プロジェクトページ（動画あり） http://www.cs.cmu.edu/~seitz/vmorph/vmorph.html

ビジネス事例（中間視点の画像生成）
46
 Microsoft Photosynth
 http://photosynth.net/

47
 モーションポートレート
 http://www.motionportrait.com/
 https://www.youtube.com/watch?v=P-mBdV3icMY

参考文献
48
 [Agarwal2009] Agarwal, S., Snavely, N., Simon, I., Seitz, S. M., &
Szeliski, R. (2009). Building Rome in a day. In International
Conference on Computer Vision (pp. 72–79).
 [Blanz1999] Blanz, V., & Vetter, T. (1999). A morphable model for
the synthesis of 3D faces. In Conference on Computer Graphics
and Interactive Techniques (SIGGRAPH) (pp. 187–194).
 [Frahm2010] Frahm, J., Fite-georgel, P., Gallup, D., Johnson, T.,
Raguram, R., Wu, C., … Pollefeys, M. (2010). Building Rome on a
Cloudless Day. In European Conference on Computer Vision (pp.
368–381).
 [Hoiem2005]Hoiem, D., & Efros, A. A. (2005). Automatic photo
pop-up. In Conference on Computer Graphics and Interactive
Techniques (SIGGRAPH).
 [Narasimhan2008] Narasimhan, S. G., Koppal, S. J., & Yamazaki, S.
(2008). Temporal Dithering of Illumination. In European Conference
on Computer Vision (pp. 830–844).

参考文献
49
 [Pan2009] Pan, Q., Reitmayr, G., & Drummond, T. (2009).
ProFORMA: Probabilistic Feature-based On-line Rapid Model
Acquisition. Procedings of the British Machine Vision Conference
2009, (c), 112.1–112.11.
 [Saxena2008]Saxena, A., Sun, M., & Ng, A. Y. (2008). Make3D:
Depth Perception from a Single Still Image. In AAAI national
conference on Artificial intelligence (pp. 1571–1576).
 [Seitz1996]Seitz, S. M., & Dyer, C. R. (1996). View morphing.
Conference on Computer Graphics and Interactive Techniques
(SIGGRAPH).
 [Snavely2006]Snavely, N., Seitz, S. M., & Szeliski, R. (2006). Photo
tourism: exploring photo collections in 3D. In Conference on
Computer Graphics and Interactive Techniques (SIGGRAPH).
 [松下2011] 松下康之. (2011). 照度差ステレオ. 情報処理学会研究
報告. voi2011-CVIM-177. 29

動画から人の動作や物の動きを認識
50
 動画中の人の動作を認識する
 動いている対象の追跡
 スポーツシーンの解析
 動画を短い動画へ要約する
 手ぶれ補正

動画中の人の動作を認識
51
 動画中の人の動作をカテゴリ分類する
UCF101 Action Recognition Dataset [Soomro2012]
http://crcv.ucf.edu/data/UCF101.php
Dense Trajectoriesによる行動識別
[Wang2013]

動いている対象の追跡
52
 人や自動車など、事前に学習した物体の追跡
人の追跡
車両の追跡
Credit:[Choi2015]

動いている対象の追跡
53
 任意物体の追跡
 最初のフレームで指定した物体を追跡し続ける
 追跡しながら学習する（Online Tracker）
https://www.youtube.com/watch?v=1GhNXHCQGsM
Credit:[Kalal2010]
第1フレーム

スポーツシーンの解析
54
 サッカーやバスケットボールなど、人やボールの動きを
追跡して解析
Credit:[Hasegawa2015]
Credit:[Lu2011]Credit:[Hamid2010]

動画の自動要約
55
 スポーツ動画のゴールシーンや盛り上がりのあるシーン
を認識して切り出したり、ホームビデオから変化の乏しい
シーンを除去する
例[Zhao2014]：
https://www.youtube.com/watch?v=pkG3apELN_8
時間
動画
要約動画

手ぶれ補正
56
 動画の各フレームから最適な位置を切り取ることで手ぶ
れを除去
https://www.youtube.com/watch?v=i5keG1Y810U
顔検出を用いて手ぶれ補正(上：元動画、下：手ぶれ補正)
[Grundmann2011]

ビジネス事例（人の動作認識/追跡）
57
 異常な人の動きを自動検知するシステム JR西日本
 駅のホームで、歩行が乱れている人や長時間ベンチに座り込んで
いる人、線路に降りる人などの検知
 http://trafficnews.jp/post/45968/
 http://www.gizmodo.jp/2015/08/jr_8.html
 店舗内の人の動きを把握し、マーケティングデー取得
 ABEJA
 http://www.abeja.asia/#instoremove
 Future Standard
 http://jp.techcrunch.com/2016/01/21/futurestandard-secured-130m-
yen/
 歩行者、自転車、車の交通流計測
 Placemeter (https://www.placemeter.com/)
 http://jp.techcrunch.com/2015/09/24/placemeter-measures-retail-
shop-conversion-rates/

ビジネス事例（スポーツシーン解析）
58
 サッカー/テニス/クリケットなどの審判支援システム
 HAWK-EYE
 http://www.hawkeyeinnovations.co.uk/
 バスケットボールの解析
 STAT “SportVU”
 http://www.nba.co.jp/nba/斎藤千尋コラム第1回sportvuのトラッキン
グデータが広げる可能性/tn21uxm1ohfl1ua3ripghd4rq
 http://www.stats.com/sportvu/sportvu-basketball-media/
 フットサル映像分析
 キヤノンがフットサル映像分析、アマスポーツも「見える化」
 http://techon.nikkeibp.co.jp/atcl/news/15/110601042/

ビジネス事例（動画の自動要約）
59
 ソニーハンディカム
 ハイライト再生
 https://www.sony.jp/support/handycam/enjoy/movie/
 HaiLyts
 iPhone用動画要約アプリ
 http://www.splyza.com/hailyts/
ハンディカム
HaiLyts

ビジネス事例（ブレ補正）
60
 Youtube
 http://www.youtube.com
 Windows Movie Maker
 http://windows.microsoft.com/ja-jp/windows/movie-maker
 ProDAD Mercalli
 http://www.prodad.com/home/products/video_optimization,l-
us.html
 CyberLink PowerDirector
 http://jp.cyberlink.com/products/powerdirector-
ultra/features_ja_JP.html
 Adobe AfterEffects “ワープスタビライザー”
 https://helpx.adobe.com/jp/after-effects/how-to/stabilize-
footage.html

参考文献
61
 [Choi2015] Choi, W. (2015). Near-Online Multi-Target Tracking
With Aggregated Local Flow Descriptor. Proceedings of the IEEE
International Conference on Computer Vision, 3029–3037.
 [Grundmann2011] Grundmann, M., Kwatra, V., & Essa, I. (2011).
Auto-directed video stabilization with robust L1 optimal camera
paths. Proceedings of the IEEE Computer Society Conference on
Computer Vision and Pattern Recognition, (1), 225–232.
 [Hamid2010] Hamid, R., Kumar, R., Hodgins, J., & Essa, I. (2010). A
Computational Framework for Sports Visualization using Multiple
Static Cameras. In IEEE Conference on Computer Vision and
Pattern Recognition (pp. 1–14).
 [Hasegawa2015] Hasegawa, K. (2015). Stroboscopic Image
Synthesis of Sports Player from Hand-Held Camera Sequence. In
International Conference on Computer Vision Workshop.
 [Kalal2010] Kalal, Z. (2010). P-N Learning : Bootstrapping Binary
Classifiers by Structural Constraints. Constraints.

参考文献
62
 [Lu2011] Lu, W., Ting, J., Little, J. J., & Murphy, K. P. (2011).
Learning to Track and Identify Players from Broadcast
Sports Videos Shot segmentation, (December), 1–14.
 [Soomro2012] Soomro, K., Zamir, A. R., & Shah, M. (2012).
UCF101: A Dataset of 101 Human Actions Classes From
Videos in The Wild. arXiv Preprint arXiv:1212.0402,
(November).
 [Wang2013] Wang, H., Kläser, A., Schmid, C., & Liu, C. L.
(2013). Dense trajectories and motion boundary descriptors
for action recognition. International Journal of Computer
Vision, 103(1), 60–79.
 [Zhao2014] Zhao, B., & Xing, E. P. (2014). Quasi Real-Time
Summarization for Consumer Videos. In IEEE Conference on
Computer Vision and Pattern Recognition.

画像の加工/品質向上
63
 フィルタによる画像加工
 画質の品質を向上させる
 画像から必要な物体だけ綺麗に切り抜く
 画像同士を合成する
 画像からいらない領域を取り除く
 被写体を歪めずに画像をリサイズする

フィルタによる画像加工
64
 Instagramのように画像に効果をつける処理
漫画カメラ
http://tokyo.supersoftware.c
o.jp/mangacamera/
Instagram
http://instagram.com/
エンボス
Rise
Original Toaster
Willow

画像の品質を向上させる
65
 ノイズ除去
 ガウシアンフィルタ、メディアンフィルタ、バイラテラルフィルタ
[Tomasi1998]、ノンローカルミーンフィルタ[Buades2005]、
BM3D[Dabov2007]、etc
ノイズ画像ガウシアンフィルタバイラテラルフィルタ

画像の品質を向上させる
66
 画像を元々の解像度以上に拡大する。（超解像）
 画像のボケを補正する。
 動画（複数枚画像）を使用する方法[Farsiu2003][Mitzel2009]
 １枚の画像から復元する方法[Freeman2002][Yang2008]

画像から必要な物体だけきれいに切り抜く
67
 物体の輪郭を求める
 画像内を似た色や同じ物体同士で領域分割する
 画像から前景を背景から分離する。
領域分割(Mean Shiftの例) 前景分離（Credit:[Rother2004]）

画像同士を合成する
68
 背景画像に前景画像を「自然な形で」貼り合わせる
Credit: [Pérez2003]

69
 応用例：フォトモンタージュ[Agarwala2004]
 複数枚の画像から全員が笑って正面を向いている画像を合成
Credit:[Agarwala2004]

70
 応用例： Sketch2Photo[Chen2009]
 ユーザがスケッチした画像をインターネット上の画像を用いて合成す
る。
http://www.youtube.com/watch?v=dW1Epl2LdFM (デモ動画)
http://www.mist.co.jp/product/sketch.html （製品）
スケッチ検索された画像合成結果画像
Credit:[Chen2009]

71
 複数の画像からパノラマ画像、あるいはより広範な画像
を生成する。
 代表的な手法： Image Mosaicing, Image Stitching
[Brown2003]
Output:
Input:
Credit: [Brown2003]

画像からいらない領域を切り取る
72
 いらない領域を削除して、周辺の領域の情報から削除し
た領域の穴埋めを行う。（Inpainting）
credit:[Bertalmio2000]
credit:[Criminisi2004]

画像からいらない領域を切り取る
73
 いらない領域を削除して、インターネット上の画像を使っ
て削除した領域の穴埋めを行う。[Hays2007]
Credit:[Hays2007]
(a) (b) (c) (d)
a. 原画像
b. 不要な領域の除去
c. 似た色と配置を持つ画像を検索
d. ユーザが選択した画像で除去した領域を補間

被写体を歪めずに画像をリサイズする
74
 画像の中の被写体を歪めることなく、画像の縦横比を気
にせずに自由に画像を拡大/縮小する（Retargeting）
 代表的な手法：Seam Carving [Avidan2007]
 デモ動画 https://www.youtube.com/watch?v=6NcIJXTlugc
 ソフトウェア https://code.google.com/p/seam-carving-gui/
Credit:[Avidan2007]
通常の拡縮
Seam Carving

画像のサイズ変更/穴埋め/加工を自然に行う
75
 Structural Image Editing
 変形したい箇所と類似するテクスチャを画像内から探索して、
穴埋め、再構成、サイズ変更を行う
Credit:[Barnes2009]

ビジネス事例（画像処理全般）
76
 Adobe Photoshop
 http://www.adobe.com/jp/products/photoshop.html
 定番の画像編集ソフトウェア
 画像フィルタ―
 画像の合成
 余計な人物やオブジェクトの除去
 etc

参考文献
77
 [Tomasi1998]Tomasi, C., & Manduchi, R. (1998). Bilateral filtering for gray and
color images. International Conference on Computer Vision (CVPR).
 [Buades2005]Buades, A., Coll, B., & Morel, J.-M. (2005). A non-local algorithm for
image denoising. In IEEE Conference on Computer Vision and Pattern
Recognition (CVPR).
 [Dabov2007]Dabov, K., Foi, A., Katkovnik, V., & Egiazarian, K. (2007). Image
denoising by sparse 3D transform-domain collaborative filtering. IEEE
Transactions on Image Processing, 16(8), 2080–2095.
 [Freeman2002]Freeman, W. T., Jones, T. R., & Pasztor, E. C. (2002). Example-
based super-resolution. Computer Graphics and Applications, 22(2), 56–65.
 [Farsiu2003] Farsiu, S., Robinson, D., Elad, M., & Milanfar, P. (2003). Fast and
robust super-resolution. In IEEE International Conference on Image Processing.
 [Mitzel2009] Mitzel, D., Pock, T., Schoenemann, T., & Cremers, D. (2009). Video
Super Resolution using Duality Based TV-L Optical Flow. In DAGM symposium
on Pattern Recognition (pp. 432–441).
 [Yang2008]Yang, J., Wright, J., Ma, Y., & Huang, T. (2008). Image super-resolution
as sparse representation of raw image patches. In IEEE Conference on Computer

参考文献
78
 [Avidan2007]Avidan, S., & Shamir, A. (2007). Seam carving for
content-aware image resizing. In Conference on Computer
Graphics and Interactive Techniques (SIGGRAPH).
 [Agarwala2004]Agarwala, A., Dontcheva, M., Agrawala, M., Drucker,
S., Colburn, A., Curless, B., … Cohen, M. (2004). Interactive digital
photomontage. In Conference on Computer Graphics and
Interactive Techniques (SIGGRAPH) (Vol. 23).
 [Barnes2009]Barnes, C., Shechtman, E., Finkelstein, A., & Goldman,
D. B. (2009). PatchMatch: A randomized correspondence algorithm
for structural image editing. In Conference on Computer Graphics
and Interactive Techniques (SIGGRAPH).
 [Bertalmio2000]Bertalmio, M., Guillermo, S., Caselles, V., &
Ballester, C. (2000). Image inpainting. In Conference on Computer
Graphics and Interactive Techniques (SIGGRAPH) (pp. 417–424).

参考文献
79
 [Brown2003]Brown, M., & Lowe, D. G. (2003). Recognising
Panoramas. In International Conference on Computer Vision
(CVPR).
 [Chen2009]Chen, T., Cheng, M.-M., Tan, P., Shamir, A., & Hu,
S.-M. (2009). Sketch2Photo: internet image montage. In
Conference on Computer Graphics and Interactive
Techniques (SIGGRAPH).
 [Criminisi2004]Criminisi, A., Pérez, P., & Toyama, K. (2004).
Region filling and object removal by exemplar-based image
inpainting. IEEE Transactions on Image Processing : A
Publication of the IEEE Signal Processing Society, 13(9),
1200–12.
 [Hays2007]Hays, J., & Efros, A. A. (2007). Scene completion
using millions of photographs. Conference on Computer
Graphics and Interactive Techniques (SIGGRAPH).

参考文献
80
 [Pérez2003]Pérez, P., Gangnet, M., & Blake, A. (2003).
Poisson image editing. In Conference on Computer Graphics
and Interactive Techniques (SIGGRAPH).
 [Rother2004]Rother, C., Kolmogorov, V., & Blake, A. (2004).
Grabcut: Interactive foreground extraction using iterated
graph cuts. In Conference on Computer Graphics and
Interactive Techniques (SIGGRAPH).

81
コンピュータビ
ジョンの仕組み

コンピュータビジョンの仕組み
82
 画像中の物体を認識する仕組み
 深層学習(Deep Learning)の基礎
 画像からの三次元モデル構築

画像中の物体を認識する仕組み
83
 認識の基本的な流れ
 特定物体認識
 SIFT特徴量
 Bags-of-Features
 物体検出
 Haar-like Features
 HOG特徴

学習
学習結果
データ
学習フェーズ
特徴量抽出
学習画像
学習画像
学習画像
認識
認識結果
認識フェーズ
特徴量抽出
入力画像
認識の基本的な流れ
84

機械学習とは？
 人間が自然に行っている学習能力と同様の機能をコン
ピュータで実現させるための技術・手法のこと
 事前にコンピュータにサンプルデータを与え、そのパターンを
統計的に抽出させる。
学習サンプル
学習結果
85

画像特徴量とは？
86
 画像を構成する画素の集合を「認識や識別のしやすい」
別のベクトルへ変換したもの
 画像の様々な変形（拡大/縮小、回転、ずれ等）に強い
点（キーポイント）を検出し、そのキーポイント周辺から取
得する特徴量を特に局所特徴量と呼ぶ
画像特徴量入力画像物体認識/検出

局所特徴量の代表例
87
 Scale Invariant Feature Transform (SIFT) [Lowe1999]
1. 画像のスケール変化や位置ずれに強いキーポイントを検出
スケール変化に弱い
キーポイント
位置ずれに弱い
キーポイント
スケール変化と位置ずれ
に強いキーポイント

局所特徴量の代表例
88
 Scale Invariant Feature Transform (SIFT) [Lowe1999]
1. 画像のスケール変化や位置ずれに強いキーポイントを検出
2. キーポイント周辺から画像の回転に強い特徴量を算出
Histogram of Gradient
Orientations
• 最も画像の濃度変化の大き
い方向を軸とすることで、回
転不変性を実現
• キーポイント検出時に取得し
たスケール情報を元に周辺
パッチのサイズを決定するこ
とでスケール不変性を実現

特定物体認識の仕組み
89
 代表的な手法
 SIFT等の局所特徴量＋近似最近傍探索 [Lowe1999]
 大規模なデータベースに対してはBag-of-Featuresを用いる
[Sivic2003]
Histogram of Gradient
Orientations
DB
・・・
x
x
x
x
x
x
x
x
x
x
x
xx
x
x
x
xx x
x
マッチング＋投票

一般物体認識の特徴量の例
90
 Bags-of-Features (BoF) [Csurka2004]
 形状（Visual Words）の画像中に現れる頻度（ヒストグラム）を
特徴量とする
Dictionary (Visual Words)
3
0
0
2
1
2
1
1
Histogram of visual words
Image

91
物体検出の仕組み
探索窓(Sliding Window)

物体検出の特徴量（顔検出の例）
92
 Haar-like特徴 [Viola2001]
 白領域の画素の和から黒領域の画素の和を引くだけ
 積分画像というテクニックとAdaBoostという機械学習アルゴリ
ズムで非常に高速に計算できる
plus
minus

物体検出の特徴量（人検出の例）
93
 Histogram of Oriented Gradients (HOG) [Dalal2005]
 画像の濃度変化方向について場所（Cell）ごとの統計を取ったもの
 輪郭のような特徴が良くとれる
 人以外の物体検出にも広く応用されている

物体検出の特徴量（人検出他）
94
 Deformable Part Model [Felzenszwalb2009]
 HOG特徴を複数組み合わせることで、検出精度向上
 HOG特徴を抽出する位置の歪みも含めてLatent SVMという
機械学習アルゴリズムで学習する
Credit:[Felzenszwalb2009]
Root filter Parts filter Deformation

参考文献
95
 [Csurka2004]Csurka, G., Dance, C. R., Fan, L., Willamowski,
J., & Bray, C. (2004). Visual categorization with bags of
keypoints. In Workshop on statistical learning in computer
vision, ECCV (Vol. 1, p. 22).
 [Dalal2005]Dalal, N., & Triggs, B. (2005). Histograms of
Oriented Gradients for Human Detection. IEEE Conference
on Computer Vision and Pattern Recognition (CVPR).
 [Felzenswalb2009]Felzenszwalb, P. F., Girshick, R. B.,
McAllester, D., & Ramanan, D. (2009). Object detection with
discriminatively trained part-based models. IEEE
Transactions on Pattern Analysis and Machine Intelligence,
32(9), 1627–1645.
 [Lowe1999]Lowe, D. G. (1999). Object recognition from local
scale-invariant features. In IEEE International Conference on
Computer Vision (pp. 1150–1157 vol.2).

参考文献
96
 [Sivic2003]Sivic, J., & Zisserman, A. (2003). Video Google: a
text retrieval approach to object matching in videos. In IEEE
Internatinal Conference on Computer Vision (CVPR).
 [Viola2001]Viola, P., & Jones, M. (2001). Rapid object
detection using a boosted cascade of simple features. IEEE
International Conference on Computer Vision and Pattern
Recognition (CVPR).

深層学習 (Deep Learning)
97
 深層学習の概要
 畳み込みニューラルネットワーク
 アプリケーション
 画像説明文生成
 物体検出
 画像自動生成

深層学習の概要
98
 ニューラルネットワークという機械学習アルゴリズムの階
層を深くしたもの
ニューラルネットワーク
深層学習

99
 以下のような種類がある
 畳み込みニューラルネットワーク
 Deep Bolzmann Machines
 Deep Belief Networks
 etc
 ここでは画像認識で最も多く用いられるDeep Convolutional
Neural Networkを解説
 一般的な特徴
 画像特徴量自体を学習
 高精度
 計算量が多く、高速処理のためにGPUなどのハードウェアが必要
 大量の学習データが必要

100
学習
学習結果
データ
学習フェーズ
特徴量抽出
学習画像
学習画像
学習画像
認識
認識結果
認識フェーズ
特徴量抽出
入力画像
深層学習

 SIFTやHOGのような画
像特徴量を用いず、認
識に有効な特徴量を画
素から統計的に学習す
る。
 低レベル特徴から高レベ
ル特徴までの階層構造。
 低レベルな特徴ほど、
様々なタスクで共有可能
(Image from Lee. H in CVPR2012 Tutorial)

畳み込みニューラルネットワーク
102
 畳み込み層とプーリング層が交互に現れる
 畳み込み層：各位置で学習した特徴との類似度を計算
 プーリング層：位置ずれなどのわずかな違いを無視
・
・
・
・・・・・
入力画像出力
畳み込み層プーリング層畳み込み層プーリング層全結合層

103
・
・
・
・・・・・
入力画像出力

104
 畳み込み層
 各特徴毎の各場所での類似度を出力する
入力
画像
実際はRGBの３チャネルが使われる
出力A
特徴A 特徴B
出力B
・・・

105
・
・
・
・・・・・
入力画像出力

106
 プーリング層
 近傍の情報を統合して、情報に不変性を加える
 Max Pooling、Lp Pooling、Average Poolingなどがある
Max Poolingの例：近傍領域のうち最大値を出力することで不変性を与える
畳み込み層
の出力A
・・・
・・・
Max Max
畳み込み層
の出力B

107
・
・
・
・・・・・
入力画像出力

108
 畳み込み層
 各特徴毎の各場所での類似度を出力する
特徴Aの
類似度
出力C
特徴C
特徴Bの
類似度
・
・
・
・
・
・
出力D
特徴D
・
・
・・・・

109
 全結合層：最後の認識（識別/回帰）を行う
・
・
・
・・・・・
入力画像出力

110
 全結合層
 最終層で全領域を使って認識を行う
・
・
・
・・・

畳み込みニューラルネットワークの学習
111
 誤差逆伝播法
1. ネットワークに画像を入力し出力を得る
2. 出力と教師信号を比較し、誤差が小さくなる方向へ特徴を出
力層に近い方から順に更新していく
・
・
・
・・・・・
入力画像出力

112
・・・・・
入力画像出力
・
・
・

113
・
・
・
・・・・・
入力画像出力
教師

114
・
・
・
・・・・・
入力画像出力
教師

アプリケーション：一般物体認識
115
 IMAGENET Large Scale Visual Recognition Challenge
(ILSVRC)
 ImageNetという大規模画像データセットを使用した一般物体
認識、物体検出のコンテスト
 ImageNet: 約1400万枚、約2万2000カテゴリ
 ILSVRC2012において、深層学習を用いた手法が圧勝
[Deng2009]

Team name Error
1 Super Vision 0.15315
3 ISI 0.26172
4 ISI 0.26602
5 ISI 0.26646
6 ISI 0.26952
7 OXFORD_VGG 0.26979
8 XRCE/INRIA 0.27058
Team name Error
7 ISI 0.536474
8 ISI 0.536546
識別検出
ILSVRC2012の結果
http://www.image-net.org/challenges/LSVRC/2012/
深層学習

117
 性能を上げるために階層が深くなる傾向
Residual Net [He2015]
152層
GoogLeNet [Szegedy2014]
22層
VGG Net [Simonyan2014]
19層
Alex Net [Krizhevsky2012]
８層

アプリケーション：物体検出
118
 R-CNN (Region with CNN feature) [Girshick2014]
 畳み込みニューラルネットワーク（CNN）は計算量が高いので、探索
窓(Sliding Window)による検出は更に計算量高い
 Selective Searchという手法を用いて物体候補領域を検出し、候補
領域上のみ処理することで計算量削減

アプリケーション：物体検出
119
 Fast R-CNN [Girshick2015]
 R-CNNでは物体候補領域を１つ１つCNNで判別していたため遅い
（VGGを使用した場合、GPU込みで１枚47秒）
 画像全体にCNNをかけて特徴マップを生成し、最後のプーリング層
を物体候補領域(ROI)に合わせて切り出す
 R-CNNを検出時約213倍高速化

アプリケーション：物体検出（Faster R-CNN）
120
 Faster R-CNN [Ren2015]
 R-CNNおよびFast R-CNNではSelective Searchを用いて物体候補
領域を事前に求めておく必要。
 Fast R-CNNのSelective Search部分をfeature map上で行うことで、
余計な処理を省き、高精度化/高速化（１枚当たり約200msec）。
→ Region Proposal Network (RPN)
この上（特徴マップ）で物体候
補領域検出を行う

アプリケーション：顔認証
121
 例：Deep Face [Taigman2014]
 顔検出＋顔器官検出までは既存手法
 顔画像を正面に向け、大きさを揃えた後、CNNで認証
 人間と同等の識別性能

アプリケーション：領域分割
122
 例：Fully Convolutional Network [Long2014]
 ピクセルごとにラベル付けされた教師信号を与える
 最終の全結合層をアップサンプリングした畳み込み層に置き換え

アプリケーション：超解像
123
 例：SRCNN [Dong2014]
 低解像度のパッチから生成した特徴マップと、高解像度パッ
チとの変換をそれぞれ学習

アプリケーション：画像の説明文生成
124
 例：Show and Tell [Vinyals2015]
 1枚の画像から説明文を生成
 機械翻訳で使用されるReccurent Neural Networks (RNN)の
入力部分をCNNで出力される特徴ベクトルへ置き換え

アプリケーション：画像生成
125
 例：DC-GAN [Radford2015]
 画像を作る生成器Gと実画像と生成画像を見分ける識別器D
を交互に学習する（GAN）
 GANに対してプーリング層を畳み込み層に置き換える等の
様々な工夫で画像がぼけないようにした。（Deep
Convolutional GAN）

アプリケーション：白黒画像の色付け
126
 例： Global and Local Image Priors for Automatic
Image Colorization [Iizuka2016]
 入力を白黒画像、教師をカラー画像とすることで、白黒画像を
カラー画像へ変換するネットワークを構築
 画像全体の特徴と局所的な特徴を統合して色付けネットワー
クを学習

アプリケーション：ラフスケッチの線画化
127
 例：Fully Convolutional Networks for Rough Sketch
Cleanup [Simo-Serre2016]
 入力をラフスケッチ、教師を線画として学習することで、ラフス
ケッチを線画へ変換するネットワークを構築

参考文献
128
 [Deng2009] Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., & Fei-
Fei, L. (2009). ImageNet: A large-scale hierarchical image database.
2009 IEEE Conference on Computer Vision and Pattern
Recognition, 2–9.
 [Dong2014] Dong, C., Loy, C. C., & He, K. (2014). Image Super-
Resolution Using Deep Convolutional Networks. European
Conference on Computer Vision, 8828(c)
 [Girshick2014] Girshick, R., Donahue, J., Darrell, T., & Malik, J.
(2014). Rich feature hierarchies for accurate object detection and
semantic segmentation. In IEEE Conference on Computer Vision
and Pattern Recognition.
 [Girshick2015] Girshick, R. (2015). Fast R-CNN. International
Conference on Computer Vision, 1440–1448.
 [He2015] He, K., Zhang, X., Ren, S., & Sun, J. (2015). Deep
Residual Learning for Image Recognition. arXiv Preprint
arXiv:1512.03385, 7(3), 171–180.

参考文献
129
 [Iizuka2016] Iizuka, S., Simo-Serre, E., & Hiroshi, I. (2016). Let there be
Color !: Joint End-to-end Learning of Global and Local Image Priors for
Automatic Image Colorization with Simultaneous Classification. In ACM
Transactions on Graphics (SIGGRAPH),
 [Krizhevsky2012]Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012).
ImageNet Classification with Deep Convolutional Neural Networks. In
Advances in Neural Information Processing Systems (NIPS) (pp. 1106–
1114).
 [Long2014] Long, J., Shelhamer, E., & Darrell, T. (2014). Fully
Convolutional Networks for Semantic Segmentation. 2015 IEEE
Conference on Computer Vision and Pattern Recognition (CVPR), 3431–
3440.
 [Radford2015] Radford, A., Metz, L., & Chintala, S. (2015). Unsupervised
Representation Learning with Deep Convolutional Generative Adversarial
Networks. arXiv, 1–15.
 [Ren2015] Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN:
Towards Real-Time Object Detection with Region Proposal Networks.
Advances in Neural Information Processing Systems (NIPS).

参考文献
130
 [Simonyan2014]Simonyan, K., & Zisserman, A. (2014). Very Deep
Convolutional Networks for Large-Scale Image Recognition, 1–13.
Computer Vision and Pattern Recognition.
 [Simo-Serre2016] Simo-Serre, E., Iizuka, S., Kazuma, S., & Hiroshi, I.
(2016). Learning to Simplify : Fully Convolutional Networks for Rough
Sketch Cleanup. In ACM Transactions on Graphics (SIGGRAPH),
 [Szegedy2014]Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S.,
Anguelov, D., … Rabinovich, A. (2014). Going Deeper with Convolutions.
arXiv Preprint arXiv:1409.4842, 1–12.
 [Taigman2014] Taigman, Y., Ranzato, M. A., & Wolf, L. (2014). DeepFace:
Closing the Gap to Human-Level Performance in Face Verification. In
IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
 [Uijlings2013] Uijlings, J. R. R., Van De Sande, K. E. A., Gevers, T., &
Smeulders, A. W. M. (2013). Selective search for object recognition.
International Journal of Computer Vision, 104(2), 154–171.
 [Vinyals2015] Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015).
Show and Tell: A Neural Image Caption Generator. In IEEE Conference
on Computer Vision and Pattern Recognition.

カメラの映像から三次元モデルを作る
131
 カメラの基本的な仕組み
 ２台のカメラによる三次元認識
 複数カメラによる三次元認識
 Structure-from-Motion [岡谷2010]
 詳細な三次元モデルの構築
 Multi-View Stereo [古川2012]

A
カメラ１の撮影画像
２つの直線O1A’1/O2A’2の交点
カメラ１の焦点O1 カメラ２の焦点O2
A’1 A’2
ステレオカメラの原理
 点Aが２台のカメラのどこに見えたかがわかれば、三角
測量の原理で三次元的な位置が求まる
 ただし、２つのカメラの位置関係等のパラメータがわかってい
ること
カメラ２の撮影画像

(余談）Kinectの仕組み
133
 Kinect version1は三次元認識にステレオカメラの原理を
応用
 プロジェクタから赤外線ドットパターン（Structured Light）を照
射
 赤外線カメラ取得したパターンと照射パターンを比較し、歪み
具合で距離を算出
By User:Kolossos - Own work, CC BY-SA 3.0,
https://commons.wikimedia.org/w/index.php?curid=14650888
赤外線プロジェクタ赤外線カメラ
照射された赤外線パターン

カメラパラメータがわからない場合
134
 カメラの位置関係等のパラメータが不明の時、各カメラの焦
点と対応点を結ぶ直線が交わるという条件を利用する
カメラ１カメラ2

135
 カメラの位置関係等のパラメータが不明の時、各カメラの焦
点と対応点を結ぶ直線が交わるという条件を利用する
→エピポーラ拘束
同一平面

136
 最低でも８個の対応点を求めることで、カメラパラメータ
とそれぞれの点の三次元座標を逆算できる
８つのエピポーラ拘束を
満たすパラメータを算出

Structure from Motion (SfM)
137
 同じ対象を撮影した複数の画像（例えば動画）から、対
象の三次元形状を復元する

Structure from Motion (SfM)
138
 同じ対象を撮影した複数の画像（例えば動画）から、対
象の三次元形状を復元する
バンドル調整を用いて、複数のカメラの相対位置、焦点距
離、対象の三次元点座標を同時に推定する
＜バンドル調整＞
測定結果とパラメータから誤差を計算し、誤差を小さくする方向にパ
ラメータを調整していく

バンドル調整
139
1. 三次元点群とカメラパラメータの初期値を設定する
画像から見つけた点の
三次元座標の初期値カメラの位置と焦点距離
の初期値

バンドル調整
140
2. 三次元点群を各カメラの画像平面へ投影

バンドル調整
141
3. 投影された点と観測した点との誤差の総和を算出
投影された点
観測点
誤差

バンドル調整
142
4. 誤差が小さくなる方向へ特徴点の三次元座標とカメラ
パラメータを調整（収束するまで２から繰り返す）

Multi-View Stereo
143
SfMで求めた形状は、特徴点の
三次元位置のみ
SfMで求めたカメラパラメータを元に各カメラか
ら物体表面までの距離を画素ごとに算出（デプ
スマップ）
全てのカメラのデプスマップを統合して
物体の形状を算出

Multi-View Stereo
144
 カメラ１の画素Aのデプスをカメラ２から算出する例
 カメラ１の焦点から画素Aへの視線（エピポーラ線）上をカメラ
２の画像から探索し、最も類似したテクスチャを求める。
Aのエピポーラ線
A
d
d 距離
類似度

Multi-View Stereo
145
 各カメラから求めたデプスマップを統合して三次元モデ
ルを生成

三次元モデル構築の流れ（まとめ）
146
マッチング
キーポイント
検出
学習画像
学習画像
入力画像
Multi View Stereo
三次元モデル
Structure from
Motion
学習画像
学習画像
対応点
学習画像
学習画像
カメラパラメータ

参考文献
147
 [岡谷2010] 岡谷貴之. (2010). コンピュータビジョン最先
端ガイド３第1章バンドル調整. アドコムメディア. 1-32
 [古川2012] 古川泰隆. (2012). コンピュータビジョン最先
端ガイド５第2章複数画像からの三次元復元手法. アド
コムメディア. 33-70

148
コンピュータビ
ジョンの活用例

コンピュータビジョンの活用例
149
 ソーシャルメディア
 拡張現実感 (Augmented Reality)
 自動運転

ソーシャルメディアでの活用例
150
 大量の画像/動画の整理/検索
 よりリッチなコミュニケーション手段の提供
SNSなどのソーシャルメディア：
 文字主体から画像/動画を駆使したコミュニケーションへ

151
 Facebook
 投稿した写真に写っているのが誰かを自動で認識してタグ付
け
 一緒に写っている友人へ手早く共有（Moments）
Facial tag Moments
http://www.facebook.com

152
 Googleフォト
 写真に写っている内容で写真を整理し検索可能に（例：犬、食
事、山、etc）
 顔を認識して、名前で検索
 複数の画像をつなげてパノラマ生成
 画像の自動補正
http://photos.google.com/

153
 Instagram
 様々なフィルタを施すことで、写真の見た目を格好良く加工
Rise
Original Toaster
Willow
http://www.instagram.com/

154
 Snapchat
 顔の目、鼻、口などの器官を認識し、デコレーションすることで、
チャットを楽しく
http://www.snapchat.com

拡張現実感（Augmented Reality）
155
 “拡張現実は[中略]、その時周囲を取り巻く現実環境に
情報を付加・削除・強調・減衰させ、文字通り人間から見
た現実世界を拡張するものを指す”（Wikipediaより）
http://www.magicleap.com

156
 “拡張現実は[中略]、その時周囲を取り巻く現実環境に
情報を付加・削除・強調・減衰させ、文字通り人間から見
た現実世界を拡張するものを指す”（Wikipediaより）
Microsoft HoloLens
https://www.microsoft.com/microsoft-hololens
Google Project Tango
https://www.google.com/atap/project-tango/

157
ARの実現方法：
 GPSと電子コンパス
 人姿勢推定
 ARマーカー
 自然画像マーカー
 カメラを使ったSLAM
 距離センサーを使ったSLAM

158
 GPSと電子コンパス
 実現が容易
 現実世界に仮想世界の情報を重ね合わせた時、揺らぎが大
きい
セカイカメラ (2014年1月サービス終了)
画像は頓智・広報ブログより引用
http://pr.tonchidot.com/2011/05/blog-post_1088.html

159
 顔検出、顔器官検出、顔認証などを使用し、人の顔をデコ
レーションしたり、タグを可視化する
 顔以外に手のひらなどを認識するものもある
MSQRD Snapchat KDDI Satch Viewer
http://viewer.satch.jphttp://www.snapchat.comhttp://msqrd.me

160
 人姿勢推定
 人物のとっているポーズを推定し、重畳表示
 Kinectに同梱されている姿勢推定機能を使うのが一般的
Kinectで取得したデプスから姿勢推定
[Shotton2011]
Virtual Fittingの例（Fitnect）
http://www.fitnect.hu/
https://www.youtube.com/watch?v=1jbvnk1T4vQ

161
 ARマーカー
 専用のマーカーを印刷し、そのマーカーのカメラからの三次
元的な位置を求め、重畳表示
ARマーカーの例
AR Toolkit
http://artoolkit.org/

162
 自然画像マーカー
 事前に登録した画像とのマッチングを行うことで、任意の画像
をマーカーとして使用する。
マーカーの例
OpenCV Markerless AR
http://github.com/takmin/OpenCV-Marker-less-AR

163
 カメラを使ったSLAM
 Simultaneous Localization and Mapping (SLAM)とは、カメラ位
置の推定と、周辺の地図作製を同時に行う一連の手法
 Structure-from-Motionは特にVisual SLAMとも呼ばれ、ARに
応用されている。
 事前にマーカーの登録が不要。
Sony SmartAR
https://www.sonydna.com/sdna/solution/SmartAR_SDK.html

164
 カメラを使ったSLAMの例
 Parallel Tracking and Mapping (PTAM) [Klein2007]
 特徴点を使用したSLAM
 https://www.youtube.com/watch?v=Y9HMn6bd-v8
 Dense Tracking and Mapping (DTAM) [Newcombe2011a]
 画像の輝度を使用したSLAM
 https://www.youtube.com/watch?v=Df9WhgibCQA
 Large Scale Direct Monocular SLAM (LSD-SLAM)
[Engel2014]
 輝度勾配が大きい画素のみ使用したSLAM
 https://www.youtube.com/watch?v=GnuQzP3gty4

165
 点群を使ったSLAM
 Kinectのような距離センサーで取得した点群を用いたSLAM
 Visual SLAMと比べてテクスチャーの少ない環境でも使用でき
る
Structure Sensor
http://structure.io/

166
 点群を使ったSLAMの例
 KinectFusion [Newcombe2011b]
 空間をボクセルに分割し、デプスデータからどのボクセルが埋まって
いるかを判定することで空間を把握。
 自己位置はICPアルゴリズムという手法を用いて推定
 https://www.youtube.com/watch?v=quGhaggn3cQ
 DynamicFusion [Newcombe2015]
 KinectFusionを動的なシーンへ拡張
 https://www.youtube.com/watch?v=i1eZekcc_lM

参考文献
167
 [Engel2014] Engel, J., Schops, T., & Cremers, D. (2014). LSD-
SLAM: Large-Scale Direct monocular SLAM. In European
Conference on Computer Vision (pp. 834–849).
 [Klein2007] Klein, G., & Murray, D. (2007). Parallel tracking and
mapping for small AR workspaces. 2007 6th IEEE and ACM
International Symposium on Mixed and Augmented Reality, ISMAR.
 [Newcombe2011a] Newcombe, R. A., Lovegrove, S. J., & Davison,
A. J. (2011). DTAM: Dense Tracking and Mapping in Real-Time. In
International Conference on Computer Vision (pp. 2320–2327).
 [Newcombe2011b] Newcombe, R. a., Davison, A. J., Izadi, S., Kohli,
P., Hilliges, O., Shotton, J., … Fitzgibbon, A. (2011). KinectFusion:
Real-time dense surface mapping and tracking. 2011 10th IEEE
International Symposium on Mixed and Augmented Reality, 127–
136.

参考文献
168
 [Newcombe2015] Newcombe, R. a, Fox, D., & Seitz, S. M. (2015).
DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes
in Real-Time. Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition, 343–352.
 [Shotton2011] Shotton, J., Fitzgibbon, A., Cook, M., Sharp, T.,
Finocchio, M., Moore, R., … Blake, A. (2011). Real-time human
pose recognition in parts from single depth images. In IEEE
Conference on Computer Vision and Pattern Recognition.

運転サポート/自動運転での活用例
169
 自動運転車はセンサーの塊
 GPS、LiDAR,、レーダー、ステレオカメラ、ロータリーエンコー
ダ、etc
 参考：センサーで見ている世界 (7:40くらいから)
 https://www.youtube.com/watch?v=tiwVMrTLUWg
https://www.google.com/selfdrivingcar
Toyota Motor Co.

170
 LiDAR (Light Detection and Ranging)
 レーザーが周辺物に反射して戻ってくるまでの時間（または位相）を
見ることで、点群データとして距離を取得
[Teichman2011]
LIDARで取得した点群データ
LiDAR

171
 レーダー
 反射率の大きい物体までの距離を測定
 水平方向のみ。垂直方向の情報は取れない。
 ドップラー効果で相対速度も算出加納
 LiDARより精度は劣り、範囲も狭いが、測定距離が長く悪天
候にも強い
レーダー
Toyota Motor Co.

172
 ステレオカメラ
 三角測量の原理で距離測定
 前方または周囲の環境や物体を認識
A
カメラ１の撮影画像
２つの直線O1A’1/O2A’2の交点
カメラ１の焦点O1 カメラ２の焦点O2
A’1 A’2
カメラ２の撮影画像

173
これらのセンサーの情報を統合することで
 自己位置の推定
 周辺環境の理解
 予測
 行動の決定
を行う。
以下、コンピュータビジョンの応用例をいくつか紹介

174
 自己位置推定
 正確な自己位置と時間変化を画像や点群から推定
 カメラや点群からのSLAM
 画像から取得したレーンの情報や他のセンサー情報を用いて
確率的に自己位置を推定
 カルマンフィルタやパーティクルフィルタを使用
[Ziegler2014]
カメラ画像からのSLAM
レーン位置からのSLAM

175
 距離測定
 ステレオカメラを用いた場合、レーザー系のセンサーよりも密な距
離情報を得ることが可能
 衝突防止に応用可
 例：スバル「アイサイト」(http://www.subaru.jp/eyesight/）
[Banz2010]

176
 レーン/信号機/道路標識の認識
信号機 [Wang2011]
道路標識 [Sermanet2011]
レーン（画像から） [Time2008]
レーン（LiDARから） [Kammel2008]

177
 車両/歩行者/自転車/バイク等の認識
時系列LiDARデータでの識別
[Teichman2011]
画像から検出 [Huval2015]
時系列距離情報および画像から領域分割
[Scharwaechter2014]

参考文献
178
 [Banz2010] Banz, C., Hesselbarth, S., Flatt, H., Blume, H., & Pirsch,
P. (2010). Real-time stereo vision system using semi-global
matching disparity estimation: Architecture and FPGA-
implementation. Proceedings - 2010 International Conference on
Embedded Computer Systems: Architectures, Modeling and
Simulation, IC-SAMOS 2010, 93–101.
 [Huval2015] Huval, B., Wang, T., Tandon, S., Kiske, J., Song, W.,
Pazhayampallil, J., … Ng, A. Y. (2015). An Empirical Evaluation of
Deep Learning on Highway Driving. arXiv, 1504.01716
 [Kammel2008] Kammel, S., & Pitzer, B. (2008). Lidar-based lane
marker detection and mapping. IEEE Intelligent Vehicles
Symposium, 1137–1142.
 [Scharwaechter2014] Scharwaechter, T., Enzweiler, M., Franke, U.,
& Roth, S. (2014). Stixmantics: A Medium-Level Model for Real-
Time Semantic Scene Understanding. European Conference on
Computer Vision, 8693, 533–548.

参考文献
179
 [Sermanet2011] Sermanet, P., & LeCun, Y. (2011). Traffic Sign
Recognition with Multi-Scale Convolutional Networks. International Joint
Conference on Neural Networks (IJCNN), 2809–2813.
 [Teichman2011] Teichman, A., Levinson, J., & Thrun, S. (2011). Towards
3D object recognition via classification of arbitrary object tracks.
Proceedings - IEEE International Conference on Robotics and
Automation, 4034–4041.
 [Time2008] Time, R., Detection, L., & Streets, U. (2008). Real Time Lane
Detection in Urban Streets. In IEEE Intelligent Vehicles Symposium (pp.
7–12).
 [Wang2011] Wang, C., Jin, T., Yang, M., & Wang, B. (2011). Robust and
Real-Time Traffic Lights Recognition in Complex Urban Environments.
International Journal of Computational Intelligence Systems, 4(6), 1383.
 [Ziegler2014] Ziegler, J., Lategahn, H., Schreiber, M., Keller, C. G.,
Knöppel, C., Hipp, J., … Stiller, C. (2014). Video Based Localization for
BERTHA. IEEE Intelligent Vehicles Symposium (IV), (Iv), 1231–1238.

180
ライブラリ/API
の紹介

オープンソースソフトウェア
181
コンピュータビジョン全般
 OpenCV
 定番C++ライブラリ。画像処理全般、物体検出、三次元復元、機械学習、動画像処理など
広範囲な基本アルゴリズムが実装されている。
 http://opencv.org/
 Dlib C++ Library
 画像処理だけでなく線形代数、機械学習、データ圧縮など様々なアルゴリズムが実装さ
れたライブラリ。物体追跡や顔/物体検出、顔器官検出、Selective Searchなどのアプリ
ケーションよりの実装が豊富。
 http://dlib.net
 VLFeat
 特定物体認識、一般物体認識、一般物体検出のための特徴量（SIFT、HOG、Fisher Vector、
VLAD等）やアルゴリズム（k-mean, GMM, kd-tree, SVM等）。一般物体認識のサンプルアプリケー
ションあり
 http://www.vlfeat.org/
 SimpleCV
 OpenCVや数値計算ライブラリをＰｙｔｈｏｎでラップし、シンプルな関数で使えるようにしたも
の。
 http://simplecv.org/

182
点群処理全般
 Point Cloud Library
 ロボットの分野でも多く使われている点群処理全般のアルゴ
リズムが実装された定番ライブラリ。
 http://pointclouds.org/
人/物体検出
 ccv
 画像の局所特徴量と物体検出用のコードが充実したライブラ
リ。Deformable Part ModelとＩｎｔｅｇｒａｌ Channel Featuresの実
装がある。
 http://libccv.org/

183
文字認識
 TessearctOCR
 C++文字認識実装。英語以外の様々な言語をサポート。
 https://github.com/tesseract-ocr
三次元画像処理
 OpenMVG
 Structure-from-Motion等三次元画像処理に必要な関数を実
装したライブラリ。テストとコードの読みやすさを重視して開発。
 https://github.com/openMVG/openMVG

184
三次元画像処理（ワシントン大学提供）
 Bundler
 バンドル調整によってStructure-from-Motionを行うためのコード。
 http://phototour.cs.washington.edu/bundler/
 Multicore Bundle Adjustment
 バンドル調整をマルチコア、GPU上で計算できるようにしたソフトウェア
 http://grail.cs.washington.edu/projects/mcba/
 Patch-based Multi-view Stereo Software
 Multi-view Stereoのソフトウェア。入力として画像＋キャリブレーション
データを与えると密な３次元モデルを生成してくれる。ソフトウェア自体
は以下のＣＭＶＳへと統合された。
 Clustering Views for Multi-view Stereo (CMVS)
 SfMソフトからの出力を元に画像をクラスタリングして、MVSソフトへの
入力を効率化してくれる。
 http://www.di.ens.fr/cmvs/

185
物体追跡
 BGSLibrary
 物体追跡で良く使用される背景差分について、様々なアルゴ
リズムを実装したライブラリ。ＧＵＩあり。
 https://github.com/andrewssobral/bgslibrary
領域分割
 Insight Segmentation and Registration Toolkit (ITK)
 主に医療系で使うことを目的とした画像の領域分割や位置合
わせのためのライブラリ。
 https://itk.org/

186
拡張現実感
 AR Toolkit
 最も有名なARソフトウェア。ＡＲマーカーだけでなく、自然特徴点の
マーカーもサポートされるようになった。
 http://artoolkit.org/
 PTAM
 http://www.robots.ox.ac.uk/~gk/PTAM/
 LSD-SLAM
 http://vision.in.tum.de/research/vslam/lsdslam
 SVO
 Forster, C., Pizzoli, M., & Scaramuzza, D. (2014). SVO: Fast semi-
direct monocular visual odometry. 2014 IEEE International
Conference on Robotics and Automation (ICRA), 15–22.
 https://github.com/uzh-rpg/rpg_svo

187
深層学習（Deep Learning）
各社が独自のフレームワークを出している。
 Caffe
 カリフォルニア大学バークレー校
 http://caffe.berkeleyvision.org/
 Theano
 モントリオール大学
 http://deeplearning.net/software/theano/
 TensorFlow
 Google
 https://www.tensorflow.org/

188
深層学習（Deep Learning）
 Torch
 Facebook
 http://torch.ch/
 CNTK
 Microsoft
 https://www.cntk.ai/
 DSSTNE
 Amazon
 https://github.com/amznlabs/amazon-dsstne
 Chainer
 Preffered Network
 http://chainer.org/

189
深層学習の物体検出
 R-CNN
 https://github.com/rbgirshick/rcnn
 Fast R-CNN
 https://github.com/rbgirshick/fast-rcnn
 Faster R-CNN
 https://github.com/rbgirshick/py-faster-rcnn

商用ライブラリ
190
 Qualcomm FastCV
 ARM用コンピュータビジョンSDK。モバイル端末での開発用。
ジェスチャー、顔認識、文字認識、拡張現実感など。
 https://developer.qualcomm.com/software/fastcv-sdk
 UncannyCV
 ARM用コンピュータビジョンSDK。エッジ検出や射影変換のよ
うなローレベルから、車両検知、レーン検知、人物検出、顔検
出、物体追跡、ステレオビジョンなどのハイレベルまで。
 http://www.uncannyvision.com/uncannycv/

191
 OMRON, OKAO Vision
 顔検出，顔認証，顔器官検出，顔属性判定（年齢、性別、表情、笑
顔），人検出，ペット検出（犬、猫），ハンドジェスチャー、シーン認識
（一般物体認識）、被写体認識（顕著性検出）
 http://plus-sensing.omron.co.jp/technology/
 沖電気, Face Sensing Engine (FSE)
 顔検出，顔認証，顔器官検出
 https://www.oki.com/jp/fse/
 NEC, NeoFace
 顔検出，顔認証
 http://jpn.nec.com/face/
 NEC 指紋/指静脈認証
 http://jpn.nec.com/biometrics/fingerprint/index.html

192
 PUX, FaceU,
 顔検出，顔認証，顔器官検出，顔属性判定（年齢、性別、笑顔），
ペット検出（犬、猫、小鳥），ジェスチャー/ハンドジェスチャー
 http://www.pux.co.jp/softsensor/faceu.html
 PUX, 画像認識ソフトウェア
 シーン認識（一般物体認識），オブジェクト認識（特定物体認識）、手
書き文字認識、人物検出/トラッキング、ジェスチャー認識、ナン
バープレート認識
 http://www.pux.co.jp/softsensor/
 メディアドライブ，OCRライブラリ等
 活字や手書きなど様々な用途向けOCRライブラリ。特定物体認識
SDKもあり。
 http://mediadrive.jp/products/library/

193
 Sony SmartAR SDK
 自然画像マーカーの他にSLAMベースのARも使用可能。
 https://www.sonydna.com/sdna/solution/SmartAR_SDK.html
 Wikitude SDK
 GPS+電子コンパス、自然画像マーカー、SLAMベースのＡＲも
使用可能。
 http://www.wikitude.com/products/wikitude-sdk/

Web API
194
 Google Cloud Vision API
 一般物体認識、顔検出、表情認識、ロゴ、ランドマーク、有害
コンテンツ、文字認識
 https://cloud.google.com/vision/
 Microsoft Cognitive Service
 顔検出、表情認識、年齢/性別認識、顔認証、一般物体認識、
アダルト画像判別、動体検知、顔追跡、動画サムネイル作成
 https://www.microsoft.com/cognitive-services/
 IBM Watson Visual Recognition
 顔検出、年齢/性別認識、有名人認証、一般物体認識
 http://www.ibm.com/smarterplanet/us/en/ibmwatson/devel
opercloud/visual-recognition.html

Web API
195
 PUX Developers Site
 顔検出、顔認識（認証）、オブジェクト認識（特定物体認識）、
オンライン手書き文字認識
 http://pux.co.jp/api_sdk/
 ゼータ・ブリッジ, フォトナビ
 顔検出，顔器官検出，顔属性判定（年齢、性別、笑顔）、一致
検索（特定物体認識）
 http://biz.photonavi.jp/
 Face++
 顔検出，顔認証，顔器官検出，顔属性判定（年齢、性別、人
種、笑顔）
 http://www.faceplusplus.com/

20160525はじめてのコンピュータビジョン

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 20160525はじめてのコンピュータビジョン

Similar to 20160525はじめてのコンピュータビジョン (20)

More from Takuya Minagawa

More from Takuya Minagawa (20)

20160525はじめてのコンピュータビジョン