SlideShare a Scribd company logo
1 of 195
Download to read offline
2016/05/25 情報機構セミナー
はじめてのコンピュータビジョン
「画像認識の仕組みとビジネス事例」
ビジョン&ITラボ 皆川卓也
この講演の目的
2
 はじめての方や技術者以外の方に「コンピュータビジョンで何
ができるのか」の全体像をご理解いただく。
 コンピュータビジョンの基本的な仕組みを理解していただく。
 数式は一切出てきません。
 コンピュータビジョンを使ったビジネスのイメージをつけていた
だく。
 IoT時代におけるコンピュータビジョンの役割について解説いたしま
す。
 ソーシャルメディア、拡張現実感(AR)、自動運転などの事例を紹介
いたします。
 実際に利用するにあたって、便利なライブラリや商用サービスなど
を紹介いたします。
注意:
短い時間時間で全体を理解してもらうため、様々な説明を省略しています。実際
のビジネスにあたっては参考文献の論文等もご参照ください。
自己紹介
3
テクニカル・ソリューション・アーキテクト
皆川 卓也(みながわ たくや)
フリーエンジニア(ビジョン&ITラボ)
「コンピュータビジョン勉強会@関東」主催
博士(工学)
http://visitlab.jp
略歴:
1999-2003年
日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、2014年に博士号取得
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事
講演の内容
4
 なぜ今コンピュータビジョンなのか(割愛)
 コンピュータビジョンでできること
 コンピュータビジョンの仕組み
 コンピュータビジョンの活用例
 ライブラリ/APIの紹介
5
コンピュータビジョン
でできること
コンピュータビジョンでできること
6
1. 人や顔の認識
2. 何がどこに写っているかの認識
3. 三次元空間を把握
4. 動画から人の動作や物の動きを認識
5. 画像の加工/品質向上
人や顔を認識する
7
 顔を認識する
 顔検出
 顔認証
 顔器官検出
 顔属性判定
 人を認識する
 人物検出
 姿勢推定
 その他
 ペット認識
顔検出
8
 顔が画像のどこにあるのかを判定する。
顔認証
9
 写真に写っている人物が「誰か」を判定する。
 例:[Turk1991], [Wiskott1997],
[Taigman2014],[Belhumeur1997]
Natalie Portman
Jean Reno
顔器官検出
10
 目、鼻、口、輪郭など、顔の詳細パーツを抽出する。
 顔向き推定、視線推定、目/口の開き、メガネの有無判定なども
Credit:[Cao2012]
顔属性判定
11
 性別、表情、年齢などを判定する。
OKAO Visionのサイト[http://plus-
sensing.omron.co.jp/technology/detail/]
より画像転載
人検出
12
 画像から人の位置を検出する
人姿勢推定
13
 画像から人物の姿勢を推定する。
Credit:[Toshev2014]
ペット検出
14
 画像からペットの顔を検出する
OKAO Visionのサイト[http://plus-sensing.omron.co.jp/technology/movie/]より
画像転載
ビジネス事例(顔検出)
15
 デジタルカメラのオートフォーカス
 Amazon Fire Phoneの3次元IF
 Google Street View
 プライバシー保護目的
Nikon COOLPIX 5900
ビジネス事例(顔認証)
16
 出会い系/結婚紹介サイトの好みの顔検索
 http://internetcom.jp/webtech/20131220/3.html
 http://www.gizmodo.jp/2014/06/matchcom.html
 自分が有名人の誰に似てるかを判別するエンタメサイト
 顔ちぇき! (2013年1月サービス終了)
 CelebsLike.Me
 http://www.celebslike.me/
ビジネス事例(顔認証)
17
 ライブの入場者確認
 http://trendy.nikkeibp.co.jp/atcl/pickup/15/1008498/040800
231
 顔認証付きホーム用ネットワークカメラ
 netatmo “Welcome”
 https://www.netatmo.com/ja-JP/product/camera
ビジネス事例(顔器官検出)
18
 アバター(ゲーム等)
 SOEmote
https://www.youtube.com/watch?v=cde01HNKQVw
 プリクラ(美顔、デカ目)
バンダイナムコゲームス「Eye mix」
ビジネス事例(顔属性判定)
19
 スマイルシャッター(ソニー サイバーショット)
 http://www.sony.jp/ServiceArea/impdf/pdf/44329430M.w-
JP/jp/contents/04/02/11/11.html
 笑っただけ払えば良いコメディ劇場
 http://kyouki.hatenablog.com/entry/2014/06/12/064138
 タバコ自販機による年齢確認
 http://ja.wikipedia.org/wiki/成人識別自動販売機
 自販機における自動商品推薦機能
 http://www.itmedia.co.jp/news/articles/1008/10/news080.ht
ml
ビジネス事例(ペット認識)
20
 デジタルカメラのペット検出オートーフォーカス
 FinePix Z700EXR、Optio I-10、CX3
 猫の顔認識つき給餌期
 CatFi (http://catfi.com/)
 迷子のペット探し
 PiP (http://www.petrecognition.com/)
PiP CatFi Pro
参考文献
21
 [Belhumeur1997] Belhumeur, P. N., Hespanha, J. P., & Kriegman, D. J. (1997).
Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection.
IEEE Transaction on Pattern Analysis and Machine Intelligence, 19(7), 711–720.
 [Cao2012]Cao, X., Wei, Y., Wen, F., & Sun, J. (2012). Face Alignment by Explicit
Shape Regression. In IEEE Conference on Computer Vision and Pattern
Recognition (CVPR).
 [Taigman2014] Taigman, Y., Ranzato, M. A., & Wolf, L. (2014). DeepFace: Closing
the Gap to Human-Level Performance in Face Verification. In IEEE Conference
on Computer Vision and Pattern Recognition (CVPR).
 [Toshev2014] Toshev, A., & Szegedy, C. (2014). DeepPose: Human pose
estimation via deep neural networks. In IEEE Conference on Computer Vision and
Pattern Recognition (CVPR).
 [Turk1991] Turk, M., & Pentland, A. (1991). Eigenfaces for Recognition. Journal of
Cognitive Neuroscienceo, 3(1), 71–86.
 [Wiskott1997] Wiskott, L., Fellous, J.-M., Kruger, N., & Malsburg, C. von der.
(1997). Face recognition by elastic bunch graph matching. IEEE Transactions on
Pattern Analysis and Machine Intelligence, 19(7), 775–779.
色々な物体を認識
22
 特定物体認識
 一般物体認識
 一般物体検出
 顕著性検出
 Objectness検出
 文字認識
特定物体認識
23
 画像から事前に登録した画像と同一の物体を認識する。
 パンフレット/パッケージ/ランドマークなど
コンピュータビジョン
最先端ガイド1
カメラで撮影
認識!
一般物体認識
24
 画像に写っている物体のカテゴリを判別する
飛行機 顔 自動車
入力
画像
出力
カテゴリ認識
一般物体認識(詳細画像識別)
25
 あるカテゴリ内のサブカテゴリを認識する
 犬種:チワワ、プードル、シベリアンハスキー、ドーベルマン等
 車種:アクセラ、スカイライン、ヴィッツ等
Scarlet Kingfisher African daisy
Flower
一般物体検出
26
 自動車、人、ボトル、牛、など一般的な物体の位置を画
像から見つける。
 顔検出、人検出も一般物体検出に含まれる。
顔
歩行者
車
顕著性検出
27
 画像の中で「目立つ」ところを探す。
 元々は人間が目立つ箇所に無意識に注意が向く仕組み(ボト
ムアップ注意)をモデル化したもの
[木村2012]プレゼン資料より抜粋
Selective Search/Objectness検出
28
 画像から物体っぽいものを検出する。(それがどんな物
体かまでは判別しない。)
 一般物体検出の前処理として使われる。
Credit: [Cheng2014]
文字検出/認識
29
 画像中の文字領域を検出する
 画像中の文字を認識する
 例:[LeCun1998]
あ い う
ビジネス事例(特定物体認識)
30
 Google Goggles(ランドマークや書籍などの認識)
 Amazon Fire Phone (書籍やCDジャケット等)
 マーケティング/販促
 TSUTAYA DVDジャケット撮影で作品情報提供
 http://www.nikkei.com/article/DGXNASDD0301Y_T00C13A8TJC000/
 楽天 スマホで撮った商品を自動検索
 http://www.nikkei.com/article/DGXNASDD180LC_Y3A710C1TJ1000/
Google Goggles
(Google)
ビジネス事例(一般物体認識)
31
 画像の自動整理/タグ付け
 Adobe Element Organizer “Smart Tag”
 https://blogs.adobe.com/digitalmarketing/tag/smart-tags/
 食事画像認識によるカロリー管理
 FoodLog(http://www.foodlog.jp/)
 バーコードいらずのレジ
 BakerlyScan, http://www.bakeryscan.com/
 食パン識別
ビジネス事例(詳細画像識別)
32
 Pl@ntNet
 http://m.plantnet-project.org/
 植物識別アプリ
 Leaf snap
 http://leafsnap.com/
 植物識別アプリ[Kumar2012]
 Bird snap
 http://birdsnap.com
 鳥識別アプリ[Berg2014]
ビジネス事例(顕著性検出)
33
 Bing画像検索 [Wang2012]
 http://www.bing.com/?scope=images
 検索フィルタ(色)
 背景の色を無視して対象の色を元に検索できる。(花など)
 http://blogs.bing.com/search/2012/06/21/bing-image-search-
updates-roll-out-today/
ビジネス事例(文字検出/認識)
 Evernote
 画像中の文字を認識してIndex化。検索に利用
 Google Goggles
 ナンバープレート認識
 Word Lens
 https://www.youtube.com/watch?v=h2OfQdYrHRs
 Googleが買収済み
34
参考文献
35
 [Berg2014] Berg, T., Liu, J., Lee, S. W., Alexander, M. L., Jacobs, D.
W., & Belhumeur, P. N. (2014). Birdsnap: Large-scale Fine-grained
Visual Categorization of Birds. In IEEE conference on Computer
Vision and Pattern Recognition (CVPR).
 [Cheng2014] Cheng, M.-M., Zhang, Z., Lin, W.-Y., & Torr, P. (2014).
BING : Binarized Normed Gradients for Objectness Estimation at
300fps. In IEEE Conference on Computer Vision and Pattern
Recognition (CVPR).
 [Kumar2012] Kumar, N., Belhumeur, P. N., Biswas, A., Jacobs, D.
W., Kress, W. J., Lopez, I., & Soares, J. V. B. (2012). Leafsnap: A
Computer Vision System for Automatic Plant Species
Identification. In European Conference on Computer Vision.
 [LeCun1998]LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998).
Gradient-based learning applied to document recognition. In
Proceedings of the IEEE (pp. 2278–2324).
参考文献
36
 [Wang2012] Wang, P., Wang, J., Zeng, G., Feng, J., Zha, H., &
Li, S. (2012). Salient object detection for searched web
images via global saliency. In IEEE Conference on Computer
Vision and Pattern Recognition (CVPR).
 [木村2012]木村昭悟, 米谷竜, 平山高嗣. (2012). “[サーベイ
論文]人間の視覚的注意の計算モデル”, 電気情報通信学会
技術報告
三次元空間の把握
37
 動画から三次元モデルを復元
 大量の画像から三次元モデルを復元
 プロジェクタとカメラから三次元モデルを復元
 物体の陰影から三次元モデルを復元
 二次元画像から三次元モデルを復元
 二枚以上の画像から中間視点の画像を生成
動画から三次元モデルを復元
38
 ビデオなど連続した画像群から撮影対象を三次元復元
Credit: [Pan2009]
https://www.youtube.com/watch?v=vEOmzjImsVc
画像を集めて三次元モデルを復元する
39
 Flickr等の写真共有サイトには観光地などの写真が大量
に集まる。それらを使用して観光地の三次元モデルを構
築する。
Credit:[Frahm2010]
画像を集めて三次元モデルを復元する
40
 代表的なプロジェクト(リンク先にデモ動画等あり)
 Photo Tourism[Snavely2006]
 http://phototour.cs.washington.edu/
 Building Rome in a Day[Agarwal2009]
 http://grail.cs.washington.edu/rome/
 Building Rome on a cloudless day [Frahm2010]
 https://www.youtube.com/watch?v=4cEQZreQ2zQ
プロジェクタとカメラから三次元復元
41
 一台のプロジェクタから既知のパターン(structured
light)を物体に対して照射し、それをカメラで撮影するこ
とで、三角測量の原理から物体の三次元形状を求める
ことができる。
Credit: [Narasimhan2008]
物体の陰影から三次元復元
42
 光源の位置とカメラの位置、物体の陰影から、物体の表
面の法線方向を求めることで形状を復元する。
 Shape from Shading
 照度差ステレオ
照度差ステレオ [松下2011]
二次元の画像から三次元モデル生成
43
 1枚の入力画像から三次元的なボリュームを推定する。
[Blanz1999]
1枚の顔画像から3次元復元
[Hoiem2005]
1枚の風景画像から3次元復元
二次元の画像から三次元モデル生成
44
 代表的な手法(プロジェクトページヘのリンク)
 3D Morphable Model [Blanz2005]
 デモ動画あり
 http://gravis.cs.unibas.ch/Sigg99.html
 Automatic Photo Pop-up [Hoiem2005]
 デモ動画、Matlabコードあり
 http://www.cs.uiuc.edu/~dhoiem/projects/popup/
 Make3D [Saxena2008]
 デモ動画、コード(Matlab/C++)あり
 http://make3d.cs.cornell.edu/
中間視点の画像を生成
45
 2つの視点の異なる画像から、中間の視点から見た画
像を生成する。(View Morphing [Seitz1996])
プロジェクトページ(動画あり) http://www.cs.cmu.edu/~seitz/vmorph/vmorph.html
ビジネス事例(中間視点の画像生成)
46
 Microsoft Photosynth
 http://photosynth.net/
二次元の画像から三次元モデル生成
47
 モーションポートレート
 http://www.motionportrait.com/
 https://www.youtube.com/watch?v=P-mBdV3icMY
参考文献
48
 [Agarwal2009] Agarwal, S., Snavely, N., Simon, I., Seitz, S. M., &
Szeliski, R. (2009). Building Rome in a day. In International
Conference on Computer Vision (pp. 72–79).
 [Blanz1999] Blanz, V., & Vetter, T. (1999). A morphable model for
the synthesis of 3D faces. In Conference on Computer Graphics
and Interactive Techniques (SIGGRAPH) (pp. 187–194).
 [Frahm2010] Frahm, J., Fite-georgel, P., Gallup, D., Johnson, T.,
Raguram, R., Wu, C., … Pollefeys, M. (2010). Building Rome on a
Cloudless Day. In European Conference on Computer Vision (pp.
368–381).
 [Hoiem2005]Hoiem, D., & Efros, A. A. (2005). Automatic photo
pop-up. In Conference on Computer Graphics and Interactive
Techniques (SIGGRAPH).
 [Narasimhan2008] Narasimhan, S. G., Koppal, S. J., & Yamazaki, S.
(2008). Temporal Dithering of Illumination. In European Conference
on Computer Vision (pp. 830–844).
参考文献
49
 [Pan2009] Pan, Q., Reitmayr, G., & Drummond, T. (2009).
ProFORMA: Probabilistic Feature-based On-line Rapid Model
Acquisition. Procedings of the British Machine Vision Conference
2009, (c), 112.1–112.11.
 [Saxena2008]Saxena, A., Sun, M., & Ng, A. Y. (2008). Make3D:
Depth Perception from a Single Still Image. In AAAI national
conference on Artificial intelligence (pp. 1571–1576).
 [Seitz1996]Seitz, S. M., & Dyer, C. R. (1996). View morphing.
Conference on Computer Graphics and Interactive Techniques
(SIGGRAPH).
 [Snavely2006]Snavely, N., Seitz, S. M., & Szeliski, R. (2006). Photo
tourism: exploring photo collections in 3D. In Conference on
Computer Graphics and Interactive Techniques (SIGGRAPH).
 [松下2011] 松下康之. (2011). 照度差ステレオ. 情報処理学会研究
報告. voi2011-CVIM-177. 29
動画から人の動作や物の動きを認識
50
 動画中の人の動作を認識する
 動いている対象の追跡
 スポーツシーンの解析
 動画を短い動画へ要約する
 手ぶれ補正
動画中の人の動作を認識
51
 動画中の人の動作をカテゴリ分類する
UCF101 Action Recognition Dataset [Soomro2012]
http://crcv.ucf.edu/data/UCF101.php
Dense Trajectoriesによる行動識別
[Wang2013]
動いている対象の追跡
52
 人や自動車など、事前に学習した物体の追跡
人の追跡
車両の追跡
Credit:[Choi2015]
動いている対象の追跡
53
 任意物体の追跡
 最初のフレームで指定した物体を追跡し続ける
 追跡しながら学習する (Online Tracker)
https://www.youtube.com/watch?v=1GhNXHCQGsM
Credit:[Kalal2010]
第1フレーム
スポーツシーンの解析
54
 サッカーやバスケットボールなど、人やボールの動きを
追跡して解析
Credit:[Hasegawa2015]
Credit:[Lu2011]Credit:[Hamid2010]
動画の自動要約
55
 スポーツ動画のゴールシーンや盛り上がりのあるシーン
を認識して切り出したり、ホームビデオから変化の乏しい
シーンを除去する
例[Zhao2014]:
https://www.youtube.com/watch?v=pkG3apELN_8
時間
動画
要約動画
手ぶれ補正
56
 動画の各フレームから最適な位置を切り取ることで手ぶ
れを除去
https://www.youtube.com/watch?v=i5keG1Y810U
顔検出を用いて手ぶれ補正(上:元動画、下:手ぶれ補正)
[Grundmann2011]
ビジネス事例(人の動作認識/追跡)
57
 異常な人の動きを自動検知するシステム JR西日本
 駅のホームで、歩行が乱れている人や長時間ベンチに座り込んで
いる人、線路に降りる人などの検知
 http://trafficnews.jp/post/45968/
 http://www.gizmodo.jp/2015/08/jr_8.html
 店舗内の人の動きを把握し、マーケティングデー取得
 ABEJA
 http://www.abeja.asia/#instoremove
 Future Standard
 http://jp.techcrunch.com/2016/01/21/futurestandard-secured-130m-
yen/
 歩行者、自転車、車の交通流計測
 Placemeter (https://www.placemeter.com/)
 http://jp.techcrunch.com/2015/09/24/placemeter-measures-retail-
shop-conversion-rates/
ビジネス事例(スポーツシーン解析)
58
 サッカー/テニス/クリケットなどの審判支援システム
 HAWK-EYE
 http://www.hawkeyeinnovations.co.uk/
 バスケットボールの解析
 STAT “SportVU”
 http://www.nba.co.jp/nba/斎藤千尋コラム第1回sportvuのトラッキン
グデータが広げる可能性/tn21uxm1ohfl1ua3ripghd4rq
 http://www.stats.com/sportvu/sportvu-basketball-media/
 フットサル映像分析
 キヤノンがフットサル映像分析、アマスポーツも「見える化」
 http://techon.nikkeibp.co.jp/atcl/news/15/110601042/
ビジネス事例(動画の自動要約)
59
 ソニー ハンディカム
 ハイライト再生
 https://www.sony.jp/support/handycam/enjoy/movie/
 HaiLyts
 iPhone用動画要約アプリ
 http://www.splyza.com/hailyts/
ハンディカム
HaiLyts
ビジネス事例(ブレ補正)
60
 Youtube
 http://www.youtube.com
 Windows Movie Maker
 http://windows.microsoft.com/ja-jp/windows/movie-maker
 ProDAD Mercalli
 http://www.prodad.com/home/products/video_optimization,l-
us.html
 CyberLink PowerDirector
 http://jp.cyberlink.com/products/powerdirector-
ultra/features_ja_JP.html
 Adobe AfterEffects “ワープスタビライザー”
 https://helpx.adobe.com/jp/after-effects/how-to/stabilize-
footage.html
参考文献
61
 [Choi2015] Choi, W. (2015). Near-Online Multi-Target Tracking
With Aggregated Local Flow Descriptor. Proceedings of the IEEE
International Conference on Computer Vision, 3029–3037.
 [Grundmann2011] Grundmann, M., Kwatra, V., & Essa, I. (2011).
Auto-directed video stabilization with robust L1 optimal camera
paths. Proceedings of the IEEE Computer Society Conference on
Computer Vision and Pattern Recognition, (1), 225–232.
 [Hamid2010] Hamid, R., Kumar, R., Hodgins, J., & Essa, I. (2010). A
Computational Framework for Sports Visualization using Multiple
Static Cameras. In IEEE Conference on Computer Vision and
Pattern Recognition (pp. 1–14).
 [Hasegawa2015] Hasegawa, K. (2015). Stroboscopic Image
Synthesis of Sports Player from Hand-Held Camera Sequence. In
International Conference on Computer Vision Workshop.
 [Kalal2010] Kalal, Z. (2010). P-N Learning : Bootstrapping Binary
Classifiers by Structural Constraints. Constraints.
参考文献
62
 [Lu2011] Lu, W., Ting, J., Little, J. J., & Murphy, K. P. (2011).
Learning to Track and Identify Players from Broadcast
Sports Videos Shot segmentation, (December), 1–14.
 [Soomro2012] Soomro, K., Zamir, A. R., & Shah, M. (2012).
UCF101: A Dataset of 101 Human Actions Classes From
Videos in The Wild. arXiv Preprint arXiv:1212.0402,
(November).
 [Wang2013] Wang, H., Kläser, A., Schmid, C., & Liu, C. L.
(2013). Dense trajectories and motion boundary descriptors
for action recognition. International Journal of Computer
Vision, 103(1), 60–79.
 [Zhao2014] Zhao, B., & Xing, E. P. (2014). Quasi Real-Time
Summarization for Consumer Videos. In IEEE Conference on
Computer Vision and Pattern Recognition.
画像の加工/品質向上
63
 フィルタによる画像加工
 画質の品質を向上させる
 画像から必要な物体だけ綺麗に切り抜く
 画像同士を合成する
 画像からいらない領域を取り除く
 被写体を歪めずに画像をリサイズする
フィルタによる画像加工
64
 Instagramのように画像に効果をつける処理
漫画カメラ
http://tokyo.supersoftware.c
o.jp/mangacamera/
Instagram
http://instagram.com/
エンボス
Rise
Original Toaster
Willow
画像の品質を向上させる
65
 ノイズ除去
 ガウシアンフィルタ、メディアンフィルタ、バイラテラルフィルタ
[Tomasi1998]、ノンローカルミーンフィルタ[Buades2005]、
BM3D[Dabov2007]、etc
ノイズ画像 ガウシアンフィルタ バイラテラルフィルタ
画像の品質を向上させる
66
 画像を元々の解像度以上に拡大する。(超解像)
 画像のボケを補正する。
 動画(複数枚画像)を使用する方法[Farsiu2003][Mitzel2009]
 1枚の画像から復元する方法[Freeman2002][Yang2008]
画像から必要な物体だけきれいに切り抜く
67
 物体の輪郭を求める
 画像内を似た色や同じ物体同士で領域分割する
 画像から前景を背景から分離する。
領域分割(Mean Shiftの例) 前景分離(Credit:[Rother2004])
画像同士を合成する
68
 背景画像に前景画像を「自然な形で」貼り合わせる
Credit: [Pérez2003]
画像同士を合成する
69
 背景画像に前景画像を「自然な形で」貼り合わせる
 応用例: フォトモンタージュ[Agarwala2004]
 複数枚の画像から全員が笑って正面を向いている画像を合成
Credit:[Agarwala2004]
画像同士を合成する
70
 背景画像に前景画像を「自然な形で」貼り合わせる
 応用例: Sketch2Photo[Chen2009]
 ユーザがスケッチした画像をインターネット上の画像を用いて合成す
る。
http://www.youtube.com/watch?v=dW1Epl2LdFM (デモ動画)
http://www.mist.co.jp/product/sketch.html (製品)
スケッチ 検索された画像 合成結果画像
Credit:[Chen2009]
画像同士を合成する
71
 複数の画像からパノラマ画像、あるいはより広範な画像
を生成する。
 代表的な手法: Image Mosaicing, Image Stitching
[Brown2003]
Output:
Input:
Credit: [Brown2003]
画像からいらない領域を切り取る
72
 いらない領域を削除して、周辺の領域の情報から削除し
た領域の穴埋めを行う。(Inpainting)
credit:[Bertalmio2000]
credit:[Criminisi2004]
画像からいらない領域を切り取る
73
 いらない領域を削除して、インターネット上の画像を使っ
て削除した領域の穴埋めを行う。[Hays2007]
Credit:[Hays2007]
(a) (b) (c) (d)
a. 原画像
b. 不要な領域の除去
c. 似た色と配置を持つ画像を検索
d. ユーザが選択した画像で除去した領域を補間
被写体を歪めずに画像をリサイズする
74
 画像の中の被写体を歪めることなく、画像の縦横比を気
にせずに自由に画像を拡大/縮小する(Retargeting)
 代表的な手法:Seam Carving [Avidan2007]
 デモ動画 https://www.youtube.com/watch?v=6NcIJXTlugc
 ソフトウェア https://code.google.com/p/seam-carving-gui/
Credit:[Avidan2007]
通常の拡縮
Seam Carving
画像のサイズ変更/穴埋め/加工を自然に行う
75
 Structural Image Editing
 変形したい箇所と類似するテクスチャを画像内から探索して、
穴埋め、再構成、サイズ変更を行う
Credit:[Barnes2009]
ビジネス事例(画像処理全般)
76
 Adobe Photoshop
 http://www.adobe.com/jp/products/photoshop.html
 定番の画像編集ソフトウェア
 画像フィルタ―
 画像の合成
 余計な人物やオブジェクトの除去
 etc
参考文献
77
 [Tomasi1998]Tomasi, C., & Manduchi, R. (1998). Bilateral filtering for gray and
color images. International Conference on Computer Vision (CVPR).
 [Buades2005]Buades, A., Coll, B., & Morel, J.-M. (2005). A non-local algorithm for
image denoising. In IEEE Conference on Computer Vision and Pattern
Recognition (CVPR).
 [Dabov2007]Dabov, K., Foi, A., Katkovnik, V., & Egiazarian, K. (2007). Image
denoising by sparse 3D transform-domain collaborative filtering. IEEE
Transactions on Image Processing, 16(8), 2080–2095.
 [Freeman2002]Freeman, W. T., Jones, T. R., & Pasztor, E. C. (2002). Example-
based super-resolution. Computer Graphics and Applications, 22(2), 56–65.
 [Farsiu2003] Farsiu, S., Robinson, D., Elad, M., & Milanfar, P. (2003). Fast and
robust super-resolution. In IEEE International Conference on Image Processing.
 [Mitzel2009] Mitzel, D., Pock, T., Schoenemann, T., & Cremers, D. (2009). Video
Super Resolution using Duality Based TV-L Optical Flow. In DAGM symposium
on Pattern Recognition (pp. 432–441).
 [Yang2008]Yang, J., Wright, J., Ma, Y., & Huang, T. (2008). Image super-resolution
as sparse representation of raw image patches. In IEEE Conference on Computer
Vision and Pattern Recognition (CVPR).
参考文献
78
 [Avidan2007]Avidan, S., & Shamir, A. (2007). Seam carving for
content-aware image resizing. In Conference on Computer
Graphics and Interactive Techniques (SIGGRAPH).
 [Agarwala2004]Agarwala, A., Dontcheva, M., Agrawala, M., Drucker,
S., Colburn, A., Curless, B., … Cohen, M. (2004). Interactive digital
photomontage. In Conference on Computer Graphics and
Interactive Techniques (SIGGRAPH) (Vol. 23).
 [Barnes2009]Barnes, C., Shechtman, E., Finkelstein, A., & Goldman,
D. B. (2009). PatchMatch: A randomized correspondence algorithm
for structural image editing. In Conference on Computer Graphics
and Interactive Techniques (SIGGRAPH).
 [Bertalmio2000]Bertalmio, M., Guillermo, S., Caselles, V., &
Ballester, C. (2000). Image inpainting. In Conference on Computer
Graphics and Interactive Techniques (SIGGRAPH) (pp. 417–424).
参考文献
79
 [Brown2003]Brown, M., & Lowe, D. G. (2003). Recognising
Panoramas. In International Conference on Computer Vision
(CVPR).
 [Chen2009]Chen, T., Cheng, M.-M., Tan, P., Shamir, A., & Hu,
S.-M. (2009). Sketch2Photo: internet image montage. In
Conference on Computer Graphics and Interactive
Techniques (SIGGRAPH).
 [Criminisi2004]Criminisi, A., Pérez, P., & Toyama, K. (2004).
Region filling and object removal by exemplar-based image
inpainting. IEEE Transactions on Image Processing : A
Publication of the IEEE Signal Processing Society, 13(9),
1200–12.
 [Hays2007]Hays, J., & Efros, A. A. (2007). Scene completion
using millions of photographs. Conference on Computer
Graphics and Interactive Techniques (SIGGRAPH).
参考文献
80
 [Pérez2003]Pérez, P., Gangnet, M., & Blake, A. (2003).
Poisson image editing. In Conference on Computer Graphics
and Interactive Techniques (SIGGRAPH).
 [Rother2004]Rother, C., Kolmogorov, V., & Blake, A. (2004).
Grabcut: Interactive foreground extraction using iterated
graph cuts. In Conference on Computer Graphics and
Interactive Techniques (SIGGRAPH).
81
コンピュータビ
ジョンの仕組み
コンピュータビジョンの仕組み
82
 画像中の物体を認識する仕組み
 深層学習(Deep Learning)の基礎
 画像からの三次元モデル構築
画像中の物体を認識する仕組み
83
 認識の基本的な流れ
 特定物体認識
 SIFT特徴量
 一般物体認識
 Bags-of-Features
 物体検出
 Haar-like Features
 HOG特徴
学習
学習結果
データ
学習フェーズ
特徴量抽出
学習画像
学習画像
学習画像
認識
認識結果
認識フェーズ
特徴量抽出
入力画像
認識の基本的な流れ
84
機械学習とは?
 人間が自然に行っている学習能力と同様の機能をコン
ピュータで実現させるための技術・手法のこと
 事前にコンピュータにサンプルデータを与え、そのパターンを
統計的に抽出させる。
学習サンプル
学習結果
85
画像特徴量とは?
86
 画像を構成する画素の集合を「認識や識別のしやすい」
別のベクトルへ変換したもの
 画像の様々な変形(拡大/縮小、回転、ずれ等)に強い
点(キーポイント)を検出し、そのキーポイント周辺から取
得する特徴量を特に局所特徴量と呼ぶ
画像特徴量入力画像 物体認識/検出
局所特徴量の代表例
87
 Scale Invariant Feature Transform (SIFT) [Lowe1999]
1. 画像のスケール変化や位置ずれに強いキーポイントを検出
スケール変化に弱い
キーポイント
位置ずれに弱い
キーポイント
スケール変化と位置ずれ
に強いキーポイント
局所特徴量の代表例
88
 Scale Invariant Feature Transform (SIFT) [Lowe1999]
1. 画像のスケール変化や位置ずれに強いキーポイントを検出
2. キーポイント周辺から画像の回転に強い特徴量を算出
Histogram of Gradient
Orientations
• 最も画像の濃度変化の大き
い方向を軸とすることで、回
転不変性を実現
• キーポイント検出時に取得し
たスケール情報を元に周辺
パッチのサイズを決定するこ
とでスケール不変性を実現
特定物体認識の仕組み
89
 代表的な手法
 SIFT等の局所特徴量+近似最近傍探索 [Lowe1999]
 大規模なデータベースに対してはBag-of-Featuresを用いる
[Sivic2003]
Histogram of Gradient
Orientations
DB
・・・
x
x
x
x
x
x
x
x
x
x
x
xx
x
x
x
xx x
x
マッチング+投票
一般物体認識の特徴量の例
90
 Bags-of-Features (BoF) [Csurka2004]
 形状(Visual Words)の画像中に現れる頻度(ヒストグラム)を
特徴量とする
Dictionary (Visual Words)
3
0
0
2
1
2
1
1
Histogram of visual words
Image
91
物体検出の仕組み
探索窓(Sliding Window)
物体検出の特徴量(顔検出の例)
92
 Haar-like特徴 [Viola2001]
 白領域の画素の和から黒領域の画素の和を引くだけ
 積分画像というテクニックとAdaBoostという機械学習アルゴリ
ズムで非常に高速に計算できる
plus
minus
物体検出の特徴量(人検出の例)
93
 Histogram of Oriented Gradients (HOG) [Dalal2005]
 画像の濃度変化方向について場所(Cell)ごとの統計を取ったもの
 輪郭のような特徴が良くとれる
 人以外の物体検出にも広く応用されている
物体検出の特徴量(人検出他)
94
 Deformable Part Model [Felzenszwalb2009]
 HOG特徴を複数組み合わせることで、検出精度向上
 HOG特徴を抽出する位置の歪みも含めてLatent SVMという
機械学習アルゴリズムで学習する
Credit:[Felzenszwalb2009]
Root filter Parts filter Deformation
参考文献
95
 [Csurka2004]Csurka, G., Dance, C. R., Fan, L., Willamowski,
J., & Bray, C. (2004). Visual categorization with bags of
keypoints. In Workshop on statistical learning in computer
vision, ECCV (Vol. 1, p. 22).
 [Dalal2005]Dalal, N., & Triggs, B. (2005). Histograms of
Oriented Gradients for Human Detection. IEEE Conference
on Computer Vision and Pattern Recognition (CVPR).
 [Felzenswalb2009]Felzenszwalb, P. F., Girshick, R. B.,
McAllester, D., & Ramanan, D. (2009). Object detection with
discriminatively trained part-based models. IEEE
Transactions on Pattern Analysis and Machine Intelligence,
32(9), 1627–1645.
 [Lowe1999]Lowe, D. G. (1999). Object recognition from local
scale-invariant features. In IEEE International Conference on
Computer Vision (pp. 1150–1157 vol.2).
参考文献
96
 [Sivic2003]Sivic, J., & Zisserman, A. (2003). Video Google: a
text retrieval approach to object matching in videos. In IEEE
Internatinal Conference on Computer Vision (CVPR).
 [Viola2001]Viola, P., & Jones, M. (2001). Rapid object
detection using a boosted cascade of simple features. IEEE
International Conference on Computer Vision and Pattern
Recognition (CVPR).
深層学習 (Deep Learning)
97
 深層学習の概要
 畳み込みニューラルネットワーク
 アプリケーション
 一般物体認識
 画像説明文生成
 物体検出
 画像自動生成
深層学習の概要
98
 ニューラルネットワークという機械学習アルゴリズムの階
層を深くしたもの
ニューラルネットワーク
深層学習
深層学習の概要
99
 以下のような種類がある
 畳み込みニューラルネットワーク
 Deep Bolzmann Machines
 Deep Belief Networks
 etc
 ここでは画像認識で最も多く用いられるDeep Convolutional
Neural Networkを解説
 一般的な特徴
 画像特徴量自体を学習
 高精度
 計算量が多く、高速処理のためにGPUなどのハードウェアが必要
 大量の学習データが必要
深層学習の概要
100
学習
学習結果
データ
学習フェーズ
特徴量抽出
学習画像
学習画像
学習画像
認識
認識結果
認識フェーズ
特徴量抽出
入力画像
深層学習
深層学習の概要
 SIFTやHOGのような画
像特徴量を用いず、認
識に有効な特徴量を画
素から統計的に学習す
る。
 低レベル特徴から高レベ
ル特徴までの階層構造。
 低レベルな特徴ほど、
様々なタスクで共有可能
(Image from Lee. H in CVPR2012 Tutorial)
畳み込みニューラルネットワーク
102
 畳み込み層とプーリング層が交互に現れる
 畳み込み層: 各位置で学習した特徴との類似度を計算
 プーリング層: 位置ずれなどのわずかな違いを無視
・
・
・
・・・・・
入力画像 出力
畳み込み層 プーリング層 畳み込み層 プーリング層 全結合層
畳み込みニューラルネットワーク
103
 畳み込み層とプーリング層が交互に現れる
 畳み込み層: 各位置で学習した特徴との類似度を計算
 プーリング層: 位置ずれなどのわずかな違いを無視
・
・
・
・・・・・
入力画像 出力
畳み込み層 プーリング層 畳み込み層 プーリング層 全結合層
畳み込みニューラルネットワーク
104
 畳み込み層
 各特徴毎の各場所での類似度を出力する
入力
画像
実際はRGBの3チャネルが使われる
出力A
特徴A 特徴B
出力B
・・・
畳み込みニューラルネットワーク
105
 畳み込み層とプーリング層が交互に現れる
 畳み込み層: 各位置で学習した特徴との類似度を計算
 プーリング層: 位置ずれなどのわずかな違いを無視
・
・
・
・・・・・
入力画像 出力
畳み込み層 プーリング層 畳み込み層 プーリング層 全結合層
畳み込みニューラルネットワーク
106
 プーリング層
 近傍の情報を統合して、情報に不変性を加える
 Max Pooling、Lp Pooling、Average Poolingなどがある
Max Poolingの例: 近傍領域のうち最大値を出力することで不変性を与える
畳み込み層
の出力A
・・・
・・・
Max Max
畳み込み層
の出力B
畳み込みニューラルネットワーク
107
 畳み込み層とプーリング層が交互に現れる
 畳み込み層: 各位置で学習した特徴との類似度を計算
 プーリング層: 位置ずれなどのわずかな違いを無視
・
・
・
・・・・・
入力画像 出力
畳み込み層 プーリング層 畳み込み層 プーリング層 全結合層
畳み込みニューラルネットワーク
108
 畳み込み層
 各特徴毎の各場所での類似度を出力する
特徴Aの
類似度
出力C
特徴C
特徴Bの
類似度
・
・
・
・
・
・
出力D
特徴D
・
・
・ ・・・
畳み込みニューラルネットワーク
109
 全結合層: 最後の認識(識別/回帰)を行う
・
・
・
・・・・・
入力画像 出力
畳み込み層 プーリング層 畳み込み層 プーリング層 全結合層
畳み込みニューラルネットワーク
110
 全結合層
 最終層で全領域を使って認識を行う
・
・
・
・・・
畳み込みニューラルネットワークの学習
111
 誤差逆伝播法
1. ネットワークに画像を入力し出力を得る
2. 出力と教師信号を比較し、誤差が小さくなる方向へ特徴を出
力層に近い方から順に更新していく
・
・
・
・・・・・
入力画像 出力
畳み込み層 プーリング層 畳み込み層 プーリング層 全結合層
畳み込みニューラルネットワークの学習
112
 誤差逆伝播法
1. ネットワークに画像を入力し出力を得る
2. 出力と教師信号を比較し、誤差が小さくなる方向へ特徴を出
力層に近い方から順に更新していく
・・・・・
入力画像 出力
畳み込み層 プーリング層 畳み込み層 プーリング層 全結合層
・
・
・
畳み込みニューラルネットワークの学習
113
 誤差逆伝播法
1. ネットワークに画像を入力し出力を得る
2. 出力と教師信号を比較し、誤差が小さくなる方向へ特徴を出
力層に近い方から順に更新していく
・
・
・
・・・・・
入力画像 出力
畳み込み層 プーリング層 畳み込み層 プーリング層 全結合層
教師
畳み込みニューラルネットワークの学習
114
 誤差逆伝播法
1. ネットワークに画像を入力し出力を得る
2. 出力と教師信号を比較し、誤差が小さくなる方向へ特徴を出
力層に近い方から順に更新していく
・
・
・
・・・・・
入力画像 出力
畳み込み層 プーリング層 畳み込み層 プーリング層 全結合層
教師
アプリケーション:一般物体認識
115
 IMAGENET Large Scale Visual Recognition Challenge
(ILSVRC)
 ImageNetという大規模画像データセットを使用した一般物体
認識、物体検出のコンテスト
 ImageNet: 約1400万枚、約2万2000カテゴリ
 ILSVRC2012において、深層学習を用いた手法が圧勝
[Deng2009]
アプリケーション:一般物体認識
Team name Error
1 Super Vision 0.15315
2 Super Vision 0.16422
3 ISI 0.26172
4 ISI 0.26602
5 ISI 0.26646
6 ISI 0.26952
7 OXFORD_VGG 0.26979
8 XRCE/INRIA 0.27058
Team name Error
1 Super Vision 0.335463
2 Super Vision 0.341905
3 OXFORD_VGG 0.500342
4 OXFORD_VGG 0.50139
5 OXFORD_VGG 0.522189
6 OXFORD_VGG 0.529482
7 ISI 0.536474
8 ISI 0.536546
識別 検出
ILSVRC2012の結果
http://www.image-net.org/challenges/LSVRC/2012/
深層学習
アプリケーション:一般物体認識
117
 性能を上げるために階層が深くなる傾向
Residual Net [He2015]
152層
GoogLeNet [Szegedy2014]
22層
VGG Net [Simonyan2014]
19層
Alex Net [Krizhevsky2012]
8層
アプリケーション:物体検出
118
 R-CNN (Region with CNN feature) [Girshick2014]
 畳み込みニューラルネットワーク(CNN)は計算量が高いので、探索
窓(Sliding Window)による検出は更に計算量高い
 Selective Searchという手法を用いて物体候補領域を検出し、候補
領域上のみ処理することで計算量削減
アプリケーション:物体検出
119
 Fast R-CNN [Girshick2015]
 R-CNNでは物体候補領域を1つ1つCNNで判別していたため遅い
(VGGを使用した場合、GPU込みで1枚47秒)
 画像全体にCNNをかけて特徴マップを生成し、最後のプーリング層
を物体候補領域(ROI)に合わせて切り出す
 R-CNNを検出時約213倍高速化
アプリケーション:物体検出(Faster R-CNN)
120
 Faster R-CNN [Ren2015]
 R-CNNおよびFast R-CNNではSelective Searchを用いて物体候補
領域を事前に求めておく必要。
 Fast R-CNNのSelective Search部分をfeature map上で行うことで、
余計な処理を省き、高精度化/高速化(1枚当たり約200msec)。
→ Region Proposal Network (RPN)
この上(特徴マップ)で物体候
補領域検出を行う
アプリケーション:顔認証
121
 例:Deep Face [Taigman2014]
 顔検出+顔器官検出までは既存手法
 顔画像を正面に向け、大きさを揃えた後、CNNで認証
 人間と同等の識別性能
アプリケーション:領域分割
122
 例:Fully Convolutional Network [Long2014]
 ピクセルごとにラベル付けされた教師信号を与える
 最終の全結合層をアップサンプリングした畳み込み層に置き換え
アプリケーション:超解像
123
 例:SRCNN [Dong2014]
 低解像度のパッチから生成した特徴マップと、高解像度パッ
チとの変換をそれぞれ学習
アプリケーション:画像の説明文生成
124
 例:Show and Tell [Vinyals2015]
 1枚の画像から説明文を生成
 機械翻訳で使用されるReccurent Neural Networks (RNN)の
入力部分をCNNで出力される特徴ベクトルへ置き換え
アプリケーション:画像生成
125
 例:DC-GAN [Radford2015]
 画像を作る生成器Gと実画像と生成画像を見分ける識別器D
を交互に学習する(GAN)
 GANに対してプーリング層を畳み込み層に置き換える等の
様々な工夫で画像がぼけないようにした。(Deep
Convolutional GAN)
アプリケーション:白黒画像の色付け
126
 例: Global and Local Image Priors for Automatic
Image Colorization [Iizuka2016]
 入力を白黒画像、教師をカラー画像とすることで、白黒画像を
カラー画像へ変換するネットワークを構築
 画像全体の特徴と局所的な特徴を統合して色付けネットワー
クを学習
アプリケーション:ラフスケッチの線画化
127
 例:Fully Convolutional Networks for Rough Sketch
Cleanup [Simo-Serre2016]
 入力をラフスケッチ、教師を線画として学習することで、ラフス
ケッチを線画へ変換するネットワークを構築
参考文献
128
 [Deng2009] Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., & Fei-
Fei, L. (2009). ImageNet: A large-scale hierarchical image database.
2009 IEEE Conference on Computer Vision and Pattern
Recognition, 2–9.
 [Dong2014] Dong, C., Loy, C. C., & He, K. (2014). Image Super-
Resolution Using Deep Convolutional Networks. European
Conference on Computer Vision, 8828(c)
 [Girshick2014] Girshick, R., Donahue, J., Darrell, T., & Malik, J.
(2014). Rich feature hierarchies for accurate object detection and
semantic segmentation. In IEEE Conference on Computer Vision
and Pattern Recognition.
 [Girshick2015] Girshick, R. (2015). Fast R-CNN. International
Conference on Computer Vision, 1440–1448.
 [He2015] He, K., Zhang, X., Ren, S., & Sun, J. (2015). Deep
Residual Learning for Image Recognition. arXiv Preprint
arXiv:1512.03385, 7(3), 171–180.
参考文献
129
 [Iizuka2016] Iizuka, S., Simo-Serre, E., & Hiroshi, I. (2016). Let there be
Color !: Joint End-to-end Learning of Global and Local Image Priors for
Automatic Image Colorization with Simultaneous Classification. In ACM
Transactions on Graphics (SIGGRAPH),
 [Krizhevsky2012]Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012).
ImageNet Classification with Deep Convolutional Neural Networks. In
Advances in Neural Information Processing Systems (NIPS) (pp. 1106–
1114).
 [Long2014] Long, J., Shelhamer, E., & Darrell, T. (2014). Fully
Convolutional Networks for Semantic Segmentation. 2015 IEEE
Conference on Computer Vision and Pattern Recognition (CVPR), 3431–
3440.
 [Radford2015] Radford, A., Metz, L., & Chintala, S. (2015). Unsupervised
Representation Learning with Deep Convolutional Generative Adversarial
Networks. arXiv, 1–15.
 [Ren2015] Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN:
Towards Real-Time Object Detection with Region Proposal Networks.
Advances in Neural Information Processing Systems (NIPS).
参考文献
130
 [Simonyan2014]Simonyan, K., & Zisserman, A. (2014). Very Deep
Convolutional Networks for Large-Scale Image Recognition, 1–13.
Computer Vision and Pattern Recognition.
 [Simo-Serre2016] Simo-Serre, E., Iizuka, S., Kazuma, S., & Hiroshi, I.
(2016). Learning to Simplify : Fully Convolutional Networks for Rough
Sketch Cleanup. In ACM Transactions on Graphics (SIGGRAPH),
 [Szegedy2014]Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S.,
Anguelov, D., … Rabinovich, A. (2014). Going Deeper with Convolutions.
arXiv Preprint arXiv:1409.4842, 1–12.
 [Taigman2014] Taigman, Y., Ranzato, M. A., & Wolf, L. (2014). DeepFace:
Closing the Gap to Human-Level Performance in Face Verification. In
IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
 [Uijlings2013] Uijlings, J. R. R., Van De Sande, K. E. A., Gevers, T., &
Smeulders, A. W. M. (2013). Selective search for object recognition.
International Journal of Computer Vision, 104(2), 154–171.
 [Vinyals2015] Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015).
Show and Tell: A Neural Image Caption Generator. In IEEE Conference
on Computer Vision and Pattern Recognition.
カメラの映像から三次元モデルを作る
131
 カメラの基本的な仕組み
 2台のカメラによる三次元認識
 複数カメラによる三次元認識
 Structure-from-Motion [岡谷2010]
 詳細な三次元モデルの構築
 Multi-View Stereo [古川2012]
A
カメラ1の撮影画像
2つの直線O1A’1/O2A’2の交点
カメラ1の焦点O1 カメラ2の焦点O2
A’1 A’2
ステレオカメラの原理
 点Aが2台のカメラのどこに見えたかがわかれば、三角
測量の原理で三次元的な位置が求まる
 ただし、2つのカメラの位置関係等のパラメータがわかってい
ること
カメラ2の撮影画像
(余談)Kinectの仕組み
133
 Kinect version1は三次元認識にステレオカメラの原理を
応用
 プロジェクタから赤外線ドットパターン(Structured Light)を照
射
 赤外線カメラ取得したパターンと照射パターンを比較し、歪み
具合で距離を算出
By User:Kolossos - Own work, CC BY-SA 3.0,
https://commons.wikimedia.org/w/index.php?curid=14650888
赤外線プロジェクタ 赤外線カメラ
照射された赤外線パターン
カメラパラメータがわからない場合
134
 カメラの位置関係等のパラメータが不明の時、各カメラの焦
点と対応点を結ぶ直線が交わるという条件を利用する
カメラ1 カメラ2
カメラパラメータがわからない場合
135
 カメラの位置関係等のパラメータが不明の時、各カメラの焦
点と対応点を結ぶ直線が交わるという条件を利用する
→エピポーラ拘束
カメラ1 カメラ2
同一平面
カメラパラメータがわからない場合
136
 最低でも8個の対応点を求めることで、カメラパラメータ
とそれぞれの点の三次元座標を逆算できる
8つのエピポーラ拘束を
満たすパラメータを算出
カメラ1 カメラ2
Structure from Motion (SfM)
137
 同じ対象を撮影した複数の画像(例えば動画)から、対
象の三次元形状を復元する
Structure from Motion (SfM)
138
 同じ対象を撮影した複数の画像(例えば動画)から、対
象の三次元形状を復元する
バンドル調整を用いて、複数のカメラの相対位置、焦点距
離、対象の三次元点座標を同時に推定する
<バンドル調整>
測定結果とパラメータから誤差を計算し、誤差を小さくする方向にパ
ラメータを調整していく
バンドル調整
139
1. 三次元点群とカメラパラメータの初期値を設定する
画像から見つけた点の
三次元座標の初期値カメラの位置と焦点距離
の初期値
バンドル調整
140
2. 三次元点群を各カメラの画像平面へ投影
バンドル調整
141
3. 投影された点と観測した点との誤差の総和を算出
投影された点
観測点
誤差
バンドル調整
142
4. 誤差が小さくなる方向へ特徴点の三次元座標とカメラ
パラメータを調整 (収束するまで2から繰り返す)
Multi-View Stereo
143
SfMで求めた形状は、特徴点の
三次元位置のみ
SfMで求めたカメラパラメータを元に各カメラか
ら物体表面までの距離を画素ごとに算出(デプ
スマップ)
全てのカメラのデプスマップを統合して
物体の形状を算出
Multi-View Stereo
144
 カメラ1の画素Aのデプスをカメラ2から算出する例
 カメラ1の焦点から画素Aへの視線(エピポーラ線)上をカメラ
2の画像から探索し、最も類似したテクスチャを求める。
カメラ1 カメラ2
Aのエピポーラ線
A
d
d 距離
類似度
Multi-View Stereo
145
 各カメラから求めたデプスマップを統合して三次元モデ
ルを生成
三次元モデル構築の流れ(まとめ)
146
マッチング
キーポイント
検出
学習画像
学習画像
入力画像
Multi View Stereo
三次元モデル
Structure from
Motion
学習画像
学習画像
対応点
学習画像
学習画像
カメラパラメータ
参考文献
147
 [岡谷2010] 岡谷貴之. (2010). コンピュータビジョン最先
端ガイド3 第1章バンドル調整. アドコムメディア. 1-32
 [古川2012] 古川泰隆. (2012). コンピュータビジョン最先
端ガイド5 第2章複数画像からの三次元復元手法. アド
コムメディア. 33-70
148
コンピュータビ
ジョンの活用例
コンピュータビジョンの活用例
149
 ソーシャルメディア
 拡張現実感 (Augmented Reality)
 自動運転
ソーシャルメディアでの活用例
150
コンピュータビジョン
 大量の画像/動画の整理/検索
 よりリッチなコミュニケーション手段の提供
SNSなどのソーシャルメディア:
 文字主体から画像/動画を駆使したコミュニケーションへ
ソーシャルメディアでの活用例
151
 Facebook
 投稿した写真に写っているのが誰かを自動で認識してタグ付
け
 一緒に写っている友人へ手早く共有 (Moments)
Facial tag Moments
http://www.facebook.com
ソーシャルメディアでの活用例
152
 Googleフォト
 写真に写っている内容で写真を整理し検索可能に(例:犬、食
事、山、etc)
 顔を認識して、名前で検索
 複数の画像をつなげてパノラマ生成
 画像の自動補正
http://photos.google.com/
ソーシャルメディアでの活用例
153
 Instagram
 様々なフィルタを施すことで、写真の見た目を格好良く加工
Rise
Original Toaster
Willow
http://www.instagram.com/
ソーシャルメディアでの活用例
154
 Snapchat
 顔の目、鼻、口などの器官を認識し、デコレーションすることで、
チャットを楽しく
http://www.snapchat.com
拡張現実感(Augmented Reality)
155
 “拡張現実は[中略]、その時周囲を取り巻く現実環境に
情報を付加・削除・強調・減衰させ、文字通り人間から見
た現実世界を拡張するものを指す”(Wikipediaより)
http://www.magicleap.com
拡張現実感(Augmented Reality)
156
 “拡張現実は[中略]、その時周囲を取り巻く現実環境に
情報を付加・削除・強調・減衰させ、文字通り人間から見
た現実世界を拡張するものを指す”(Wikipediaより)
Microsoft HoloLens
https://www.microsoft.com/microsoft-hololens
Google Project Tango
https://www.google.com/atap/project-tango/
拡張現実感(Augmented Reality)
157
ARの実現方法:
 GPSと電子コンパス
 一般物体検出
 人姿勢推定
 ARマーカー
 自然画像マーカー
 カメラを使ったSLAM
 距離センサーを使ったSLAM
拡張現実感(Augmented Reality)
158
 GPSと電子コンパス
 実現が容易
 現実世界に仮想世界の情報を重ね合わせた時、揺らぎが大
きい
セカイカメラ (2014年1月サービス終了)
画像は頓智・広報ブログより引用
http://pr.tonchidot.com/2011/05/blog-post_1088.html
拡張現実感(Augmented Reality)
159
 一般物体検出
 顔検出、顔器官検出、顔認証などを使用し、人の顔をデコ
レーションしたり、タグを可視化する
 顔以外に手のひらなどを認識するものもある
MSQRD Snapchat KDDI Satch Viewer
http://viewer.satch.jphttp://www.snapchat.comhttp://msqrd.me
拡張現実感(Augmented Reality)
160
 人姿勢推定
 人物のとっているポーズを推定し、重畳表示
 Kinectに同梱されている姿勢推定機能を使うのが一般的
Kinectで取得したデプスから姿勢推定
[Shotton2011]
Virtual Fittingの例(Fitnect)
http://www.fitnect.hu/
https://www.youtube.com/watch?v=1jbvnk1T4vQ
拡張現実感(Augmented Reality)
161
 ARマーカー
 専用のマーカーを印刷し、そのマーカーのカメラからの三次
元的な位置を求め、重畳表示
ARマーカーの例
AR Toolkit
http://artoolkit.org/
拡張現実感(Augmented Reality)
162
 自然画像マーカー
 事前に登録した画像とのマッチングを行うことで、任意の画像
をマーカーとして使用する。
マーカーの例
OpenCV Markerless AR
http://github.com/takmin/OpenCV-Marker-less-AR
拡張現実感(Augmented Reality)
163
 カメラを使ったSLAM
 Simultaneous Localization and Mapping (SLAM)とは、カメラ位
置の推定と、周辺の地図作製を同時に行う一連の手法
 Structure-from-Motionは特にVisual SLAMとも呼ばれ、ARに
応用されている。
 事前にマーカーの登録が不要。
Sony SmartAR
https://www.sonydna.com/sdna/solution/SmartAR_SDK.html
拡張現実感(Augmented Reality)
164
 カメラを使ったSLAMの例
 Parallel Tracking and Mapping (PTAM) [Klein2007]
 特徴点を使用したSLAM
 https://www.youtube.com/watch?v=Y9HMn6bd-v8
 Dense Tracking and Mapping (DTAM) [Newcombe2011a]
 画像の輝度を使用したSLAM
 https://www.youtube.com/watch?v=Df9WhgibCQA
 Large Scale Direct Monocular SLAM (LSD-SLAM)
[Engel2014]
 輝度勾配が大きい画素のみ使用したSLAM
 https://www.youtube.com/watch?v=GnuQzP3gty4
拡張現実感(Augmented Reality)
165
 点群を使ったSLAM
 Kinectのような距離センサーで取得した点群を用いたSLAM
 Visual SLAMと比べてテクスチャーの少ない環境でも使用でき
る
Structure Sensor
http://structure.io/
拡張現実感(Augmented Reality)
166
 点群を使ったSLAMの例
 KinectFusion [Newcombe2011b]
 空間をボクセルに分割し、デプスデータからどのボクセルが埋まって
いるかを判定することで空間を把握。
 自己位置はICPアルゴリズムという手法を用いて推定
 https://www.youtube.com/watch?v=quGhaggn3cQ
 DynamicFusion [Newcombe2015]
 KinectFusionを動的なシーンへ拡張
 https://www.youtube.com/watch?v=i1eZekcc_lM
参考文献
167
 [Engel2014] Engel, J., Schops, T., & Cremers, D. (2014). LSD-
SLAM: Large-Scale Direct monocular SLAM. In European
Conference on Computer Vision (pp. 834–849).
 [Klein2007] Klein, G., & Murray, D. (2007). Parallel tracking and
mapping for small AR workspaces. 2007 6th IEEE and ACM
International Symposium on Mixed and Augmented Reality, ISMAR.
 [Newcombe2011a] Newcombe, R. A., Lovegrove, S. J., & Davison,
A. J. (2011). DTAM: Dense Tracking and Mapping in Real-Time. In
International Conference on Computer Vision (pp. 2320–2327).
 [Newcombe2011b] Newcombe, R. a., Davison, A. J., Izadi, S., Kohli,
P., Hilliges, O., Shotton, J., … Fitzgibbon, A. (2011). KinectFusion:
Real-time dense surface mapping and tracking. 2011 10th IEEE
International Symposium on Mixed and Augmented Reality, 127–
136.
参考文献
168
 [Newcombe2015] Newcombe, R. a, Fox, D., & Seitz, S. M. (2015).
DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes
in Real-Time. Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition, 343–352.
 [Shotton2011] Shotton, J., Fitzgibbon, A., Cook, M., Sharp, T.,
Finocchio, M., Moore, R., … Blake, A. (2011). Real-time human
pose recognition in parts from single depth images. In IEEE
Conference on Computer Vision and Pattern Recognition.
運転サポート/自動運転での活用例
169
 自動運転車はセンサーの塊
 GPS、LiDAR,、レーダー、ステレオカメラ、ロータリーエンコー
ダ、etc
 参考:センサーで見ている世界 (7:40くらいから)
 https://www.youtube.com/watch?v=tiwVMrTLUWg
https://www.google.com/selfdrivingcar
Toyota Motor Co.
運転サポート/自動運転での活用例
170
 LiDAR (Light Detection and Ranging)
 レーザーが周辺物に反射して戻ってくるまでの時間(または位相)を
見ることで、点群データとして距離を取得
[Teichman2011]
LIDARで取得した点群データ
LiDAR
運転サポート/自動運転での活用例
171
 レーダー
 反射率の大きい物体までの距離を測定
 水平方向のみ。垂直方向の情報は取れない。
 ドップラー効果で相対速度も算出加納
 LiDARより精度は劣り、範囲も狭いが、測定距離が長く悪天
候にも強い
レーダー
Toyota Motor Co.
運転サポート/自動運転での活用例
172
 ステレオカメラ
 三角測量の原理で距離測定
 前方または周囲の環境や物体を認識
A
カメラ1の撮影画像
2つの直線O1A’1/O2A’2の交点
カメラ1の焦点O1 カメラ2の焦点O2
A’1 A’2
カメラ2の撮影画像
運転サポート/自動運転での活用例
173
これらのセンサーの情報を統合することで
 自己位置の推定
 周辺環境の理解
 予測
 行動の決定
を行う。
以下、コンピュータビジョンの応用例をいくつか紹介
運転サポート/自動運転での活用例
174
 自己位置推定
 正確な自己位置と時間変化を画像や点群から推定
 カメラや点群からのSLAM
 画像から取得したレーンの情報や他のセンサー情報を用いて
確率的に自己位置を推定
 カルマンフィルタやパーティクルフィルタを使用
[Ziegler2014]
カメラ画像からのSLAM
レーン位置からのSLAM
運転サポート/自動運転での活用例
175
 距離測定
 ステレオカメラを用いた場合、レーザー系のセンサーよりも密な距
離情報を得ることが可能
 衝突防止に応用可
 例:スバル「アイサイト」(http://www.subaru.jp/eyesight/)
[Banz2010]
運転サポート/自動運転での活用例
176
 レーン/信号機/道路標識の認識
信号機 [Wang2011]
道路標識 [Sermanet2011]
レーン(画像から) [Time2008]
レーン(LiDARから) [Kammel2008]
運転サポート/自動運転での活用例
177
 車両/歩行者/自転車/バイク等の認識
時系列LiDARデータでの識別
[Teichman2011]
画像から検出 [Huval2015]
時系列距離情報および画像から領域分割
[Scharwaechter2014]
参考文献
178
 [Banz2010] Banz, C., Hesselbarth, S., Flatt, H., Blume, H., & Pirsch,
P. (2010). Real-time stereo vision system using semi-global
matching disparity estimation: Architecture and FPGA-
implementation. Proceedings - 2010 International Conference on
Embedded Computer Systems: Architectures, Modeling and
Simulation, IC-SAMOS 2010, 93–101.
 [Huval2015] Huval, B., Wang, T., Tandon, S., Kiske, J., Song, W.,
Pazhayampallil, J., … Ng, A. Y. (2015). An Empirical Evaluation of
Deep Learning on Highway Driving. arXiv, 1504.01716
 [Kammel2008] Kammel, S., & Pitzer, B. (2008). Lidar-based lane
marker detection and mapping. IEEE Intelligent Vehicles
Symposium, 1137–1142.
 [Scharwaechter2014] Scharwaechter, T., Enzweiler, M., Franke, U.,
& Roth, S. (2014). Stixmantics: A Medium-Level Model for Real-
Time Semantic Scene Understanding. European Conference on
Computer Vision, 8693, 533–548.
参考文献
179
 [Sermanet2011] Sermanet, P., & LeCun, Y. (2011). Traffic Sign
Recognition with Multi-Scale Convolutional Networks. International Joint
Conference on Neural Networks (IJCNN), 2809–2813.
 [Teichman2011] Teichman, A., Levinson, J., & Thrun, S. (2011). Towards
3D object recognition via classification of arbitrary object tracks.
Proceedings - IEEE International Conference on Robotics and
Automation, 4034–4041.
 [Time2008] Time, R., Detection, L., & Streets, U. (2008). Real Time Lane
Detection in Urban Streets. In IEEE Intelligent Vehicles Symposium (pp.
7–12).
 [Wang2011] Wang, C., Jin, T., Yang, M., & Wang, B. (2011). Robust and
Real-Time Traffic Lights Recognition in Complex Urban Environments.
International Journal of Computational Intelligence Systems, 4(6), 1383.
 [Ziegler2014] Ziegler, J., Lategahn, H., Schreiber, M., Keller, C. G.,
Knöppel, C., Hipp, J., … Stiller, C. (2014). Video Based Localization for
BERTHA. IEEE Intelligent Vehicles Symposium (IV), (Iv), 1231–1238.
180
ライブラリ/API
の紹介
オープンソースソフトウェア
181
コンピュータビジョン全般
 OpenCV
 定番C++ライブラリ。画像処理全般、物体検出、三次元復元、機械学習、動画像処理など
広範囲な基本アルゴリズムが実装されている。
 http://opencv.org/
 Dlib C++ Library
 画像処理だけでなく線形代数、機械学習、データ圧縮など様々なアルゴリズムが実装さ
れたライブラリ。物体追跡や顔/物体検出、顔器官検出、Selective Searchなどのアプリ
ケーションよりの実装が豊富。
 http://dlib.net
 VLFeat
 特定物体認識、一般物体認識、一般物体検出のための特徴量(SIFT、HOG、Fisher Vector、
VLAD等)やアルゴリズム(k-mean, GMM, kd-tree, SVM等)。一般物体認識のサンプルアプリケー
ションあり
 http://www.vlfeat.org/
 SimpleCV
 OpenCVや数値計算ライブラリをPythonでラップし、シンプルな関数で使えるようにしたも
の。
 http://simplecv.org/
オープンソースソフトウェア
182
点群処理全般
 Point Cloud Library
 ロボットの分野でも多く使われている点群処理全般のアルゴ
リズムが実装された定番ライブラリ。
 http://pointclouds.org/
人/物体検出
 ccv
 画像の局所特徴量と物体検出用のコードが充実したライブラ
リ。Deformable Part ModelとIntegral Channel Featuresの実
装がある。
 http://libccv.org/
オープンソースソフトウェア
183
文字認識
 TessearctOCR
 C++文字認識実装。英語以外の様々な言語をサポート。
 https://github.com/tesseract-ocr
三次元画像処理
 OpenMVG
 Structure-from-Motion等三次元画像処理に必要な関数を実
装したライブラリ。テストとコードの読みやすさを重視して開発。
 https://github.com/openMVG/openMVG
オープンソースソフトウェア
184
三次元画像処理(ワシントン大学提供)
 Bundler
 バンドル調整によってStructure-from-Motionを行うためのコード。
 http://phototour.cs.washington.edu/bundler/
 Multicore Bundle Adjustment
 バンドル調整をマルチコア、GPU上で計算できるようにしたソフトウェア
 http://grail.cs.washington.edu/projects/mcba/
 Patch-based Multi-view Stereo Software
 Multi-view Stereoのソフトウェア。入力として画像+キャリブレーション
データを与えると密な3次元モデルを生成してくれる。ソフトウェア自体
は以下のCMVSへと統合された。
 Clustering Views for Multi-view Stereo (CMVS)
 SfMソフトからの出力を元に画像をクラスタリングして、MVSソフトへの
入力を効率化してくれる。
 http://www.di.ens.fr/cmvs/
オープンソースソフトウェア
185
物体追跡
 BGSLibrary
 物体追跡で良く使用される背景差分について、様々なアルゴ
リズムを実装したライブラリ。GUIあり。
 https://github.com/andrewssobral/bgslibrary
領域分割
 Insight Segmentation and Registration Toolkit (ITK)
 主に医療系で使うことを目的とした画像の領域分割や位置合
わせのためのライブラリ。
 https://itk.org/
オープンソースソフトウェア
186
拡張現実感
 AR Toolkit
 最も有名なARソフトウェア。ARマーカーだけでなく、自然特徴点の
マーカーもサポートされるようになった。
 http://artoolkit.org/
 PTAM
 http://www.robots.ox.ac.uk/~gk/PTAM/
 LSD-SLAM
 http://vision.in.tum.de/research/vslam/lsdslam
 SVO
 Forster, C., Pizzoli, M., & Scaramuzza, D. (2014). SVO: Fast semi-
direct monocular visual odometry. 2014 IEEE International
Conference on Robotics and Automation (ICRA), 15–22.
 https://github.com/uzh-rpg/rpg_svo
オープンソースソフトウェア
187
深層学習(Deep Learning)
各社が独自のフレームワークを出している。
 Caffe
 カリフォルニア大学バークレー校
 http://caffe.berkeleyvision.org/
 Theano
 モントリオール大学
 http://deeplearning.net/software/theano/
 TensorFlow
 Google
 https://www.tensorflow.org/
オープンソースソフトウェア
188
深層学習(Deep Learning)
 Torch
 Facebook
 http://torch.ch/
 CNTK
 Microsoft
 https://www.cntk.ai/
 DSSTNE
 Amazon
 https://github.com/amznlabs/amazon-dsstne
 Chainer
 Preffered Network
 http://chainer.org/
オープンソースソフトウェア
189
深層学習の物体検出
 R-CNN
 https://github.com/rbgirshick/rcnn
 Fast R-CNN
 https://github.com/rbgirshick/fast-rcnn
 Faster R-CNN
 https://github.com/rbgirshick/py-faster-rcnn
商用ライブラリ
190
 Qualcomm FastCV
 ARM用コンピュータビジョンSDK。モバイル端末での開発用。
ジェスチャー、顔認識、文字認識、拡張現実感など。
 https://developer.qualcomm.com/software/fastcv-sdk
 UncannyCV
 ARM用コンピュータビジョンSDK。エッジ検出や射影変換のよ
うなローレベルから、車両検知、レーン検知、人物検出、顔検
出、物体追跡、ステレオビジョンなどのハイレベルまで。
 http://www.uncannyvision.com/uncannycv/
商用ライブラリ
191
 OMRON, OKAO Vision
 顔検出,顔認証,顔器官検出,顔属性判定(年齢、性別、表情、笑
顔),人検出,ペット検出(犬、猫),ハンドジェスチャー、シーン認識
(一般物体認識)、被写体認識(顕著性検出)
 http://plus-sensing.omron.co.jp/technology/
 沖電気, Face Sensing Engine (FSE)
 顔検出,顔認証,顔器官検出
 https://www.oki.com/jp/fse/
 NEC, NeoFace
 顔検出,顔認証
 http://jpn.nec.com/face/
 NEC 指紋/指静脈認証
 http://jpn.nec.com/biometrics/fingerprint/index.html
商用ライブラリ
192
 PUX, FaceU,
 顔検出,顔認証,顔器官検出,顔属性判定(年齢、性別、笑顔),
ペット検出(犬、猫、小鳥),ジェスチャー/ハンドジェスチャー
 http://www.pux.co.jp/softsensor/faceu.html
 PUX, 画像認識ソフトウェア
 シーン認識(一般物体認識),オブジェクト認識(特定物体認識)、手
書き文字認識、人物検出/トラッキング、ジェスチャー認識、ナン
バープレート認識
 http://www.pux.co.jp/softsensor/
 メディアドライブ,OCRライブラリ等
 活字や手書きなど様々な用途向けOCRライブラリ。特定物体認識
SDKもあり。
 http://mediadrive.jp/products/library/
商用ライブラリ
193
 Sony SmartAR SDK
 自然画像マーカーの他にSLAMベースのARも使用可能。
 https://www.sonydna.com/sdna/solution/SmartAR_SDK.html
 Wikitude SDK
 GPS+電子コンパス、自然画像マーカー、SLAMベースのARも
使用可能。
 http://www.wikitude.com/products/wikitude-sdk/
Web API
194
 Google Cloud Vision API
 一般物体認識、顔検出、表情認識、ロゴ、ランドマーク、有害
コンテンツ、文字認識
 https://cloud.google.com/vision/
 Microsoft Cognitive Service
 顔検出、表情認識、年齢/性別認識、顔認証、一般物体認識、
アダルト画像判別、動体検知、顔追跡、動画サムネイル作成
 https://www.microsoft.com/cognitive-services/
 IBM Watson Visual Recognition
 顔検出、年齢/性別認識、有名人認証、一般物体認識
 http://www.ibm.com/smarterplanet/us/en/ibmwatson/devel
opercloud/visual-recognition.html
Web API
195
 PUX Developers Site
 顔検出、顔認識(認証)、オブジェクト認識(特定物体認識)、
オンライン手書き文字認識
 http://pux.co.jp/api_sdk/
 ゼータ・ブリッジ, フォトナビ
 顔検出,顔器官検出,顔属性判定(年齢、性別、笑顔)、一致
検索(特定物体認識)
 http://biz.photonavi.jp/
 Face++
 顔検出,顔認証,顔器官検出,顔属性判定(年齢、性別、人
種、笑顔)
 http://www.faceplusplus.com/

More Related Content

What's hot

cvpaper.challenge@CVPR2015(Deep Neural Networks)
cvpaper.challenge@CVPR2015(Deep Neural Networks)cvpaper.challenge@CVPR2015(Deep Neural Networks)
cvpaper.challenge@CVPR2015(Deep Neural Networks)cvpaper. challenge
 
【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017cvpaper. challenge
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)Yusuke Uchida
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太Preferred Networks
 
先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめDigital Nature Group
 
サーベイ論文:画像からの歩行者属性認識
サーベイ論文:画像からの歩行者属性認識サーベイ論文:画像からの歩行者属性認識
サーベイ論文:画像からの歩行者属性認識Yasutomo Kawanishi
 
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-Hirokatsu Kataoka
 
【2015.08】(4/5)cvpaper.challenge@CVPR2015
【2015.08】(4/5)cvpaper.challenge@CVPR2015【2015.08】(4/5)cvpaper.challenge@CVPR2015
【2015.08】(4/5)cvpaper.challenge@CVPR2015cvpaper. challenge
 
Lab introduction 2014
Lab introduction 2014Lab introduction 2014
Lab introduction 2014nlab_utokyo
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentationTakuya Minagawa
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )cvpaper. challenge
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyTakuya Minagawa
 
物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑むHiroto Honda
 
医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19
医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19
医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19Tatsuya Shirakawa
 
先端技術とメディア表現 第1回レポートまとめ
先端技術とメディア表現 第1回レポートまとめ先端技術とメディア表現 第1回レポートまとめ
先端技術とメディア表現 第1回レポートまとめDigital Nature Group
 
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-Xcvpaper. challenge
 

What's hot (20)

Icra2020 v2
Icra2020 v2Icra2020 v2
Icra2020 v2
 
cvpaper.challenge@CVPR2015(Deep Neural Networks)
cvpaper.challenge@CVPR2015(Deep Neural Networks)cvpaper.challenge@CVPR2015(Deep Neural Networks)
cvpaper.challenge@CVPR2015(Deep Neural Networks)
 
【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
 
先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ
 
サーベイ論文:画像からの歩行者属性認識
サーベイ論文:画像からの歩行者属性認識サーベイ論文:画像からの歩行者属性認識
サーベイ論文:画像からの歩行者属性認識
 
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
 
IROS2020 survey
IROS2020 surveyIROS2020 survey
IROS2020 survey
 
【2015.08】(4/5)cvpaper.challenge@CVPR2015
【2015.08】(4/5)cvpaper.challenge@CVPR2015【2015.08】(4/5)cvpaper.challenge@CVPR2015
【2015.08】(4/5)cvpaper.challenge@CVPR2015
 
Lab introduction 2014
Lab introduction 2014Lab introduction 2014
Lab introduction 2014
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む
 
医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19
医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19
医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19
 
先端技術とメディア表現 第1回レポートまとめ
先端技術とメディア表現 第1回レポートまとめ先端技術とメディア表現 第1回レポートまとめ
先端技術とメディア表現 第1回レポートまとめ
 
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
 

Similar to 20160525はじめてのコンピュータビジョン

ae-5. 物体検出,セグメンテーション
ae-5. 物体検出,セグメンテーションae-5. 物体検出,セグメンテーション
ae-5. 物体検出,セグメンテーションkunihikokaneko1
 
論理性と創造力育成プロジェクト
論理性と創造力育成プロジェクト論理性と創造力育成プロジェクト
論理性と創造力育成プロジェクトTaiga Nomi
 
非技術者でもわかる(?)コンピュータビジョン紹介資料
非技術者でもわかる(?)コンピュータビジョン紹介資料非技術者でもわかる(?)コンピュータビジョン紹介資料
非技術者でもわかる(?)コンピュータビジョン紹介資料Takuya Minagawa
 
【CVPR 2020 メタサーベイ】Vision Applications and Systems
【CVPR 2020 メタサーベイ】Vision Applications and Systems【CVPR 2020 メタサーベイ】Vision Applications and Systems
【CVPR 2020 メタサーベイ】Vision Applications and Systemscvpaper. challenge
 
PhotoGrammetryMeetup_VoxelKei
PhotoGrammetryMeetup_VoxelKeiPhotoGrammetryMeetup_VoxelKei
PhotoGrammetryMeetup_VoxelKeiVoxel Kei
 
ae-13. 画像理解システムの演習
ae-13. 画像理解システムの演習ae-13. 画像理解システムの演習
ae-13. 画像理解システムの演習kunihikokaneko1
 
画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱い画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱いSeiji Hotta
 
体験を創る - 1→10design,Inc. 坪倉輝明
体験を創る - 1→10design,Inc. 坪倉輝明体験を創る - 1→10design,Inc. 坪倉輝明
体験を創る - 1→10design,Inc. 坪倉輝明Teruaki Tsubokura
 
闇のニコニコ学会β - 闇と欲望とコンピュータビジョン
闇のニコニコ学会β - 闇と欲望とコンピュータビジョン闇のニコニコ学会β - 闇と欲望とコンピュータビジョン
闇のニコニコ学会β - 闇と欲望とコンピュータビジョンぱろすけ
 
情報検索のためのユーザモデル
情報検索のためのユーザモデル情報検索のためのユーザモデル
情報検索のためのユーザモデルkt.mako
 
Machine learning microservice_management
Machine learning microservice_managementMachine learning microservice_management
Machine learning microservice_managementyusuke shibui
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakikanejaki
 
静岡Developers勉強会コンピュータビジョンvol4発表用資料
静岡Developers勉強会コンピュータビジョンvol4発表用資料静岡Developers勉強会コンピュータビジョンvol4発表用資料
静岡Developers勉強会コンピュータビジョンvol4発表用資料keima_12
 
第17回関西CVPRML勉強会 (一般物体認識) 1,2節
第17回関西CVPRML勉強会 (一般物体認識) 1,2節第17回関西CVPRML勉強会 (一般物体認識) 1,2節
第17回関西CVPRML勉強会 (一般物体認識) 1,2節Yasutomo Kawanishi
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦Tatsuya Matsushima
 
Mask Guided Portrait Editing with conditional GANs
Mask Guided Portrait Editing with conditional GANsMask Guided Portrait Editing with conditional GANs
Mask Guided Portrait Editing with conditional GANsha618
 
バーチャル撮影システムによるMixed Reality表現
バーチャル撮影システムによるMixed Reality表現バーチャル撮影システムによるMixed Reality表現
バーチャル撮影システムによるMixed Reality表現Kenta Iwasaki
 
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本Atsushi Hashimoto
 

Similar to 20160525はじめてのコンピュータビジョン (20)

ae-5. 物体検出,セグメンテーション
ae-5. 物体検出,セグメンテーションae-5. 物体検出,セグメンテーション
ae-5. 物体検出,セグメンテーション
 
論理性と創造力育成プロジェクト
論理性と創造力育成プロジェクト論理性と創造力育成プロジェクト
論理性と創造力育成プロジェクト
 
非技術者でもわかる(?)コンピュータビジョン紹介資料
非技術者でもわかる(?)コンピュータビジョン紹介資料非技術者でもわかる(?)コンピュータビジョン紹介資料
非技術者でもわかる(?)コンピュータビジョン紹介資料
 
【CVPR 2020 メタサーベイ】Vision Applications and Systems
【CVPR 2020 メタサーベイ】Vision Applications and Systems【CVPR 2020 メタサーベイ】Vision Applications and Systems
【CVPR 2020 メタサーベイ】Vision Applications and Systems
 
PhotoGrammetryMeetup_VoxelKei
PhotoGrammetryMeetup_VoxelKeiPhotoGrammetryMeetup_VoxelKei
PhotoGrammetryMeetup_VoxelKei
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
ae-13. 画像理解システムの演習
ae-13. 画像理解システムの演習ae-13. 画像理解システムの演習
ae-13. 画像理解システムの演習
 
画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱い画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱い
 
体験を創る - 1→10design,Inc. 坪倉輝明
体験を創る - 1→10design,Inc. 坪倉輝明体験を創る - 1→10design,Inc. 坪倉輝明
体験を創る - 1→10design,Inc. 坪倉輝明
 
闇のニコニコ学会β - 闇と欲望とコンピュータビジョン
闇のニコニコ学会β - 闇と欲望とコンピュータビジョン闇のニコニコ学会β - 闇と欲望とコンピュータビジョン
闇のニコニコ学会β - 闇と欲望とコンピュータビジョン
 
情報検索のためのユーザモデル
情報検索のためのユーザモデル情報検索のためのユーザモデル
情報検索のためのユーザモデル
 
Machine learning microservice_management
Machine learning microservice_managementMachine learning microservice_management
Machine learning microservice_management
 
はじめようARCore
はじめようARCoreはじめようARCore
はじめようARCore
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
静岡Developers勉強会コンピュータビジョンvol4発表用資料
静岡Developers勉強会コンピュータビジョンvol4発表用資料静岡Developers勉強会コンピュータビジョンvol4発表用資料
静岡Developers勉強会コンピュータビジョンvol4発表用資料
 
第17回関西CVPRML勉強会 (一般物体認識) 1,2節
第17回関西CVPRML勉強会 (一般物体認識) 1,2節第17回関西CVPRML勉強会 (一般物体認識) 1,2節
第17回関西CVPRML勉強会 (一般物体認識) 1,2節
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
 
Mask Guided Portrait Editing with conditional GANs
Mask Guided Portrait Editing with conditional GANsMask Guided Portrait Editing with conditional GANs
Mask Guided Portrait Editing with conditional GANs
 
バーチャル撮影システムによるMixed Reality表現
バーチャル撮影システムによるMixed Reality表現バーチャル撮影システムによるMixed Reality表現
バーチャル撮影システムによるMixed Reality表現
 
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
 

More from Takuya Minagawa

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureTakuya Minagawa
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイTakuya Minagawa
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsTakuya Minagawa
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfTakuya Minagawa
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事Takuya Minagawa
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)Takuya Minagawa
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representationTakuya Minagawa
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summaryTakuya Minagawa
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation surveyTakuya Minagawa
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencvTakuya Minagawa
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection surveyTakuya Minagawa
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)Takuya Minagawa
 
CVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetCVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetTakuya Minagawa
 
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code ReadingTakuya Minagawa
 

More from Takuya Minagawa (20)

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
 
MobileNeRF
MobileNeRFMobileNeRF
MobileNeRF
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal Problems
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdf
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事
 
20210711 deepI2P
20210711 deepI2P20210711 deepI2P
20210711 deepI2P
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
 
20190825 vins mono
20190825 vins mono20190825 vins mono
20190825 vins mono
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
 
Visual slam
Visual slamVisual slam
Visual slam
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencv
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection survey
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
 
3DFeat-Net
3DFeat-Net3DFeat-Net
3DFeat-Net
 
CVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetCVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNet
 
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading
 
20180424 orb slam
20180424 orb slam20180424 orb slam
20180424 orb slam
 

20160525はじめてのコンピュータビジョン