SlideShare a Scribd company logo
1 of 47
Download to read offline
2値化CNNなDQNを
FPGAで動かしてみた
中原 啓貴
東京⼯業⼤学
1
⾃⼰紹介
• Hiroki Nakahara (中原 啓貴)
• 36歳 (若⼿…︖)
• JK@⽇本⼀モテない⼤学の教員
• FPGA/ディープラーニングは⽣活の糧
• FPGAは専⾨ではありません
(HDLを書くようになったのは学位を
取ってから, ⾼位合成を始めたのは去年)
• 多値論理と論理関数の複雑度が専⾨
2
Custom Computing Machine
3
Multi‐valued logic
Pattern matching circuit
• Regular expression
matching circuit
• Packet classifier
• IP address look‐up
40m
Radio telescope
Deep neural network
今⽇のお話
4Source: TensorFlow Tutorial, Strata NYC, 2016
FPGAも仲間に⼊れて︕
今回の前提
• 学習済みニューラルネットワークをFPGAに組込む話
5
FPGA?
• Field(現場で)
• Programmable
(書き換えができる)
• Gate(論理ゲートの)
• Array(集合体)
6
PCIに刺してGPUの代わりに
アクセラレータ (Altera社)
指先よりも小さいよ!
(Lattice社)
ラズパイにのっけて高速化
(Xilinx社)
iPhone7にも!!
FPGA=その場でプログラム︕
7
某国民的ゲーム機に
Ubuntuが走るよ
Arduino(ATMEGA)を乗せてみました
電波望遠鏡用の信号処理装置
FPGAの基本的な構造
8
SB SB SB SB
SB SB SB SB
SB SB SB SB
SB SB SB SB
LUT LUT LUT
LUT LUT LUT
LUT LUT LUT
IO IO IO IO IO IO
IO IO IO IO IO IO
IO
IO
IO
IO
IO
IO
IO
IO
IO
IO
IO
IO
Look-Up
Table (LUT)
I/O Block
Channels
Switch Blocks
LUTを使った論理ゲートの実現
x0 x1 x2 y
0 0 0 0
0 0 1 0
0 1 0 0
0 1 1 0
1 0 0 0
1 0 1 0
1 1 0 0
1 1 1 1
x0 x1 x2 y
0 0 0 0
0 0 1 1
0 1 0 1
0 1 1 1
1 0 0 1
1 0 1 1
1 1 0 1
1 1 1 1
LUTの出⼒を書き換えて様々な論理ゲートを実現
ChannelとSwitch Block
LUT
どちらも
トランジスタの
スイッチ
Programmable=メモリ書き換え
11
SB SB SB SB
SB SB SB SB
SB SB SB SB
SB SB SB SB
LUT LUT LUT
LUT LUT LUT
LUT LUT LUT
IO IO IO IO IO IO
IO IO IO IO IO IO
IO
IO
IO
IO
IO
IO
IO
IO
IO
IO
IO
IO
FPGAの対象=論理回路
12
module hoge(
input a, b, c;
output d
);
assign d = (a & b) | c;
endmodule
Xilinx社
Altera社
実現したい論理回路を
ハードウェア記述⾔語で書く
(Verilog HDL/ VHDL)
FPGAベンダーが提供する
CADツールでビットストリーム
に合成する
FPGAにビットストリームを
送信して回路が実現︕
ギャップ…
13
module hoge(
input a, b, c;
output d
);
assign d = (a & b) | c;
endmodule
実現したい論理回路を
ハードウェア記述⾔語で
もっっっっっっっっっっのすごーく
⼤量のHDLで書く
(Verilog HDL/ VHDL)
Y = X.dot(W)+B
学習したディイイイプなニューラルネットワークの
⾏列演算をあっさり1⾏で書いてしまう
⾏列演算を例に
14
Y = X.dot(W)+B
ビヘイビア→データフロー→FSM→ハードウェア
ここまでやって
ようやくHDLの
コーディング
まずは⾏列の計算
15
Cとかだとループを回して完了!
データパスを書きましょう
16データの入出力をすべて展開して書く
スケジューリングしましょう
17
今回はMAC演算器を使いまわす設計に
(MAC: Multiply-ACcumulation)
一気に並列演算だと
完全に逐次処理だと
状態遷移図を起こしましょう
18
S0を実行しようとしたら、
まずw00とw10を読み出して、、
次に、積和演算を実行っと…
状態遷移図を書いた︕
19
と思ったら
20
積和演算中に
次の重みを読み込んでもよくね…? 依存関係のない処理を
同じ状態に押し込む!
↓
各状態に符号を割り当て
FSMをハードウェアに落とし込んで…
21
メモリや乗算器に割り当てましょう
22
制御部
データパス部
HDLに起こした結果
どうしてこうなった
23
Y = X.dot(W)+B
C/C++: 10⾏
Python: 1⾏
Verilog-HDL: 66⾏
ということで、スケジューリングに…
24
パトラッシュ、、
僕は疲れたよ、、、
さらに検証が加わると地獄ですよ
25
シミュレーション波形と
データシートを見比べながら
永遠と続く…
どうしよう…
26
実現したい論理回路を
ハードウェア記述⾔語で
もっっっっっっっっっっのすごーく
⼤量のHDLで書く
(Verilog HDL/ VHDL)
Y = X.dot(W)+B
学習したディイイイプなニューラルネットワークの
⾏列演算をあっさり1⾏で書いてしまう
ということでHigh-Level
Synthesis (HLS)
• C/C++が⼀般的な⼊⼒
• ファミコンを1週間で作ったよ
• 2値化Neural netを1か⽉で作ったよ
短TATというFPGAのメリットを引き出す
27
⾼位合成のフロー
(従来はこれをすべて⼈⼿で⾏っていた)
28
Input Behavioral Spec. Dataflow   Scheduling     
Data‐path generation
Controller (FSM) Generation
Mapping to resources
(Binding)
RTL(HDL)達⼈ v.s HLS達⼈
29
J. Cong et. al, “High‐level synthesis for FPGAs: From prototyping to deployment,” IEEE Trans. on CAD, 2011.
Deep Convolutional
Neural NetworkのHLS実装
• 依存性のない7重ループの最適化
→⾼位合成でも最適化しやすい
...
...
120 nodes
10 nodes
16 F. maps
5x5
16 F. maps
10x10
6 F. maps
14x14
6 Feature maps
28x28
Gray scale
image
32x32
5x5
2x2
5x5
2x2 5x5
1 2 1
2 4 2
1 2 1
①
②
③
④
⑤
⑥
⑦
あともう少し…
31
⾏列演算ライブラリの
中⾝をC/C++で書く
ただし、HDLよりは抽象的
(演算器スケジューリング・
FSMは不要)
Y = X.dot(W)+B
⾏列演算をあっさり1⾏で
Y=0;
for(i=0; i < m; i++){
for( j = 0; j < n; j++){
Y += X[i][j]*W[j][i];
}
}
⾼位合成ツールが
HDLを吐いてくれるので
従来のフローを通して
FPGAに実現できる
今回作ったもの
32
⾏列演算ライブラリの
中⾝をC/C++で書く
ただし、HDLよりは抽象的
(演算器スケジューリング・
FSMは不要)
Y = X.dot(W)+bias
ディープニューラルネットワークを
さっくり記述
Y=0;
for(i=0; i < m; i++){
for( j = 0; j < n; j++){
Y += X[i][j]*W[j][i];
}
}
⾼位合成ツールが
HDLを吐いてくれるので
従来のフローを通して
FPGAに実現できる
ここを⾃動⽣成+α
なんでTensorFlowなのよ︖
• (もちろんChainer (Caffe), Theano版も作ってますよ)
でもね…
• 分散学習が可能(スケールする)
• クラウドで動く(計算機管理が不要になる)
• みんな使ってる(研究結果を役⽴ててもらえる)
33
Artificial Neuron (AN)
+
x0=1
x1
x2
xN
... w0 (Bias)
w1
w2
wN
f(u)
u y
xi: Input signal
wi: Weight
u: Internal state
f(u): Activation function 
(Sigmoid, ReLU, etc.)
y: Output signal
y  f (u)
u  wi xi
i0
N

34
積和演算を
何とかしたい…
2値化ニューラルネットワーク
• ⼆値(-1/+1)の乗算
• 乗算器をXNORゲートで
35
x1 x2 Y
‐1 ‐1 1
‐1 +1 ‐1
+1 ‐1 ‐1
+1 +1 1
x1 x2 Y
0 0 1
0 1 0
1 0 0
1 1 1
XNORによる2値化CNN
36
x1
w0 (Bias)
fsgn(Y)
Y
z
w1
x2
w2
xn
wn
...
2値化CNNの効果
37
x1
w0 (Bias)
fsgn(Y)
Y
z
w1
x2
w2
xn
wn
...
短精度(4〜8)ビットを2値に置き換え→メモリ帯域の圧縮
乗算器をXNORに置き換え→回路⾯積の削減
2値化CNNの認識精度
• 浮動⼩数点CNNとほぼ同じ
38
0
20
40
60
80
100
# of epochs
Classification error (%)
(a) float32 bit precision CNN
1                80              160    200
0
20
40
60
80
100
# of epochsClassification error (%)
(b) Binarized CNN
1                80              160    200
単に2値化した場合
提案⼿法
約6%の誤差(VGG‐16を使⽤)
H. Nakahara et al., “A memory‐based binarized convolutional deep neural network,”
FPT2016 (to appear).
2値化CNN on FPGA
• Raspberry Pi3 Model B
• ARMv8@1.2GHz quad-core
• 1GB RAM
• Mnist CNNの処理速度: 85.81 msec/image
(Cソースに変換後, gccを⽤いてコンパイル, 1コア動作)
• 消費電⼒: 2Watt
• Digilent社 Nexys4 DDR
• FPGA Xilinx社Artix-7100T@100MHz
• 2880 Kb BRAM
• Mnist CNNの処理速度: 1.56 msec/image
• 消費電⼒: 1Watt未満(ワットチェッカーでは測定不能でした…)
39
デモ1: ⼿書き⽂字認識
40
Deep Q-learning Network
• 全部の⼿を試すのは不可能
• 報酬を最⼤にする⾏動をDeep Neural Network
で予測
Deep Neural Network
+
Q-learning
↓
Deep Q-learning Network (DQN)
41
AtariのPongをゲームするDQN
42
...
512 neurons
3 neurons
→上・下・待機
4x4
3x3
Arcade Learning Environment
(ALE)とかOpenAI Gym
6層のConvolutional Deep Neural Network
操作ゲーム画⾯
記録しておく
AtariのPongを勉強するDQN
43
...
512 neurons
3 neurons
→上・下・待機
4x4
3x3
Arcade Learning Environment
(ALE)とかOpenAI Gym
6層のConvolutional Deep Neural Network
得点が上がる操作
(最⼤とはしない)
を学習
ゲーム画⾯
シャッフルする
デモ2: FPGA DQN
44
...
512 neurons
3 neurons
→上・下・待機
4x4
3x3
6層の学習済みConvolutional Deep Neural Network
操作 by UART
ゲーム画⾯
by UART
Digilent社 Nexys4 DDR
(Xilinx社 Artix7 100T搭載)
On-going Work
• 特定FPGAボード向けのプラットフォームを開発中
• TensorFlowで設計したCNNを直接Pythonでたたける
(もちろんハードウェアも)
Arduinoを乗せたり、ARMでLinuxを⾛らせたりして…
• ボードを取り寄せ中
45
Terasic社
DE0-nano-SoC Kit
(Atlas-SoC Kit)
$99 (academic $90)
※ARM搭載
Terasic社
DE10-Lite Board
$85 (academic $55)
Digilent社
PYNQ-Z1 Board
$229 (academic $65?)
※ARM搭載
Digilent社
Arty Board
$99
まとめ
• FPGAをさっくり解説
• HDLのまま設計したら…⼤変だよ
• 2値化CNNを実装
• TensorFlowからFPGAに⼀気に落とすことが可能に
• 公開まであとちょっと待ってね
46
(おまけ)FPGA関連お勧め書籍
47
FPGAについて
基礎から解説
Verilog-HDLの⽂法書として Cからハードウェアに落とす⽅法を
書いた数少ない良書

More Related Content

What's hot

ソフトウェア技術者はFPGAをどのように使うか
ソフトウェア技術者はFPGAをどのように使うかソフトウェア技術者はFPGAをどのように使うか
ソフトウェア技術者はFPGAをどのように使うか
なおき きしだ
 

What's hot (20)

FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
 
研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門
 
Hopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないことHopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないこと
 
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
 
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
 
分散システムの限界について知ろう
分散システムの限界について知ろう分散システムの限界について知ろう
分散システムの限界について知ろう
 
いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門
 
GPU-FPGA協調プログラミングを実現するコンパイラの開発
GPU-FPGA協調プログラミングを実現するコンパイラの開発GPU-FPGA協調プログラミングを実現するコンパイラの開発
GPU-FPGA協調プログラミングを実現するコンパイラの開発
 
ソフトウェア技術者はFPGAをどのように使うか
ソフトウェア技術者はFPGAをどのように使うかソフトウェア技術者はFPGAをどのように使うか
ソフトウェア技術者はFPGAをどのように使うか
 
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステムオープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
 
KVM環境におけるネットワーク速度ベンチマーク
KVM環境におけるネットワーク速度ベンチマークKVM環境におけるネットワーク速度ベンチマーク
KVM環境におけるネットワーク速度ベンチマーク
 
高位合成でDeep learning
高位合成でDeep learning高位合成でDeep learning
高位合成でDeep learning
 
DSIRNLP #3 LZ4 の速さの秘密に迫ってみる
DSIRNLP #3 LZ4 の速さの秘密に迫ってみるDSIRNLP #3 LZ4 の速さの秘密に迫ってみる
DSIRNLP #3 LZ4 の速さの秘密に迫ってみる
 
"SRv6の現状と展望" ENOG53@上越
"SRv6の現状と展望" ENOG53@上越"SRv6の現状と展望" ENOG53@上越
"SRv6の現状と展望" ENOG53@上越
 
Ultra96ボードでYOLOを高速化
Ultra96ボードでYOLOを高速化Ultra96ボードでYOLOを高速化
Ultra96ボードでYOLOを高速化
 
FPGA+SoC+Linux実践勉強会資料
FPGA+SoC+Linux実践勉強会資料FPGA+SoC+Linux実践勉強会資料
FPGA+SoC+Linux実践勉強会資料
 
Sw技術者に送るfpga入門
Sw技術者に送るfpga入門Sw技術者に送るfpga入門
Sw技術者に送るfpga入門
 
SAT/SMTソルバの仕組み
SAT/SMTソルバの仕組みSAT/SMTソルバの仕組み
SAT/SMTソルバの仕組み
 

Viewers also liked

Viewers also liked (20)

A Random Forest using a Multi-valued Decision Diagram on an FPGa
A Random Forest using a Multi-valued Decision Diagram on an FPGaA Random Forest using a Multi-valued Decision Diagram on an FPGa
A Random Forest using a Multi-valued Decision Diagram on an FPGa
 
(公開版)FPGAエクストリームコンピューティング2017
(公開版)FPGAエクストリームコンピューティング2017 (公開版)FPGAエクストリームコンピューティング2017
(公開版)FPGAエクストリームコンピューティング2017
 
Naist2015 dec ver1
Naist2015 dec ver1Naist2015 dec ver1
Naist2015 dec ver1
 
Verilog-HDL Tutorial (15) software
Verilog-HDL Tutorial (15) softwareVerilog-HDL Tutorial (15) software
Verilog-HDL Tutorial (15) software
 
FPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAFPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGA
 
Nested RNSを用いたディープニューラルネットワークのFPGA実装
Nested RNSを用いたディープニューラルネットワークのFPGA実装Nested RNSを用いたディープニューラルネットワークのFPGA実装
Nested RNSを用いたディープニューラルネットワークのFPGA実装
 
Verilog-HDL Tutorial (12)
Verilog-HDL Tutorial (12)Verilog-HDL Tutorial (12)
Verilog-HDL Tutorial (12)
 
FPL15 talk: Deep Convolutional Neural Network on FPGA
FPL15 talk: Deep Convolutional Neural Network on FPGAFPL15 talk: Deep Convolutional Neural Network on FPGA
FPL15 talk: Deep Convolutional Neural Network on FPGA
 
Verilog-HDL Tutorial (11)
Verilog-HDL Tutorial (11)Verilog-HDL Tutorial (11)
Verilog-HDL Tutorial (11)
 
Verilog-HDL Tutorial (13)
Verilog-HDL Tutorial (13)Verilog-HDL Tutorial (13)
Verilog-HDL Tutorial (13)
 
Verilog-HDL Tutorial (14)
Verilog-HDL Tutorial (14)Verilog-HDL Tutorial (14)
Verilog-HDL Tutorial (14)
 
Verilog-HDL Tutorial (9)
Verilog-HDL Tutorial (9)Verilog-HDL Tutorial (9)
Verilog-HDL Tutorial (9)
 
Verilog-HDL Tutorial (15) hardware
Verilog-HDL Tutorial (15) hardwareVerilog-HDL Tutorial (15) hardware
Verilog-HDL Tutorial (15) hardware
 
私のファミコンのfpsは530000です。もちろんフルパワーで(以下略
私のファミコンのfpsは530000です。もちろんフルパワーで(以下略私のファミコンのfpsは530000です。もちろんフルパワーで(以下略
私のファミコンのfpsは530000です。もちろんフルパワーで(以下略
 
Altera sdk for open cl アンケート集計結果(公開版)
Altera sdk for open cl アンケート集計結果(公開版)Altera sdk for open cl アンケート集計結果(公開版)
Altera sdk for open cl アンケート集計結果(公開版)
 
電波望遠鏡用の分光器をAltera SDK for OpenCL使ってサクッと作ってみた
電波望遠鏡用の分光器をAltera SDK for OpenCL使ってサクッと作ってみた電波望遠鏡用の分光器をAltera SDK for OpenCL使ってサクッと作ってみた
電波望遠鏡用の分光器をAltera SDK for OpenCL使ってサクッと作ってみた
 
Cortex-M0プロセッサから自作して Lチカをやってみた
Cortex-M0プロセッサから自作してLチカをやってみたCortex-M0プロセッサから自作してLチカをやってみた
Cortex-M0プロセッサから自作して Lチカをやってみた
 
Golang, make and robotics #gocon
Golang, make and robotics #goconGolang, make and robotics #gocon
Golang, make and robotics #gocon
 
ゆるふわコンピュータ (IPSJ-ONE2017)
ゆるふわコンピュータ (IPSJ-ONE2017)ゆるふわコンピュータ (IPSJ-ONE2017)
ゆるふわコンピュータ (IPSJ-ONE2017)
 
IkaLog: Data Collector for Splatoon and Machine Learning
IkaLog: Data Collector for Splatoon and Machine LearningIkaLog: Data Collector for Splatoon and Machine Learning
IkaLog: Data Collector for Splatoon and Machine Learning
 

Similar to Tensor flow usergroup 2016 (公開版)

2012研究室紹介(大川)
2012研究室紹介(大川)2012研究室紹介(大川)
2012研究室紹介(大川)
猛 大川
 
seccamp2012 チューター発表
seccamp2012 チューター発表seccamp2012 チューター発表
seccamp2012 チューター発表
Hirotaka Kawata
 

Similar to Tensor flow usergroup 2016 (公開版) (20)

FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向
 
Myoshimi extreme
Myoshimi extremeMyoshimi extreme
Myoshimi extreme
 
2012研究室紹介(大川)
2012研究室紹介(大川)2012研究室紹介(大川)
2012研究室紹介(大川)
 
FPGAをロボット(ROS)で「やわらかく」使うには
FPGAをロボット(ROS)で「やわらかく」使うにはFPGAをロボット(ROS)で「やわらかく」使うには
FPGAをロボット(ROS)で「やわらかく」使うには
 
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータPyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
 
[DL Hacks]FPGA入門
[DL Hacks]FPGA入門[DL Hacks]FPGA入門
[DL Hacks]FPGA入門
 
ACRi_webinar_20220118_miyo
ACRi_webinar_20220118_miyoACRi_webinar_20220118_miyo
ACRi_webinar_20220118_miyo
 
組込向けDeep Learning最新技術の紹介 量子化テクニックとDorefaNetについて
組込向けDeep Learning最新技術の紹介量子化テクニックとDorefaNetについて組込向けDeep Learning最新技術の紹介量子化テクニックとDorefaNetについて
組込向けDeep Learning最新技術の紹介 量子化テクニックとDorefaNetについて
 
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
 
FPGA
FPGAFPGA
FPGA
 
Cmc cmd slim
Cmc cmd slimCmc cmd slim
Cmc cmd slim
 
ICD/CPSY 201412
ICD/CPSY 201412ICD/CPSY 201412
ICD/CPSY 201412
 
High speed-pc-router 201505
High speed-pc-router 201505High speed-pc-router 201505
High speed-pc-router 201505
 
ソフトウェア志向の組込みシステム協調設計環境
ソフトウェア志向の組込みシステム協調設計環境ソフトウェア志向の組込みシステム協調設計環境
ソフトウェア志向の組込みシステム協調設計環境
 
Faster SRv6 D-plane with XDP
Faster SRv6 D-plane with XDPFaster SRv6 D-plane with XDP
Faster SRv6 D-plane with XDP
 
2021 03-09-ac ri-nngen
2021 03-09-ac ri-nngen2021 03-09-ac ri-nngen
2021 03-09-ac ri-nngen
 
Abstracts of FPGA2017 papers (Temporary Version)
Abstracts of FPGA2017 papers (Temporary Version)Abstracts of FPGA2017 papers (Temporary Version)
Abstracts of FPGA2017 papers (Temporary Version)
 
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
 
[DL Hacks]ディープラーニングを まともに動かすために ハードウェアの人が考えていること
[DL Hacks]ディープラーニングを まともに動かすために ハードウェアの人が考えていること[DL Hacks]ディープラーニングを まともに動かすために ハードウェアの人が考えていること
[DL Hacks]ディープラーニングを まともに動かすために ハードウェアの人が考えていること
 
seccamp2012 チューター発表
seccamp2012 チューター発表seccamp2012 チューター発表
seccamp2012 チューター発表
 

More from Hiroki Nakahara

FCCM2020: High-Throughput Convolutional Neural Network on an FPGA by Customiz...
FCCM2020: High-Throughput Convolutional Neural Network on an FPGA by Customiz...FCCM2020: High-Throughput Convolutional Neural Network on an FPGA by Customiz...
FCCM2020: High-Throughput Convolutional Neural Network on an FPGA by Customiz...
Hiroki Nakahara
 

More from Hiroki Nakahara (11)

FCCM2020: High-Throughput Convolutional Neural Network on an FPGA by Customiz...
FCCM2020: High-Throughput Convolutional Neural Network on an FPGA by Customiz...FCCM2020: High-Throughput Convolutional Neural Network on an FPGA by Customiz...
FCCM2020: High-Throughput Convolutional Neural Network on an FPGA by Customiz...
 
ROS User Group Meeting #28 マルチ深層学習とROS
ROS User Group Meeting #28 マルチ深層学習とROSROS User Group Meeting #28 マルチ深層学習とROS
ROS User Group Meeting #28 マルチ深層学習とROS
 
FPGAX2019
FPGAX2019FPGAX2019
FPGAX2019
 
SBRA2018講演資料
SBRA2018講演資料SBRA2018講演資料
SBRA2018講演資料
 
DSF2018講演スライド
DSF2018講演スライドDSF2018講演スライド
DSF2018講演スライド
 
ISCAS'18: A Deep Neural Network on the Nested RNS (NRNS) on an FPGA: Applied ...
ISCAS'18: A Deep Neural Network on the Nested RNS (NRNS) on an FPGA: Applied ...ISCAS'18: A Deep Neural Network on the Nested RNS (NRNS) on an FPGA: Applied ...
ISCAS'18: A Deep Neural Network on the Nested RNS (NRNS) on an FPGA: Applied ...
 
ISMVL2018: A Ternary Weight Binary Input Convolutional Neural Network
ISMVL2018: A Ternary Weight Binary Input Convolutional Neural NetworkISMVL2018: A Ternary Weight Binary Input Convolutional Neural Network
ISMVL2018: A Ternary Weight Binary Input Convolutional Neural Network
 
FPGA2018: A Lightweight YOLOv2: A binarized CNN with a parallel support vecto...
FPGA2018: A Lightweight YOLOv2: A binarized CNN with a parallel support vecto...FPGA2018: A Lightweight YOLOv2: A binarized CNN with a parallel support vecto...
FPGA2018: A Lightweight YOLOv2: A binarized CNN with a parallel support vecto...
 
FPT17: An object detector based on multiscale sliding window search using a f...
FPT17: An object detector based on multiscale sliding window search using a f...FPT17: An object detector based on multiscale sliding window search using a f...
FPT17: An object detector based on multiscale sliding window search using a f...
 
Verilog-HDL Tutorial (8)
Verilog-HDL Tutorial (8)Verilog-HDL Tutorial (8)
Verilog-HDL Tutorial (8)
 
Verilog-HDL Tutorial (7)
Verilog-HDL Tutorial (7)Verilog-HDL Tutorial (7)
Verilog-HDL Tutorial (7)
 

Tensor flow usergroup 2016 (公開版)