10. S3
S2
S1
Server
A B
rack
cluster
A B
rack
cluster
cluster
cluster
cluster cluster cluster
A B
rack
cluster
A B
rack
・・・・・
・・・・・ ・・・・・ ・・・・・
10G
100G
100G
E1
Data Center Network Overview
cluster
BB PE
InternetGlobal
Network
FW NAT
100G
Data Center
Tbps級のサーバ間通信
East-West Traffic
数百Gbps
DCI Traffic
&
Internet Traffic
トラフィックパターン User
17. S3
S2
S1
SV
A B
rack
cluster
A B
rack
cluster
cluster
cluster
cluster cluster cluster
A B
rack
cluster
A B
rack
・・・・・
・・・・・ ・・・・・ ・・・・・
E1
cluster
Goodbye, L2 Extension!
サーバからインターネットまでBGP⼀つ
ü すべての機器をEBGP接続
サービストラフィックを扱う機器すべて
10G
100G
100G
100G
100G
EBGP
Underlay
ü サーバに直接BGPを喋らせる
ToRの切替時にトラフィックロスがゼロ
ü DC内からL2ドメインを排除
LAG無し、L2オーバーレイ無し、L3のみ
ü 4-byte Private ASNを利⽤
Loopback IPから⼀意に算出、管理不要
ü P2Pリンクにアドレスを付けない
RFC5549 BGP Unnumbered
23. 経路フィルタの⾃動制御
• Web UI上でサーバにIPをリクエストした時点で、割り当てと広報が開始
– 設定ミス等で意図しないトラフィックの誘引(ハイジャック)が起きる可能性
• ToRに経路フィルタを設定、許可されたIPのみ⾃動でフィルタ開放
– Controllerが隣接関係情報から対象のToRを特定し、定期的にAnsible実⾏
BareMetal Server
hostname: line
ToR
Switch A
BareMetal
Controller
Network
Controller
Topology
Controller
Ansible
RabbitMQ
Server User
1. Request IP
(Web UI)
2. Call filter API
2’. Assign IP:
203.0.113.100
3. Query peer info
{hostname:line}
4. Response switch info
{hostname:switch A}
5. Update filter data
{hostname:switch A, filter-in:203.0.113.100}
6. Add Ansible task
{hostname:switch A}
8. Update filter
7. Slack notify
24. 国内拠点事例1
S3
S2
S1
Server
A B
rack
cluster
A B
rack
cluster
cluster
cluster
cluster cluster cluster
A B
rack
cluster
A B
rack
・・・・・ ・・・・・ ・・・・・
E1 cluster
6,720台
280台
56台
20台
4台
100G x 2 links x 5 switches x 4 clusters
4,000 G (6%)
67,200 G (100%)
10G x 48 servers x 140 racks
Server Uplink
56,000 G (83.3%)
100G x 4 links x 140 racks
S1 Uplink
56,000 G (83.3%)
100G x 10 links x 4 switches x 14 clusters
S2 Uplink
140 Racks
14 clusters
4 clusters
DR-Site, 同⼀PoD内にHadoopサーバを配置する要件
28. セグメントルーティングの導⼊
障害のサービス影響を最⼩限にするトランスポート
Data Center Interconnect
Payload Payload PayloadPayloadPayload
VPN Label
SR Label
VPN Label
SR Label
VPN Label
サーバ間通信
ユーザ向け通信
Traffic Engineering
SR Label
障害発⽣
迂回経路⽤ Adj-SID Label
宛先ノード⽤ Prefix-SID Label
通信識別⽤ Label
迂回経路
TI-LFA
SID:16103
SID:16104
SID:16101
SID:16102
Data Center Site 2 Data Center Site 1
ユーザ向けと内部向けで通信を分離各拠点でAS番号を再利⽤可能 重要な通信をクラシファイ
30. まとめ
1. 膨⼤なトラフィックを処理できるか
ü サーバ間通信に対してノンブロッキングになるように設計
ü ⾼密度100Gスイッチの採⽤
ü 低遅延・広帯域の回線でDC同⼠を接続
2. 簡単かつ迅速にスケールアウトできるか
ü CLOSネットワーク化によりスケールアウトが容易に
ü ホワイトボックススイッチの⾃動化で展開スピードが向上
3. 安定した運⽤ができるか
ü L2を作らない
ü 機器が壊れても影響の少ないN+1冗⻑
ü シンプルな制御のバックボーンネットワーク