SlideShare a Scribd company logo
1 of 87
マルチクラウドで
分析基盤を
構築してみた
Syn. 事業部検索サービス部 宇都宮紀陽
2
アジェンダ
1.自己紹介
2.検索事業の取組
3.分析基盤の勘所
3
アジェンダ
4.今年度の遂行
5.今後の展望
6.総括
4
自己紹介
検索一筋十年
検索サービス部部長
Search Maestro
宇都宮 紀陽
5
Data を貯め
Data を読み
Data を活かす
6
実践してきた人生
7
検索事業(2013〜)
8
KDDI の子会社として
Web、アプリに
検索技術サービス提供
9
リアルタイム検索
D社、Y!社に続き
国内3つ目の事例
10
FE情報設計
MWビジネスロジック
BE外部提供
11
検索 is not 全文検索.
12
検索 is 情報検索.
13
情報検索エンジンの構成要素
14
検索エンジンには
コンテンツ以外の
素性データが必要
15
コンテンツ以外の素性データ
ec における商品検索事例
・時系列情報(春夏秋冬、朝昼晩夜)
・商品の評価(CTR, Rank, etc)
・価格(安い、高い)
・在庫(あり、なし)
・SNS のストリーム情報 and more
16
Data を貯め
Data を読み
Data を活かす
17
要件を満たす
分析基盤
必要
18
要件
線形に増大するデータ
無停止状態維持
応答速度維持
コスト維持
リカバリ容易
19
ROI
強く意識
20
導入コスト
vs
運用コスト
21
導入コスト低
22
OSS
x
オンプレミス
23
構成柔軟
x
自由自在
24
エンジニアリソース
ファシリティマネジメント
データ爆発対応困難
25
終わらない
運用
26
クラウドVM
データ爆発
部分解決
27
導入コスト低→中
28
構成(2015 年3月〜 )
29
終わらない
運用
30
データ増大
レスポンス遅
31
POC
32
導入コスト中
Vertica
33
大規模データ
分析実績
34
1TBまで
無償利用
35
on ec2
公式対応
36
構成(2015 年8月〜 )
Vertica
37
要件
線形に増大するデータ
無停止状態維持
応答速度維持
コスト維持
リカバリ容易
38
要件
満たせました
39
ただし
on ec2
である限り
40
終わらない
運用
41
構成(2015 年8月〜 )
Vertica
42
Vertica
運用維持
43
さらに検証
44
GCP BigQuery 不採用(2015 年6月時点)
LegacySQL
占有リソースなし
大陸間回線帯域懸念
45
機能洗練
注視継続
46
さらに
POC
47
実証構成(2016 年6月〜 )
48
Azure SQL DWH 実証のねらい
(比較的低使用率による)
無停止稼動
MS 製品との親和性
誰でも気軽にアクセス
49
実証
結果
50
Azure 不採用
開発者向け情報が少ない
アクセシビリティ不親切
Windows 優遇
51
性能面
Redshift
遜色ない
52
実証構成(2016 年7月〜 )
53
AWS Redshift 実証のねらい
無停止稼動
AWS 製品との親和性
ETL ロジック開発低
負荷
54
実証
結果
55
Redshift 採用
時間的導入コスト低
技術情報入手容易
Vertica 並みの性能
56
Vertica
Redshift
平行運用
57
Vertica 取り扱うデータ
既存業務
大規模
データ増大量一定
58
Redshift 取り扱うデータ
新規業務
中規模
データ増大量可変
59
Redshift
三ヶ月運用後
60
課題発生
61
Redshift 課題
データ増大と
BI自動生成クエリによる
レスポンス遅延
62
Redshift 課題
CPU 処理能力頭打ち
スケールアウトより
スケールアップ要求
63
Redshift 課題
ノードタイプ選択
自由度低い
コスト見合い悪い
64
BiqQuery
現状確認
65
GCP BigQuery 不採用(2015 年6月時点)
LegacySQLのみ
占有リソースなし
アップロード回線帯域
66
GCP BigQuery 現状(2016 年11月時点)
StandardSQL サポート
占有リソース有料OP
FASTER Cable
System
67
POC
68
実証構成(2016 年11月〜 )
69
BigQuery 取り扱うデータ
Redshift 同等
新規業務
中規模
データ増大量可変
70
実証
結果
71
BigQuery 採用
時間的導入コスト低
SQL 翻訳コスト低
技術情報入手容易
72
BigQuery 採用
BI自動生成クエリ
高速応答
運用コスト大幅減
73
運用コスト
大幅減!
74
Redshift
対運用コスト
1/5
75
Redshift
運用終了👋
76
今後の展望
77
今後の展望
AWS ec2 -> GCE
VM Live Migration
ダウンタイム発生なし
78
今後の展望
中間処理は
Cloud Pub/Sub
ES on GCE
Cloud DataProc
79
Hadoop
運用終了
80
Vertica
運用終了
81
運用業務
最低限
82
情報検索エンジン
磨き上げ
専念
83
まとめ
マルチクラウドは適材適所
導入コストの障壁が低い
サービスは見極めを
POC 重要
84
ご清聴
ありがとうござい
ました
85
宣伝
86
Supership Search Solution
検索ソリューション
ASP 提供中
検索エンジン
サジェスト機能
スペラー機能
分析基盤提供
87
人材募集中

More Related Content

Similar to マルチクラウドで分析基盤を構築してみた Supership201612

Similar to マルチクラウドで分析基盤を構築してみた Supership201612 (20)

クラウドマーケティングで良くつかわれている調査データとランキング
クラウドマーケティングで良くつかわれている調査データとランキングクラウドマーケティングで良くつかわれている調査データとランキング
クラウドマーケティングで良くつかわれている調査データとランキング
 
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
 
20160225 interspace system_summary
20160225 interspace system_summary20160225 interspace system_summary
20160225 interspace system_summary
 
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上
 
インターン研修 自己紹介スライド
インターン研修 自己紹介スライドインターン研修 自己紹介スライド
インターン研修 自己紹介スライド
 
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上
NRI事例に学ぶ、”検索”による大規模システム開発の生産性向上
 
サイトサーチアナリティクスとは
サイトサーチアナリティクスとはサイトサーチアナリティクスとは
サイトサーチアナリティクスとは
 
データ分析基盤について
データ分析基盤についてデータ分析基盤について
データ分析基盤について
 
Io tビジネスモデルに関する考察20161119
Io tビジネスモデルに関する考察20161119Io tビジネスモデルに関する考察20161119
Io tビジネスモデルに関する考察20161119
 
実績リユースマーケットアールソーシング
実績リユースマーケットアールソーシング実績リユースマーケットアールソーシング
実績リユースマーケットアールソーシング
 
DataOps in Moneyforward
DataOps in Moneyforward DataOps in Moneyforward
DataOps in Moneyforward
 
AI-OCR 導入最前線 (AI inside)
AI-OCR 導入最前線 (AI inside)AI-OCR 導入最前線 (AI inside)
AI-OCR 導入最前線 (AI inside)
 
大切なお客様を、一生のお客様に ~自社・競合データから導く、結果につながるデータ分析の最新事例~
大切なお客様を、一生のお客様に  ~自社・競合データから導く、結果につながるデータ分析の最新事例~大切なお客様を、一生のお客様に  ~自社・競合データから導く、結果につながるデータ分析の最新事例~
大切なお客様を、一生のお客様に ~自社・競合データから導く、結果につながるデータ分析の最新事例~
 
シラサギ紹介20161119
シラサギ紹介20161119シラサギ紹介20161119
シラサギ紹介20161119
 
Data × AI でどんな業務が改善できる? ​製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介
Data × AI でどんな業務が改善できる? ​製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介Data × AI でどんな業務が改善できる? ​製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介
Data × AI でどんな業務が改善できる? ​製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介
 
株式会社ジール_採用ピッチ資料(2024.3.15) _zeal recruitment pitch
株式会社ジール_採用ピッチ資料(2024.3.15) _zeal recruitment pitch株式会社ジール_採用ピッチ資料(2024.3.15) _zeal recruitment pitch
株式会社ジール_採用ピッチ資料(2024.3.15) _zeal recruitment pitch
 
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
 
クラウドで実現!!マーケティングにおけるIoT活用事例
クラウドで実現!!マーケティングにおけるIoT活用事例クラウドで実現!!マーケティングにおけるIoT活用事例
クラウドで実現!!マーケティングにおけるIoT活用事例
 
Tableau Developers Club Season2 - 外部サービス連携デモ
Tableau Developers Club Season2 - 外部サービス連携デモ Tableau Developers Club Season2 - 外部サービス連携デモ
Tableau Developers Club Season2 - 外部サービス連携デモ
 
構造化データマークアップでステキな検索結果を手に入れる
構造化データマークアップでステキな検索結果を手に入れる構造化データマークアップでステキな検索結果を手に入れる
構造化データマークアップでステキな検索結果を手に入れる
 

Recently uploaded

Recently uploaded (11)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 

マルチクラウドで分析基盤を構築してみた Supership201612