Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築

© 2016 IBM Corporation
「乗り遅れるな！KafkaとSparkを組み合わせた
リアルタイム分析基盤の構築」
IBM アナリティクス事業本部テクニカルリード田中裕一
2016.2.18
#devsumiB 18-B-4

© 2016 IBM Corporation2
自己紹介
田中裕一（yuichi tanaka）
主にアーキテクチャとサーバーサイドプログラムを担当
することが多い。Hadoop/Spark周りをよく触ります。
Node.js、Python、最近はSpark周りの仕事でScalaを書く
ことが多い気がします。
休日はOSS周りで遊んだり。

今日の講演の持ち帰りポイント
ターゲット
▪ これからビッグデータを創めたい方
▪ Sparkを始めたい・ビッグデータ始めたいエンジニアの取っ掛かり
▪ ビッグデータをやることになったけど何から始めたらよいか？という方
持ち帰りポイント
▪ Spark＋Kafkaを使った解析基盤の概要の把握、オリジナルの基盤構築を
行うことが出来る
▪ ビジネス担当の方には「こんなことが出来るんじゃないか？」という発
想の種

今日のアジェンダ
 Hadoop/Sparkの広がりについて
 従来のHadoop基盤のおさらいと問題提起
 Spark/Kafkaの概要のおさらい
 リアルタイム解析基盤について
 リアルタイム解析基盤の活用

Apache Hadoop/SparkとBigData
Apache Hadoop
Apache Spark
Apache Kafka
のそれぞれのトレンド

Sparkの広がり
Sparkはイノベータ、アーリアドプタを超えて広がりつつある

業界に横串で展開されるBig Data

BigDataとはどんなものか

BigData基盤
従来のHadoop基盤

Inputの問題
データを格納するタイミングの問題

処理時間の問題
どうやってレイテンシを下げるかの問題

データの反映の問題
アウトプットの問題

Apache Spark/Apache Kafkaのおさらい
ここでやること
▪Apache Sparkの概要
▪Apache Kafkaの概要

Apache Sparkの概要
SQLのインタフェース
を提供グラフ操作を提供
ストリーミング処理を
提供
機械学習アルゴリズム
を提供

HadoopでのMapReduceの処理例

SparkでのRDD＆DAGの処理例

Apache Kafkaの概要
Kafkaの俯瞰図

KafkaとSparkを使ったリアルタイム解析基盤

リアルタイム解析基盤ではキューが重要

キューによる処理系の分離

キューを使ったストリーミングフロー制御

キューを使った処理やアルゴリズムの検証

リアルタイム基盤の活用

まとめ
 Sparkは利用事例や活用事例がこれからなサービス
 多様な業種で必要とされるビッグデータ処理を包括的に、イ
ンタラクティブに扱うことが出来る
 設計に当たってキューを使っておくとアーキテクチャ全体の
耐障害性・可用性が担保しやすい

Appendix
DataPaloozaを日本でもやります！

Appendix
IBMはHadoopのディストリビューションを持っています。
OpenDataPlatform
http://www.ibm.com/analytics/us/en/technology/hadoop/
BigInsights
http://www-03.ibm.com/software/products/ja/ibm-biginsights-for-apache-hadoop/
Bluemix
https://console.ng.bluemix.net/

Appendix
IBMはSpark/Hadoopにつよい会社です
http://jp.techcrunch.com/2015/06/16/20150615ibm-pours-researchers-and-resources-into-
apache-spark-project/

ワークショップ、セッション、および資料は、IBMまたはセッション発表者によって準備され、それぞれ独自の見解を反映したものです。
それらは情報提供の目的のみで提供されており、いかなる参加者に対しても法律的またはその他の指導や助言を意図したものではなく、
またそのような結果を生むものでもありません。本講演資料に含まれている情報については、完全性と正確性を期するよう努力しましたが
「現状のまま」提供され、明示または暗示にかかわらずいかなる保証も伴わないものとします。本講演資料またはその他の資料の使用によ
って、あるいはその他の関連によって、いかなる損害が生じた場合も、IBMは責任を負わないものとします。本講演資料に含まれている内
容は、IBMまたはそのサプライヤーやライセンス交付者からいかなる保証または表明を引きだすことを意図したものでも、IBMソフトウェ
アの使用を規定する適用ライセンス契約の条項を変更することを意図したものでもなく、またそのような結果を生むものでもありません。
本講演資料でIBM製品、プログラム、またはサービスに言及していても、IBMが営業活動を行っているすべての国でそれらが使用可能であ
ることを暗示するものではありません。本講演資料で言及している製品リリース日付や製品機能は、市場機会またはその他の要因に基づい
てIBM独自の決定権をもっていつでも変更できるものとし、いかなる方法においても将来の製品または機能が使用可能になると確約するこ
とを意図したものではありません。本講演資料に含まれている内容は、参加者が開始する活動によって特定の販売、売上高の向上、または
その他の結果が生じると述べる、または暗示することを意図したものでも、またそのような結果を生むものでもありません。パフォーマン
スは、管理された環境において標準的なIBMベンチマークを使用した測定と予測に基づいています。ユーザーが経験する実際のスループッ
トやパフォーマンスは、ユーザーのジョブ・ストリームにおけるマルチプログラミングの量、入出力構成、ストレージ構成、および処理さ
れるワークロードなどの考慮事項を含む、数多くの要因に応じて変化します。したがって、個々のユーザーがここで述べられているものと
同様の結果を得られると確約するものではありません。
記述されているすべてのお客様事例は、それらのお客様がどのようにIBM製品を使用したか、またそれらのお客様が達成した結果の実例と
して示されたものです。実際の環境コストおよびパフォーマンス特性は、お客様ごとに異なる場合があります。
IBM、IBM ロゴ、ibm.comは、世界の多くの国で登録されたInternational Business Machines Corporationの商標です。
他の製品名およびサービス名等は、それぞれIBMまたは各社の商標である場合があります。
現時点での IBM の商標リストについては、www.ibm.com/legal/copytrade.shtmlをご覧ください。
Apache Hadoop、Hadoop、Apache Spark、Spark、Apache Kafka、Kafka、 Apache、は、Apache Software Foundationの米国およびその他の国
における登録商標、または商標です。

Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築

Similar to Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築 (20)

Recently uploaded

Recently uploaded (7)

Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築