More Related Content
Similar to Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築 (20)
Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築
- 1. © 2016 IBM Corporation
「乗り遅れるな!KafkaとSparkを組み合わせた
リアルタイム分析基盤の構築」
IBM アナリティクス事業本部 テクニカルリード 田中 裕一
2016.2.18
#devsumiB 18-B-4
- 2. © 2016 IBM Corporation2
自己紹介
田中裕一(yuichi tanaka)
主にアーキテクチャとサーバーサイドプログラムを担当
することが多い。Hadoop/Spark周りをよく触ります。
Node.js、Python、最近はSpark周りの仕事でScalaを書く
ことが多い気がします。
休日はOSS周りで遊んだり。
- 3. © 2016 IBM Corporation3
今日の講演の持ち帰りポイント
ターゲット
▪ これからビッグデータを創めたい方
▪ Sparkを始めたい・ビッグデータ始めたいエンジニアの取っ掛かり
▪ ビッグデータをやることになったけど何から始めたらよいか?という方
持ち帰りポイント
▪ Spark+Kafkaを使った解析基盤の概要の把握、オリジナルの基盤構築を
行うことが出来る
▪ ビジネス担当の方には「こんなことが出来るんじゃないか?」という発
想の種
- 4. © 2016 IBM Corporation4
今日のアジェンダ
Hadoop/Sparkの広がりについて
従来のHadoop基盤のおさらいと問題提起
Spark/Kafkaの概要のおさらい
リアルタイム解析基盤について
リアルタイム解析基盤の活用
- 5. © 2016 IBM Corporation5
Apache Hadoop/SparkとBigData
Apache Hadoop
Apache Spark
Apache Kafka
のそれぞれのトレンド
- 6. © 2016 IBM Corporation6
Sparkの広がり
Sparkはイノベータ、アーリアドプタを超えて広がりつつある
- 10. © 2016 IBM Corporation10
Inputの問題
データを格納するタイミングの問題
- 11. © 2016 IBM Corporation11
処理時間の問題
どうやってレイテンシを下げるかの問題
- 13. © 2016 IBM Corporation13
Apache Spark/Apache Kafkaのおさらい
ここでやること
▪Apache Sparkの概要
▪Apache Kafkaの概要
- 14. © 2016 IBM Corporation14
Apache Sparkの概要
SQLのインタフェース
を提供 グラフ操作を提供
ストリーミング処理を
提供
機械学習アルゴリズム
を提供
- 15. © 2016 IBM Corporation15
Apache Sparkの概要
HadoopでのMapReduceの処理例
- 16. © 2016 IBM Corporation16
Apache Sparkの概要
SparkでのRDD&DAGの処理例
- 17. © 2016 IBM Corporation17
Apache Kafkaの概要
Kafkaの俯瞰図
- 18. © 2016 IBM Corporation18
KafkaとSparkを使ったリアルタイム解析基盤
- 27. © 2016 IBM Corporation27
まとめ
Sparkは利用事例や活用事例がこれからなサービス
多様な業種で必要とされるビッグデータ処理を包括的に、イ
ンタラクティブに扱うことが出来る
設計に当たってキューを使っておくとアーキテクチャ全体の
耐障害性・可用性が担保しやすい
- 28. © 2016 IBM Corporation28
Appendix
DataPaloozaを日本でもやります!
- 29. © 2016 IBM Corporation29
Appendix
IBMはHadoopのディストリビューションを持っています。
OpenDataPlatform
http://www.ibm.com/analytics/us/en/technology/hadoop/
BigInsights
http://www-03.ibm.com/software/products/ja/ibm-biginsights-for-apache-hadoop/
Bluemix
https://console.ng.bluemix.net/
- 30. © 2016 IBM Corporation30
Appendix
IBMはSpark/Hadoopにつよい会社です
http://jp.techcrunch.com/2015/06/16/20150615ibm-pours-researchers-and-resources-into-
apache-spark-project/
- 31. © 2016 IBM Corporation31
ワークショップ、セッション、および資料は、IBMまたはセッション発表者によって準備され、それぞれ独自の見解を反映したものです。
それらは情報提供の目的のみで提供されており、いかなる参加者に対しても法律的またはその他の指導や助言を意図したものではなく、
またそのような結果を生むものでもありません。本講演資料に含まれている情報については、完全性と正確性を期するよう努力しましたが
「現状のまま」提供され、明示または暗示にかかわらずいかなる保証も伴わないものとします。本講演資料またはその他の資料の使用によ
って、あるいはその他の関連によって、いかなる損害が生じた場合も、IBMは責任を負わないものとします。 本講演資料に含まれている内
容は、IBMまたはそのサプライヤーやライセンス交付者からいかなる保証または表明を引きだすことを意図したものでも、IBMソフトウェ
アの使用を規定する適用ライセンス契約の条項を変更することを意図したものでもなく、またそのような結果を生むものでもありません。
本講演資料でIBM製品、プログラム、またはサービスに言及していても、IBMが営業活動を行っているすべての国でそれらが使用可能であ
ることを暗示するものではありません。本講演資料で言及している製品リリース日付や製品機能は、市場機会またはその他の要因に基づい
てIBM独自の決定権をもっていつでも変更できるものとし、いかなる方法においても将来の製品または機能が使用可能になると確約するこ
とを意図したものではありません。本講演資料に含まれている内容は、参加者が開始する活動によって特定の販売、売上高の向上、または
その他の結果が生じると述べる、または暗示することを意図したものでも、またそのような結果を生むものでもありません。 パフォーマン
スは、管理された環境において標準的なIBMベンチマークを使用した測定と予測に基づいています。ユーザーが経験する実際のスループッ
トやパフォーマンスは、ユーザーのジョブ・ストリームにおけるマルチプログラミングの量、入出力構成、ストレージ構成、および処理さ
れるワークロードなどの考慮事項を含む、数多くの要因に応じて変化します。したがって、個々のユーザーがここで述べられているものと
同様の結果を得られると確約するものではありません。
記述されているすべてのお客様事例は、それらのお客様がどのようにIBM製品を使用したか、またそれらのお客様が達成した結果の実例と
して示されたものです。実際の環境コストおよびパフォーマンス特性は、お客様ごとに異なる場合があります。
IBM、IBM ロゴ、ibm.comは、世界の多くの国で登録されたInternational Business Machines Corporationの商標です。
他の製品名およびサービス名等は、それぞれIBMまたは各社の商標である場合があります。
現時点での IBM の商標リストについては、www.ibm.com/legal/copytrade.shtmlをご覧ください。
Apache Hadoop、Hadoop、Apache Spark、Spark、Apache Kafka、Kafka、 Apache、は、Apache Software Foundationの米国およびその他の国
における登録商標、または商標です。