Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
©  Cloudera,  Inc.  All  rights  reserved.
Cloudera  World  Tokyo  2015
Spark徹底⼊入⾨門
Cloudera株式会社  川崎  達夫
kawasaki@cloudera...
©  Cloudera,  Inc.  All  rights  reserved.
Sparkに対してどんな印象をお持ちですか?
速そうバッチとリアル
タイム処理理を同
じように扱える
©  Cloudera,  Inc.  All  rights  reserved.
“Run programs up to 100x faster than
Hadoop MapReduce in memory, or 10x faster
...
©  Cloudera,  Inc.  All  rights  reserved.
100倍
100x?
©  Cloudera,  Inc.  All  rights  reserved.
Sparkは汎⽤用⽬目的のクラスタでの計算エンジン
ストレージ
HDFS,  HBase,  Kudu,  …
リソース管理理
YARN
Spark Hado...
©  Cloudera,  Inc.  All  rights  reserved.
MapReduce
©  Cloudera,  Inc.  All  rights  reserved.
MapReduceの主な利利点:
•  データの局所性:  ⾃自動的に計算処理理を分けてMapperを適切切に開始
•  フォールトトレランス:  中間結果を...
©  Cloudera,  Inc.  All  rights  reserved.
汎⽤用的なクラスタ計算システム-‐‑‒  MapReduce	
  
• 分散されたデータを
それぞれのサーバで
処理理する
13
マスター ワーカー群
72...
©  Cloudera,  Inc.  All  rights  reserved.
MapReduce  -‐‑‒  Map	
  
• 分散されたデータを
それぞれのサーバで
処理理する(Map)
マスター ワーカー群
72.165.33....
©  Cloudera,  Inc.  All  rights  reserved.
MapReduce  -‐‑‒  Reduce	
  
• 分散処理理した結果を
集約する(Reduce)
15
マスター ワーカー群
72.165.33.1...
©  Cloudera,  Inc.  All  rights  reserved.
Hadoop  MapReduceとSparkを⽐比較する
©  Cloudera,  Inc.  All  rights  reserved.
Speed
©  Cloudera,  Inc.  All  rights  reserved.
(再)MapReduce:分散処理理
Map Map Map Map Map Map Map Map Map Map Map Map
Reduce	
   R...
©  Cloudera,  Inc.  All  rights  reserved.
処理理を⽐比較
Map
Reduce
Map
Map
Reduce
Map
単純な処理理
のみ
Map
Reduce
Map
Map
Reduce
Map
R...
©  Cloudera,  Inc.  All  rights  reserved.
ジョブのパイプラインの⽐比較
Map Reduce Map Reduce
Map Map ReduceXMapX
©  Cloudera,  Inc.  All  rights  reserved.
ジョブの繰り返し(例例:機械学習)の⽐比較
Map Reduce
Map Reduce
©  Cloudera,  Inc.  All  rights  reserved.
トレンド:
•  18ヶ⽉月ごとに価格が半分
になる
•  3年年ごとに帯域が倍になる
64-‐‑‒128GB  
RAM
16  cores
50  GB ...
©  Cloudera,  Inc.  All  rights  reserved.
⾼高速な処理理のためにキャッシュを使⽤用できる
インメモリキャッシュ
•  データ⽤用のパーティションは
ディスクの代わりにメモリか
ら読み込む
グラフ演算(...
©  Cloudera,  Inc.  All  rights  reserved.
例例:ロジスティック回帰のパフォーマンス:1回⽬目  
(メモリにフィットする場合)
110sec
80sec
©  Cloudera,  Inc.  All  rights  reserved.
例例:2回⽬目  
+110sec
+1sec
110sec
80sec
©  Cloudera,  Inc.  All  rights  reserved.
ロジスティック回帰のパフォーマンス  
(データがメモリに乗っている場合)
0
500
1000
1500
2000
2500
3000
3500
4000
...
©  Cloudera,  Inc.  All  rights  reserved.
開発が	
  
容易易	
  
©  Cloudera,  Inc.  All  rights  reserved.
⽣生産性が⾼高い
同⼀一のAPIで複数の
⾔言語をネイティブ
にサポート
Scala
Java
Python
Python
lines = sc.textFi...
©  Cloudera,  Inc.  All  rights  reserved.
開発が容易易
対話的な環境が使⽤用できる
•  データサイエンティストのた
めのインタラクティブなデー
タ探索索
•  「アプリケーション」を
開発する必要が...
©  Cloudera,  Inc.  All  rights  reserved.
Word  Count  の例例
public class WordCount {
public static void main(String[] args...
©  Cloudera,  Inc.  All  rights  reserved.
RDD
耐障害性分散データセット:
Resilient  Distributed  Datasets  (RDD)
©  Cloudera,  Inc.  All  rights  reserved.
I've never seen a purple cow.
I never hope to see one;
But I can tell you, anyh...
©  Cloudera,  Inc.  All  rights  reserved.
Hue  Notebook
©  Cloudera,  Inc.  All  rights  reserved.
Jupyter/IPython  Notebook
©  Cloudera,  Inc.  All  rights  reserved.
SparkSQL
MLlib
SparkR
©  Cloudera,  Inc.  All  rights  reserved.
SparkSQL
• ⽬目標
•  Spark/Javaの開発者とデータサイ
エンティストがSparkアプリにイン
ラインでSQLを記述できる
• 設計⽬目的...
©  Cloudera,  Inc.  All  rights  reserved.
MLlib
•  Sparkの機械学習(ML)ライブラリ
•  ⽬目的
• 実⽤用的な機械学習をスケーラブルおよび簡単にすること
•  MLlibとは
• S...
©  Cloudera,  Inc.  All  rights  reserved.
Streaming	
  
©  Cloudera,  Inc.  All  rights  reserved.
バッチ処理理とストリーミング
• Hadoop  MapReduceはバッチ処理理
• ⼤大量量なデータを効率率率的に処理理できる
• しかし、不不正検知のよ...
©  Cloudera,  Inc.  All  rights  reserved.
Spark  Streaming
•  SparkのコアAPIを⽤用いて、データに対して
「連続」して処理理を実⾏行行
data…data…data…data...
©  Cloudera,  Inc.  All  rights  reserved.
Spark  Streaming
•  「ローリングウィンドウ」操作
•  ある「期間」の処理理を⾏行行うのではなく、それまで期間と
またいで処理理を⾏行行う...
©  Cloudera,  Inc.  All  rights  reserved.
val tweets = ssc.twitterStream()
val hashTags = tweets.flatMap (status => getTa...
©  Cloudera,  Inc.  All  rights  reserved.
SparkはICUでも利利⽤用されている	
   54© 2015 Cloudera, Inc. All rights reserved.
©  Cloudera,  Inc.  All  rights  reserved.
バッチ、ストリーミング処理理との組み合わせ
http://blog.cloudera.com/blog/2015/07/designing-‐‑‒fraud-...
©  Cloudera,  Inc.  All  rights  reserved.
SparkはHadoopを置き換えるのか?
©  Cloudera,  Inc.  All  rights  reserved.
http://itpro.nikkeibp.co.jp/atcl/column/14/072800028/073000001/
“MapReduceは「ゆっく...
©  Cloudera,  Inc.  All  rights  reserved.
http://www.cloudera.co.jp/blog/one-‐‑‒platform-‐‑‒initiative.html
“Hadoopはもう終わり...
©  Cloudera,  Inc.  All  rights  reserved.
現在はMapReduceのみ対応しているエコシステムがある
• Hive, Pig
• Sqoop
• distcp
• …
©  Cloudera,  Inc.  All  rights  reserved.
Sparkが徐々にMapReduceに取って代わる
Stage  
1
• Crunch  on  Spark
• Search  on  Spark
Sta...
©  Cloudera,  Inc.  All  rights  reserved.
これらが解決されることで徐々に移⾏行行が進む
• 既存のMapReduceの資産
• Sparkの
• 安定性
• スケーラビリティ
• セキュリティ
• 管...
©  Cloudera,  Inc.  All  rights  reserved.
今後のHadoopでのデータ処理理
Sparkによる汎⽤用データ処理理
⾼高速バッチ処理理
機械学習
ストリーム処理理
  Impalaによる
  分析データ...
©  Cloudera,  Inc.  All  rights  reserved.
Spark  エコシステムと  Hadoop
Spark  
Streaming
MLlib SparkSQL GraphX
Data-‐‑‒
frames
...
©  Cloudera,  Inc.  All  rights  reserved.
ClouderaはSparkの変化を導いています
2013 2014 2015 2016
Sparkの初期の可
能性を認識識
CDH4.4に
Sparkを同
...
©  Cloudera,  Inc.  All  rights  reserved.
Clouderaのお客様のユースケース
Core  Spark Spark  Streaming
•  ポートフォリオリスク分析
•  ETLパイプライン⾼高...
©  Cloudera,  Inc.  All  rights  reserved.
まとめ
©  Cloudera,  Inc.  All  rights  reserved.
Apache  Spark
Speed Easy Streaming
©  Cloudera,  Inc.  All  rights  reserved.
どうやって
学習すれば
よいの?
©  Cloudera,  Inc.  All  rights  reserved.
⽇日本語版
近⽇日登場!
日本語の書籍も登場!
会場でも販売しています!
©  Cloudera,  Inc.  All  rights  reserved.
Clouderaのトレーニング
• Apache  Spark  開発者向けトレーニング
• Spark  &  Hadoop  開発者向けトレーニング  I...
©  Cloudera,  Inc.  All  rights  reserved.
Spark関連リソース
• Sparkを学ぶ
• オライリー「初めてのSpark」
• Oʼ’Reilly  Advanced  Analytics  wit...
©  Cloudera,  Inc.  All  rights  reserved.
Cloudera  Liveで試してみる
cloudera.com/live
CDH
©  Cloudera,  Inc.  All  rights  reserved.
Clouderaに⼊入って⼈人々を⽀支援し、
世界で最も⼤大きな問題の解決に
乗り出しましょう!
⽇日本チームでの募集職種
•  セールス
•  セールスエン...
You’ve finished this document.
Download and read it offline.
Upcoming SlideShare
ゼロから始めるSparkSQL徹底活用!
Next
Upcoming SlideShare
ゼロから始めるSparkSQL徹底活用!
Next
Download to read offline and view in fullscreen.

33

Share

Spark徹底入門 #cwt2015

Download to read offline

Spark徹底入門: Introduction to Apache Spark
Cloudera World Tokyo 2015での発表資料です
http://clouderaworld.tokyo

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

Spark徹底入門 #cwt2015

  1. 1. ©  Cloudera,  Inc.  All  rights  reserved. Cloudera  World  Tokyo  2015 Spark徹底⼊入⾨門 Cloudera株式会社  川崎  達夫 kawasaki@cloudera.com
  2. 2. ©  Cloudera,  Inc.  All  rights  reserved. Sparkに対してどんな印象をお持ちですか? 速そうバッチとリアル タイム処理理を同 じように扱える
  3. 3. ©  Cloudera,  Inc.  All  rights  reserved. “Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk.” -‐‑‒  http://spark.apache.org SparkはMapReduceよりも100倍(10倍)早い?
  4. 4. ©  Cloudera,  Inc.  All  rights  reserved. 100倍 100x?
  5. 5. ©  Cloudera,  Inc.  All  rights  reserved. Sparkは汎⽤用⽬目的のクラスタでの計算エンジン ストレージ HDFS,  HBase,  Kudu,  … リソース管理理 YARN Spark Hadoop MapReduce Search   Others  Impala  
  6. 6. ©  Cloudera,  Inc.  All  rights  reserved. MapReduce
  7. 7. ©  Cloudera,  Inc.  All  rights  reserved. MapReduceの主な利利点: •  データの局所性:  ⾃自動的に計算処理理を分けてMapperを適切切に開始 •  フォールトトレランス:  中間結果を書き出してMapperが再実⾏行行できることが、コモディティ ハードウェアで実⾏行行できる機能を意味している •  線形なスケーラビリティ:問題に対して⼀一般的に拡張できる解決を記述するために、開発者に局 所性とプログラミングモデルの組み合わせ強要する MapReduceとは?:分散処理理 Map Map Map Map Map Map Map Map Map Map Map Map Reduce   Reduce Reduce   Reduce
  8. 8. ©  Cloudera,  Inc.  All  rights  reserved. 汎⽤用的なクラスタ計算システム-‐‑‒  MapReduce   • 分散されたデータを それぞれのサーバで 処理理する 13 マスター ワーカー群 72.165.33.132  -‐‑‒  -‐‑‒  [04/Nov/ 28.114.157.122  -‐‑‒  -‐‑‒  [04/No 52.93.117.198  -‐‑‒  -‐‑‒  [04/Nov/ 168.90.228.205  -‐‑‒  -‐‑‒  [04/Nov/ 28.42.27.49  -‐‑‒  -‐‑‒  [04/Nov/201 192.120.64.138  -‐‑‒  -‐‑‒  [04/Nov/ 156.189.222.57  -‐‑‒  -‐‑‒  [04/Nov/2 164.219.215.208  -‐‑‒  -‐‑‒  [04/Nov/ 84.42.208.90  -‐‑‒  -‐‑‒  [04/Nov/20 164.39.210.117  -‐‑‒  -‐‑‒  [04/Nov/ 196.144.35.85  -‐‑‒  -‐‑‒  [04/Nov/2 80.78.35.71  -‐‑‒  -‐‑‒  [04/Nov/201 Application
  9. 9. ©  Cloudera,  Inc.  All  rights  reserved. MapReduce  -‐‑‒  Map   • 分散されたデータを それぞれのサーバで 処理理する(Map) マスター ワーカー群 72.165.33.132  -‐‑‒  -‐‑‒  [04/Nov/ 28.114.157.122  -‐‑‒  -‐‑‒  [04/No 52.93.117.198  -‐‑‒  -‐‑‒  [04/Nov/ 168.90.228.205  -‐‑‒  -‐‑‒  [04/Nov/ 28.42.27.49  -‐‑‒  -‐‑‒  [04/Nov/201 192.120.64.138  -‐‑‒  -‐‑‒  [04/Nov/ 156.189.222.57  -‐‑‒  -‐‑‒  [04/Nov/2 164.219.215.208  -‐‑‒  -‐‑‒  [04/Nov/ 84.42.208.90  -‐‑‒  -‐‑‒  [04/Nov/20 164.39.210.117  -‐‑‒  -‐‑‒  [04/Nov/ 196.144.35.85  -‐‑‒  -‐‑‒  [04/Nov/2 80.78.35.71  -‐‑‒  -‐‑‒  [04/Nov/201 Application Task Task Task Task 14
  10. 10. ©  Cloudera,  Inc.  All  rights  reserved. MapReduce  -‐‑‒  Reduce   • 分散処理理した結果を 集約する(Reduce) 15 マスター ワーカー群 72.165.33.132,  1 72.165.33.132,  1 72.165.33.132,  1 72.165.33.145,  1 168.90.228.205,1 168.90.228.205,1 192.120.64.138,1 156.189.222.57,1 156.189.222.57,1 164.219.215.208,1 164.39.210.117,1 164.39.210.117,1 164.39.210.118.1 Task
  11. 11. ©  Cloudera,  Inc.  All  rights  reserved. Hadoop  MapReduceとSparkを⽐比較する
  12. 12. ©  Cloudera,  Inc.  All  rights  reserved. Speed
  13. 13. ©  Cloudera,  Inc.  All  rights  reserved. (再)MapReduce:分散処理理 Map Map Map Map Map Map Map Map Map Map Map Map Reduce   Reduce Reduce   Reduce
  14. 14. ©  Cloudera,  Inc.  All  rights  reserved. 処理理を⽐比較 Map Reduce Map Map Reduce Map 単純な処理理 のみ Map Reduce Map Map Reduce Map Reduce Map Map 複雑な処理理も 可能
  15. 15. ©  Cloudera,  Inc.  All  rights  reserved. ジョブのパイプラインの⽐比較 Map Reduce Map Reduce Map Map ReduceXMapX
  16. 16. ©  Cloudera,  Inc.  All  rights  reserved. ジョブの繰り返し(例例:機械学習)の⽐比較 Map Reduce Map Reduce
  17. 17. ©  Cloudera,  Inc.  All  rights  reserved. トレンド: •  18ヶ⽉月ごとに価格が半分 になる •  3年年ごとに帯域が倍になる 64-‐‑‒128GB   RAM 16  cores 50  GB  per  second メモリの効果 ⾼高性能なビッグデータアプリケーションが可能に
  18. 18. ©  Cloudera,  Inc.  All  rights  reserved. ⾼高速な処理理のためにキャッシュを使⽤用できる インメモリキャッシュ •  データ⽤用のパーティションは ディスクの代わりにメモリか ら読み込む グラフ演算(DAG) •  スケジューリングの最適化 •  フォールトトレランス join filter groupBy B: B: C: D: E: F: Ç √ Ω map A: map take =  cached  partition=  RDD
  19. 19. ©  Cloudera,  Inc.  All  rights  reserved. 例例:ロジスティック回帰のパフォーマンス:1回⽬目   (メモリにフィットする場合) 110sec 80sec
  20. 20. ©  Cloudera,  Inc.  All  rights  reserved. 例例:2回⽬目   +110sec +1sec 110sec 80sec
  21. 21. ©  Cloudera,  Inc.  All  rights  reserved. ロジスティック回帰のパフォーマンス   (データがメモリに乗っている場合) 0 500 1000 1500 2000 2500 3000 3500 4000 1 5 10 20 30 Running  Time(s) #  of  Iterations MapReduce Spark 110  s/繰り返し 最初の繰り返し=80s 以降降の繰り返しは キャッシュにより1s
  22. 22. ©  Cloudera,  Inc.  All  rights  reserved. 開発が   容易易  
  23. 23. ©  Cloudera,  Inc.  All  rights  reserved. ⽣生産性が⾼高い 同⼀一のAPIで複数の ⾔言語をネイティブ にサポート Scala Java Python Python lines = sc.textFile(...) lines.filter(lambda s: “ERROR” in s).count() Scala val lines = sc.textFile(...) lines.filter(s => s.contains(“ERROR”)).count() Java JavaRDD<String> lines = sc.textFile(...); lines.filter(new Function<String, Boolean>() { Boolean call(String s) { return s.contains(“error”); } }).count();
  24. 24. ©  Cloudera,  Inc.  All  rights  reserved. 開発が容易易 対話的な環境が使⽤用できる •  データサイエンティストのた めのインタラクティブなデー タ探索索 •  「アプリケーション」を 開発する必要がない •  開発者は実際のシステムでア プリケーションのプロトタイ ピングができる percolateur:spark srowen$ ./bin/spark-shell --master local[*] ... Welcome to ____ __ / __/__ ___ _____/ /__ _ / _ / _ `/ __/ '_/ /___/ .__/_,_/_/ /_/_ version 1.5.0-SNAPSHOT /_/ Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_51) Type in expressions to have them evaluated. Type :help for more information. ... scala> val words = sc.textFile("file:/usr/share/dict/words") ... words: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1] at textFile at <console>:21 scala> words.count ... res0: Long = 235886 scala>
  25. 25. ©  Cloudera,  Inc.  All  rights  reserved. Word  Count  の例例 public class WordCount { public static void main(String[] args) throws Exception { Job job = new Job(); job.setJarByClass(WordCount.class); job.setJobName("Word Count"); FileInputFormat.setInputPaths(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); job.setMapperClass(WordMapper.class); job.setReducerClass(SumReducer.class); job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(IntWritable.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); boolean success = job.waitForCompletion(true); System.exit(success ? 0 : 1); } } public class WordMapper extends Mapper<LongWritable, Text, Text, IntWritable> { public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); for (String word : line.split("W+")) { if (word.length() > 0) context.write(new Text(word), new IntWritable(1)); } } } } public class SumReducer extends Reducer<Text, IntWritable, Text, IntWritable> { public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int wordCount = 0; for (IntWritable value : values) { wordCount += value.get(); } context.write(key, new IntWritable(wordCount)); } } sc.textFile(file) .flatMap(lambda s: s.split()) .map(lambda w: (w,1)) .reduceByKey(lambda v1,v2: v1+v2) .saveAsTextFile(output) MapReduceより 2-‐‑‒5x 少ないコード量量
  26. 26. ©  Cloudera,  Inc.  All  rights  reserved. RDD 耐障害性分散データセット: Resilient  Distributed  Datasets  (RDD)
  27. 27. ©  Cloudera,  Inc.  All  rights  reserved. I've never seen a purple cow. I never hope to see one; But I can tell you, anyhow, I'd rather see than be one. I'VE NEVER SEEN A PURPLE COW. I NEVER HOPE TO SEE ONE; BUT I CAN TELL YOU, ANYHOW, I'D RATHER SEE THAN BE ONE. I'VE NEVER SEEN A PURPLE COW. I NEVER HOPE TO SEE ONE; I'D RATHER SEE THAN BE ONE. I've never seen a purple cow. I never hope to see one; But I can tell you, anyhow, I'd rather see than be one. File:  purplecow.txt RDD:  mydata RDD:  mydata_̲uc RDD:  mydata_̲filt >  mydata = sc.textFile("purplecow.txt") >  mydata_uc = mydata.map(lambda line: line.upper()) >  mydata_filt = mydata_uc.filter(lambda line: line.startswith('I')) >  mydata_filt.count() 3 リネージ
  28. 28. ©  Cloudera,  Inc.  All  rights  reserved. Hue  Notebook
  29. 29. ©  Cloudera,  Inc.  All  rights  reserved. Jupyter/IPython  Notebook
  30. 30. ©  Cloudera,  Inc.  All  rights  reserved. SparkSQL MLlib SparkR
  31. 31. ©  Cloudera,  Inc.  All  rights  reserved. SparkSQL • ⽬目標 •  Spark/Javaの開発者とデータサイ エンティストがSparkアプリにイン ラインでSQLを記述できる • 設計⽬目的 •  Spark開発者のための開発の⽀支援 •  Sparkジョブはそれほど並⾏行行実⾏行行さ れない •  強み •  SQLをJavaやScalaアプリケーショ ンに容易易に組み込み可能になる •  開発フローの⼀一般的な機能のための SQL  (例例.  集約、フィルタ、サンプ リング)
  32. 32. ©  Cloudera,  Inc.  All  rights  reserved. MLlib •  Sparkの機械学習(ML)ライブラリ •  ⽬目的 • 実⽤用的な機械学習をスケーラブルおよび簡単にすること •  MLlibとは • Sparkのスケール可能な機械学習ライブラリ • ⼀一般的な機械学習アルゴリズムとユーティリティからなる
  33. 33. ©  Cloudera,  Inc.  All  rights  reserved. Streaming  
  34. 34. ©  Cloudera,  Inc.  All  rights  reserved. バッチ処理理とストリーミング • Hadoop  MapReduceはバッチ処理理 • ⼤大量量なデータを効率率率的に処理理できる • しかし、不不正検知のような(ニア)リアルタイム での処理理には不不向き
  35. 35. ©  Cloudera,  Inc.  All  rights  reserved. Spark  Streaming •  SparkのコアAPIを⽤用いて、データに対して 「連続」して処理理を実⾏行行 data…data…data…data…data…data…data…data…Live  Data t=0 t=1 t=2 t=3 DStream data… data… data… data… RDD  @  t=1data… data… data… data… RDD  @  t=2 data… data… data… data… RDD  @  t=3
  36. 36. ©  Cloudera,  Inc.  All  rights  reserved. Spark  Streaming •  「ローリングウィンドウ」操作 •  ある「期間」の処理理を⾏行行うのではなく、それまで期間と またいで処理理を⾏行行う •  例例:  直近5分間のデータをローリングしながら平均やカ ウントを計算する •  バッチとストリーミング処理理との組み合わせ •  ストリーミングデータにMLlibなどの組み合わせが可能 に
  37. 37. ©  Cloudera,  Inc.  All  rights  reserved. val tweets = ssc.twitterStream() val hashTags = tweets.flatMap (status => getTags(status)) hashTags.saveAsHadoopFiles("hdfs://...") “マイクロバッチ”  アーキテクチャー flatMap flatMap flatMap save save save batch  @  t +1 batch  @  t batch  @  t +2 tweets  DStream hashTags   DStream 短い間隔の 計算バッチ から構成
  38. 38. ©  Cloudera,  Inc.  All  rights  reserved. SparkはICUでも利利⽤用されている   54© 2015 Cloudera, Inc. All rights reserved.
  39. 39. ©  Cloudera,  Inc.  All  rights  reserved. バッチ、ストリーミング処理理との組み合わせ http://blog.cloudera.com/blog/2015/07/designing-‐‑‒fraud-‐‑‒detection-‐‑‒architecture-‐‑‒ that-‐‑‒works-‐‑‒like-‐‑‒your-‐‑‒brain-‐‑‒does/
  40. 40. ©  Cloudera,  Inc.  All  rights  reserved. SparkはHadoopを置き換えるのか?
  41. 41. ©  Cloudera,  Inc.  All  rights  reserved. http://itpro.nikkeibp.co.jp/atcl/column/14/072800028/073000001/ “MapReduceは「ゆっくり死んでいく」”   -‐‑‒  Doug  Cutting
  42. 42. ©  Cloudera,  Inc.  All  rights  reserved. http://www.cloudera.co.jp/blog/one-‐‑‒platform-‐‑‒initiative.html “Hadoopはもう終わり でしょうか?” “⾯面⽩白い話ですが、 答えはNoです.” -‐‑‒  Mike  Olson
  43. 43. ©  Cloudera,  Inc.  All  rights  reserved. 現在はMapReduceのみ対応しているエコシステムがある • Hive, Pig • Sqoop • distcp • …
  44. 44. ©  Cloudera,  Inc.  All  rights  reserved. Sparkが徐々にMapReduceに取って代わる Stage   1 • Crunch  on  Spark • Search  on  Spark Stage   2 • Hive  on  Spark  (beta) • Spark  on  HBase  (beta) Stage   3 • Pig  on  Spark  (alpha) • Sqoop  on  Spark ClouderaはコンポーネントをSparkに移⾏行行するコミュニティでの開発を主導して いる
  45. 45. ©  Cloudera,  Inc.  All  rights  reserved. これらが解決されることで徐々に移⾏行行が進む • 既存のMapReduceの資産 • Sparkの • 安定性 • スケーラビリティ • セキュリティ • 管理理性 の向上
  46. 46. ©  Cloudera,  Inc.  All  rights  reserved. 今後のHadoopでのデータ処理理 Sparkによる汎⽤用データ処理理 ⾼高速バッチ処理理 機械学習 ストリーム処理理   Impalaによる   分析データベース 低レイテンシ・超並⾏行行クエリ Solrによるテキスト検索索 テキストデータに対するクエリ MapReduceによる ディスクのデータ処理理 ディスクIOに強く依存したジョブの⼤大規 模スケールでの実⾏行行 共有: •  データスト レージ •  メタデータ •  リソース管理理 •  運⽤用監視 •  セキュリティ •  ガバナンス
  47. 47. ©  Cloudera,  Inc.  All  rights  reserved. Spark  エコシステムと  Hadoop Spark   Streaming MLlib SparkSQL GraphX Data-‐‑‒ frames SparkR ストレージ HDFS,  HBase リソース管理理 YARN Spark   Impala   MR   Others  Search  
  48. 48. ©  Cloudera,  Inc.  All  rights  reserved. ClouderaはSparkの変化を導いています 2013 2014 2015 2016 Sparkの初期の可 能性を認識識 CDH4.4に Sparkを同 梱してサ ポート Spark  on  YARN 連携を追加 Sparkを標準実⾏行行エンジ ンにすることへの⽅方向性 を発表 最初のSpark トレーニング を開始 セキュリティ 連携を追加 Clouderaのエンジニア がオライリーのSpark 書籍を執筆 より良良いパフォー マンス、ユーザビ リティ、エンター プライズレディの ための努⼒力力を継続 していく
  49. 49. ©  Cloudera,  Inc.  All  rights  reserved. Clouderaのお客様のユースケース Core  Spark Spark  Streaming •  ポートフォリオリスク分析 •  ETLパイプライン⾼高速化 •  20年年以上の株データ⾦金金融 医療療 •  ⼈人間の完全なゲノムから病 気の原因となる遺伝⼦子を特 定 •  医療療データセットから Jaccardスコアを計算 ERP •  光学式⽂文字認識識(OCR)と紙幣分 類 •  トレンド分析 •  ドキュメント分類(LDA) •  不不正分析データ サービ ス 1010 •  オンライン不不正検知 ⾦金金融 医療療 •  敗⾎血症の発⽣生予測 ⼩小売 •  オンラインリコメンドシステム •  リアルタイム在庫管理理 アドテ ク •  リアルタイム広告パフォーマン ス分析
  50. 50. ©  Cloudera,  Inc.  All  rights  reserved. まとめ
  51. 51. ©  Cloudera,  Inc.  All  rights  reserved. Apache  Spark Speed Easy Streaming
  52. 52. ©  Cloudera,  Inc.  All  rights  reserved. どうやって 学習すれば よいの?
  53. 53. ©  Cloudera,  Inc.  All  rights  reserved. ⽇日本語版 近⽇日登場! 日本語の書籍も登場! 会場でも販売しています!
  54. 54. ©  Cloudera,  Inc.  All  rights  reserved. Clouderaのトレーニング • Apache  Spark  開発者向けトレーニング • Spark  &  Hadoop  開発者向けトレーニング  I  (New) http://cloudera.co.jp/university
  55. 55. ©  Cloudera,  Inc.  All  rights  reserved. Spark関連リソース • Sparkを学ぶ • オライリー「初めてのSpark」 • Oʼ’Reilly  Advanced  Analytics  with  Spark  (written  by   Clouderans) • 翔泳社「Apache  Hadoop⼊入⾨門」 • Cloudera  Developer  Blog • 試してみる • Cloudera  Quick  Start  VM  上で  Spark  によるバスケット分析                          http://codezine.jp/article/corner/583
  56. 56. ©  Cloudera,  Inc.  All  rights  reserved. Cloudera  Liveで試してみる cloudera.com/live CDH
  57. 57. ©  Cloudera,  Inc.  All  rights  reserved. Clouderaに⼊入って⼈人々を⽀支援し、 世界で最も⼤大きな問題の解決に 乗り出しましょう! ⽇日本チームでの募集職種 •  セールス •  セールスエンジニア career-‐‑‒jp@cloudera.com We  are  Hiring!
  • masakitakeda2

    Aug. 21, 2018
  • ssuser36c902

    Feb. 3, 2018
  • YosukeSuzuki5

    Nov. 9, 2017
  • uokada

    Dec. 18, 2016
  • gowatana

    Nov. 26, 2016
  • manheejo9

    Nov. 11, 2016
  • OkunoKoichi

    Sep. 2, 2016
  • shin5ok

    Aug. 2, 2016
  • ShinichirouNakamura

    Jul. 21, 2016
  • gtnn331

    Jan. 11, 2016
  • kenchan2014

    Dec. 6, 2015
  • hirokikawashima1

    Dec. 6, 2015
  • satoukazumasa

    Dec. 1, 2015
  • takashikaneda

    Nov. 30, 2015
  • Hideyo

    Nov. 23, 2015
  • roaringcat

    Nov. 18, 2015
  • maato99

    Nov. 15, 2015
  • isamufurosako

    Nov. 14, 2015
  • ToruUenoyama

    Nov. 13, 2015
  • MinoruMizutani

    Nov. 12, 2015

Spark徹底入門: Introduction to Apache Spark Cloudera World Tokyo 2015での発表資料です http://clouderaworld.tokyo

Views

Total views

6,026

On Slideshare

0

From embeds

0

Number of embeds

485

Actions

Downloads

140

Shares

0

Comments

0

Likes

33

×