Submit Search
Upload
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
•
16 likes
•
5,059 views
S
sugiyama koki
Follow
Spark Streamingを使用して、ウィンドウ集計をやってみました。
Read less
Read more
Technology
Report
Share
Report
Share
1 of 36
Recommended
Spark Streaming と Spark GraphX を使用したTwitter解析による レコメンドサービス例
Spark Streaming と Spark GraphX を使用したTwitter解析による レコメンドサービス例
Junichi Noda
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
Junichi Noda
Spark streamingを使用したtwitter解析によるレコメンドサービス例
Spark streamingを使用したtwitter解析によるレコメンドサービス例
Junichi Noda
Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)
Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)
Junichi Noda
Spark GraphX で始めるグラフ解析
Spark GraphX で始めるグラフ解析
Yosuke Mizutani
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
Tanaka Yuichi
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Future Of Data Japan
Sparkパフォーマンス検証
Sparkパフォーマンス検証
BrainPad Inc.
Recommended
Spark Streaming と Spark GraphX を使用したTwitter解析による レコメンドサービス例
Spark Streaming と Spark GraphX を使用したTwitter解析による レコメンドサービス例
Junichi Noda
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
Junichi Noda
Spark streamingを使用したtwitter解析によるレコメンドサービス例
Spark streamingを使用したtwitter解析によるレコメンドサービス例
Junichi Noda
Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)
Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)
Junichi Noda
Spark GraphX で始めるグラフ解析
Spark GraphX で始めるグラフ解析
Yosuke Mizutani
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
Tanaka Yuichi
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Future Of Data Japan
Sparkパフォーマンス検証
Sparkパフォーマンス検証
BrainPad Inc.
Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜
x1 ichi
Sparkストリーミング検証
Sparkストリーミング検証
BrainPad Inc.
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
Tatsuya Atsumi
DB Tech showcase Tokyo 2015 Works Applications
DB Tech showcase Tokyo 2015 Works Applications
2t3
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Hadoop / Spark Conference Japan
SparkやBigQueryなどを用いたモバイルゲーム分析環境
SparkやBigQueryなどを用いたモバイルゲーム分析環境
yuichi_komatsu
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Kazutaka Tomita
Is spark streaming based on reactive streams?
Is spark streaming based on reactive streams?
chibochibo
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark
Ryuji Tamagawa
Kafkaを活用するためのストリーム処理の基本
Kafkaを活用するためのストリーム処理の基本
Sotaro Kimura
Spark shark
Spark shark
Tsuyoshi OZAWA
GraphXはScalaエンジニアにとってのブルーオーシャン @ Scala Matsuri 2014
GraphXはScalaエンジニアにとってのブルーオーシャン @ Scala Matsuri 2014
鉄平 土佐
ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!
Nagato Kasaki
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
Kazuki Taniguchi
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
YusukeKuramata
金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介
Amazon Web Services Japan
Watson summit 2016_j2_5
Watson summit 2016_j2_5
Tanaka Yuichi
Pysparkで始めるデータ分析
Pysparkで始めるデータ分析
Tanaka Yuichi
本当にあったApache Spark障害の話
本当にあったApache Spark障害の話
x1 ichi
NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例
Amazon Web Services Japan
サーバ構築・デプロイが簡単に!Elastic beanstalk
サーバ構築・デプロイが簡単に!Elastic beanstalk
Hirokazu Ouchi
Gis tools for hadoopを用いたビッグデータ処理の検証
Gis tools for hadoopを用いたビッグデータ処理の検証
Kazutaka ishizaki
More Related Content
What's hot
Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜
x1 ichi
Sparkストリーミング検証
Sparkストリーミング検証
BrainPad Inc.
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
Tatsuya Atsumi
DB Tech showcase Tokyo 2015 Works Applications
DB Tech showcase Tokyo 2015 Works Applications
2t3
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Hadoop / Spark Conference Japan
SparkやBigQueryなどを用いたモバイルゲーム分析環境
SparkやBigQueryなどを用いたモバイルゲーム分析環境
yuichi_komatsu
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Kazutaka Tomita
Is spark streaming based on reactive streams?
Is spark streaming based on reactive streams?
chibochibo
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark
Ryuji Tamagawa
Kafkaを活用するためのストリーム処理の基本
Kafkaを活用するためのストリーム処理の基本
Sotaro Kimura
Spark shark
Spark shark
Tsuyoshi OZAWA
GraphXはScalaエンジニアにとってのブルーオーシャン @ Scala Matsuri 2014
GraphXはScalaエンジニアにとってのブルーオーシャン @ Scala Matsuri 2014
鉄平 土佐
ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!
Nagato Kasaki
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
Kazuki Taniguchi
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
YusukeKuramata
金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介
Amazon Web Services Japan
Watson summit 2016_j2_5
Watson summit 2016_j2_5
Tanaka Yuichi
Pysparkで始めるデータ分析
Pysparkで始めるデータ分析
Tanaka Yuichi
本当にあったApache Spark障害の話
本当にあったApache Spark障害の話
x1 ichi
NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例
Amazon Web Services Japan
What's hot
(20)
Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkストリーミング検証
Sparkストリーミング検証
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
DB Tech showcase Tokyo 2015 Works Applications
DB Tech showcase Tokyo 2015 Works Applications
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
SparkやBigQueryなどを用いたモバイルゲーム分析環境
SparkやBigQueryなどを用いたモバイルゲーム分析環境
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Is spark streaming based on reactive streams?
Is spark streaming based on reactive streams?
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark
Kafkaを活用するためのストリーム処理の基本
Kafkaを活用するためのストリーム処理の基本
Spark shark
Spark shark
GraphXはScalaエンジニアにとってのブルーオーシャン @ Scala Matsuri 2014
GraphXはScalaエンジニアにとってのブルーオーシャン @ Scala Matsuri 2014
ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介
Watson summit 2016_j2_5
Watson summit 2016_j2_5
Pysparkで始めるデータ分析
Pysparkで始めるデータ分析
本当にあったApache Spark障害の話
本当にあったApache Spark障害の話
NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例
Viewers also liked
サーバ構築・デプロイが簡単に!Elastic beanstalk
サーバ構築・デプロイが簡単に!Elastic beanstalk
Hirokazu Ouchi
Gis tools for hadoopを用いたビッグデータ処理の検証
Gis tools for hadoopを用いたビッグデータ処理の検証
Kazutaka ishizaki
Hadoopによる空間ビッグデータ処理の試み
Hadoopによる空間ビッグデータ処理の試み
Kazutaka ishizaki
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り
Sotaro Kimura
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
Viewers also liked
(6)
サーバ構築・デプロイが簡単に!Elastic beanstalk
サーバ構築・デプロイが簡単に!Elastic beanstalk
Gis tools for hadoopを用いたビッグデータ処理の検証
Gis tools for hadoopを用いたビッグデータ処理の検証
Hadoopによる空間ビッグデータ処理の試み
Hadoopによる空間ビッグデータ処理の試み
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
Similar to Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
Mitsutoshi Kiuchi
Spark meetup 2015_agenda
Spark meetup 2015_agenda
Cloudera Japan
Sparkのクエリ処理系と周辺の話題
Sparkのクエリ処理系と周辺の話題
Takeshi Yamamuro
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
LINE Corp.
LXDのすすめ
LXDのすすめ
智之 大野
【JAWS UG 山形】ランサーズでのAWS活用事例
【JAWS UG 山形】ランサーズでのAWS活用事例
Yuki Kanazawa
Apache spark 2.3 and beyond
Apache spark 2.3 and beyond
NTT DATA Technology & Innovation
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
Yahoo!デベロッパーネットワーク
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
yuichi_komatsu
Spark SQL - The internal -
Spark SQL - The internal -
NTT DATA OSS Professional Services
20170111 macnica networks-nohara_rancher_usecase
20170111 macnica networks-nohara_rancher_usecase
Minehiko Nohara
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
NTT DATA Technology & Innovation
Apache Sparkについて
Apache Sparkについて
BrainPad Inc.
勉強会20140319 rspec_capybara
勉強会20140319 rspec_capybara
Shugo Numano
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
ソーシャルアプリを分析してみた
ソーシャルアプリを分析してみた
Drecom Co., Ltd.
第2回名古屋SoftLayer会勉強会 Racemiによるクラウド移行
第2回名古屋SoftLayer会勉強会 Racemiによるクラウド移行
Kazumasa Sasazawa
Spark Streaming + Amazon Kinesis
Spark Streaming + Amazon Kinesis
Yuta Imai
MariaDB 10.3から利用できるSpider関連の性能向上機能・便利機能ほか
MariaDB 10.3から利用できるSpider関連の性能向上機能・便利機能ほか
Kentoku
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet
Ryuji Tamagawa
Similar to Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
(20)
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
Spark meetup 2015_agenda
Spark meetup 2015_agenda
Sparkのクエリ処理系と周辺の話題
Sparkのクエリ処理系と周辺の話題
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
LXDのすすめ
LXDのすすめ
【JAWS UG 山形】ランサーズでのAWS活用事例
【JAWS UG 山形】ランサーズでのAWS活用事例
Apache spark 2.3 and beyond
Apache spark 2.3 and beyond
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
Spark SQL - The internal -
Spark SQL - The internal -
20170111 macnica networks-nohara_rancher_usecase
20170111 macnica networks-nohara_rancher_usecase
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
Apache Sparkについて
Apache Sparkについて
勉強会20140319 rspec_capybara
勉強会20140319 rspec_capybara
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
ソーシャルアプリを分析してみた
ソーシャルアプリを分析してみた
第2回名古屋SoftLayer会勉強会 Racemiによるクラウド移行
第2回名古屋SoftLayer会勉強会 Racemiによるクラウド移行
Spark Streaming + Amazon Kinesis
Spark Streaming + Amazon Kinesis
MariaDB 10.3から利用できるSpider関連の性能向上機能・便利機能ほか
MariaDB 10.3から利用できるSpider関連の性能向上機能・便利機能ほか
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet
Recently uploaded
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
Recently uploaded
(10)
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
1.
Spark Streaming を使ってみた Ver 1.0 twitterリアルタイムトレンドランキング 2016年5月30日 Copyright
© Skywill inc. All Rights Reserved.
2.
Copyright © Skywill
inc. All Rights Reserved. メンバー紹介 2 杉山項紀 金ヨル ・職業 SE ・役職 リーダ ・java歴10年 ・mac歴1年 ・バナナきらい ・職業 SE ・役職 メンバー ・java歴5年 ・日本歴4年 ・金曜日の夜は僕の日
3.
Copyright © Skywill
inc. All Rights Reserved. 目的 3 Spark Streamingを使用して、 ウィンドウ集計をやってみる。
4.
Copyright © Skywill
inc. All Rights Reserved. アジェンダ 4 1. Sparkって何? 2. Spark Streamingとは? 3. 実践 4. 実践のまとめ
5.
Copyright © Skywill
inc. All Rights Reserved. アジェンダ 5 1. Sparkって何? 2. Spark Streamingとは? 3. 実践 4. 実践のまとめ
6.
Copyright © Skywill
inc. All Rights Reserved. 6 Sparkって何? ・大規模データの分散処理をオンメモリで実現する クラスターコンピューティングプラットフォーム。 ・「今後はHadoopのMapReduceよりも Sparkが使われるようになる」と言われている。 Apache Spark 概要 出典:Apache Spark (https://ja.wikipedia.org/wiki/Apache_Spark) Apache Spark™ is a fast and general engine for large-scale data processing. 出典:Apache Spark (http://spark.apache.org)
7.
7 Sparkって何? 標準ライブラリ ・SQLクエリ処理 「Spark SQL」 ・ストリーム処理
「Spark Streaming」 ・機械学習処理 「MLib」 ・グラフ処理 「Graph X」 SparkとHadoopのロジスティック回帰処理速度比較 計算結果をメモリにキャッシュする。 そのため、従来のMapReduceと比べて 繰り返し計算が高速! 処理速度 Copyright © Skywill inc. All Rights Reserved. 出典:The Apache Software Foundation (http://spark.apache.org )
8.
8 Sparkって何? 言語サポート ・Java ・Scala ・Python ・R インストール ・ダウンロード元: https://spark.apache.org/downloads.html ・macにApache Sparkをインストール –
Qiita http://qiita.com/kanuma1984/items/51c283ba2dd0f02c6aaa などを参考にインストール! Copyright © Skywill inc. All Rights Reserved.
9.
9 の特徴 1.RDD (Resilient Distributed
Dataset) 繰り返し利用するデータをキャッシュ上に保持しするため、 処理が非常に早い。 2.On-memoryの高速処理 メモリ上でRDDの再利用ができる。 3.DSL Mapper・Reducerの変わりにScalaのDSLを記述できるため、 より汎用的な言語で利用できる。 4.維持保守が容易 ソースコードを簡潔に書ける。 Sparkって何? Copyright © Skywill inc. All Rights Reserved.
10.
10 Sparkって何? データ 取り出し RDD データ整形 データ整形 データ整形 データ整形 データ整形 RDD 書込 書込 書込 Map処理 出力処理 <?xml version=“1.0”> <title>XXX
APIYYY取得結果</title> <location>35.5,139.0</location> ... </xml> { “text”:”XXX APIYYY取得結果”, “longtitude”:”35.5, “latitude”:”139.0”, ... } { “title”:”XXX APIYYY取得結果”, “location”:”35.5, 139.0” ... } JSON変換入力データ データ整形後 Copyright © Skywill inc. All Rights Reserved.
11.
Copyright © Skywill
inc. All Rights Reserved. 11 の特徴 Sparkって何? 1.分散処理フレームワーク Mapper・Reducerのスクリプトで分散処理が実装可能。 2.拡張性 安価なサーバをノードとして増やすことで簡単にスケールできる。 3.耐障害性 処理中に一部のノードが故障してもすぐに別ノードへ処理を 振り分けられる。 おまけ
12.
12 SparkとHadoopの違い Sparkって何? ○ バッチ処理(1つの大きなサイズファイル処理) × リアルタイム処理(複数の小さなサイズのファイルを処理) ・データの持ち方
ファイル(サイズの小さいファイル) 大量データを処理が可能。 読み書きのオーバヘッドがあり、リアルタイム処理には向かない。 ○ リアルタイム処理(複数の小さなサイズのファイルを処理) × バッチ処理(1つの大きなサイズのファイルを処理) ・データの持ち方 メモリ メモリにデータを持つため、データアクセスが早い。 逆に大量データは扱いにくい。 Copyright © Skywill inc. All Rights Reserved.
13.
13 Sparkって何? ワードカウント を行う サンプルソース MapReduce Spark 出典:Clouderaエンジニアブログ(http://blog.cloudera.com/) Map処理 Reduce処理 Map処理 Reduce処理6行! 36行! Copyright © Skywill
inc. All Rights Reserved.
14.
14 Sparkって何? リアルタイム集計 オンメモリ 高速 分散処理 Hadoopと連携 Dstream RDD 機械学習 データサイエンス 統計分析 Scala R Python Java GraphX Spark SQL ストリーミング処理 Sparkとは メモリ上でリアルタイムレベルの高速処理ができる 汎用的分散処理プラットフォーム Copyright ©
Skywill inc. All Rights Reserved.
15.
Copyright © Skywill
inc. All Rights Reserved. アジェンダ 15 1. Sparkって何? 2. Spark Streamingとは? 3. 実践 4. 実践のまとめ
16.
Copyright © Skywill
inc. All Rights Reserved. Spark Streamingとは? 16 ・Sparkの標準ライブラリの一つ ・リアルタイムに流れている ストリームソースを短い間隔で繰り返し、 バッチ処理する。 ・読み:スパーク ストリーミング 出典:The Apache Software Foundation (http://spark.apache.org )
17.
Copyright © Skywill
inc. All Rights Reserved. Spark Streamingとは? 17 ・Spark Streaming用のRDDを 連続して並べたもの データのやり取りはDstreamの 受け渡しで行う 用語 ・reduceByKeyAndWindowを利用し、 直近一定時間の集計を可能にする (毎秒、毎分ごとに、直近1時間の集計を するなど) ・データ要素を別の型のRDDに 変換する ・直近のデータを取得・集計する ・キー/値のペアのRDDに変換する DStream ウィンドウ集計 関数:flatMap 関数:mapToPair 関数:reduceByKeyAndWindow
18.
Copyright © Skywill
inc. All Rights Reserved. アジェンダ 18 1. Sparkって何? 2. Spark Streamingとは? 3. 実践 4. 実践のまとめ
19.
Copyright © Skywill
inc. All Rights Reserved. 実践 19 こんなんつくってみる。 Twitterのハッシュタグから Spark Streamingを使用した リアルタイムトレンドランキングチャート Twitter API Spark Streaming Web画面 直近60秒毎のトレンド表示
20.
Copyright © Skywill
inc. All Rights Reserved. システム構成 20 データの流れ Twitter API Spark Streaming MySQL ①Twitterストリームからのメタデータ取得 ②データを解析し集計 ・ハッシュタグ ・解析済みワード ・カウント ① ②
21.
システム構成(ハッシュタグ+ワードカウント) ⑤リクエスト ⑦レスポンス ④データ格納 テキストマイニング ②データ解析 次の2種類をkeyにreduce ・ハッシュタグ+解析済みワード ・ハッシュタグのみ ③データ集計 クライアント Twitter Twitterリアルタイム トレンドランキングチャート アプリ ①メタデータ取得 Copyright
© Skywill inc. All Rights Reserved. 21 Map Reduce ツイートデータ ⑥データ取得 格納データ ・ハッシュタグ ・解析済みワード ・カウント
22.
Copyright © Skywill
inc. All Rights Reserved. 実践 22 Twitterデータ取得部分 その1 Twitter4jを使用して、 twitterからstreamデータを DStreamへ 1ツイートごとに twitter本文を解析する 名詞に分ける 日本語形態素解析 ライブラリ 使用関数:map ①メタデータ取得 ②データ解析 ②データ解析 ※○内の番号はP20参照
23.
Copyright © Skywill
inc. All Rights Reserved. 実践 23 Twitterデータ取得部分 その2 名詞に分ける 名詞ごとにmapにして DStreamへデータを詰める 上記のDStreamから キーが同じものをペアにし DStreamへデータを詰める 使用関数:flatMap 使用関数:mapToPair ③データ集計 ③データ集計
24.
Copyright © Skywill
inc. All Rights Reserved. 実践 24 Twitterデータ取得部分 その3 DStreamから キーが同じものをペアにし DStreamへデータを詰める 直近10秒毎に、1分集計で キーをカウントする。 Mysqlに結果をdelete insert これらの処理を ・ハッシュタグ ・ワード ・ハッシュタグワード それぞれ行う。 使用関数: reduceByKeyAndWindow 使用関数:mapToPair ④データ格納 ③データ集計
25.
Copyright © Skywill
inc. All Rights Reserved. 実践 25 画面表示部分 SQLでデータ取得 ・ハッシュタグ・ワード ・ハッシュタグワード ごとに画面表示 ⑦レスポンス ⑤リクエスト ⑥データ取得 60秒毎にデータ取得リクエスト
26.
Copyright © Skywill
inc. All Rights Reserved. 実践 26 結果
27.
Copyright © Skywill
inc. All Rights Reserved. アジェンダ 27 1. Sparkって何? 2. Spark streamingとは? 3. 実践 4. 実践のまとめ
28.
Copyright © Skywill
inc. All Rights Reserved. 実践のまとめ 28 今回、実践としてSpark Streamingを利用して、 Twitterのハッシュタグ、ワードを 直近10秒ごと1分でウィンドウ集計をすることができた。 Spark Streamingを利用して、 ウィンドウ集計をおこなうことができる。
29.
Copyright © Skywill
inc. All Rights Reserved. ふろく(エンジニア注目度からみたSpark) 29 急上昇中 http://redmonk.com/dberkholz/2015/03/13/the-emergence-of-spark/
30.
Copyright © Skywill
inc. All Rights Reserved. ふろく(Hacker情報からみたSpark) 30 急上昇中 http://redmonk.com/dberkholz/2015/03/13/the-emergence-of-spark/
31.
Copyright © Skywill
inc. All Rights Reserved. ふろく(GoogleトレンドからみたSpark) 31 急上昇中 http://redmonk.com/dberkholz/2015/03/13/the-emergence-of-spark/
32.
Copyright © Skywill
inc. All Rights Reserved. ふろく(Hadoop vs Spark:Googleトレンド) 32 win
33.
Copyright © Skywill
inc. All Rights Reserved. ふろく(In Gartner Magic Quadrant for Operational DBMS) 33 Sparkの推移
34.
Copyright © Skywill
inc. All Rights Reserved. ふろく(In Gartner Magic Quadrant for Operational DBMS) 34 Sparkベース
35.
Copyright © Skywill
inc. All Rights Reserved. ふろく(In Gartner Magic Quadrant for Operational DBMS) 35 Sparkベース
36.
Copyright © Skywill
inc. All Rights Reserved. ふろく(In Gartner Magic Quadrant for Operational DBMS) 36