SlideShare a Scribd company logo
1 of 60
Download to read offline
1 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Apache	Hadoopを利⽤した
ビッグデータ分析基盤
次世代データプラットフォームのデファクトスタンダードを提供する
オープンソースソフトウェア企業の世界的リーダー
ホートンワークスジャパン株式会社
マーケティングディレクター
北瀬 公彦
2017-11-07
2 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
免責事項
このプレゼンテーションは、情報提供のみを⽬的としています。 Hortonworksは、
このプレゼンテーションでの内容に注意を払っておりますが、掲載された情報の
内容の正確性については⼀切保証しません。
3 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
アジェンダ
à ホートンワークスについて
à ソリューション紹介
à お客様事例紹介
à 製品紹介
à 参考環境構成
à パートナー紹介
à ビッグデータ関連技術学習⽅法
ホートンワークスについて
5 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Hortonworks 会社概要
創⽴ 2011年 Yahoo!のApache Hadoop
オリジナルチームのメンバー24 ⼈のエンジニアが設⽴
役員 CEO: ロブ・バーデン、COO:スコット・デイビッドソン
オープンソースソフトウェアへ100%コミット
Apache Hadoop プロジェクトへの貢献世界⼀
2011年 創業、マイクロソフト社 (Azure HDInsight)と提携
2014年 9⽉ ⽇本法⼈ホートンワークスジャパン株式会社設⽴
12⽉ NASDAQ上場(NASDAQ: HDP)
2015年 創業以来最速で売上$100Mを達成
Apache NiFiのOnyara社買収し、HDFを市場投⼊
2016年 Billingが$270M越す、HDC for AWSを市場投⼊
2016年 DellEMC社と提携
2017年 6⽉ 主⼒製品 新版HDP 2.6、HDF 3.0を市場投⼊
6⽉ IBM社と提携
9⽉ 新製品・サービス HCPとDPSを市場投⼊
会社概要 実績
次世代データプラットフォームのデファクトスタンダードを提供する
オープンソースソフトウェア企業の世界的リーダー
受注実績 $ 270M (前年同期⽐ +62.7%)
売上実績 $ 184.5M(前年同期⽐ +51.4%)
3Q17/3Q16	Revenue	Growth:		
64%	YoY	
2016年度
$ 13.1
$ 18.1 $ 20.9
$ 25.6 $ 27.6 $ 31.0 $ 32.5 $ 35.6
$ 42.1 $ 45.8
$ 53.2
$ 9.2
$ 11.9
$ 11.3
$ 11.9
$ 13.7
$ 12.6
$ 15.1
$ 16.4
$ 13.9
$ 16.0
$ 15.8
Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Q1 Q2 Q3
2015 2016 2017
6 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Hortonworks:	$121.9	million	in	2015	revenues
“Hortonworks	is	the	fastest	growing	software	company	in	history,	reaching	
$100	million	in	revenues	in	four	years.”
ソフトウェア企業として、創業以来最速で売上$100Mを達成
7 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
ホートンワークスが、ビッグデータウェアハウスのリーダーに選出
à オープンソースベースのデータウェアハウスソ
リューション
à あらゆる種類のデータから判断・⾏動のための
情報を提供
à 様々なエコシステムベンダーと連携可能
à 低コスト、スケーラブルなアーキテクチャ
à オンプレミス、クラウドなどあらゆるプラット
フォームに対応
à 分散ストレージ、分散処理機能、データ収集、
データガバナンス、サポートといった企業で必
要とされる機能を提供
Source:	Forrester:	The	Forrester	Wave™:	Big	Data	Warehouse,	Q2	2017
詳細はこちら:	https://jp.hortonworks.com/info/big-data-solution-will-help-make-big-difference/
8 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Azure	HDInsightが、Big	Data	Hadoop	Cloud	Solutions	のリーダーに選出
à Microsoft provides a data lake with all the trimmings.
Microsoft’s cloud Hadoop offering includes Azure
Marketplace, which runs Hortonworks Data Platform (HDP),
Cloudera Enterprise, and MapR in a virtual machine, and
Azure Data Lake, which includes Azure HDInsight, Data
Lake Analytics, and Data Lake Store as managed services.
à Azure HDInsight uses the HDP Hadoop distribution, which is
designed for the Microsoft Azure cloud. It also includes
Spark, HBase, and Storm besides Apache Hadoop, and
enterprise architects can use C#, Java, and .NET to create,
configure, submit, and monitor Hadoop jobs, in addition to a
fully user-focused user interface.
à Poly Base allows SQL Server customers to execute queries
against data stored in Hadoop.
Source:	Forrester:	The	Forrester	Wave™:	Big	Data	Hadoop	Cloud	Solutions,	Q2	2016
9 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
注⼒するマーケット(グローバル)
クラウド
Sources:	Public	Cloud	Services	Market	size,	$383B	by	2020,	Gartner	2017	WW	Public	Cloud	Services	market.	Big	Data	&	Business	Analytics	revenues	forecast	to	be	$210B	by	2020,	IDC	2017.	IoT	Spending	forecast	to	be	~1.31T	by	2020,	IDC	2017	Worldwide	IoT	Spending	Guide.	AI	
intelligence	market	size	to	reach	$19,478	million	by	2022,	growing	at	a	CAGR	of	45.4%	from	2016	to	2022,	Allied	Market	Research.
~$308B
ビッグデータ
~$210B
AI (⼈⼯知能)
データサイエンス / 機械学習
~$19B
IoT
~$1.3T
10 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
注⼒するマーケット(⽇本)
クラウドビッグデータ
AI (⼈⼯知能)
データサイエンス / 機械学習
IoT
1兆円 (2021)3,419億円 (2021) 11兆円 (2021)
出典: IDC Japan
IoT: http://www.idcjapan.co.jp/Press/Current/201704101Apr.html
クラウド: http://www.idcjapan.co.jp/Press/Current/20170313Apr.html
ビッグデータ: http://www.idcjapan.co.jp/Press/Current/20170608Apr.html
1兆20億円 (2021)
出典: 富⼠キメラ総研
AI(⼈⼝知能)https://www.fcr.co.jp/pr/16095.htm
11 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
4ZB
DATA
44ZB
DATA
TOMORROW
INTERNET
OF
ANYTHING
Source:	http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm
12 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
次世代ビッグデータプラットフォームが直⾯する課題
Business Value
Clickstream
Geolocation
Web Data
Internet of
Things
Docs, emails
Server logs
2013
4.4 Zetta bytes
2020
44 Zetta bytes
1
2 IoTなどの発展によるデータ
の爆発的増加傾向
ERP CRM SCM
New
Traditional
*Multiples of Bytes
Kilobyte
Megabyte
Gigabyte
Terabyte
Petabyte
Exabyte
Zettabyte
Yottabyte
1,000,000,000,000,000,000,000
適切な技術・コストによる対応⽅法が
求められている
Challenges
• アプリケーション毎にデータが
サイロ化されている。
• 新しいデータの格納⽅法
(⾮構造化・半構造化データ)
• 拡張時のコストバランス
13 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
■ Hortonworks
Apache Hadoop への貢献
出典: http://ajisakaa.blogspot.jp/2016/01/the-activities-of-apache-hadoop.html
Hortonworks
Cloudera
Yahoo!
Microsoft
Twitter
Intel
Facebook
Huawei
LinkedIn
uber
InMobi
NTT	DATA
http://hadoop.apache.org/who.html を元に作成(2017/03/02)
約30%
コミッター数 コントリビュートしたコード数
(開発者の数) (貢献したコード数)
14 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
提供する製品、サービス、ソリューション
ソリューション
データウェアハウス
最適化ソリューション
IoT・ストリーミング
分析ソリューション
データサイエンス・機械学習
サイバーセキュリティー
オンプレミス
Hortonworks Data Suite
HDFHDP
クラウド
Hortonworks Data Cloud
AWS Azure
サービス
サブスクリプション
トレーニング
プロフェッショナルサービス
コミュニティ
HCP DPS IBM
15 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
ホートンワークスジャパン株式会社
à 設⽴
– 2014年9⽉
à オフィス
– 東京都千代⽥区永⽥町2-11-1
⼭王パークタワー3F
à 社員数
– 20名弱(2017年7⽉現在)
– Apache Spark、HBaseの書籍執筆者も在籍
– ⽇本初のApache NiFi コミッタ/PMCも在籍
à ビジネスモデル
– サブスクリプション(サポート)
– プロフェッショナルサービス
– トレーニング
à パートナー(エコモデル構築中)
– 12社の販売パートナーと
拡⼤するエコシステムパートナー
à お客様(急拡⼤中)
– ⾦融、保険、⾃動⾞、⼩売・卸売、通信、
サービスをはじめとした先進的なお客様
16 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
次世代データアプリケーションを⽀えるプラットフォーム
INTERNET
OF
ANYTHING
蓄積されたデータ流れているデータ
セキュリティ脅威の監視
判断・行動の
ための情報
HDFHortonworks
DataFlow
HDPHortonworks
Data	Platform
HCPHortonworks
Cybersecurity	
Platform
次世代データアプリケーションÃ 最適な保健料⾦の選定システム
à 故障予測サービス
à サイバーセキュリティ
à スマートメータ連携システム
à レコメンドシステム
à その他、インダストリーアプリケーション
DSX
Data	Science
Experience
BigSQL
HDB
DPSDataPlane Service
SQL処理
エンジン
データ
サイエンス
データの管理、ガバナンス、カタログ
17 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Hortonworks	Data	Platform	(HDP)
データ分散処理ソフトウェアの「Apache™ Hadoop®」や「Apache Spark™」等の
オープンソースソフトウェアをベースとし、セキュリティやガバナンスを強化した
次世代データプラットフォーム
18 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Hortonworks	DataFlow	(HDF)
データフローの管理する「Apache NiFi」、メッセージングシステム「Apache Kafka™」や
リアルタイムデータ処理分散ソフトウェアの「Apache Storm」等をベースとした、
次世代リアルタイムデータ処理ソフトウェア
19 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Data	Services	and	Integration	Layer
ModulesReal-time	Processing
Cyber	Security	Engine
Telemetry
Parsers
Hortonworks	Cybersecurity	Platform	(HCP)
Telemetry	Ingest	Buffer
Telemetry
Data	Collectors
Real-time
Enrich	/	Threat
Intel	Streams
Performance
Network
Ingest
Probes
/	OtherMachine	Generated	Logs
(AD,	App	/	Web	Server,
firewall,	VPN,	etc.)
Security	Endpoint	Devices	
(Fireye,	Palo	Alto,
BlueCoat,	etc.)
Network	Data
(PCAP,	Netflow,	Bro,	etc.)
IDS
(Suricata,	Snort,	etc.)
Threat	Intelligence	Feeds
(Soltra,	OpenTaxi,
third-party	feeds)
Telemetry
Data	Sources
Data	Vault
Real-Time	Search
Evidentiary	Store
Threat	Intelligence	
Platform
Model	as	a	Service
Community	
Models
Data	Science	
Workbench
PCAP	Forensics
Threat	
IntelligenceEnrichment
Indexers	
and	WriterProfiler Alert	Triage
Cyber	Security
Stream	Processing	Pipeline
「Apache Metron」をベースにした
リアルタイムセキュリティ脅威監視基盤ソフトウェア
20 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Hortonworks	DataPlane Service
基本サービスとして、データの管理、セキュリティ、ガバナンスを、
また、拡張サービスとしてディザスタリカバリサイトの構築などを提供
à 基本サービス
– データソースインテグレーション
– データサービスカタログ
– セキュリティ管理
à 拡張サービス
– ディザスタリカバリサイトの構築、
バックアップ・リストアなど
21 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Data	Science	Experience	(DSX)
à データサイエンスに携わる全てのユーザ様向けのプラットフォーム
à データ分析に必要な環境をAll In Oneで装備し、分析のサイクルを⼀気通貫
à データサイエンスを組織としてまわすために必要なコラボレーション機能
à Sparkを梱包しているためビッグデータ処理も対応
多様なデータ・ソースへ
のアクセス機能
Python, R, SPSS ⾃動化された機械学習 API化
クラウドでの利⽤
Data	Prep	and	SQL	Query	
(Pig,	Hive)
Iterative	In-Memory	
(Spark)
Real-Time	Event	Processing
(Storm)
Advanced	Machine	Learning
(R	Server	on	Spark)
NoSQL	Big	Tables
(HBase)
Microsoft	Azure	HDInsight
Data	Science	&	Exploration
(Spark,	Zeppelin)
ETL	&	Data	Preparation	
(Hive,	Spark)
Analytics	&	Reporting
(Hive2	w/LLAP,	Zeppelin)
Hortonworks	Data	Cloud	for	AWS
Hadoop	only
Hadoop	and	Spark
DSX	Integration
Object	Storage
(S3,	Swift)
IBM	Cloud	Analytics	Engine
NEW
ビッグデータ分析に必要な環境
24 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
ビッグデータ分析
à アドホック分析(バッチ処理)
à インタラクティブ分析(BIを使った分析)
à リアルタイム分析
à データサイエンス(機械学習)
25 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Hortonworksが提供する製品、サービス、ソリューション
ソリューション
データウェアハウス
最適化ソリューション
IoT・ストリーミング
分析ソリューション
データサイエンス・機械学習
サイバーセキュリティー
オンプレミス
Hortonworks Data Suite
HDFHDP
クラウド
Hortonworks Data Cloud
AWS Azure
サービス
サブスクリプション
トレーニング
プロフェッショナルサービス
コミュニティ
HCP DPS IBM
26 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
データ活⽤のためのプラットフォーム
スループット ⾼
分析⽤途・バッチ処理
レイテンシ 低
オンライン処理
NoSQL
Data
Warehouse
Hadoop
Spark
RDB
スケールアウト型
スケールアップ型
ビッグデータ分析の為のプラットフォーム
27 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
分析ツール
⾮構造化データ
ソーシャルデータ、
アクセスログ、セン
サーデータ、画像、
⾳声、動画
データの収集、変換、
ロード
データの
蓄積、加⼯、変換
構造化
データ
⾮構造化
データ
データウェアハウス領域
データウェアハウス(DWH)とは、意思決定のために、基幹系などの複数システムから、
必要なデータを収集し、⽬的別に再構成して時系列に蓄積した統合データベース
データウェアハウスのみで構築された分析基盤
構造化データ
ERP, CRM, SFA
28 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
データの収集、変換、
ロード
構造化データ
ERP, CRM, SFA
構造化データ
ERP, CRM, SFA
構造化データ
ERP, CRM, SFA
分析ツール
⾮構造化データ
ソーシャルデータ、アク
セスログ、センサーデー
タ、画像、⾳声、動画
データの
蓄積、加⼯、変換
構造化
データ
⾮構造化
データ
データウェアハウス領域
データサイズが増加してくると
データウェアハウスのみで構築された分析基盤
⾼負荷による
パフォーマスの低下
バイト単価、
拡張コストが⾼い
29 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
構造化データ
ERP, CRM, SFA
構造化データ
ERP, CRM, SFA
分析ツール
データマイニング、
OLAP、分析
Hadoopとデータウェアハウスを利⽤したデータレイクの構築
構造化データ
ERP, CRM, SFA
⾮構造化データ
ソーシャルデータ、
アクセスログ、セン
サーデータ、画像、
⾳声、動画
データの収集、変換、
ロード
使⽤頻度が⾼いデータ
の蓄積
⼤量のデータの蓄積、
加⼯、変換
負荷軽減
バイト単価、
拡張コストの削減
アクティブ
アーカイブ
構造化
データ
⾮構造化
データ
データウェアハウス
Hadoop / Spark
古いデータ
構造化
データ
⾮構造化
データ
バッチ処理
データサイエンス
Hadoop / Spark
30 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
データの特性と最適化
パターン・データ特性 ビッグデータプラットフォーム データウェアハウス
データ タイプ 構造化・⾮構造化データ
センサーデータ、ログデータ、
GPSデータ、SNS等
構造化データ
既存のRDBMS内のデータ
粒度 明細データ
(時系列データ)
サマリデータ
(アクティブデータ)
頻度 経年データ アクティブデータ
ETL ETL処理前の⽣データ ETL処理後のデータ
出典:	http://www.oracle.com/webfolder/technetwork/jp/ondemand/ddd2015/d2.pdf
2億〜3億のコスト削減効果
例)データウェアハウスの最適化による効果
DataBaseName TableName TotalSpace %	of	Total
POS_stg_t WKLYSTDSLS_CY_TODTSLSM_WRK 986,852,299,264.00 20%
POS_stg_t WKLYSTDSLS_PY_TODTSLSM_WRK 906,358,553,600.00 18%
POS_stg_t RTLRLCTNUPC_PY_TODTSLSSUM_WRK 558,447,764,480.00 11%
POS_stg_t WKLYSTDINV_CY_TODTIVSM_WRK 540,368,327,168.00 11%
POS_stg_t WKLYSTDINV_PY_TODTINVM_WRK 484,821,922,816.00 10%
POS_stg_t RTLRLCTNUPC_CY_TODTINVSUM_WRK 101,472,976,896.00 2%
POS_stg_t RTLRLCTNUPC_PY_TODTINVSUM_WRK 91,157,211,648.00 2%
POS_stg_t GC_RTLCTUPC_CY_TODTSLSM_WRK 85,373,838,848.00 2%
POS_stg_t GC_DLYSTDSLS_CY_TODTSLSM_WRK 72,633,830,400.00 1%
EIS_STG_T COSTTOSERV_IHC_HINV_DC_SNPSHT 63,218,278,912.00 1%
POS_stg_t GC_RTLCTUPC_CY_TODTINVSM_WRK 54,366,413,312.00 1%
EIS_STG_T GLPCT_3_D_XI 49,531,698,688.00 1%
POS_stg_t RTLRLCTNWKLYSTDSLS_DUPFIX 37,980,525,056.00 1%
POS_stg_t GC_DLYSTDINV_CY_TODTIVSM_WRK 30,743,950,848.00 1%
EIS_STG_T NA_SLSREPLENSUM_STG 28,213,997,568.00 1%
EIS_STG_T MRP_BRDG_FINAL_WRK 24,782,743,552.00 0%
POS_stg_t RTLRLCTNSTDINV_DUPFIX 24,287,258,624.00 0%
POS_stg_t CEE_DLYSTDSLS_CY_TODTSLSM_WRK 24,202,200,576.00 0%
EIS_STG_T PCA_ACCTTRCN_PRA_TMP 20,614,854,656.00 0%
EIS_STG_T VBPA_D_XF 18,911,294,464.00 0%
EIS_STG_T DC_SHIPPED_SO 18,598,648,832.00 0%
EIS_STG_T MBEW_D_XF 17,003,064,320.00 0%
EIS_STG_T VBUK_A_XI 16,461,577,728.00 0%
POS_stg_t CEE_RTLCTUPC_CY_TODTSLSM_WRK 16,426,828,800.00 0%
Other	1118	Tables … … 15%
Data	Usage	AssessmentWorkload	Assessment
Activity	by	Statement	Type
Type	of	Query Number %	of	Total CPU-Seconds	 %	of	CPU	Time
INSERT 2,163,136,131 92.1% 240,812,253.82 19.3%
UPDATE 52,344,296 2.2% 42,413,219.89 3.4%
SELECT 38,665,660 1.6% 729,062,676.19 58.5%
DELETE 1,305,055 0.1% 50,298,641.10 4.0%
COMMIT 3,439,167 0.1% 138,764.37 0.0%
BEGIN	TRANSACTION 1,915,768 0.1% 0.00 0.0%
END	TRANSACTION 5,210,204 0.2% 237,921.86 0.0%
HELP 61,948,690 2.6% 6,782,016.06 0.5%
SET 0 0.0% 0.00 0.0%
DROP	TABLE 1,267,422 0.1% 659,878.90 0.1%
CHECKPOINT 288 0.0% 0.37 0.0%
CALL 3,261,130 0.1% 0.00 0.0%
CREATE	TABLE 154,634 0.0% 6,430,347.07 0.5%
DATABASE 2,155,133 0.1% 6,466.52 0.0%
EXECUTE 16 0.0% 0.00 0.0%
OTHER… 14,771,490 0.6% 169,415,346.97 13.6%
更新、インサート系のワークロードが
90%以上、20%以上のCPU利⽤率 利⽤していないテーブルが5TB以上
• ETLバッチ処理をHadoopにオフロード
• 利⽤していないテーブルをHadoopに移動
データウェアハウスとのコスト⽐較
Solution Cost/Terabyte
SAP	HANA $800K - $1000K
Teradata $80K	- $150K
IBM	Netezza $40K	- $55K
Oracle	Exadata $30K	- $50K
HDP $0.7K	-$4K
Teradata	and	Hadoop	Cost	Component	(Per	TB)Teradata	offload	can	save	customers	65%	- 90%	of	
their	IT	cost	related	to	Teradata;	Typical	savings	are	
about	85%
アクティブアーカイブ
à 概要
– あまり使われないデータを
Hadoopにオフロード
– あまり使われないデータを蓄積する為に
データウェアハウスやテープデバイスを利
⽤しない
– オフロードは、ScoopやSyncsort DMX-h
で⾏う
à 利点
– あまり使われないデータを低コストで蓄積
– テープなどのデバイスに蓄積するのと異な
り、オフロードしたデータもリストアする
ことなしにアクセス可能
– データウェアハウスに蓄積されていたデー
タが、データレイクに蓄積されている他の
データ(ロケーション、ソーシャル、ク
リックストリーム)とクロス分析可能
Source:	https://community.hortonworks.com/articles/102519/a-reference-architecture-for-enterprise-data-wareh.html
ユースケース
EDW	オフロード
à 概要
– ETL処理をEDWからHadoopにオフロード
– ⽣データはデータレイクに蓄積
– 整形されたデータはHive LLAP Tableとし
て利⽤
– 構造化データはデータウエアハウスへエク
スポート
à 利点
– ⽣データはデータレイクに低コストで蓄積
– データサイエンティストは、データレイク
にアクセスし様々なデータを利⽤可能
– データウェアハウスでの分析パフォーマン
スの向上
– ETLのパフォーマンスも向上
Source:	https://community.hortonworks.com/articles/102519/a-reference-architecture-for-enterprise-data-wareh.html
ユースケース
BI	on	Hadoop
à 概要
– データウェアハウスを Hadoop上のOLAP
により置き換えるモデル
à 利点
– ユースケースは、EDWオフロードとほぼ
同じ
– OLAPクエリはデータレイクでダイレクト
に実⾏
– Hadoop上のOLAPにより、⾼コストな既
存のOLAPシステムを置きかえることが可
能
Source:	https://community.hortonworks.com/articles/102519/a-reference-architecture-for-enterprise-data-wareh.html
(Jethro,	
Druid)
ユースケース
IoT・ストリーミングデータの分析
ストリーミン
グデータ
エッジ
データ
ストリーミングデータの分析
データレイク
蓄積データの分析
Hadoop環境にて
全データを格納
データ
収集
① 定期的にデータをアップロード(例:Weekly	/	Monthly	etc)
② 過去データを使⽤したパター
ン・分類・予測モデルの作成
③ 予測モデル・閾値の⽣成・実装
④ 流れてくるデータを
予測モデルでスコアリング
警告・アクションを出す
⑤ 緊急性の⾼いデータを
リアルタイムに加⼯・格納
EDW
Hadoop
⾼頻度データは
EDWに格納
データの収集
Hortonworks	DataFlow
データの蓄積、分析
Hortonworks	Data	Platform
お客様紹介
グローバル事例
データ活⽤による新規ビジネスの展開
運転傾向・⾞の使⽤環境に基づ
いた柔軟な保険提案の実現
à Snapshot plug-in デバイスは
運転の詳細を収集
à Progressiveは、1000万マイル以上の
運転データを保存 (約1600万Km)
à Webアプリ経由で、顧客は⾃⾝の
運転詳細を⾒ることができ、
安全向上に努めることが可能
à Snapshotとusage-based insurance
は2014年には、Progressiveに26 億
ドルの貢献(約2730億円)
Innovate
Renovate
Claims Notes
Mining
Individual
Driving
Histories
Usage-Based
Insurance (UBI)
Web Log
Analysis
Online Ad
Placement
Sensor Data
Ingest
PREDICTIVE
ANALYTICS
A C T I V E
A R C H I V E
D A T A
D I S C O V E R
Y
D A T A
D I S C O V E R
Y
D A T A
D I S C O V E R
Y
E T L
O N B O A R D
Safe Roads
既存データの
可視化
データ拡充
新規基盤構築
新規モデル作成 新規サービス
提供
グローバル事例
スマートメーター活⽤による新しいマーケティング・顧客サービス
1.3 Million
Smart Meters
EDW
Offload
Mobile App for
Customer Sites
Ingest 300
GB per Day
Product
Cross-Sell
データ活⽤による新しい
電⼒提供サービス
スマートメーターによるデータ
量増加に対応した環境構築
年数回の顧客訪問(検針)
→13万個のスマートメーター
数億円のDWHコスト最適化
11時間かかっていたETL処理を
45分に削減
個客に応じた新たなサービス
⾰新的サービスを主体としたビ
ジネモデルに変⾰
Innovate
Renovate
Smart,
Efficient
Homes
D A T A
D I S C O V E R
Y
D A T A
E N R I C H M E N
T
P R E D I C T I V E
A N A L Y T I C S
S I N G L E
V I E W
A C T I V E
A R C H I V E
E T L
O N B O A R D
SINGLE
VIEW
S I N G L E
V I E W
P R E D I C T I V E
A N A L Y T I C S
On-site customer
data capture
Optimized
engineering
schedule
Tailored
servicing
Customer
sentiment
既存環境の最
適化・可視化 データ拡充
予測分析
Data Discovery
新規サービス
提供
システム統合プロジェクトに伴うデータ分析基盤の刷新
Hadoopの活⽤で住環境の「安⼼・安全・快適」を⽬指す
à 5社システムの統合
à 基幹システムと情報システムの連
携
à 住宅IoTデータへの対応
導⼊背景
à 低コストで⼤容量システムを構築
à ITガバナンスの管理実⾏
à 情報分析データ活⽤の検証
導⼊効果
システムアーキテクチャ
2つのシステム組み合わせ、双⽅の利点を活かすことで、⼤容量データを
効率的かつ安価に処理できる基盤を構築
HDP: 統計分析・機械学習などの⾼度な分析を拡張性が⾼く、低コストに実現
SAP HANA:超⾼速処理で業績管理を実現
グループ全体のデータを横断的に活⽤する
新たなエコシステムを構築
Hadoop環境を刷新したことでパフォーマンス向上を実現
「⼀⼈ひとりのユーザーの⾏動をより深く分析、把握し
、最適な情報提供を⾏う」という価値の実現に向け、リ
クルートIDをキーとしたサイト横断でのユーザーの情報
最適化を実践
リクルートの横断データ基盤
リクルートIDをキーとしたサイト横断での
ユーザーの情報最適化
「Yahoo!JAPAN」のデータ分析システムに
Hortonworks Data Platformを採⽤
ビッグデータをビジネスで安定的に活⽤できる基盤の構築へ
à 加速度的に増え続ける膨⼤なデータ
à ⼤規模クラスタの運⽤が不安定
à 技術レベル向上の必要性
導⼊背景
à パフォーマンスの向上
à 3,000台を超えるクラスタの安定運⽤
à 社内技術者のレベル向上
導⼊効果
⼤⼿通信キャリアの膨⼤なデータを分析する基盤システム
HDPによってビッグデータ活⽤の運⽤⼯数・コストを低減
à ⽇々発⽣する膨⼤なデータの取り扱い
à 社内技術スキルの向上とナレッジの蓄
積
à 構築したシステムの最適化と効率化
導⼊背景
à Hadoopシステムの安定稼働
à Ambariによる運⽤プロセッスの効率
化
à ⼤量のデータを低コストで分散処理
導⼊効果
ソフトバンク株式会社様
u 稼働中のトラックのリアルタイムな情報を、お客様のPC端末でチェックできるサービス
u トラックから送られる⾞両情報を、三菱ふそうカスタマーアシスタンスセンターが受信し、お客様はインターネッ
ト上のトラックコネクト専⽤ページにアクセスするだけで、現在位置や運⾏状況を把握することが可能
出典: http://car.watch.impress.co.jp/docs/news/1059805.html
三菱ふそうトラック・バス 株式会社様
⾞両センサーデータを活⽤し⾼付加価値サービスの実現
Azure HDInsightを利⽤したテレマティクス基盤
三菱ふそうトラック・バス株式会社でのシステムアーキテクチャー
統合データレイクの構築にHortonworksを採⽤
⽇産⾃動⾞株式会社様
Data	Sources Big	Data	Platform Data	Analytics
Platform
Data Integration	
Platform
ESB
MLlib
Data	Sources
Data	Mgmt.	
Platform
Data	Integration	
Platform
Data	Sources	for	Analytics
Data	Analytics
Platform
Hortonworks Data	Platform
LLAP
Data Mart
AMQP
ETL
à ⾛⾏データを⻑期保管するための
インフラが必要
à サイロ化している社内データの統合
à さまざまなデータをクロスファンクショナル
に活⽤するためのプラットフォームが必要
導⼊背景
サイロ化されたデータをデータレイクに統合
導⼊効果
à 社内のあらゆるデータを蓄積できる
データレイクの構築を実現
à さまざまなデータ活⽤に対するニーズが向上
à IoT データ分析や、
グローバルデータレイクの構想
複数のデータソースを利⽤したデータ駆動型ビジネスの実現
à ⾃動販売機からのデータを
もとに、最適な補填納品ルート
を分析
à SAP HANAとHadoopでデータの
最適配置によるコスト最適化
à 複数データソースを集約し、
必要なビジネスレポートを⽣成
à サイトーサイト間で
リアルタイムにデータを複製
出典: https://www.slideshare.net/DamienContreras/damien-contreras-futureofdata20170428
BW on HanaHadoop Prod
Nifi
Prod
NiFi
Prod
Boomi
Hive
JDBC
Drill
IDOCS
JDBC
Flat files
MySQL
SAP ECC
Other systems
Other
systems
FTP
JDBC
HTTP HTML
interface
Power users
Acquisition Transformation Restitution
dt=20161024
dt=20161025
t_my_table_txt_p
My_file_20161024.csv
My_file_20161025.csv
Myflow-data
t_my_table_txt_p
(External	text	tables)
t_my_table_txt_p
t_my_bridge_table_txt_p
+Myflow-data
(Database)
t_my_report_orc_p
(ORC	tables)
コカコーラ・イーストジャパン株式会社様
Picking list
Visit Plan
Online	VM
Offline	VM
Every	day
Yes NoNoArbitration
Forecast	
generation
47 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Hortonworks	Data	Platform	(HDP)
Hortonworks	Data	Platform	(HDP)
データ分散処理ソフトウェアの「Apache™ Hadoop®」や「Apache Spark™」等の
オープンソースソフトウェアをベースとし、セキュリティやガバナンスを強化した
次世代データプラットフォーム
49 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
動的カラムマスキング & ⾏レベルフィルタリング
Country National ID CC	No Name DOB MRN Policy	ID
US 232323233 4539067047629850 John	Doe 9/12/1969 8233054331 nj23j424
US 333287465 5391304868205600 Jane	Doe 9/13/1969 3736885376 cadsd984
Japan T30007873 4532488639863821 Ben	Jackson 73/1975 876392473A KK-287365
Ranger	Policy	Enforcement
Country National
ID
CC No MRN Name
US xxxxx3233 4539 xxxx xxxx xxxx null John	Doe
US xxxxx7465 5391 xxxx xxxx xxxx null Jane	Doe
Country National
ID
Name MRN
Japan 232323233 John	Doe 8233054331
Users	from	US	customer	support	
groups	see	row	filtered	data	for	US	
persons	with	CC	and	SSN	as	
masked	values	and	MRN	is	nullified
Japan	Health	Policy	Admins	
view	relevant	columns	of	data	
unmasked	but	are	restricted	
by	row	filtering	policies	to	see	
data	for	Japan	persons	only
Hive	LLAP	-- MPP	Performance	at	Hadoop	Scale
Deep	
Storage
YARN	Cluster
LLAP	Daemon
Query	
Executors
LLAP	Daemon
Query	
Executors
LLAP	Daemon
Query	
Executors
LLAP	Daemon
Query	
Executors
Query
Coordinators
Coord-
inator
Coord-
inator
Coord-
inator
HiveServer2	
(Query	
Endpoint)
ODBC	/
JDBC
SQL
Queries In-Memory	Cache
(Shared	Across	All	Users)
HDFS	and	
Compatible
S3 WASB Isilon
Hive	2	with	LLAP:	26x	Performance	Boost	at	1TB	Scale
0
5
10
15
20
25
30
35
40
45
50
0
50
100
150
200
250
Speedup	(x	Factor)
Query	Time(s)	(Lower	is	Better) Hive	2	with	LLAP	averages	26x	faster	than	Hive	1
Hive	1	/	Tez	Time	(s) Hive	2	/	LLAP	Time(s) Speedup	(x	Factor)
Apache	Druid
出典: http://druid.io/docs/0.8.3/design/design.html
57 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
まとめ
à ビッグデータ分析
– BIによるデータ分析、アドホック分析、リアルタイム分析、機会学習
à BIによるビッグデータ分析
– データウェアハウスのみの環境では、コスト、パフォーマンスの観点で不安
– データウェアハウスとApache Hadoopとそのエコシステムを併⽤した環境が注⽬
– 技術の進歩により、データウェアハウスを必要としない環境も可能
58 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Hortonworksを始める為の5ステップ
1. Hortonworksサンドボックスを試す
hortonworks.com/sandbox
2. チュートリアルを試す
hortonworks.com/tutorials
3. Future of Data 勉強会に参加する
futureofdata.connpass.com
4. Hortonworks Community Connect (HCC)に参加する
hortonworks.com/community
5. サポートサービスを検討する
http://hortonworks.com/support
1 . .
4 .
4 .
. . E C
1 1/ . .
44 .
お問い合わせ先
ホートンワークスジャパン株式会社
TEL:03-6205-3284
住所: 東京都千代⽥区永⽥町2-11-1 ⼭王パークタワー3F
info-jp@hortonworks.com
http://jp.hortonworks.com

More Related Content

What's hot

[db tech showcase OSS 2017] A27: Talend + MariaDB(SpiderEngine)+ TableauでBI基盤...
[db tech showcase OSS 2017] A27: Talend + MariaDB(SpiderEngine)+ TableauでBI基盤...[db tech showcase OSS 2017] A27: Talend + MariaDB(SpiderEngine)+ TableauでBI基盤...
[db tech showcase OSS 2017] A27: Talend + MariaDB(SpiderEngine)+ TableauでBI基盤...Insight Technology, Inc.
 
DX認定制度システム開発裏話:技術編
DX認定制度システム開発裏話:技術編DX認定制度システム開発裏話:技術編
DX認定制度システム開発裏話:技術編Arichika TANIGUCHI
 
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介Insight Technology, Inc.
 
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けRecruit Technologies
 
トレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティングトレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティングTakahiro Inoue
 
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのかTechon Organization
 
[db tech showcase Tokyo 2015] E15:Hadoop大量データ処理技術と日立匿名化技術によるプライバシー保護とデータ活用 by...
[db tech showcase Tokyo 2015] E15:Hadoop大量データ処理技術と日立匿名化技術によるプライバシー保護とデータ活用 by...[db tech showcase Tokyo 2015] E15:Hadoop大量データ処理技術と日立匿名化技術によるプライバシー保護とデータ活用 by...
[db tech showcase Tokyo 2015] E15:Hadoop大量データ処理技術と日立匿名化技術によるプライバシー保護とデータ活用 by...Insight Technology, Inc.
 
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組みData Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組みcyberagent
 
AI/ML開発・運用ワークフロー検討案(日本ソフトウェア科学会 機械学習工学研究会 本番適用のためのインフラと運用WG主催 討論会)
AI/ML開発・運用ワークフロー検討案(日本ソフトウェア科学会 機械学習工学研究会 本番適用のためのインフラと運用WG主催 討論会)AI/ML開発・運用ワークフロー検討案(日本ソフトウェア科学会 機械学習工学研究会 本番適用のためのインフラと運用WG主催 討論会)
AI/ML開発・運用ワークフロー検討案(日本ソフトウェア科学会 機械学習工学研究会 本番適用のためのインフラと運用WG主催 討論会)NTT DATA Technology & Innovation
 
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...DataWorks Summit/Hadoop Summit
 
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]Insight Technology, Inc.
 
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...NTT DATA Technology & Innovation
 
Hadoop Summit 2016 San Jose レポート
Hadoop Summit 2016  San Jose レポートHadoop Summit 2016  San Jose レポート
Hadoop Summit 2016 San Jose レポートKimihiko Kitase
 
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介Recruit Technologies
 
NTT Communications' Initiatives to Utilize Infrastructure Data
NTT Communications' Initiatives to Utilize Infrastructure DataNTT Communications' Initiatives to Utilize Infrastructure Data
NTT Communications' Initiatives to Utilize Infrastructure DataDataWorks Summit
 
並列データベースシステムの概念と原理
並列データベースシステムの概念と原理並列データベースシステムの概念と原理
並列データベースシステムの概念と原理Makoto Yui
 
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House ArchitectureBigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House ArchitectureSatoru Ishikawa
 
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情Hideo Takagi
 

What's hot (20)

[db tech showcase OSS 2017] A27: Talend + MariaDB(SpiderEngine)+ TableauでBI基盤...
[db tech showcase OSS 2017] A27: Talend + MariaDB(SpiderEngine)+ TableauでBI基盤...[db tech showcase OSS 2017] A27: Talend + MariaDB(SpiderEngine)+ TableauでBI基盤...
[db tech showcase OSS 2017] A27: Talend + MariaDB(SpiderEngine)+ TableauでBI基盤...
 
DX認定制度システム開発裏話:技術編
DX認定制度システム開発裏話:技術編DX認定制度システム開発裏話:技術編
DX認定制度システム開発裏話:技術編
 
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
 
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
 
トレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティングトレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティング
 
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
 
Big Data Architecture 全体概要
Big Data Architecture 全体概要Big Data Architecture 全体概要
Big Data Architecture 全体概要
 
[db tech showcase Tokyo 2015] E15:Hadoop大量データ処理技術と日立匿名化技術によるプライバシー保護とデータ活用 by...
[db tech showcase Tokyo 2015] E15:Hadoop大量データ処理技術と日立匿名化技術によるプライバシー保護とデータ活用 by...[db tech showcase Tokyo 2015] E15:Hadoop大量データ処理技術と日立匿名化技術によるプライバシー保護とデータ活用 by...
[db tech showcase Tokyo 2015] E15:Hadoop大量データ処理技術と日立匿名化技術によるプライバシー保護とデータ活用 by...
 
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組みData Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
 
AI/ML開発・運用ワークフロー検討案(日本ソフトウェア科学会 機械学習工学研究会 本番適用のためのインフラと運用WG主催 討論会)
AI/ML開発・運用ワークフロー検討案(日本ソフトウェア科学会 機械学習工学研究会 本番適用のためのインフラと運用WG主催 討論会)AI/ML開発・運用ワークフロー検討案(日本ソフトウェア科学会 機械学習工学研究会 本番適用のためのインフラと運用WG主催 討論会)
AI/ML開発・運用ワークフロー検討案(日本ソフトウェア科学会 機械学習工学研究会 本番適用のためのインフラと運用WG主催 討論会)
 
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
 
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
 
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
 
Hadoop Summit 2016 San Jose レポート
Hadoop Summit 2016  San Jose レポートHadoop Summit 2016  San Jose レポート
Hadoop Summit 2016 San Jose レポート
 
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
 
NTT Communications' Initiatives to Utilize Infrastructure Data
NTT Communications' Initiatives to Utilize Infrastructure DataNTT Communications' Initiatives to Utilize Infrastructure Data
NTT Communications' Initiatives to Utilize Infrastructure Data
 
並列データベースシステムの概念と原理
並列データベースシステムの概念と原理並列データベースシステムの概念と原理
並列データベースシステムの概念と原理
 
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House ArchitectureBigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House Architecture
 
楽天がHadoopを使う理由
楽天がHadoopを使う理由楽天がHadoopを使う理由
楽天がHadoopを使う理由
 
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
 

Viewers also liked

Tableau Serverを利用した組織レベルでのデータ分析
Tableau Serverを利用した組織レベルでのデータ分析 Tableau Serverを利用した組織レベルでのデータ分析
Tableau Serverを利用した組織レベルでのデータ分析 Hortonworks Japan
 
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...Naoki (Neo) SATO
 
SparkMLlibで始めるビッグデータを対象とした機械学習入門
SparkMLlibで始めるビッグデータを対象とした機械学習入門SparkMLlibで始めるビッグデータを対象とした機械学習入門
SparkMLlibで始めるビッグデータを対象とした機械学習入門Takeshi Mikami
 
cacooアイコンの話
cacooアイコンの話cacooアイコンの話
cacooアイコンの話晋也 古渡
 
20171110 サーバーワークス流Cacoo使いこなし術
20171110 サーバーワークス流Cacoo使いこなし術20171110 サーバーワークス流Cacoo使いこなし術
20171110 サーバーワークス流Cacoo使いこなし術陽一 佐竹
 
What the Spark!? Intro and Use Cases
What the Spark!? Intro and Use CasesWhat the Spark!? Intro and Use Cases
What the Spark!? Intro and Use CasesAerospike, Inc.
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)hamaken
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) hamaken
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)NTT DATA OSS Professional Services
 
Top 5 mistakes when writing Spark applications
Top 5 mistakes when writing Spark applicationsTop 5 mistakes when writing Spark applications
Top 5 mistakes when writing Spark applicationshadooparchbook
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Cloudera Japan
 
本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話Kumazaki Hiroki
 

Viewers also liked (13)

Tableau Serverを利用した組織レベルでのデータ分析
Tableau Serverを利用した組織レベルでのデータ分析 Tableau Serverを利用した組織レベルでのデータ分析
Tableau Serverを利用した組織レベルでのデータ分析
 
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
 
SparkMLlibで始めるビッグデータを対象とした機械学習入門
SparkMLlibで始めるビッグデータを対象とした機械学習入門SparkMLlibで始めるビッグデータを対象とした機械学習入門
SparkMLlibで始めるビッグデータを対象とした機械学習入門
 
cacooアイコンの話
cacooアイコンの話cacooアイコンの話
cacooアイコンの話
 
20171110 サーバーワークス流Cacoo使いこなし術
20171110 サーバーワークス流Cacoo使いこなし術20171110 サーバーワークス流Cacoo使いこなし術
20171110 サーバーワークス流Cacoo使いこなし術
 
What the Spark!? Intro and Use Cases
What the Spark!? Intro and Use CasesWhat the Spark!? Intro and Use Cases
What the Spark!? Intro and Use Cases
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
 
Top 5 mistakes when writing Spark applications
Top 5 mistakes when writing Spark applicationsTop 5 mistakes when writing Spark applications
Top 5 mistakes when writing Spark applications
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
 
本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話
 
The AI Rush
The AI RushThe AI Rush
The AI Rush
 

Similar to Apache Hadoopを利用したビッグデータ分析基盤

クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境Kimihiko Kitase
 
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworksKimihiko Kitase
 
あなたの知っているSAPは古いかもしれません
あなたの知っているSAPは古いかもしれませんあなたの知っているSAPは古いかもしれません
あなたの知っているSAPは古いかもしれませんMana Matsudate
 
Hadoop/Spark セルフサービス系の事例まとめ
Hadoop/Spark セルフサービス系の事例まとめHadoop/Spark セルフサービス系の事例まとめ
Hadoop/Spark セルフサービス系の事例まとめYuta Imai
 
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とはライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とはKimihiko Kitase
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopDataWorks Summit
 
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方リクルート式Hadoopの使い方
リクルート式Hadoopの使い方Recruit Technologies
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)NTT DATA OSS Professional Services
 
Yifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng Jiang
 
Hadoop最新事情とHortonworks Data Platform
Hadoop最新事情とHortonworks Data PlatformHadoop最新事情とHortonworks Data Platform
Hadoop最新事情とHortonworks Data PlatformYuta Imai
 
IoTアプリケーションで利用するApache NiFi
IoTアプリケーションで利用するApache NiFiIoTアプリケーションで利用するApache NiFi
IoTアプリケーションで利用するApache NiFiYuta Imai
 
SDN Conference 2014 Tokyo / Osaka , HP presentation
SDN Conference 2014 Tokyo / Osaka , HP presentationSDN Conference 2014 Tokyo / Osaka , HP presentation
SDN Conference 2014 Tokyo / Osaka , HP presentationToru Ozaki
 
HDP ハンズオンセミナー
HDP ハンズオンセミナーHDP ハンズオンセミナー
HDP ハンズオンセミナーToshihiro Suzuki
 
企業向けmBaaS「AppPot」を使ったサーバー開発なしの高速モバイルアプリ開発
企業向けmBaaS「AppPot」を使ったサーバー開発なしの高速モバイルアプリ開発企業向けmBaaS「AppPot」を使ったサーバー開発なしの高速モバイルアプリ開発
企業向けmBaaS「AppPot」を使ったサーバー開発なしの高速モバイルアプリ開発Ryohei Sogo
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也Insight Technology, Inc.
 
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望Yahoo!デベロッパーネットワーク
 

Similar to Apache Hadoopを利用したビッグデータ分析基盤 (20)

クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境
 
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
 
あなたの知っているSAPは古いかもしれません
あなたの知っているSAPは古いかもしれませんあなたの知っているSAPは古いかもしれません
あなたの知っているSAPは古いかもしれません
 
Hwx勉強会0730
Hwx勉強会0730Hwx勉強会0730
Hwx勉強会0730
 
Hadoop/Spark セルフサービス系の事例まとめ
Hadoop/Spark セルフサービス系の事例まとめHadoop/Spark セルフサービス系の事例まとめ
Hadoop/Spark セルフサービス系の事例まとめ
 
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とはライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
 
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方リクルート式Hadoopの使い方
リクルート式Hadoopの使い方
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
Yifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng hadoop-present-public
Yifeng hadoop-present-public
 
Hadoop最新事情とHortonworks Data Platform
Hadoop最新事情とHortonworks Data PlatformHadoop最新事情とHortonworks Data Platform
Hadoop最新事情とHortonworks Data Platform
 
IoTアプリケーションで利用するApache NiFi
IoTアプリケーションで利用するApache NiFiIoTアプリケーションで利用するApache NiFi
IoTアプリケーションで利用するApache NiFi
 
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
Yahoo! JAPANのデータ基盤とHadoop #dbts2016Yahoo! JAPANのデータ基盤とHadoop #dbts2016
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
 
OSS Market Momentum In Japan
OSS Market Momentum In JapanOSS Market Momentum In Japan
OSS Market Momentum In Japan
 
The real world use of Big Data to change business
The real world use of Big Data to change businessThe real world use of Big Data to change business
The real world use of Big Data to change business
 
SDN Conference 2014 Tokyo / Osaka , HP presentation
SDN Conference 2014 Tokyo / Osaka , HP presentationSDN Conference 2014 Tokyo / Osaka , HP presentation
SDN Conference 2014 Tokyo / Osaka , HP presentation
 
HDP ハンズオンセミナー
HDP ハンズオンセミナーHDP ハンズオンセミナー
HDP ハンズオンセミナー
 
企業向けmBaaS「AppPot」を使ったサーバー開発なしの高速モバイルアプリ開発
企業向けmBaaS「AppPot」を使ったサーバー開発なしの高速モバイルアプリ開発企業向けmBaaS「AppPot」を使ったサーバー開発なしの高速モバイルアプリ開発
企業向けmBaaS「AppPot」を使ったサーバー開発なしの高速モバイルアプリ開発
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也
 
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
 

Recently uploaded

20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdffurutsuka
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 

Recently uploaded (9)

20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 

Apache Hadoopを利用したビッグデータ分析基盤

  • 1. 1 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Apache Hadoopを利⽤した ビッグデータ分析基盤 次世代データプラットフォームのデファクトスタンダードを提供する オープンソースソフトウェア企業の世界的リーダー ホートンワークスジャパン株式会社 マーケティングディレクター 北瀬 公彦 2017-11-07
  • 2. 2 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 免責事項 このプレゼンテーションは、情報提供のみを⽬的としています。 Hortonworksは、 このプレゼンテーションでの内容に注意を払っておりますが、掲載された情報の 内容の正確性については⼀切保証しません。
  • 3. 3 © Hortonworks Inc. 2011 – 2016. All Rights Reserved アジェンダ Ã ホートンワークスについて Ã ソリューション紹介 Ã お客様事例紹介 Ã 製品紹介 Ã 参考環境構成 Ã パートナー紹介 Ã ビッグデータ関連技術学習⽅法
  • 5. 5 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks 会社概要 創⽴ 2011年 Yahoo!のApache Hadoop オリジナルチームのメンバー24 ⼈のエンジニアが設⽴ 役員 CEO: ロブ・バーデン、COO:スコット・デイビッドソン オープンソースソフトウェアへ100%コミット Apache Hadoop プロジェクトへの貢献世界⼀ 2011年 創業、マイクロソフト社 (Azure HDInsight)と提携 2014年 9⽉ ⽇本法⼈ホートンワークスジャパン株式会社設⽴ 12⽉ NASDAQ上場(NASDAQ: HDP) 2015年 創業以来最速で売上$100Mを達成 Apache NiFiのOnyara社買収し、HDFを市場投⼊ 2016年 Billingが$270M越す、HDC for AWSを市場投⼊ 2016年 DellEMC社と提携 2017年 6⽉ 主⼒製品 新版HDP 2.6、HDF 3.0を市場投⼊ 6⽉ IBM社と提携 9⽉ 新製品・サービス HCPとDPSを市場投⼊ 会社概要 実績 次世代データプラットフォームのデファクトスタンダードを提供する オープンソースソフトウェア企業の世界的リーダー 受注実績 $ 270M (前年同期⽐ +62.7%) 売上実績 $ 184.5M(前年同期⽐ +51.4%) 3Q17/3Q16 Revenue Growth: 64% YoY 2016年度 $ 13.1 $ 18.1 $ 20.9 $ 25.6 $ 27.6 $ 31.0 $ 32.5 $ 35.6 $ 42.1 $ 45.8 $ 53.2 $ 9.2 $ 11.9 $ 11.3 $ 11.9 $ 13.7 $ 12.6 $ 15.1 $ 16.4 $ 13.9 $ 16.0 $ 15.8 Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Q1 Q2 Q3 2015 2016 2017
  • 6. 6 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks: $121.9 million in 2015 revenues “Hortonworks is the fastest growing software company in history, reaching $100 million in revenues in four years.” ソフトウェア企業として、創業以来最速で売上$100Mを達成
  • 7. 7 © Hortonworks Inc. 2011 – 2016. All Rights Reserved ホートンワークスが、ビッグデータウェアハウスのリーダーに選出 Ã オープンソースベースのデータウェアハウスソ リューション Ã あらゆる種類のデータから判断・⾏動のための 情報を提供 Ã 様々なエコシステムベンダーと連携可能 Ã 低コスト、スケーラブルなアーキテクチャ Ã オンプレミス、クラウドなどあらゆるプラット フォームに対応 Ã 分散ストレージ、分散処理機能、データ収集、 データガバナンス、サポートといった企業で必 要とされる機能を提供 Source: Forrester: The Forrester Wave™: Big Data Warehouse, Q2 2017 詳細はこちら: https://jp.hortonworks.com/info/big-data-solution-will-help-make-big-difference/
  • 8. 8 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Azure HDInsightが、Big Data Hadoop Cloud Solutions のリーダーに選出 Ã Microsoft provides a data lake with all the trimmings. Microsoft’s cloud Hadoop offering includes Azure Marketplace, which runs Hortonworks Data Platform (HDP), Cloudera Enterprise, and MapR in a virtual machine, and Azure Data Lake, which includes Azure HDInsight, Data Lake Analytics, and Data Lake Store as managed services. Ã Azure HDInsight uses the HDP Hadoop distribution, which is designed for the Microsoft Azure cloud. It also includes Spark, HBase, and Storm besides Apache Hadoop, and enterprise architects can use C#, Java, and .NET to create, configure, submit, and monitor Hadoop jobs, in addition to a fully user-focused user interface. Ã Poly Base allows SQL Server customers to execute queries against data stored in Hadoop. Source: Forrester: The Forrester Wave™: Big Data Hadoop Cloud Solutions, Q2 2016
  • 9. 9 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 注⼒するマーケット(グローバル) クラウド Sources: Public Cloud Services Market size, $383B by 2020, Gartner 2017 WW Public Cloud Services market. Big Data & Business Analytics revenues forecast to be $210B by 2020, IDC 2017. IoT Spending forecast to be ~1.31T by 2020, IDC 2017 Worldwide IoT Spending Guide. AI intelligence market size to reach $19,478 million by 2022, growing at a CAGR of 45.4% from 2016 to 2022, Allied Market Research. ~$308B ビッグデータ ~$210B AI (⼈⼯知能) データサイエンス / 機械学習 ~$19B IoT ~$1.3T
  • 10. 10 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 注⼒するマーケット(⽇本) クラウドビッグデータ AI (⼈⼯知能) データサイエンス / 機械学習 IoT 1兆円 (2021)3,419億円 (2021) 11兆円 (2021) 出典: IDC Japan IoT: http://www.idcjapan.co.jp/Press/Current/201704101Apr.html クラウド: http://www.idcjapan.co.jp/Press/Current/20170313Apr.html ビッグデータ: http://www.idcjapan.co.jp/Press/Current/20170608Apr.html 1兆20億円 (2021) 出典: 富⼠キメラ総研 AI(⼈⼝知能)https://www.fcr.co.jp/pr/16095.htm
  • 11. 11 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 4ZB DATA 44ZB DATA TOMORROW INTERNET OF ANYTHING Source: http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm
  • 12. 12 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 次世代ビッグデータプラットフォームが直⾯する課題 Business Value Clickstream Geolocation Web Data Internet of Things Docs, emails Server logs 2013 4.4 Zetta bytes 2020 44 Zetta bytes 1 2 IoTなどの発展によるデータ の爆発的増加傾向 ERP CRM SCM New Traditional *Multiples of Bytes Kilobyte Megabyte Gigabyte Terabyte Petabyte Exabyte Zettabyte Yottabyte 1,000,000,000,000,000,000,000 適切な技術・コストによる対応⽅法が 求められている Challenges • アプリケーション毎にデータが サイロ化されている。 • 新しいデータの格納⽅法 (⾮構造化・半構造化データ) • 拡張時のコストバランス
  • 13. 13 © Hortonworks Inc. 2011 – 2016. All Rights Reserved ■ Hortonworks Apache Hadoop への貢献 出典: http://ajisakaa.blogspot.jp/2016/01/the-activities-of-apache-hadoop.html Hortonworks Cloudera Yahoo! Microsoft Twitter Intel Facebook Huawei LinkedIn uber InMobi NTT DATA http://hadoop.apache.org/who.html を元に作成(2017/03/02) 約30% コミッター数 コントリビュートしたコード数 (開発者の数) (貢献したコード数)
  • 14. 14 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 提供する製品、サービス、ソリューション ソリューション データウェアハウス 最適化ソリューション IoT・ストリーミング 分析ソリューション データサイエンス・機械学習 サイバーセキュリティー オンプレミス Hortonworks Data Suite HDFHDP クラウド Hortonworks Data Cloud AWS Azure サービス サブスクリプション トレーニング プロフェッショナルサービス コミュニティ HCP DPS IBM
  • 15. 15 © Hortonworks Inc. 2011 – 2016. All Rights Reserved ホートンワークスジャパン株式会社 Ã 設⽴ – 2014年9⽉ Ã オフィス – 東京都千代⽥区永⽥町2-11-1 ⼭王パークタワー3F Ã 社員数 – 20名弱(2017年7⽉現在) – Apache Spark、HBaseの書籍執筆者も在籍 – ⽇本初のApache NiFi コミッタ/PMCも在籍 Ã ビジネスモデル – サブスクリプション(サポート) – プロフェッショナルサービス – トレーニング Ã パートナー(エコモデル構築中) – 12社の販売パートナーと 拡⼤するエコシステムパートナー Ã お客様(急拡⼤中) – ⾦融、保険、⾃動⾞、⼩売・卸売、通信、 サービスをはじめとした先進的なお客様
  • 16. 16 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 次世代データアプリケーションを⽀えるプラットフォーム INTERNET OF ANYTHING 蓄積されたデータ流れているデータ セキュリティ脅威の監視 判断・行動の ための情報 HDFHortonworks DataFlow HDPHortonworks Data Platform HCPHortonworks Cybersecurity Platform 次世代データアプリケーションÃ 最適な保健料⾦の選定システム Ã 故障予測サービス Ã サイバーセキュリティ Ã スマートメータ連携システム Ã レコメンドシステム Ã その他、インダストリーアプリケーション DSX Data Science Experience BigSQL HDB DPSDataPlane Service SQL処理 エンジン データ サイエンス データの管理、ガバナンス、カタログ
  • 17. 17 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks Data Platform (HDP) データ分散処理ソフトウェアの「Apache™ Hadoop®」や「Apache Spark™」等の オープンソースソフトウェアをベースとし、セキュリティやガバナンスを強化した 次世代データプラットフォーム
  • 18. 18 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks DataFlow (HDF) データフローの管理する「Apache NiFi」、メッセージングシステム「Apache Kafka™」や リアルタイムデータ処理分散ソフトウェアの「Apache Storm」等をベースとした、 次世代リアルタイムデータ処理ソフトウェア
  • 19. 19 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Data Services and Integration Layer ModulesReal-time Processing Cyber Security Engine Telemetry Parsers Hortonworks Cybersecurity Platform (HCP) Telemetry Ingest Buffer Telemetry Data Collectors Real-time Enrich / Threat Intel Streams Performance Network Ingest Probes / OtherMachine Generated Logs (AD, App / Web Server, firewall, VPN, etc.) Security Endpoint Devices (Fireye, Palo Alto, BlueCoat, etc.) Network Data (PCAP, Netflow, Bro, etc.) IDS (Suricata, Snort, etc.) Threat Intelligence Feeds (Soltra, OpenTaxi, third-party feeds) Telemetry Data Sources Data Vault Real-Time Search Evidentiary Store Threat Intelligence Platform Model as a Service Community Models Data Science Workbench PCAP Forensics Threat IntelligenceEnrichment Indexers and WriterProfiler Alert Triage Cyber Security Stream Processing Pipeline 「Apache Metron」をベースにした リアルタイムセキュリティ脅威監視基盤ソフトウェア
  • 20. 20 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks DataPlane Service 基本サービスとして、データの管理、セキュリティ、ガバナンスを、 また、拡張サービスとしてディザスタリカバリサイトの構築などを提供 Ã 基本サービス – データソースインテグレーション – データサービスカタログ – セキュリティ管理 Ã 拡張サービス – ディザスタリカバリサイトの構築、 バックアップ・リストアなど
  • 21. 21 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Data Science Experience (DSX) Ã データサイエンスに携わる全てのユーザ様向けのプラットフォーム Ã データ分析に必要な環境をAll In Oneで装備し、分析のサイクルを⼀気通貫 Ã データサイエンスを組織としてまわすために必要なコラボレーション機能 Ã Sparkを梱包しているためビッグデータ処理も対応 多様なデータ・ソースへ のアクセス機能 Python, R, SPSS ⾃動化された機械学習 API化
  • 24. 24 © Hortonworks Inc. 2011 – 2016. All Rights Reserved ビッグデータ分析 Ã アドホック分析(バッチ処理) Ã インタラクティブ分析(BIを使った分析) Ã リアルタイム分析 Ã データサイエンス(機械学習)
  • 25. 25 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworksが提供する製品、サービス、ソリューション ソリューション データウェアハウス 最適化ソリューション IoT・ストリーミング 分析ソリューション データサイエンス・機械学習 サイバーセキュリティー オンプレミス Hortonworks Data Suite HDFHDP クラウド Hortonworks Data Cloud AWS Azure サービス サブスクリプション トレーニング プロフェッショナルサービス コミュニティ HCP DPS IBM
  • 26. 26 © Hortonworks Inc. 2011 – 2016. All Rights Reserved データ活⽤のためのプラットフォーム スループット ⾼ 分析⽤途・バッチ処理 レイテンシ 低 オンライン処理 NoSQL Data Warehouse Hadoop Spark RDB スケールアウト型 スケールアップ型 ビッグデータ分析の為のプラットフォーム
  • 27. 27 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 分析ツール ⾮構造化データ ソーシャルデータ、 アクセスログ、セン サーデータ、画像、 ⾳声、動画 データの収集、変換、 ロード データの 蓄積、加⼯、変換 構造化 データ ⾮構造化 データ データウェアハウス領域 データウェアハウス(DWH)とは、意思決定のために、基幹系などの複数システムから、 必要なデータを収集し、⽬的別に再構成して時系列に蓄積した統合データベース データウェアハウスのみで構築された分析基盤 構造化データ ERP, CRM, SFA
  • 28. 28 © Hortonworks Inc. 2011 – 2016. All Rights Reserved データの収集、変換、 ロード 構造化データ ERP, CRM, SFA 構造化データ ERP, CRM, SFA 構造化データ ERP, CRM, SFA 分析ツール ⾮構造化データ ソーシャルデータ、アク セスログ、センサーデー タ、画像、⾳声、動画 データの 蓄積、加⼯、変換 構造化 データ ⾮構造化 データ データウェアハウス領域 データサイズが増加してくると データウェアハウスのみで構築された分析基盤 ⾼負荷による パフォーマスの低下 バイト単価、 拡張コストが⾼い
  • 29. 29 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 構造化データ ERP, CRM, SFA 構造化データ ERP, CRM, SFA 分析ツール データマイニング、 OLAP、分析 Hadoopとデータウェアハウスを利⽤したデータレイクの構築 構造化データ ERP, CRM, SFA ⾮構造化データ ソーシャルデータ、 アクセスログ、セン サーデータ、画像、 ⾳声、動画 データの収集、変換、 ロード 使⽤頻度が⾼いデータ の蓄積 ⼤量のデータの蓄積、 加⼯、変換 負荷軽減 バイト単価、 拡張コストの削減 アクティブ アーカイブ 構造化 データ ⾮構造化 データ データウェアハウス Hadoop / Spark 古いデータ 構造化 データ ⾮構造化 データ バッチ処理 データサイエンス Hadoop / Spark
  • 30. 30 © Hortonworks Inc. 2011 – 2016. All Rights Reserved データの特性と最適化 パターン・データ特性 ビッグデータプラットフォーム データウェアハウス データ タイプ 構造化・⾮構造化データ センサーデータ、ログデータ、 GPSデータ、SNS等 構造化データ 既存のRDBMS内のデータ 粒度 明細データ (時系列データ) サマリデータ (アクティブデータ) 頻度 経年データ アクティブデータ ETL ETL処理前の⽣データ ETL処理後のデータ 出典: http://www.oracle.com/webfolder/technetwork/jp/ondemand/ddd2015/d2.pdf
  • 31. 2億〜3億のコスト削減効果 例)データウェアハウスの最適化による効果 DataBaseName TableName TotalSpace % of Total POS_stg_t WKLYSTDSLS_CY_TODTSLSM_WRK 986,852,299,264.00 20% POS_stg_t WKLYSTDSLS_PY_TODTSLSM_WRK 906,358,553,600.00 18% POS_stg_t RTLRLCTNUPC_PY_TODTSLSSUM_WRK 558,447,764,480.00 11% POS_stg_t WKLYSTDINV_CY_TODTIVSM_WRK 540,368,327,168.00 11% POS_stg_t WKLYSTDINV_PY_TODTINVM_WRK 484,821,922,816.00 10% POS_stg_t RTLRLCTNUPC_CY_TODTINVSUM_WRK 101,472,976,896.00 2% POS_stg_t RTLRLCTNUPC_PY_TODTINVSUM_WRK 91,157,211,648.00 2% POS_stg_t GC_RTLCTUPC_CY_TODTSLSM_WRK 85,373,838,848.00 2% POS_stg_t GC_DLYSTDSLS_CY_TODTSLSM_WRK 72,633,830,400.00 1% EIS_STG_T COSTTOSERV_IHC_HINV_DC_SNPSHT 63,218,278,912.00 1% POS_stg_t GC_RTLCTUPC_CY_TODTINVSM_WRK 54,366,413,312.00 1% EIS_STG_T GLPCT_3_D_XI 49,531,698,688.00 1% POS_stg_t RTLRLCTNWKLYSTDSLS_DUPFIX 37,980,525,056.00 1% POS_stg_t GC_DLYSTDINV_CY_TODTIVSM_WRK 30,743,950,848.00 1% EIS_STG_T NA_SLSREPLENSUM_STG 28,213,997,568.00 1% EIS_STG_T MRP_BRDG_FINAL_WRK 24,782,743,552.00 0% POS_stg_t RTLRLCTNSTDINV_DUPFIX 24,287,258,624.00 0% POS_stg_t CEE_DLYSTDSLS_CY_TODTSLSM_WRK 24,202,200,576.00 0% EIS_STG_T PCA_ACCTTRCN_PRA_TMP 20,614,854,656.00 0% EIS_STG_T VBPA_D_XF 18,911,294,464.00 0% EIS_STG_T DC_SHIPPED_SO 18,598,648,832.00 0% EIS_STG_T MBEW_D_XF 17,003,064,320.00 0% EIS_STG_T VBUK_A_XI 16,461,577,728.00 0% POS_stg_t CEE_RTLCTUPC_CY_TODTSLSM_WRK 16,426,828,800.00 0% Other 1118 Tables … … 15% Data Usage AssessmentWorkload Assessment Activity by Statement Type Type of Query Number % of Total CPU-Seconds % of CPU Time INSERT 2,163,136,131 92.1% 240,812,253.82 19.3% UPDATE 52,344,296 2.2% 42,413,219.89 3.4% SELECT 38,665,660 1.6% 729,062,676.19 58.5% DELETE 1,305,055 0.1% 50,298,641.10 4.0% COMMIT 3,439,167 0.1% 138,764.37 0.0% BEGIN TRANSACTION 1,915,768 0.1% 0.00 0.0% END TRANSACTION 5,210,204 0.2% 237,921.86 0.0% HELP 61,948,690 2.6% 6,782,016.06 0.5% SET 0 0.0% 0.00 0.0% DROP TABLE 1,267,422 0.1% 659,878.90 0.1% CHECKPOINT 288 0.0% 0.37 0.0% CALL 3,261,130 0.1% 0.00 0.0% CREATE TABLE 154,634 0.0% 6,430,347.07 0.5% DATABASE 2,155,133 0.1% 6,466.52 0.0% EXECUTE 16 0.0% 0.00 0.0% OTHER… 14,771,490 0.6% 169,415,346.97 13.6% 更新、インサート系のワークロードが 90%以上、20%以上のCPU利⽤率 利⽤していないテーブルが5TB以上 • ETLバッチ処理をHadoopにオフロード • 利⽤していないテーブルをHadoopに移動
  • 32. データウェアハウスとのコスト⽐較 Solution Cost/Terabyte SAP HANA $800K - $1000K Teradata $80K - $150K IBM Netezza $40K - $55K Oracle Exadata $30K - $50K HDP $0.7K -$4K Teradata and Hadoop Cost Component (Per TB)Teradata offload can save customers 65% - 90% of their IT cost related to Teradata; Typical savings are about 85%
  • 33. アクティブアーカイブ Ã 概要 – あまり使われないデータを Hadoopにオフロード – あまり使われないデータを蓄積する為に データウェアハウスやテープデバイスを利 ⽤しない – オフロードは、ScoopやSyncsort DMX-h で⾏う Ã 利点 – あまり使われないデータを低コストで蓄積 – テープなどのデバイスに蓄積するのと異な り、オフロードしたデータもリストアする ことなしにアクセス可能 – データウェアハウスに蓄積されていたデー タが、データレイクに蓄積されている他の データ(ロケーション、ソーシャル、ク リックストリーム)とクロス分析可能 Source: https://community.hortonworks.com/articles/102519/a-reference-architecture-for-enterprise-data-wareh.html ユースケース
  • 34. EDW オフロード Ã 概要 – ETL処理をEDWからHadoopにオフロード – ⽣データはデータレイクに蓄積 – 整形されたデータはHive LLAP Tableとし て利⽤ – 構造化データはデータウエアハウスへエク スポート Ã 利点 – ⽣データはデータレイクに低コストで蓄積 – データサイエンティストは、データレイク にアクセスし様々なデータを利⽤可能 – データウェアハウスでの分析パフォーマン スの向上 – ETLのパフォーマンスも向上 Source: https://community.hortonworks.com/articles/102519/a-reference-architecture-for-enterprise-data-wareh.html ユースケース
  • 35. BI on Hadoop à 概要 – データウェアハウスを Hadoop上のOLAP により置き換えるモデル à 利点 – ユースケースは、EDWオフロードとほぼ 同じ – OLAPクエリはデータレイクでダイレクト に実⾏ – Hadoop上のOLAPにより、⾼コストな既 存のOLAPシステムを置きかえることが可 能 Source: https://community.hortonworks.com/articles/102519/a-reference-architecture-for-enterprise-data-wareh.html (Jethro, Druid) ユースケース
  • 36. IoT・ストリーミングデータの分析 ストリーミン グデータ エッジ データ ストリーミングデータの分析 データレイク 蓄積データの分析 Hadoop環境にて 全データを格納 データ 収集 ① 定期的にデータをアップロード(例:Weekly / Monthly etc) ② 過去データを使⽤したパター ン・分類・予測モデルの作成 ③ 予測モデル・閾値の⽣成・実装 ④ 流れてくるデータを 予測モデルでスコアリング 警告・アクションを出す ⑤ 緊急性の⾼いデータを リアルタイムに加⼯・格納 EDW Hadoop ⾼頻度データは EDWに格納 データの収集 Hortonworks DataFlow データの蓄積、分析 Hortonworks Data Platform
  • 38. グローバル事例 データ活⽤による新規ビジネスの展開 運転傾向・⾞の使⽤環境に基づ いた柔軟な保険提案の実現 Ã Snapshot plug-in デバイスは 運転の詳細を収集 Ã Progressiveは、1000万マイル以上の 運転データを保存 (約1600万Km) Ã Webアプリ経由で、顧客は⾃⾝の 運転詳細を⾒ることができ、 安全向上に努めることが可能 Ã Snapshotとusage-based insurance は2014年には、Progressiveに26 億 ドルの貢献(約2730億円) Innovate Renovate Claims Notes Mining Individual Driving Histories Usage-Based Insurance (UBI) Web Log Analysis Online Ad Placement Sensor Data Ingest PREDICTIVE ANALYTICS A C T I V E A R C H I V E D A T A D I S C O V E R Y D A T A D I S C O V E R Y D A T A D I S C O V E R Y E T L O N B O A R D Safe Roads 既存データの 可視化 データ拡充 新規基盤構築 新規モデル作成 新規サービス 提供
  • 39. グローバル事例 スマートメーター活⽤による新しいマーケティング・顧客サービス 1.3 Million Smart Meters EDW Offload Mobile App for Customer Sites Ingest 300 GB per Day Product Cross-Sell データ活⽤による新しい 電⼒提供サービス スマートメーターによるデータ 量増加に対応した環境構築 年数回の顧客訪問(検針) →13万個のスマートメーター 数億円のDWHコスト最適化 11時間かかっていたETL処理を 45分に削減 個客に応じた新たなサービス ⾰新的サービスを主体としたビ ジネモデルに変⾰ Innovate Renovate Smart, Efficient Homes D A T A D I S C O V E R Y D A T A E N R I C H M E N T P R E D I C T I V E A N A L Y T I C S S I N G L E V I E W A C T I V E A R C H I V E E T L O N B O A R D SINGLE VIEW S I N G L E V I E W P R E D I C T I V E A N A L Y T I C S On-site customer data capture Optimized engineering schedule Tailored servicing Customer sentiment 既存環境の最 適化・可視化 データ拡充 予測分析 Data Discovery 新規サービス 提供
  • 40. システム統合プロジェクトに伴うデータ分析基盤の刷新 Hadoopの活⽤で住環境の「安⼼・安全・快適」を⽬指す Ã 5社システムの統合 Ã 基幹システムと情報システムの連 携 Ã 住宅IoTデータへの対応 導⼊背景 Ã 低コストで⼤容量システムを構築 Ã ITガバナンスの管理実⾏ Ã 情報分析データ活⽤の検証 導⼊効果 システムアーキテクチャ 2つのシステム組み合わせ、双⽅の利点を活かすことで、⼤容量データを 効率的かつ安価に処理できる基盤を構築 HDP: 統計分析・機械学習などの⾼度な分析を拡張性が⾼く、低コストに実現 SAP HANA:超⾼速処理で業績管理を実現
  • 42. 「Yahoo!JAPAN」のデータ分析システムに Hortonworks Data Platformを採⽤ ビッグデータをビジネスで安定的に活⽤できる基盤の構築へ Ã 加速度的に増え続ける膨⼤なデータ Ã ⼤規模クラスタの運⽤が不安定 Ã 技術レベル向上の必要性 導⼊背景 Ã パフォーマンスの向上 Ã 3,000台を超えるクラスタの安定運⽤ Ã 社内技術者のレベル向上 導⼊効果
  • 43. ⼤⼿通信キャリアの膨⼤なデータを分析する基盤システム HDPによってビッグデータ活⽤の運⽤⼯数・コストを低減 Ã ⽇々発⽣する膨⼤なデータの取り扱い Ã 社内技術スキルの向上とナレッジの蓄 積 Ã 構築したシステムの最適化と効率化 導⼊背景 Ã Hadoopシステムの安定稼働 Ã Ambariによる運⽤プロセッスの効率 化 Ã ⼤量のデータを低コストで分散処理 導⼊効果 ソフトバンク株式会社様
  • 44. u 稼働中のトラックのリアルタイムな情報を、お客様のPC端末でチェックできるサービス u トラックから送られる⾞両情報を、三菱ふそうカスタマーアシスタンスセンターが受信し、お客様はインターネッ ト上のトラックコネクト専⽤ページにアクセスするだけで、現在位置や運⾏状況を把握することが可能 出典: http://car.watch.impress.co.jp/docs/news/1059805.html 三菱ふそうトラック・バス 株式会社様 ⾞両センサーデータを活⽤し⾼付加価値サービスの実現 Azure HDInsightを利⽤したテレマティクス基盤 三菱ふそうトラック・バス株式会社でのシステムアーキテクチャー
  • 45. 統合データレイクの構築にHortonworksを採⽤ ⽇産⾃動⾞株式会社様 Data Sources Big Data Platform Data Analytics Platform Data Integration Platform ESB MLlib Data Sources Data Mgmt. Platform Data Integration Platform Data Sources for Analytics Data Analytics Platform Hortonworks Data Platform LLAP Data Mart AMQP ETL Ã ⾛⾏データを⻑期保管するための インフラが必要 Ã サイロ化している社内データの統合 Ã さまざまなデータをクロスファンクショナル に活⽤するためのプラットフォームが必要 導⼊背景 サイロ化されたデータをデータレイクに統合 導⼊効果 Ã 社内のあらゆるデータを蓄積できる データレイクの構築を実現 Ã さまざまなデータ活⽤に対するニーズが向上 Ã IoT データ分析や、 グローバルデータレイクの構想
  • 46. 複数のデータソースを利⽤したデータ駆動型ビジネスの実現 Ã ⾃動販売機からのデータを もとに、最適な補填納品ルート を分析 Ã SAP HANAとHadoopでデータの 最適配置によるコスト最適化 Ã 複数データソースを集約し、 必要なビジネスレポートを⽣成 Ã サイトーサイト間で リアルタイムにデータを複製 出典: https://www.slideshare.net/DamienContreras/damien-contreras-futureofdata20170428 BW on HanaHadoop Prod Nifi Prod NiFi Prod Boomi Hive JDBC Drill IDOCS JDBC Flat files MySQL SAP ECC Other systems Other systems FTP JDBC HTTP HTML interface Power users Acquisition Transformation Restitution dt=20161024 dt=20161025 t_my_table_txt_p My_file_20161024.csv My_file_20161025.csv Myflow-data t_my_table_txt_p (External text tables) t_my_table_txt_p t_my_bridge_table_txt_p +Myflow-data (Database) t_my_report_orc_p (ORC tables) コカコーラ・イーストジャパン株式会社様 Picking list Visit Plan Online VM Offline VM Every day Yes NoNoArbitration Forecast generation
  • 47. 47 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks Data Platform (HDP)
  • 49. 49 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 動的カラムマスキング & ⾏レベルフィルタリング Country National ID CC No Name DOB MRN Policy ID US 232323233 4539067047629850 John Doe 9/12/1969 8233054331 nj23j424 US 333287465 5391304868205600 Jane Doe 9/13/1969 3736885376 cadsd984 Japan T30007873 4532488639863821 Ben Jackson 73/1975 876392473A KK-287365 Ranger Policy Enforcement Country National ID CC No MRN Name US xxxxx3233 4539 xxxx xxxx xxxx null John Doe US xxxxx7465 5391 xxxx xxxx xxxx null Jane Doe Country National ID Name MRN Japan 232323233 John Doe 8233054331 Users from US customer support groups see row filtered data for US persons with CC and SSN as masked values and MRN is nullified Japan Health Policy Admins view relevant columns of data unmasked but are restricted by row filtering policies to see data for Japan persons only
  • 53.
  • 54.
  • 55.
  • 57. 57 © Hortonworks Inc. 2011 – 2016. All Rights Reserved まとめ Ã ビッグデータ分析 – BIによるデータ分析、アドホック分析、リアルタイム分析、機会学習 Ã BIによるビッグデータ分析 – データウェアハウスのみの環境では、コスト、パフォーマンスの観点で不安 – データウェアハウスとApache Hadoopとそのエコシステムを併⽤した環境が注⽬ – 技術の進歩により、データウェアハウスを必要としない環境も可能
  • 58. 58 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworksを始める為の5ステップ 1. Hortonworksサンドボックスを試す hortonworks.com/sandbox 2. チュートリアルを試す hortonworks.com/tutorials 3. Future of Data 勉強会に参加する futureofdata.connpass.com 4. Hortonworks Community Connect (HCC)に参加する hortonworks.com/community 5. サポートサービスを検討する http://hortonworks.com/support
  • 59.
  • 60. 1 . . 4 . 4 . . . E C 1 1/ . . 44 . お問い合わせ先 ホートンワークスジャパン株式会社 TEL:03-6205-3284 住所: 東京都千代⽥区永⽥町2-11-1 ⼭王パークタワー3F info-jp@hortonworks.com http://jp.hortonworks.com