More Related Content Similar to 【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション (20) More from Dell TechCenter Japan (19) 【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション1. COPYRIGHT 2013 @ ITOCHU TECHNO-SOLUTIONS CORPORATION
ビッグデータ時代の経営を支える ビジネスアナリティクスソリューション
2014年10月15日 3. …
3
企業におけるビッグデータ活用への取組み状況
活用可能なデータ の検討
(1)ビジネス課題の解決に 本当に利用できるか? (2)どの領域から まずは始めていくか?
ビッグデータを支える 技術の調査
昨年までの傾向
ビッグデータ活用の 検討段階
最近の傾向 ビッグデータ活用の 実践段階へ
経営層/現場部門の 実務課題に適用
基幹系トランザクション
WEBアクセスログ
コールセンターログ …
社内オフィスデータ
SNSデータ
センサーデータ …
統計解析技術の多様化
法則・パターンの自動抽出
ビジュアル技術の高度化 …
全件・大容量処理
リアルタイム処理
DWH/Hadoop、クラウド
モバイル・タブレット …
構造化データ + 非構造化データ
企業内データ
+ 外部データ
IT基盤技術
分析技術 4. …
4
事例1 通信販売会社様 課題抽出
【課題抽出結果】データ分析業務に関連する業務課題
広告やダイレクトメールなどのプロモーション 施策の効率を上げて、より低いコストで売上を 獲得したい
販売予測、需要予測の精度を高めて廃棄コス トや機会損失を減らしたい
カタログよりもコストがかからない、Web経由 での販売を強化したい
トライアル分析を実施 プロモーション効率を向上させたい
-お客様概要‐ カタログ・インターネット通信販売 5. …
5
事例1 通信販売会社様 データ分析
•相関分析や決定木などを使い、過去に購入した顧客・購入しない顧客の特徴を把握。
年齢、購入金額、購入回 数などで、購入にしやす い人の特徴を分類
「購入」に直接相関が ある要素は?? 6. …
6
事例1 通信販売会社様 データ分析
データ
分析手法
過去に購入した顧客の 「特徴把握」
分析結果
×
•郵送DMは1通あたりのコストがかさむため、できるだけ「購入してくれる人」に対して送りたい
•ダイレクトメールの配信先の選定をデータマイニング結果を用いて実施する
個人属性
年齢 性別 居住地 家族構成 未婚・既婚 年収、など
購買履歴
会員レベル 購入商品 購入単価 購入時期 DMによる購買 など
今後購入してくれる人の 「予測」
相関分析/決定木
+ 重回帰分析
ランダムにターゲット顧客 を選択した場合の レスポンス率
データ分析の結果を用いて ターゲット顧客を選択した 場合のレスポンス率 7. …
7
事例1 通信販売会社様 成果
担当者の経験値
によるターゲット 顧客選定
今までのやり方
データ分析後
スコアリング による ターゲット顧客選定
売上約10%UP
•データ分析の結果を用いてダイレクトメールの送付。
•結果、より精微で定量的なターゲット顧客選定による売上増を実現
購入品
購入回数
購入時期
購入単価
購入品数
性別
年齢
会員レベル
居住地
世帯年収
家族構成
未婚・既婚
通販事業収益への貢献 8. …
8
事例2 旅行サービス業 課題抽出
-お客様概要‐ 旅行代理店業(インターネットでツアー旅行販売)
【課題抽出結果】データ分析業務に関連する業務
•訪問数、検索数はそれなりに多いが、購入者の割合がなかなか 上がらない
•購入者が何を基準に予約を決定しているのかがわからない。 価格だけで優劣を決めているのか?特定の商品が有効なのか?
•Webアクセスログは分析するのが煩雑
トライアル分析を実施
購入者の行動ルールを把握し、もっと購入してもらえるサイトにしたい 9. …
9
事例2 旅行サービス業様 データ分析
データ
分析手法
購入者の行動に特別なルールを見つける
分析目的
×
•Webログデータを溜める仕組みは事前に整備
•特定商品(ex.韓国ツアー) を購入した人の行動分析を実施
顧客属性
年齢 性別 都道府県 家族構成 etc
決定木
商品情報
価格
目的地
予約日 出発日 etc
行動情報
ログイン数 検索回数 訪問時期 流入ページ etc
決定木分析イメージ 10. …
10
事例2 旅行サービス業様 成果
トライアルデータ分析 での成果
今後に向けて
さらに・・・
データに対する社内の意識が高まった
旅行予約サイト 売上シェアNO1へ
購入者の購買ルール分析に必要な データ収集方法が分かった。 現状Webサイトの問題点が判明
継続的な行動分析と、 サイト設計改善により レコメンデーションの最適化へ 12. …
12
ビッグデータ活用のお悩み、進め方ポイント
どこから着手すれば良いか分からない?
ビッグデータ適用
2. データ・システム
分析に必要なデータが利用で きる状態になっていない。
どのようなデータを集めて良 いか分からない。
現行課題に新技術を使いたい が本当に使えるか不安である。
3. 分析スキル・人材
分析を行うためのリソース (人/スキル) が不足している。
分析結果が上手く出せない。 高度な分析が行えない。
分析が個人に依存しており、 標準化ができない。
1. ビジネス活用
ビジネス部門でどのような情 報活用ニーズがあるか整理で きていない。
分析結果を業務でどう活用で きるかがイメージできない。 実務で使えるか不安である。
…
…
…
データの詳細な調査
IT基盤の問題点整理
業務課題とデータ活用 のニーズ紐付け
分析ナレッジの蓄積 (必要なものから順に)
どこに効果があるか を見極める!
初めに着手 13. …
13
課題抽出 データ分析業務の現状整理
ビジネス/業務
からのアプローチ
システムデータ
からのアプローチ
(C) データ分析/活用状況の評価
(A) データ分析業務の課題整理
【貴社】【平均】
【貴社】【平均】
63% 70%
D C
・現在のデータ分析を行う上での人的リソース、スキル面での問題は無い。
Xxxとxxxのツールを使っている。
・高度な分析(重回帰分析)にも着手しているが、xxxが弊害となっており浸
透しきれてない。
・ユーザー部門によるデータ活用は進んできているが、結果を活用した施策
の効果がみえていない
・データ活用が進んでいる部署とそうでない部署が混在している。全社的な
取り組みとなっていない。
・業務の中でデータ分析の結果を活用する仕組みは存在する。
・xxxxxxxxxxxxxxxは共有できているが、xxxxxxxxxxxxxxのスキルは属
人的である。
64%
・分析に必要なシステム基盤は導入済み
・xxxのパフォーマンスに一部課題があるため、リプレースを検討中
A,分析対象データ60%
・現在のデータ分析に支障があるような問題はないが、xxxxのデータは整
理されておらず、xxxxxはできていない
・xxxxの切り口で分析するためのxxxとxxxのデータが存在していない
B.分析スキル50%
総合評価 成熟度 データ活用状況
A 90%以上 データ活用が企業の競争力になっている
B 80%以上、90%未満 データ活用が業務に役立っている。データ活用の効果が出てきている
C 70%以上、80%未満 データ活用を実践しているが、十分に業務に活かせてない
D 60%以上、70%未満 データ活用に着手しているが、試行錯誤状態 うまくいっていない
E 60%未満 データ活用はほぼ未着手
参考
C.システム基盤75%
D.ビジネス活用67%
データ活用成熟度(%)
データ分析成熟度(%) 評価軸コメント
総合評価
コメント
総合点
評価
76%
63%
77%
67%
E.標準化・定型化64%
<総評>
xxxxにおける業務は問題なくおこなえており、xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx。
<現行の分析業務における主な課題>
・傾向分析など基本的な分析は行えているが、付加価値の高い分析が出来ていない。
・xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
・xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
<より高度なデータ分析業務に向けて>
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
0%
20%
40%
60%
80%
100%
A. 分析対象データ
B. 分析スキル
D. ビジネス活用C. システム基盤
E. 標準化・定型化
平均
貴社
着手すべきデータ活用のテーマを決定し、改善に向けての具体策をご提案します
• 所有データやデータ分析・活用状況を可視化。業務におけるデータ分析業務の課題を洗い出します。
提供期間:2週間~
(B) システムデータの洗出し結果
14. …
14
トライアルデータ分析
顧客戦略
プロモーション
最適化
サービス開発
営業リソース
生産性向上
需要予測精度
予防保守
品質管理
業務効率化
③テキストマイニング
文章の話題傾向、属性毎の特徴表現、
好評・不評内容を明らかにします。
[ 分析テーマ ] ① 予測・スコアリング
ある事象が起きる確率を予測し、
成功確率の高い対象を明らかにします。
②クラスタリング・分類
似ているデータをグループ化し、
グループ毎の特徴を明らかにします。
会員番号 予測レスポンス率
1663822 0.763
5459434 0.757
2455845 0.752
3004645 0.752
1400219 0.623
4504307 0.522
• データ分析でどんな結果が出るか検証をしたいお客様向けのサービスです。
データ分析で解決できる様々なテーマにお答えします。
お客様どんなデータを使いどういう分析ができるのか、データ分析の勘所がわかります。
提供期間:2週間~
16. …
16
アナリティクスとは?
ビジネスインテリジェンス
•アラート
•OLAP
•アドホック検索
•定型レポート
ビジネスアナリティクス
•最適化
•予測型モデル
•フォーキャスティング
•統計解析
• 「見る」「知る」「予測する」を実現し、プロアクティブな意思決定を 17. …
17
アナリティクスとは?
フォーキャスティング(時系列予測)
わかること: この傾向が継続するとどうなるか?どれだけ 必要か? いつ必要とされるか?
例: 小売業は特定製品の需要を店舗別に予測し、在庫 量を適切なレベルに保ち、欠品や不良在庫を削減し ます。
予測型モデル わかること: 次にどのくらいの確度で何が起きるか? それはどの程度、経営に影響するか? 例: VIPがどのレジャー提案に反応するか、ホテルやカジノ が予測します。
最適化
わかること: 最善・最適な対処方法は何か? 複雑な問 題にベストな選択はどれか?
例: 限られた経営資源の下で、リターンを最大化するセー ルスプロモーションの組み合わせを見つけ出します。
統計解析 わかること: これがなぜ起きたのか?どんな機会を逸し たのか? 例: 住宅ローンを借り換える顧客が増えている理由を 発見します。
• 「見る」「知る」「予測する」を実現し、プロアクティブな意思決定を 20. …
20
BIシステム vs BAシステム
DWH(Data WareHouse)
BI
SQL文の実行 分類・集計をデータベースが行う
抽出、集計の条件
SQL
合計値
AWH(Analytics WareHouse)
BA
分析 ・全データスキャン ・統計アルゴリズム ・モデリング ・比較・評価
Memory
Memory
Memory
Memory
モデル+条件
アラート
OLAP
アドホック検索
定形レポート
最適化、予測型モデル
統計解析
フォーキャスティング
膨大な 計算量
X100
X1000
予測値、最適値
従来型BIシステム
Analyticsシステム 21. …
21
ビックデータを数秒で分析する為には
ビックデータ(数百GB~数TBのデータ)を
数秒で分析・予測を行うためには?
高性能のハードウエアを使用する(CPU/Core、メモリを多く搭載)
Hadoopを利用してデータを分散、並列分散処理を行う。
Gridコンピューティング技術を使いSASの分析・予測機能を並列分散処理を行う。
ビジュアルに優れユーザに解りやすい表現、データより新しい発見ができる表現をする。
In-Memory Analytics ・ Visual Analytics 22. …
22
高性能のハードウエアの技術要素
•ハードウエア技術要素
CPU Core数 16Core/1ブレード (32スレッド/1ブレード)
Memory 大容量搭載 256GB/1ブレード
※numaアーキテクチャ
OS 64Bit版 アドレス空間の拡大
Network 10Gb データ転送の高速化
Blade 集約実装 実装・運用管理が容易
•ソフトウエア技術要素
Hadoop HDFS 分散ファイルシステム
Map/Reduce スケールアウト
Grid TKGrid 並列分散処理
DELL PowerEdge
VRTX+M620
SMPにおけるメモリアクセスステップ [root@GRID00 ~]# numactl --hardware available: 2 nodes (0-1) node 0 cpus: 0 2 4 6 8 10 12 14 16 18 20 22 node 0 size: 65458 MB node 0 free: 334 MB node 1 cpus: 1 3 5 7 9 11 13 15 17 19 21 23 node 1 size: 65536 MB node 1 free: 72 MB node distances: node 0 1 0: 10 20 1: 20 10
SASでは、High-Performance Analyticsを実現する為に 最新のH/W技術、S/W技術を
有効に使用して Visual Analyticsソフトウエア開発しました。 23. …
23
Hadoopを利用してデータを分散 インメモリー分析エンジン
廉価なブレードサーバーで、コス トパフォーマンス向上
ブレードサーバーを活用し、データ 量増加に柔軟な拡張で対応
Server Tier / Mid Tier
Blade 1
Blade 5
Blade 4
Blade 3
Blade 2
Memory
Memory
Memory
Memory
データをHDFSに均等分散配置後、 並列でメモリーへ高速ロード
各ノードで、大量データに対する 分析処理を超高速並列実行
同時解析項目数など、制限の無 いインメモリー分析エンジン
正確な意思決定、的を得たアク ションの迅速化で成果を出す!
Data Source
ERP
CRM
SCM
SFA
Web
・・・
Oracle(Exadata)
DB2
SQL Server
Teradata
Netezza
Flat_file
HDFS
HDFS
HDFS
HDFS
HDFS*1
HDFS*1
HDFS*1
HDFS*1
Distributed版分散イメージ図 24. …
24
表現力 Visualization
•ユーザに解りやすく伝える、多彩な表現オブジェクト
•強みや問題点、など新しい気づきを与える多彩な表現オブジェクト
設備の信頼性と保全
スマートメーター管理
Mobile (iPad & Android)
時系列予測
回帰分析
多彩な表現
オブジェクト
データ探索
ワークベン チ
ネットワーク可視化と不正検知
疾病管理 25. …
25
SAS Visual Analytics システム構成
SASVA Root-Node
SASVA Worker-Node
10Gb Network
DELL PowerEdge
VRTX ブレードエンクロージャ
インテル® Xeon®プロセッサーE5-2600V2x 2 (16Core)
メモリー256GB HDD:1TBx2(SAS-10Krpm
Redhat Enterprise Linux 6.2(64Bit)
SAS LASR Server
Hadoop HDFS
SAS Server
Web APP Server
インテル® Xeon®プロセッサーE5-2600 x 2 (12Core) メモリー128GB HDD:900GBx2(SAS-10Krpm
Redhat Enterprise Linux 6.2(64Bit)
SAS LASR Server
Hadoop HDFS
HDFS
In-Memory
サーバ間の内部 通信はバックプ レーンの10Gb Ethernetを使用
In-Memory LASR Analytics Server
DELL PowerEdge M620 (x4) インテル® Xeon®プロセッサーE5-2600v2 x 2 (16Core) メモリー256GB HDD:1TBx2(SAS-10Krpm) 26. …
26
SAS LASR Server 構成要素
LASR Analytics Server (Root Node)
Hadoop (Name Node)
データ管理にHadoopHDFSをそのまま使用する。
データ処理にはHadoopのMap/Reduceを使用せず、独自に開発したTKGridによる LASR Analytics Server RootNode/WorkerNodeを搭載する。
Root Node
TKGrid RootーNode (並列分散処理)
LASR Analytics Server (Worker Node)
Hadoop (Data Node)
Worker Node
TKGrid WorkerーNode (並列分散処理)
■参考:標準Hadoopの起動
[hadoop@master bin]$ /usr/local/hadoop/bin/start-all.sh
This script is Deprecated. Instead use start-dfs.sh and start-mapred.sh
starting namenode, logging to /var/log/hadoop/hadoop-sample-namenode-master.out
slave3: starting datanode, logging to /var/log/hadoop/hadoop-sample-datanode-slave3.out
slave1: starting datanode, logging to /var/log/hadoop/hadoop-sample-datanode-slave1.out
slave2: starting datanode, logging to /var/log/hadoop/hadoop-sample-datanode-slave2.out
[root@Blade00 TKGrid]# cat /opt/TKGrid/grid.hosts
Grid00
Grid01
Grid02
Grid03
Map/Reduceを停止し、 TKGridを起動する。
Hadoop接続
Grid接続
Grid接続
In-Memory & Processing
In-Memory & Processing
Data Management
Data Management 27. …
27
データ探索処理
LASR Monitor
JBoss
WorkSpace Server
LASR Server(RootNode)
Metadata Server
Root Node
WorkerNodeごとのデータ探索実行指示
データ探索結果の取得
データ探索結果の集計、集計後の処理
LASR Server(WorkerNode)
Worker Node #1
Mem BLK
Mem BLK
Mem BLK
Mem BLK
Mem BLK
Mem BLK
Mem BLK
Mem BLK
Mem BLK
Mem BLK
thred
thred
thred
thred
thread
thred
thred
thred
thred
thread
データの探索実行
32スレット x メモリーBLK
の並列実行 x ノード数
3台のWorkerNode X 32スレット
= 96スレット
同時にメモリーBLKのデータに対し て分析処理を実行
全ノードのリソース監視
•1億件のデータでも数秒で分析できる。 31. …
31
BI/DWHの調達力 -多彩な製品調達-
CTCは、1994年よりビジネスアナリティクスの専門組織を立ち上げ、ビジネスインテリジェンスやデータウェアハウスを含むビジネスア ナリティクス領域での提案・導入活動を行っております。また、各メーカーと代理店契約を結び、コンサルティングから構築および保守ま で一貫したサービス提供にて、お客様へのシステム導入を実現し成功へと導いてまいりました。そのため、当該領域に関しては数百システ ムの構築実績がございます。
※以下、パートナー契約を保有する代表的な製品に絞って記載しておりますが、
その他製品の導入も豊富に行っています。
1994
1997
2006
1998
1999
2000
2003
HolysticSystems
SybaseIQ
RedBrickWarehouse
SPSSModeler(データマイニング)
InfoSphere(DataStage)
OracleDiscoverer
Actuate
CrystalDecisions
SagentSolution
Trillium
SAS
NetGenesis
BusinessObjects
JustSystem(テキストマイニング)
Qualica(テキストマイニング)
SVF,Dr.Sum
SpotFire
PureData(Netezza)
OracleBIEE
COGNOS
DWH/BI Comprtency Center開設
Visionalist
2009
2013
OracleExadata
EMC GreenPlum
ゴールドパートナー
シルバーパートナー
PureData System for Analytics 代理店(初期4社のうちの1社)
InfoSphere DataStage OEM契約 Cognos,SPSS代理店
Platinumパートナー PlatinumSpecialization認定 Exadata Database Machine Data Warehousing Business Intelligence
Tableau 32. …
32
ビジネスアナリティクス関連製品ポートフォリオ
インターネット
情報システム
ETL
分散処理
インメモリDB
統計分類
自然言語解析
M2M
マルチデ バイスUI
リモート アクセス
クローリング
検索
統合
蓄積
分析
表示
装置センサー
ビジネス
活用
経営 管理
製造
販売
在庫
品質
法則自動抽出
(クラスタリング、機械学習)
(Hadoop)
ス ト リ ー ミ ン グ
ETL/EAI/品質管理
•DataStage(IBM)
•BusinessGrosary(IBM)
•DataQuarity(Informatica)
•DI(Oracle)
•DI(SAP)
•DataSpider(APPRESSO)
•AsteriaWARP(Inforteria)
リアルタイム分析 (Streaming)
•Streams(IBM)
S/W(DBMS)
•Greenplum(EMC)
•SybaseIQ(SAP)
•MS SQLServer(MS)
•Oracle Database(Oracle)
クローリング
•BizRobo (OpenAsocieits)
S/W(Hadoop)
•BigInsight(IBM)
•GreenplumHD(EMC)
Appliance(DBMS)
•Greenplum(EMC)
•PureDataSystem forAnalytics(IBM)
•Exadata(Oracle)
InMemory(DBMS)
•HANA(SAP)
サービス(DBMS)
•RedShift(Amazon)
BusinessIntelligence
•BusinessObjects(SAP)
•COGNOS(IBM)
•OracleBIEE(Oracle)
•Tableau(Tableau)
•QlickView(QlickTech)
•SAS(SAS)
統計/データマイニング
•SAS(SAS)
•SPSS(IBM)
テキストマイニング
•VextMinver(Qualica)
•見える化エンジン (プラスアルファコンサルティング)
最適な製品選定をサポートします。 33. …
33
ビッグデータ・ビジネスアナリティクスソリューション全体像
品質管理
リスク管理
ヘルスケア
マーチャン ダイジング
スマートシティ
マーケティング
CRM/SCM
ERP
POS
Webログ 通話ログ
ソーシャル ネットワーク
センサー/ M2M
交通・気象・ 金融情報
クレジット 取引履歴
写真/動画
経営分析
製品開発
非構造化 データ
構造化 データ
データソース
データ収集・加工
データ入力・蓄積・検索
可視化・ レポーティング
ビジネス活用
②Realtime Processing
⑤DWH
⑥NoSQL/Hadoop
①ETL/EAI
④RDBMS
③Data Grid
ア プ リ ケ ー シ ョ ン ・ ミ ド ル ウ ェ ア
サ ー ビ ス
イ ン フ ラ
運用・監視 サービス
コンサルティング
分析サービス
検証サービス
構築サービス
設計サービス
⑦ デ ー タ マ イ ニ ン グ/ 統計
⑧BI/ レ ポ ー テ ィ ング
サーバ / ストレージ / ネットワーク 等