[db tech showcase Tokyo 2018]　#dbts2018 #D27 『Verticaの進化が止まらない！機械学習、データレイク、処理ノードの分離まで』

D27 16:30 - 17:15
Verticaの進化が止まらない！
機械学習、データレイク、処理ノードの分離まで
マイクロフォーカスエンタープライズ
シニアプリセールス
外岡海人
2018年9月20日（木）

アジェンダ：もう進化がとまらない！
 Vertica 基本的な技術
 実践的な機能の進化！
 データレイク連携の強化！
 進化した新アーキテクチャー EONモード（for AWS）
 機械学習をより使いやすく進化！

• Data volumes
• Level of scrutiny from courts
and regulators
• Number/types of orgs needing to
comply
• Global regulations
• Aging applications
• Litigation/investigations
Network
Management/
Data ProtectorCOBOL
40
years
新生Micro Focusグループ
30
years

90.0
37.7
26.4
8.9
6.5
4.8 4.4 4.1
3.6 3.5 3.4 3.2 3.0 2.6 2.5 2.3 2.3 2.2 2.2 2.2 2.0 2.0 2.0 1.9 1.8 1.8 1.7 1.6 1.4 1.3
Microsoft
Oracle
SAP
Salesforce
Adobe
Symantec
COMBINED…
CA
Dassault
Gemalto
Citrix
SAS
HPESW
Synopsys
RedHat
OpenText
Constellation
Asseco
Veritas
CDKGlobal
Autodesk
Infor
Nuance
BMC
Cadence
CheckPoint
Workday
ServiceNow
MicroFocus
TrendMicro
合併後のMicro Focus: 業界のリーダー
12位
HPESW
合併後…7位
MicroFocus
28位

IDOL
ビッグデータ
分析
広さと深さを備えた統合後のポートフォリオ
ワークロード移行
クラウド
Cloud Service
Automation、
Hybrid Cloud
Management
Digital Safe、Data
Protector、
Control Point、
Structured Data
Manager、
Storage Optimizer
Linuxと
オープンソース
セキュリティ
IDベースのアクセス
ガバナンスとセキュリティ
Unified Functional Testing
DevOps
Cobol開発、
ソフトウェアデリバリ、
テスト
IT運用
Service
Management、
Operations Bridge、
Data Center
Automation、
Network
Management
メインフレーム
ソリューション、
ITオペレーション管理、
ホスト接続、
コラボレーション
情報ガバナンス
Digital Safe、Data
Protector、
Control Point、
Structured Data Manager、
Storage Optimizer
エンタープライズLinux、
OpenStackプライベート
クラウド、ソフトウェア定義
ストレージ

はビッグデータ分析に関する課題を
解消するために開発された Mike
Stonebraker
※Postgresの開発者/
チューリング賞受賞
(2014年)

オンプレからクラウドまで柔軟なハイブリッドクラウド運用が可能。
Vertica Enterprise in the Clouds
• 仮想クラウドプラットフォーム上に素早く展開
• AWS, Azure, Googleなどマルチクラウドをサポート
• 柔軟でエンタープライズクラスのクラウドオプション
Vertica Enterprise On-Premise
• 列指向ストレージと高度な圧縮
• 最大のパフォーマンスと拡張性
• スキーマオンリードのフレックステーブルの活用
UNIFIED PLATFORM
• クラウド
• オンプレミス
• Hadoop
柔軟なライセンス提供モデル
ソフトウェア提供
様々なニーズに対応可能
Vertica 外部テーブルライセンス
（Parquet/ORCフォーマット用）
• Paquet/ORCの圧縮済みデータサイズに対して課金
• Premium Editionのライセンス単価1/4で安価に提供
• Vertica分析機能やSQL（ANSI準拠）を実行可能

世界で有数のデータドリブン企業が採用
- Ray Wang, Constellation Research, June 2015
“Digital Darwinism is unkind to those who wait.”

データ分析におけるデータベース製品のポジショニング
データ容量：大
拡張性：高
ﾊﾟﾌｫｰﾏﾝｽ
高い
データ容量：小
拡張性：低
ﾊﾟﾌｫｰﾏﾝｽ
低い
列指向RDBMS
OLAP用データベース
インメモリDB
Hadoopソリューション
クラウド型DWH
従来型の行指向RDBMS
参照頻度の高い大容量データを
多くの利用者が同時多重で分析
小容量のデータに対し、
高速レスポンスが必要な用途向け
コストは高額
OLTP用途として向いている
データ分析には不向き
少人数で利用する行錯誤的な分析用途
HW・SWコストは低い
運用コストは高い

A B D C E A
コア技術
列指向ストレージ
必要なデータのみ
を読み込み、分
析時間を高速化
高度な圧縮
データのI/Oを劇
的に削減し、最
大限のパフォーマ
ンスを発揮
MPPスケールアウト
性能ボトルネック
およびSPOFとな
るマスターノードを
排除し、高い拡
張性を提供
クエリー負荷の分散
すべてのノードで
クエリーを受け付
け、分析処理を
実行することが可
能
プロジェクション
クエリー性能を最
大限に発揮する
ためのデータ配置
の最適化

高度な分析機能
高度な分析がシンプルなSQLで実現
大規模なデータセットに
対し、ANSI99標準のSQL分
析機能を提供
SQL ‘99
Vertica独自の高度な分析用
関数を提供
– セッション化
– コンバージョン分析
– 異常検知
– 高速データ集計
SQL Extensions
ユーザーにて分析関数の作
成・開発が可能
– カスタム機械学習
– カスタムデータマイニング
– 様々なフォーマットのデー
タを取り込むためのParser
Udx SDKs
– パターンマッチング
– イベントシリーズジョイン
– タイムシリーズ
– イベントベースウィンドウ
– ライブアグリゲートプロ
ジェクション
– 集計関数
– 統計関数
– Window関数
– 日付関数
– 文字列関数
– 数値関数
開発言語
– C++
– Java
– R
– Python
接続
– ODBC/JDBC
– HIVE
– Hadoop
– Flex zone
大規模なデータセットに対
し、SQLで機械学習分析が
可能
– 予測分析
– 統計モデリング
– クラスター分析
– 地理空間分析
In-database Analytics
– 回帰
– 分類
– クラスタリング
– テキストマイニング
– Geospatial
VerticaのSQLベースの豊富な高度分析機能

実践的な機能の進化！

タイムシリーズ
できること:
 イベントを時系列で処理し、データク
リーニング、結合、パターンの検出な
どを行う
仕組み:
 Verticaがデータを独立したセットに
（ノード／CPU横断的に）パーティショ
ニングし、データをシーケンスに並べ
て、ストリーム分析を実施
使用例:
 不規則な間隔で読み込みしたメーター
の計測値を一定間隔に変換。その後、
チャートを作成。 0
2
4
6
8
10
12
14
0 2 4 6 8 10 12
Irregular Intervals
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12
Regular Intervals

イベントシリーズ結合
できること:
 時間が一致しないイベント同士をストリーム間
で相関させる
仕組み:
 パーティショニングを行い、シーケンス順に並
べる。ストリームの結合して補間を実施
使用例:
 株式の買値(Bid）と売値（Ask）が別々の時間に
届く・・・スプレッドを一つ前の売値と買値か
ら計算
32.1 32.5
32.4
32.4
32.3 32.4
32.5
32.6
32.7
Input
32.1 32.5
32.1 32.4
32.4 32.4
32.3 32.4
32.5 32.4
32.5 32.6
32.7 32.6
FULL OUTER
32.1 32.5
32.3 32.4
INNER
LEFT OUTER
32.1 32.5
32.4 32.4
32.3 32.4
32.5 32.4
32.7 32.6
32.1 32.5
32.1 32.4
32.3 32.4
32.5 32.6
RIGHT OUTER

イベントウィンドウ
できること:
 特定のイベントまたは変更を基準に、シー
ケンスをサブシーケンスに分割
仕組み:
 条件が満たされた場合、または値が変更さ
れた場合にナンバーをインクリメント
使用例：
 システムが再起動に基づいてログを分割。
ユーザーのアクティビティが15分間の
ギャップあった場合、ユーザーのクリック
アクションを別セッションに分割。

パターンマッチング
できること：
 条件に合致するイベントサブシーケン
スを見つけ、イベントパターンの発生
頻度を比較
仕組み：
 イベントにラベルを割り当て。順番に
並べられたパーティション内でイベン
トを見つけ、パターンに合致するすべ
てのシーケンスを取り出し
使用例：
 Fault_code_id「code_55」で始まり、2以
上の「other」で定義したログはパター
ン中間に出力され、「code_7」で終了
するログセッションを出力している一
連のログに「pattern_id」をフラグ出力
＜クエリ例＞：特定のエラーパターンにフラグする記述
select *, pattern_id(), match_id(), event_name()
from fault_code
match( partition by device_id
order by fault_code_time
define code_55 as fault_code_id = 55,
code_7 as fault_code_id = 7,
other as fault_code_id is not null
pattern p as (code_55 other* code_7) results all rows
);
fault_code_time | device_id | fault_code_id | severity | pattern_id | match_id | event_name
-------------------------+------------+---------------+----------+------------+----------+------------
2012-08-20 13:58:43.004 | 2677984834 | 55 | HIGH | 1 | 1 | code_55
2012-08-20 15:22:55.102 | 2677984834 | 7 | CRITICAL | 1 | 2 | code_7
2012-08-22 08:17:43.339 | 2677984834 | 55 | HIGH | 2 | 1 | code_55
2012-08-22 09:58:12.647 | 2677984834 | 230 | WARNING | 2 | 2 | other
2012-08-22 09:58:43.901 | 2677984834 | 230 | WARNING | 2 | 3 | other
2012-08-22 10:33:15.145 | 2677984834 | 7 | CRITICAL | 2 | 4 | code_7
2012-08-21 23:51:33.139 | 2789467886 | 55 | HIGH | 1 | 1 | code_55
2012-08-22 02:57:14.138 | 2789467886 | 275 | WARNING | 1 | 2 | other
2012-08-22 09:45:01.093 | 2789467886 | 7 | CRITICAL | 1 | 3 | code_7
＜実行結果＞：特定のエラーパターンにフラグする記述

フラッタンテーブル（Flattened Tables）
17
A B
Fact C
D
Fact_ABDC
Normalized Columns Denormalized Columns
 非正規化したテーブルの作成やメンテナンスを簡素化
 スタースキーマのJoin処理と比較し、高速パフォーマンスを実現
 フラッタンテーブルへのクエリ処理はJOIN処理無しで実行可能
 ディメンジョンを緩やかに更新する環境に最適
 非正規化したデータは、ライセンス利用としてカウントしない
正規化されたスタースキーマ非正規化したフラットスキーマ
Version 8.1からサポート
プリジョイン
プロジェクションの後継機能

新機能：フラッタンテーブル（Flattened Tables）
チューニング：非正規化したテーブルを作成
多くのJoin処理
 処理コストが高く、遅い！
 高度なチューニングが必要！
Join処理の削減
 処理コストが低く、高速！
 チューニング不要あるいは削減！
非正規化
正規化スキーマ非正規化テーブル＋

フラッタンテーブルとは
1. 1ステップのロード
2. D、E、I、Rテーブルに更新があった場合、refresh_columnコマンドで一括更新可能
3. ディメンション（マスター）のカラムとファクトのカラムの関連付けは動的にON/OFF可能
ディメンション（マスター）群非正規化テーブル＋

従来のテーブル定義
Cid Name Age
1 Alice 25
2 Bob 30
3 Eve 28
Order_id Cust_id Amount
100 1 15.00
200 1 1000.00
300 2 -50.00
400 3 100.00
500 2 200.00
CREATE TABLE custDim (
cid int PRIMARY
KEY,
name varchar(20),
age int
);
CREATE TABLE orderFact (
order_id int PRIMARY KEY,
cust_id int,
amount numeric;
);
ディメンション(マスター）ファクト

フラッタンテーブルの作成方法（１）Default句
cust_id int,
cust_name varchar(20) DEFAULT (
SELECT name FROM custDim
WHERE custDim.cid = cust_id
),
amount numeric;
);
Order_id Cust_id Cust_name Amount
100 1 Alice 15.00
200 1 Alice 1000.00
300 2 Bob -50.00
400 3 Eve 100.00
500 2 Bob 200.00
Cid Name Age
1 Alice 25
2 Bob 30
3 Eve 28
• カラムを追加してデフォルト
値を定義
• データロード時に反映される
cid int PRIMARY
KEY,
name varchar(20),
age int
);

フラッタンテーブルの作成方法（２）SET USING句
cust_id int,
cust_name varchar(20) SET USING (
SELECT name FROM custDim
WHERE custDim.cid = cust_id
),
amount numeric;
);
Order_id Cust_id Cust_name Amount
100 1 Alice 15.00
200 1 Alice 1000.00
300 2 Bob -50.00
400 3 Eve 100.00
500 2 Bob 200.00
Cid Name Age
1 Alice 25
2 Bob 30
3 Eve 28
• カラムを追加してSET USING句を定義
• ロード完了後、REFRESH_COLUMNSコ
マンドで反映する必要あり
cid int PRIMARY
KEY,
name varchar(20),
age int
);

IoTに最適！スキーマレスフレックステーブル
 Avro、CEF、ヘッダー行付き区切りデータ、その他の自己記述型データ形
式を、全ての列とタイプを指定することなくテーブルにロード
 様々なフォーマットが存在する場合はETLを簡素化
 未知、且つ、変更の可能性のあるデータのための余地は残しつつ、既存
データに対する高いパフォーマンスは維持
ﾃﾞﾊﾞｲｽ
v1.0
ﾃﾞﾊﾞｲｽ
v1.0
ﾃﾞﾊﾞｲｽ
v2.0
ﾃﾞﾊﾞｲｽ
v2.1.2
ﾃﾞﾊﾞｲｽ
v2.2.5
ﾃﾞﾊﾞｲｽ
v2.7.0
ﾃﾞﾊﾞｲｽ
v3.1
ﾃﾞﾊﾞｲｽ
v4.0
ﾃﾞﾊﾞｲｽ
v4.1
ﾃﾞﾊﾞｲｽ
v3.0
DBAがスキー
マ、ETLを改
変
アナリストが
レポートを変
更
開発者がアプ
リケーション
を変更
従来のデータベース設計と運用の課題

地理空間分析リアルタイム分
析
テキスト分析
イベントシリー
ズ
パターンマッチ
ング
タイムシリーズ機械学習回帰分析
BIツール
R Java Python
USER
DEFINED
LOADS
ユーザー定義関数
C++
ODBC
JDBC
OLEDB
SQL
External tables to analyze in place
Security
User Defined Storage
ビッグデータエコシステムにおけるVerticaの位置づけ
Verticaは、高度な分析・機械学習処理を高速に実行するためのDBエンジンです
データ変換
メッセージングバス
ETL

オープンソースとの
連携が加速

オープンソースアーキテクチャを包含
最適なユースケース
• 小規模な、高速実行クエリ
• ETLと複雑なイベント処理
• 運用分析
• データレイク
• ウォーム／コールドストレージ
• データディスカバリ
• ETL
• 大容量データの詳細分析
• 高速処理
• 多くの同時利用
特長:
• ORC/Parquet等のネイティ
ブ形式を読取り
• Hadoopのバージョン不問
• Hadoopクラスタまたは
Verticaクラスタ上で実行
特長:
• Verticaが最適な形で Sparkか
らデータをロード
• VerticaからSparkに対する
データロード
特長:
• Kafka対応アプリ
ケーション間で
データを共有
• Verticaへのデータ
ストリーミング
• データ変換
• 容量単価の安いスト
レージに長期間、詳
細に保存
• 高速処理
• 同時多重処理
• アドホック分析
• 大容量データ
• メモリに収まるデータ
サイズ
• Sparkでしかできないラ
イブラリ

Kafka + Spark + Vertica でストリーミングETLのシステム
PSTL (Parallel Streaming Transformation Loader)
HPE Vertica
Analytics Platform
分析 / レポーティング
Data
Generation
OLTP/ODS
ログデータ
(Apps, Web,
Devices)
ユーザー行動
履歴
センサーデー
タ
メッセージングバス
ETL
ストリーム
処理
SQL on Hadoop
（オプション）
Hive
ORC
Parquet
生データ（Topics）
JSON, AVRO
処理済みデータ
（Topics）
Vertica Spark
Connector
ネットワーク
情報
■特長
• 高速レスポンス
• 標準SQLを実行可能
• 同時多重処理の実現
• 既存ツールの活用
• 大規模データ取り込みに対応
オープンソース化：https://github.com/jackghm/Vertica/wiki/PSTL

Verticaマシーンパワーを活用
Tensorflow & Keras連携事例
■概要
• Tensorflow
• 機械学習ライブラリ
• Deep Learning Neural Networks
• 数値計算
• パターンや相関関係の検知
• Google社より提供
• Keras
• APITensorflow上で動作するAPI
• 訓練・評価ループ、及び、NN実装の
抽象化
• 簡単に、速くNNモデルを作成
R UDx
Python
モ
デ
ル
適
用
ト
レ
ー
ニ
ン
グ
モデル
■特長
• In Place（その場）で分析できるのでインポート
＆エクスポートのオーバヘッドが最小化
• 複数サーバーで並行処理し、処理時間を短縮
• ダウンサンプルせずに大容量データを処理
• Udxで実装後、シンプルなSQLで実行可能
■効果
• 処理時間を大幅に削減（24時間→5時間）
• 大量データをモデルトレーニングし、精度向上
R UDx
Python
モ
デ
ル
適
用
ト
レ
ー
ニ
ン
グ
モデル
R UDx
Python
モ
デ
ル
適
用
ト
レ
ー
ニ
ン
グ
モデル
分散アーキテクチャを活用した高速処理をその場で実行

長期データの保管が必要な場合
データレイクの検討も必要

１）増加し続けるデータを
低コストで構築・運用
２）データを1箇所に統合し、
多様な分析や活用
３）データレイクの機能でデータ変換

すべてのデータを
ホットデータにする
必要がないケース

ホットデータ：多くの人が高速処理が常に必要
ウォームデータ：少数の人が時々必要
↓
ハイブリット構成でコスト削減

データレイクの活用（ウォームデータの高速化）
AWS S3もサポート！
AWS S3
Vertica DB
HDFS
Parquet
ORC
Parquet
ORC
ウォームデータ
ホット
データ
ホットデータ
課題
• ネイティブフォーマットで管理するとライセ
ンスコストが高い
• データレイクのクエリ処理が遅い
• データレイクの分析機能が不足
• インポートエクスポートに時間が掛かる
• 分析場所が分散し、利用に不便
データレイク

Cloudera環境をVerticaで高速化
35
0
5000
10000
15000
20000
25000
30000
35000
40000
45000
Impala Vertica SQL on Hadoop on Parquet Vertica Enterprise
ベンチマーク結果
(実行できたクエリのみを比較)約11 ¾ 時間
約 6 ½ 時間
約 3 ½ 時間
• Vertica Enterpriseは、Impala（Hive）
の処理時間を70％削減
• Vertica for SQL on Hadoop は、Impala
（Hive）の処理時間を47％削減
• Hive（Impala）は、ベンチマーク用の
99クエリ中19クエリが実行に失敗。
※失敗したクエリは比較できず
実行失敗
２倍
高速化

Apache HortonworksをVerticaで高速化
36
0
10000
20000
30000
40000
50000
60000
70000
80000
90000
Hive on Tez Vertica SQL on Hadoop Orc Vertica EE
ベンチマーク結果
(実行できたクエリのみを比較)
約 21 ¼ 時間
約 2 ¼ 時間
約 1½ 時間
• Vertica Enterpriseは、Tez（Hive）の
処理時間を93％削減
• Vertica for SQL on Hadoop は、Tez
（Hive）の処理時間を88％削減
• Tez（Hive）は、ベンチマーク用の
99クエリ中40クエリが実行に失敗。
※失敗したクエリは比較できず
実行失敗
10倍
高速化

データレイク上のデータを利用シーンで使い分け
Hadoop
HDFS
①ネイティブ（ROS)フォーマット
• 超高速な高度分析（AI等）を実現
• データの追加/更新/削除が可能
（データ変換、データクレンジング）
• ライセンス課金対象
外部表参照
Vertica Premium
COPY
SQL SQL
ORC
外部表参照
②External Table
（Parquet/ORCフォーマット）
• 外部表として参照、高速に高度分析を
実現。①～③の利用方式間でシームス
レスなSQLによる分析が可能
• 読み取り専用データとしてアクセス
• ライセンス課金の対象
SQL
①ホットデータ：高速な分析が必要なホットデータは、Verticaに直接ロードし最も高速にSQLで高度分析。
②ウォームデータ：Hadoop上のParquet/Orc形式のデータをExternal Tableとして、高速にSQLで高度分析。①の利用方式より処理速度は遅い。
③コールドデータ：Hadoop上のCSV/JSON形式のデータをExternal Tableとして、SQLで高度分析。②の利用方式より大幅に処理速度は遅い。
Parquet
ROS
コールドデータ
アドホック分析
SQL
③External Table
（JSON/CSVフォーマット）
• 外部表として参照、高速に高度分析を
実現。 ①～③の利用方式間でシームス
レスなSQLによる分析が可能
• 読み取り専用データとしてアクセス
• ライセンス課金の対象外
CSV
JSON
ホットデータ
ウォームデータコールドデータ
ホットデータに変換
（高速処理、及び、追加/更新/削除処理が必要な場合）

外部テーブルを活用した機械学習利用
Hadoop
①Premium Edition(ネイティブフォーマッ
ト ROS)
外部表参照
Vertica Premium
COPY
SQL SQL
ORC
外部表参照
②External Table
SQL
Parquet
ROS
バッチ分析（コールドデータ）
アドホック分析（ホットデータ）
SQL
③External Table
CSV
JSON
ホットデータ
データ準備
（試行錯誤を実施）
モデル作成用
非正規化テーブル
評価用
テーブル
外部テーブル
Join処理
Join処理
Factテーブル
Dimension
テーブル
予測データと
比較

クラウド上のデータウェアハウスのためのEonモード
Amazon
Microsoft Azure
Google Cloud
Amazon
S3
第1世代
クラウドをデータセンターとして使用 (IaaS)
第2世代
計算とストレージの分離
ユースケース
• データセンターコストの節約
• 高速デプロイ
メリット
• Computeノードとストレージノードを独立して構成することで需要に応じてスケースアウト。利用していない場合は停止しコスト削減
←繁忙期に拡張
• Computeノードを追加時のデータリバランスは不要 ←追加時のリソース負荷無し
• AWS EBSを使用する代わりに安価なAWS S3を利用することでコストを削減
• データローカリティ – Depotは、ハイパフォーマンスクエリ用にインテリジェントキャッシュ機能を提供
• ノード追加/削除のオペレーションを高速に実行
• 大規模にロード/クエリに対応
• 災害対策をS3ストレージで実現
• Enterpriseモードと同様に分析機能が利用可能
ユースケース
• クラウドエコノミクスの活用
• 多様なワークロード

SUN MON TUES WED THU FRI SAT
x1
x2
x4
コンピューティング
キャパシティー
データロード
四半期クローズレポート
ダッシュボード
Eonモードは様々なワークロードに適用可能

新しいレベルでのワークロードの分離と柔軟性
サブクラスター機能、異なる可変のワークロードに使用される同じデータ
ダッシュボード夜間データロード
月末報告アドホックデータサイエンス
S3
それぞれのアクティビティにはそれぞれ
独自のサブクラスターが用意されており、
必要に応じてジョブに最適なインスタン
スタイプをプロビジョニング
SUN MON TUES WED THU FRI SAT
x1
x2
x4
コンピューティング
キャパシティー
データロード
四半期クローズレポート
ダッシュボード

EONモードエラスティック機能とは？
ノード追加時にシームレスに性能向上可能
Node
Optimizer
Execution Engine
Cache
Node
Optimizer
Execution Engine
Cache
Node
Optimizer
Execution Engine
Cache
Node
Optimizer
Execution Engine
Cache
Node
Optimizer
Execution Engine
Cache
Node
Optimizer
Execution Engine
Cache
Node
Optimizer
Execution Engine
Cache
Node
Optimizer
Execution Engine
Cache ノード追加
S3 S3

Computeノード追加でクエリスループットが向上
Added nodes quickly have a positive affect on query throughput

簡単に構築。簡単に運用！
MC（Management Console）からグラフィカルに管理クラスター追加、削減も簡単

4
6
Depot Usage Percentage
0.05%
Also a link to Depot Activity:
Find out what’s happening in Depot!
データベースサイズ、デポの
全体的なデータサイズと
アクティブなコンピューティング
データサイズを表示
MC GUIのストレージ管理者画面でEonモードのデポを表示

Eonモード V.S Enterprise モード(従来のアーキテクチャ)（１）
4 c3.2xlargeを４ノードで測定

Eonモード V.S Enterprise モード（2）
4 c3.2xlargeを９ノードで測定

クラウドデータベース比較（Redshift & Snowflake）
■AWS Redshiftとのベンチマーク比較
https://www.vertica.com/wp-
content/uploads/2017/01/Vertica-Redshift-
Benchmark.pdf
■Snowflakeとのベンチマーク比較
https://www.vertica.com/resource/vertica-eon-mode-
snowflake-benchmark/

機械学習で高精度の予測分析

大容量データ
機械学習で処理したい
ニーズ増加

ビジネスフロー
の理解
データ理解
＆探索
データ準備
モデリング
モデル評価
実装
機械学習のフロー

ビジネス
＆
業務の理解
データ調査
&
理解
データ準備モデル作成評価実装
機械学習
高速処理
ANSI SQL
スケーラビ
リティ
超並列処理
MPP
柔軟な
デプロイ
外れ値検知
正規化
インバラン
ス処理
サンプリン
グ
欠損値補間
And More…
サポートベ
クターマ
シーン
ランダム
フォレスト
ロジス
ティック回
帰
線形回帰
リッジ回帰
ナイーブ
ベース
クロスバリ
デーション
And More…
Model-level
Stats
ROCテーブル
エラーレー
ト
Lift Table
混合行列
R-Squared
MSE
In-Database
Scoring
高速処理
スケーラビ
リティ
セキュリ
ティ
パターン
マッチング
Date/
Time Algebra
ウインドウ
関数
日付処理
パーティ
ション
And More…
Sessionize
関数
タイムシ
リーズ
統計サマリ
SQL SQLSQL SQLSQL
Vertica 機械学習プロセスフロー
Verticaは、すべての機械学習プロセスを
SQLで完結できる強力なソリューション

機械学習：大規模データも高速処理
SQL機能を他の言語から
呼び出せるようにラッパーを提供
※GitHubにて提供
■Verticaで機械学習のアドバンテージ
• ダウンサンプリングせず、高速に機械学習処理（従来型製品でのアプローチで必要なダウンサ
ンプリングは不要）
• 大容量のデータをその場で分析可能（外部へエクスポート不要）
• データ準備、モデル化、評価、実装の一連のプロセスをSQLで実行可能
• 標準搭載されておりオールインワンで利用可能
• RやPythonで作成済みのロジックも再利用可能
• 機械学習処理はVertica MPPクラスター内
で並列処理
• 高速反復演算のためのインメモリー処理
• 多くの同時セッションのリソース分離
Node 1 Node 2…. Node n

追加コストが必要
• データベースシステ
ムとは別に、機械学
習専用のハードウェ
アやソフトウェアの
導入が必要
• 複数システムのメン
テナンスも発生
ダウンサンプリン
グが必要
• 大容量データセット
を処理することが困
難
• その結果ダウンサン
プリングを余儀なく
され、正確な予測モ
デル構築が困難
機械学習処理
時間の遅延
• モデルの開発と評価
を行うための処理に
時間がかかる
• データベースシステ
ムおよび機会学習シ
ステム間で大容量
データの移動が発生
大規模データの機械学習処理の課題（１）
データ理解、
準備、クレンジング
が煩雑
• 大量データのデータ
理解が簡単にできな
い
• 不要なデータの変更
や削除する手順が煩
雑
全体プロセスの
６０～８０％の工数
→オールインワン
複数プロダクトの組
み合わせ不要
→豊富なSQLで複雑な
データ加工が可能
→高速にデータ探索、
データ準備が可能
→メモリサイズ以上の
データセットも処理
→MPPアーキテクチャー
による高速処理
→C++ベースの機械学習
で高速処理
他製品で課題にな
ることが多い
グリッドサーチで
最適なモデル
様々なオープンソースを
組みあせて各データサイ
エンスティストが分析
モデリングデータ準備モデリング全体プロセス

モデル再評価に
工数が必要
高度な実装
• 実装が煩雑
（プログラミング言語
などで実装）
• 採用したモデルを
他のシステム移植
でいきない
大規模データの機械学習処理の課題（2）
モデル管理
が煩雑
同時多重処理が
困難
• リソース不足で処理
に失敗
• 処理時間がかかり多
くのモデルを評価で
いない。
（データのインポー
ト、エクスポート、
機械学習処理など）
• 処理時間の遅延
• リソース不足による
処理の失敗
分析チーム内で同一
プラットフォームで
同時作業
分析チーム内で
コラボレーション
簡単に様々な
サービスに適用
→多重処理に強いアーキ
テクチャー
→充実したリソース管理
機能
→モデルのアクセス権管
理を提供
→モデルの履歴機能でわ
かりやすいモデル管理
→高速処理するアーキテ
クチャー
→充実したリソース管理
機能
→SQLでシンプルに実装
可能
→R、Pythonなどのライ
ブラリと連携して実装
• 分析チーム内で作成した
モデルの共有が困難
• 複数のモデル管理が乱雑
• 他製品で作成したモデル
の一元管理が煩雑
• 他サービスやや専用製品
で作成したモデルをエク
スポートできない。
定期的にチャンピオンチャ
レンジャーを実行
モデルモデリング評価実装

1つのプロダクトで、
一連の処理を
その場で
シンプルに実現

機械学習手順の比較 Vertica SQL vs Spark Scala
Vertica
7行のSQL文
Spark
28 行のScalaコード
Simple is Best → 分析チーム内で実施内容をすぐに理解でき、
属人化しないことがポイント

大容量データを
高速機械学習

シングル
専用ソフトウェア
分散処理
データベース系
R
Python
SAS
SPSS
...
Oracle
IBM
Microsoft
...
Spark ML
H20
TensorFlow
...
Vertica
Fuzzy Logix
MADlib
Vertica の強み
• パフォーマンス
• グリッドサーチ
• チャンピオン・チャレン
ジャー
• モデルマネジメント
• 同時実行
• セキュリティ
• リソースマネジメント
• シンプルな実装
機械学習製品のポジショニング

機械学習処理のパフォーマンス比較：対Apache Spark ML
Apache Sparkより、高速、安定。
 アルゴリズム実行開始時に、テーブルデータをメモリーにキャッシュし、高速に反復演算を実行
 動作実証済の安定したワークロード管理機能により、使用メモリーや並行実行数を完全制御
 処理対象データがメモリーに収まりきれなかった場合は、自動的にDisk上の処理へと移行
（Sparkで必要となる、煩雑なメモリーパラメーターチューニング、Out of memoryを回避するための試行錯誤
は不要）
 各ノードで稼動する並列スレッド数の制御も可能
 以下はVertica8.1.0とSpark2.1.0 MLibでのパフォーマンステスト結果となるが、Sparkでの結果はHDFSからメモ
リーにデータをロードする時間は含まれない。
Sparkでの結果は
HDFSからメモ
リーにデータを
ロードする時間
は含まない

機械学習の一連処理を体験
～スマートメーター分析編～

スマートメーターのデータをダウンロード
機械学習シナリオで利用するサンプルデータは、以下のURLよりダウンロードすることが可能です。
https://github.com/Kaito111/VerticaJapan
機械学習シナリオで利用するサンプルデータは、以下のURLよりダウンロードすることが可能です。
https://www.youtube.com/watch?v=4JDyvQjCXUY&t=382s

テーブルを活用した機械学習利用イメージ
Hadoop
①Premium Edition(ネイティブフォーマッ
ト ROS)
外部表参照
Vertica Premium
COPY
SQL SQL
ORC
外部表参照
②External Table
SQL
Parquet
ROS
バッチ分析（コールドデータ）
アドホック分析（ホットデータ）
SQL
③External Table
CSV
JSON
ホットデータ
データ準備
（試行錯誤を実施）
モデル作成用
非正規化テーブル
評価用
テーブル
外部テーブル
Join処理
Join処理
Factテーブル
Dimension
テーブル
予測データと
比較

データ準備：テーブル準備（Create Table文の実行）
サンプルデータのcsvファイルをVerticaサーバー上の「/home/dbadmin」以下に格納します。
手順1でデータを格納したVerticaサーバーにdbadminユーザーで接続し、vsqlを起動します。
下記SQLを実行し、４テーブルを作成します。
CREATE TABLE sm_consumption ( meterID int, dateUTC timestamp, value numeric(25,5) );
CREATE TABLE sm_weather ( dateUTC timestamp, temperature numeric(25,5), humidity numeric(25,5) );
CREATE TABLE sm_meters ( meterID int NOT NULL, residenceType int NOT NULL, latitude numeric(25,15)
NOT NULL, longitude numeric(25,15) NOT NULL );
CREATE TABLE sm_residences ( id int NOT NULL, description varchar(15) NOT NULL );
$ /opt/vertica/bin/vsql
■リモートログオンクライアントからvsqlにログイン
■vsqlのプロンプトより、クエリを入力し実行

データ準備：データをテーブルにロード
下記SQLを実行し、データをロードします。
copy sm_consumption FROM '/home/dbadmin/sm_consumption.csv' delimiter ',';
copy sm_weather FROM '/home/dbadmin/sm_weather.csv' delimiter ',';
copy sm_meters FROM '/home/dbadmin/sm_meters.csv' delimiter ',';
copy sm_residences FROM '/home/dbadmin/sm_residences.csv' delimiter ',';
■データベース管理ツール dbvisualizer(無償版)から
上記のクエリを実行
データベース管理ツール dbvisualizer(無償版)は、以
下のリンクからダウンロード可能です。Verticaへ接続
用のJDBCドライバーは含まれています。
https://www.dbvis.com/download/

データ理解：ロード済みのデータ確認
Verticaのバージョン、ノード構成を確認します。下記SQLを実行してください。
select version();
select * from nodes;
データロード状況を確認します。
--view the data
select * from sm_consumption limit 10;
select * from sm_weather limit 10;
select * from sm_meters limit 10;
select * from sm_residences;
--table count
select count(*) from sm_consumption;
select count(*) from sm_weather ;
select count(*) from sm_meters ;
select count(*) from sm_residences;

データ理解：外れ値の調査とデータ抽出
下記SQLを実行し、外れ値に該当するデータをテーブル（sm_outliers）に出力します。
SELECT DETECT_OUTLIERS('sm_outliers', 'sm_consumption', 'value', 'robust_zscore'
USING PARAMETERS outlier_threshold=3.0, key_columns='meterid, dateUTC');
--view results
select * from sm_outliers limit 10;
ロバストzスコアで計算し、外れ
値のみを別テーブルに出力
■sm_consumptionテーブル
（約120万レコード)
■sm_outliersテーブル
（約16万レコード）
参考リンク：https://www.vertica.com/wp-
content/uploads/2018/06/Whats_New_in_Vertica_8.0.1_Outlier_Detection_v2.0.pdf
■sm_outliersテーブル（約16万レコード）
抽出先テーブル分析対象テーブル分析対象の列名アルゴリズム

データ準備：外れ値の計算結果を利用し、中間加工用テーブルを生成
外れ値を計算したテーブル（sm_outliers）とオリジナルデータのテーブル（sm_consumption）を
結合し、機械学習で利用する中間加工用のテーブルをCTAS(Create Table As Select)で準備します。
create table sm_consumption_outliers as
select nextval('seq') as id, c.*, case when o.value is null then 0 else 1 end as highusage
from sm_consumption c left outer join sm_outliers o on c.meterid=o.meterid and
c.dateUTC=o.dateUTC;
外れ値で計算した結果（テーブ
ル sm_outliers ）とオリジナル
データを結合し、使用が多い
データを準備
■sm_consumptionテーブル
（約120万レコード)
■sm_outliersテーブル
■sm_consumption_outliersテーブル

データ準備：機械学習アルゴリズムk-meansで居住地をクラスリング（１）
K平均法（k-means）でクラスタリングを実行します。
select kmeans('sm_kmeans', 'sm_meters', 'latitude, longitude', 6);
select GET_MODEL_SUMMARY (USING PARAMETERS model_name='sm_kmeans');
Kmeansモデルを作成し、モデル
を構成するパラメータを確認
K-meansモデルの実行結果を確認します。
分析対象のテーブル名分析対象の列名クラスター数モデル名
モデル名
■クラスタリングの重心 ■モデルで利用したパラメータ情報

データ準備：k-meansで居住地をクラスリング（２）
Kmeansでクラスタリングした情報とオリジナルデータとデータ結合し、別テーブルを作成しま
す。
CREATE TABLE sm_meters_location AS
SELECT meterid, residenceType, latitude, longitude,
APPLY_KMEANS(latitude, longitude USING PARAMETERS model_name='sm_kmeans') AS locationid
FROM sm_meters;
APPLY_KMEANS関数でクラスタリングし
た情報を列として追加
■sm_metersテーブル
（1000レコード)
■sm_meters_locationテーブル
（1000レコード)
kmeansで分類したIDを
locationid列として追加
■ sm_meters_locationテーブルの情報を
Tableauで可視化

データ準備：時系列の違うデータの欠損値を自動補完
時系列で、異なるサンプリング間隔のデータ（sm_consumptionとsm_weatherテーブル）を結合します。
select distinct cdate, wdate, temperature, humidity
from
(SELECT c.meterid, c.dateUTC as cdate, w.dateUTC as wdate, w.temperature, w.humidity, c.value
FROM sm_consumption c left outer join sm_weather w on c.dateUTC = w.dateUTC order by cdate) a
order by 1 limit 10;
create table sm_weather_fill as
SELECT ts as dateUTC,
TS_FIRST_VALUE(temperature, 'LINEAR') temperature,
TS_FIRST_VALUE(humidity, 'LINEAR') humidity
FROM sm_weather
TIMESERIES ts AS '15 minutes' OVER (ORDER BY dateUTC);
30分間隔のデータを基に
15分と45分を線形でデータ補完
15分、45分時点の
データがNULLで欠損
15分、45分時点のデータが補完
タイムシリーズ関数（TS_FIRST_VALUE）にて、欠損したデータを比例関係でデータ補完します。
■サンプリング間隔の違いからNULLが出力 ■保管したデータと合わせて
sm_weather_fillテーブルを作成

データ準備：下準備したテーブル情報をフラットテーブル化（１）
機械学習で利用するデータをテーブルとして準備します。日時データを利用し特徴量エンジニ
アリング実施し、トレーニングデータとテストデータにランダムにラベリングします。
create table sm_flat_pre as
select c.id, c.meterid, r.description as metertype, l.latitude, l.longitude,
l.locationid::varchar,
dayofweek(c.dateUTC)::varchar as 'DOW',
case when month(c.dateUTC) >= 3 and month(c.dateUTC) <= 5 then 'Spring'
when month(c.dateUTC) >= 6 and month(c.dateUTC) <= 8 then 'Summer'
when month(c.dateUTC) >= 9 and month(c.dateUTC) <= 11 then 'Fall'
else 'Winter' end as 'Season',
case when hour(c.dateUTC) >= 6 and hour(c.dateUTC) <= 11 then 'Morning'
when hour(c.dateUTC) >= 12 and hour(c.dateUTC) <= 17 then 'Afternoon'
when hour(c.dateUTC) >= 18 and hour(c.dateUTC) <= 23 then 'Evening'
else 'Night' end as 'TOD’,
w.temperature, w.humidity, c.highusage, c.highusage::varchar as highusage_char, c.value,
case when random() < 0.3 then 'test' else 'train' end as part
from sm_consumption_outliers c
inner join sm_meters_location l on c.meterid = l.meterid
inner join sm_residences r on l.residenceType = r.id
inner join sm_weather_fill w on c.dateUTC = w.dateUTC;
ランダム関数を使いデータ分割
30％をテストデータ
70％をトレーニングデータ
dateUTCのタイムスタンプ情報よ
り、Season列として、四季のラ
ベリング
dateUTCのタイムスタンプ情報よ
り、TOD（Time Of Day）列として、
時間帯をラベリング

データ準備：下準備したテーブル情報をフラットテーブル化（２）
機械学習のモデリングで使用する非正規化したsm_flat_preテーブルを確認します。
select * from sm_flat_pre limit 20;
特徴量エンジニアリン
グ実施後のデータ
トレーニングデータと
テストデータに分割
モデリングで利用しや
すいように非正規化さ
れたテーブル

データ準備：異なるのスケールのデータを正規化
湿度と温度のスケールが異なるため、ノーマライゼーションで正規化処理します。
select NORMALIZE_FIT('sm_normfit', 'sm_flat_pre', 'humidity, temperature', 'zscore');
select GET_MODEL_SUMMARY (USING PARAMETERS model_name='sm_normfit');
モデル名分析対象のテーブル名分析対象の列名正規化の方式
正規化する目的は、異なる列の数値データを等価なスケールにスケールすることです。Vertica
では 3 つの正規化の方法を提供しています。
1. MinMax: 0 と 1 の分布内になるように値を正規化する。
2. Z スコア: 観測値が平均からの標準偏差の数になるように値を正規化する。
3. ロバスト Z スコア: この方法を使用して、外れ値が Z スコア計算に与える影響を軽減する
ことができます。この方法では、Z スコア法で使用される平均値ではなく中央値を使用しま
す。
モデル名
湿度と温度のスケールが異なるため、ノーマライゼーションで正規化処理します。

データ準備：One Hot Encodingでカテゴリカル変数をダミー変数に変換
カテゴリデータの特徴量をカテゴリカル変数ごとに列を作成し、数値データであるダミー変数
に変換します。
SELECT ONE_HOT_ENCODER_FIT ('sm_ohe','sm_flat_pre','metertype, locationid, DOW, Season, TOD');
ALTER TABLE sm_flat
RENAME COLUMN metertype_1 TO multi_family;
ALTER TABLE sm_flat
RENAME COLUMN metertype_2 TO single_family;
ALTER TABLE sm_flat
RENAME COLUMN locationid_1 TO loc1;
ALTER TABLE sm_flat
ALTER TABLE sm_flat
ALTER TABLE sm_flat
ALTER TABLE sm_flat
ALTER TABLE sm_flat
RENAME COLUMN dow_1 TO monday;
ALTER TABLE sm_flat
RENAME COLUMN dow_2 TO tuesday;
ALTER TABLE sm_flat
RENAME COLUMN dow_3 TO wednesday;
ALTER TABLE sm_flat
RENAME COLUMN dow_4 TO thursday;
ALTER TABLE sm_flat
RENAME COLUMN dow_5 TO friday;
ALTER TABLE sm_flat
RENAME COLUMN dow_6 TO saturday;
ALTER TABLE sm_flat
RENAME COLUMN season_1 TO spring;
ALTER TABLE sm_flat
RENAME COLUMN season_2 TO summer;
ALTER TABLE sm_flat
RENAME COLUMN season_3 TO winter;
ALTER TABLE sm_flat
RENAME COLUMN tod_1 TO evening;
ALTER TABLE sm_flat
RENAME COLUMN tod_2 TO morning;
ALTER TABLE sm_flat
RENAME COLUMN tod_3 TO night;
ダミー変数で利用している列名を読みやすい名前に変換します。
SELECT GET_MODEL_SUMMARY
(USING PARAMETERS
model_name='sm_ohe');
カテゴリデータの特徴量をカテゴリカル変
数ごとに列を作成し、数値データであるダ
ミー変数に変換します。
モデル名分析対象のテーブル名分析対象のカテゴリカル変数の列名
■変換するデータのサマ
リーを確認
モデル名

データ準備：One Hot Encodingと正規化機能でフラットテーブル化
前段で作成したOne Hot Encodingと正規化機能でデータ変換したデータをsm_flatテーブルに書き
出します。
create table sm_flat as
select APPLY_ONE_HOT_ENCODER(* USING PARAMETERS model_name='sm_ohe')
FROM
(SELECT APPLY_NORMALIZE (* USING PARAMETERS model_name = 'sm_normfit') FROM sm_flat_pre) a;
モデル名
モデル名分析対象のテーブル名humidity, temperatureを正規化
Sm_oheで指定した列ごとに変換
機械学習のモデリングで使用するデータ加工したテーブル sm_flatを確認します。
select * from sm_flat limit 20;
数値範囲が異なる湿度と
温度が正規化された
カテゴリカル変数がダ
ミー変数に変換された

データ準備：MLモデル作成用のテーブルを準備
トレーニング用の専用テーブルを別途作成します。
create table sm_flat_train as
select * from sm_flat where part='train'; Part列にtrainと割り振られてい
るデータのみをデータ抽出
■sm_flatテーブル
■sm_flat_trainテーブルをCTASで作成

モデリング：MLモデルを一括作成で、グリッドサーチを実施
（線形回帰、ロジスティック回帰、サポートベクターマシーン、ランダムフォレスト、ナイーブベーズ）
各機械学習のモデリングを以下のクエリで一括作成します。
--線形回帰（linear regression）
select linear_reg('sm_linear', 'sm_flat_train', 'value',
'multi_family, single_family, loc1, loc2, loc3, loc4, loc5, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday,
winter, Summer, spring, night, morning, Evening, temperature, humidity');
--ロジスティック回帰（logistic regression）
select logistic_reg('sm_logistic', 'sm_flat_train', 'highusage',
--サーポートベクターマシーン（SVM regression）
select SVM_REGRESSOR('sm_svm_reg', 'sm_flat_train', 'value',
--ランダムフォレスト（RF regression)
select rf_regressor('sm_rf_reg', 'sm_flat_train', 'value',
'metertype, locationid, DOW, Season, TOD, temperature, humidity');
--ナイーブベーズ（naive bayes）
select naive_bayes('sm_nb', 'sm_flat_train', 'highusage',
モデル名分析対象のテーブル
予測する値
予測に利用するカラム名
アルゴリズム

モデリング：サポートベクターマシーン分類を実行
分類モデルのためのトレーニングデータにおけるクラスの分布をバランスします。データのバ
ランシングを実行します。
select BALANCE( 'sm_flat_train_balanced', 'sm_flat_train', 'highusage', 'over_sampling'
USING PARAMETERS sampling_ratio=0.6 );
select avg(highusage) from sm_flat_train union
select avg(highusage) from sm_flat_train_balanced;
--SVM classification
select svm_classifier('sm_svm', 'sm_flat_train_balanced', 'highusage',

モデリング：モデル概要を確認
Vertica内で作成したモデル一覧を確認します。
select * from models;
SELECT GET_MODEL_SUMMARY (USING PARAMETERS model_name='sm_linear');
SELECT GET_MODEL_SUMMARY (USING PARAMETERS model_name='sm_svm_reg');
SELECT GET_MODEL_SUMMARY (USING PARAMETERS model_name='sm_rf_reg');
SELECT GET_MODEL_SUMMARY (USING PARAMETERS model_name='sm_logistic');
SELECT GET_MODEL_SUMMARY (USING PARAMETERS model_name='sm_nb');
SELECT GET_MODEL_SUMMARY (USING PARAMETERS model_name='sm_svm');
SELECT GET_MODEL_SUMMARY (USING PARAMETERS model_name='sm_rf');
モデルの詳細情報を確認します。
モデル名

モデリング：モデル詳細を確認
出力された各特徴量ごとの相関関係をテーブルsm_linear_sumより表示します。列で取り扱いし
ている特徴量の標準偏差、t値、p値が表示されます。
create table sm_linear_sum as SELECT GET_MODEL_ATTRIBUTE
(USING PARAMETERS model_name='sm_linear', attr_name = 'details');
select * from sm_linear_sum;
モデル名
特徴量（フィーチャー）の関係性をテーブルsm_linear_sumにCTASで出力します。
詳細出力
標準偏差、t値、p値
特徴量

モデリング：R言語ライブラリをモデリングで利用する手順
Rファイルを設置し、Rライブラリを利用してモデリングを実行します。R言語記述したファイ
ルをVerticaノード配下に配置し、以下のクエリを実行します。
CREATE library rflib AS '/home/dbadmin/rf_udf.R' LANGUAGE 'R';
CREATE transform FUNCTION rf_build_udf AS LANGUAGE 'R' name 'rf_build_factory' library rflib;
CREATE transform FUNCTION rf_score_udf AS LANGUAGE 'R' name 'rf_score_factory' library rflib;
--run rf_build_udf
SELECT
rf_build_udf("highusage_char", "metertype", "locationid", "Season", "DOW", "TOD", "temperature", "humidity"
using parameters append_date=1, model_name='my_rf_model', model_folder='/home/dbadmin')
over ()
FROM sm_flat_train;
create table sm_pred_rfudx as SELECT
rf_score_udf("id", "highusage_char", "metertype", "locationid", "Season", "DOW", "TOD",
"temperature", "humidity"
using parameters model='/home/dbadmin/my_rf_model-2018-09-20-11-17-52.rda')
over ()
FROM sm_flat;
登録したR言語で記述したユーザ定義拡張機能（UDx）を以下のクエリで実行します。
テーブルsm_flatのデータを使用し、R言語のモデルにて予測した結果をテーブルsm_pred_rfudx
にCTASで出力します。
上記で作成したモデル作成のUDx モデル作成で利用する列名トレーニング用データ
上記で出力したモデルファイル
Rモデルのファイル出力先
モデルを利用した予測のUDx予測対象のデータ

評価：グリッドサーチの結果を一覧表示（予測精度の比較）（１）
CREATE TABLE sm_flat_pred AS
(SELECT a.*,
PREDICT_linear_REG(multi_family, single_family, loc1, loc2, loc3, loc4, loc5, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday,
winter, Summer, spring, night, morning, Evening, temperature, humidity
USING PARAMETERS model_name='sm_linear') as lin_reg_pred,
PREDICT_SVM_REGRESSOR(multi_family, single_family, loc1, loc2, loc3, loc4, loc5, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday,
USING PARAMETERS model_name='sm_svm_reg') as svm_reg_pred,
predict_rf_regressor(metertype, locationid, DOW, Season, TOD, temperature, humidity
USING PARAMETERS model_name='sm_rf_reg') as rf_reg_pred,
PREDICT_LOGISTIC_REG(multi_family, single_family, loc1, loc2, loc3, loc4, loc5, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday,
USING PARAMETERS model_name='sm_logistic', type='probability') AS log_reg_prob,
USING PARAMETERS model_name='sm_logistic', type = 'response') AS log_reg_pred,
USING PARAMETERS model_name='sm_logistic', cutoff='0.15') AS log_reg_pred15 ,
PREDICT_NAIVE_BAYES (multi_family, single_family, loc1, loc2, loc3, loc4, loc5, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday,
USING PARAMETERS model_name = 'sm_nb',type = 'probability', class='1')::float AS nb_prob,
PREDICT_NAIVE_BAYES (multi_family, single_family, loc1, loc2, loc3, loc4, loc5, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday,
USING PARAMETERS model_name = 'sm_nb',type = 'response') AS nb_pred,
case when PREDICT_NAIVE_BAYES (multi_family, single_family, loc1, loc2, loc3, loc4, loc5, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday,
USING PARAMETERS model_name = 'sm_nb',type = 'probability', class='1')::float > 0.15 then 1 else 0 end AS nb_pred15,
PREDICT_RF_CLASSIFIER (metertype, locationid, DOW, Season, TOD, temperature, humidity
USING PARAMETERS model_name = 'sm_rf',type = 'probability', class='1')::float AS rf_class_prob,
PREDICT_RF_CLASSIFIER (metertype, locationid, DOW, Season, TOD, temperature, humidity
USING PARAMETERS model_name = 'sm_rf',type = 'response') AS rf_class_pred,
case when PREDICT_RF_CLASSIFIER (metertype, locationid, DOW, Season, TOD, temperature, humidity
USING PARAMETERS model_name = 'sm_rf',type = 'probability', class='1')::float > 0.15 then 1 else 0 end AS rf_class_pred15,
case when b.pred = '0' then 1 - b.maxprob else b.maxprob end as r_rf_class_prob,
case when b.pred = '1' or (b.pred = '0' and b.maxprob <= 0.85) then 1 else 0 end as r_rf_class_pred15
FROM sm_flat a inner join sm_pred_rfudx b on a.id = b.id);
作成した機械学習モデルを使用して、フラットテーブルsm_flatに予測結果を列として追加し、
ます。テーブルsm_flat_predに出力します。

評価：グリッドサーチの結果を一覧表示（予測精度の比較）（２）
フラットテーブルに追加した予測結果を表示します。
select * from sm_flat_pred limit 30;
各モデルのデータごとの予測値
各モデルの予測値が列で追加

評価：モデルの精度評価
MSE, 決定係数（R-squared）ROCテーブル、混合行列（Confusion Matrix）で精度を比
較します。
--MSE
select MSE (value, lin_reg_pred) over() from sm_flat_pred where part = 'test';
--決定係数（R-squared)
select corr(value, lin_reg_pred)^2 as r_square from sm_flat_pred where part = 'test';
--ROCテーブル
SELECT ROC(obs::int, prob::float USING PARAMETERS num_bins=20) OVER()
FROM (SELECT highusage AS obs, log_reg_prob as prob FROM sm_flat_pred where part='test') a;
--混合行列 confusion matrix
SELECT CONFUSION_MATRIX(obs::int, pred::int USING PARAMETERS num_classes=2) OVER()
FROM (SELECT highusage AS obs, log_reg_pred15 as pred FROM sm_flat_pred where part = 'test') AS
prediction_output;

評価：モデルの精度評価 ROC曲線からAUCを算出
CREATE TABLE AUC_comp
(
model varchar(50),
AUC float
);
--logistic
insert into AUC_comp
select 'logistic' as model,
sum((true_positive_rate+prev_tpr)*(prev_fpr - false_positive_rate)/2) as AUC from
(
select lag(true_positive_rate) over (order by false_positive_rate desc) as prev_tpr,
lag(false_positive_rate) over (order by false_positive_rate desc) as prev_fpr,
* from
(
select false_positive_rate, avg(true_positive_rate) as true_positive_rate from
(
FROM (SELECT highusage AS obs, log_reg_prob as prob FROM sm_flat_pred where
part='test') AS prediction_output
) q1 group by false_positive_rate
) q2
) q3;
--naive bayes
select 'nb' as model,
(
* from
(
(
FROM (SELECT highusage AS obs, nb_prob as prob FROM sm_flat_pred where
) q2
) q3;
--random forest
select 'rf' as model,
(
* from
(
(
FROM (SELECT highusage AS obs, rf_class_prob as prob FROM sm_flat_pred where
) q2
) q3;
--random forest from R
select 'rfudx' as model,
(
* from
(
(
FROM (SELECT highusage AS obs, r_rf_class_prob as prob FROM sm_flat_pred where
) q2
) q3;
--compare all models
select * from AUC_comp order by AUC desc;
以下のクエリを実行し、AUCを計算します。各アルゴリズムでAUCが表示されます。

モデル管理：便利なモデル管理機能
モデルのファイルへエクスポート
SELECT EXPORT_MODELS ('/home/dbadmin/mlmodels', 'public.*’);
モデルをファイルからインポート
SELECT IMPORT_MODELS ('/home/dbadmin/mlmodels*' USING PARAMETERS new_schema='public’);
古いバージョンのモデルをアップグレード
SELECT UPGRADE_MODEL(USING PARAMETERS model_name = 'myLogisticRegModel');
SELECT UPGRADE_MODEL();
モデルのメタ情報を変更
ALTER MODEL mymodel RENAME to mykmeansmodel;
ALTER MODEL mykmeansmodel OWNER TO user1;
ALTER MODEL mykmeansmodel SET SCHEMA public;

実装：精度の高い予測モデルを実装する方法
方法１）SQLで予測モデルを実装
1. アドホック予測
2. テーブルに予測結果をバッチ出力
方法２）モデルアルゴリズムを別ソリューションで実装
（コンピュータ言語などで書き直し）
SQLで予測モデルを実装する場合、以下のクエリのように組み込み
--線形回帰（linear regression）
SELECT a.*,PREDICT_linear_REG(multi_family, single_family, loc1, loc2, loc3, loc4, loc5,
Monday, Tuesday, Wednesday, Thursday, Friday, Saturday,
USING PARAMETERS model_name='sm_linear')

Jupyter notebook
セットアップ編 for Vertica

手順概要
1. セットアップ環境イメージ図
2. セットアップ手順概要
3. セットアップ手順詳細：Anacondaセットアップ
4. セットアップ手順詳細：Verticaドライバーセットアップ
5. セットアップ手順詳細：Vertica Rパッケージセットアップ
6. セットアップ手順詳細：サンプルテーブル・データの作成

セットアップ環境イメージ図
ノートPC：Windows 7 64bit
Python
ライブラリ
Vertica ODBC
Driver Vertica Database
Anacondaをインストール
し、pythonの必要なライ
ブラリをインストールし
ます。
Verticaデータベースに
ODBC接続できるようにイ
ンストールします。
Jupyter
Notebook
Anacondaインストール時
にJupyter Notebookもあわ
せてインストールします。

セットアップ手順概要
1. ノートPC上に、Anacondaをインストールする。
＜参考＞セットアップ手順詳細：Anacondaセットアップ
2. ノートPC上に、Vertica Driverをインストールする。
＜参考＞セットアップ手順詳細：Verticaドライバーセットアップ
3. Veritcaサーバー上に、Rがインストールされていない場合は、Rパッケージをインストール
する。（R関連のステップを実行しない場合はインストール不要です。）
＜参考＞セットアップ手順詳細：Vertica Rパッケージセットアップ
4. Verticaサーバー上にサンプルテーブル、データを作成します。
＜参考＞セットアップ手順詳細：サンプルテーブル・データの作成
5. スタートボタン→すべてのプログラム→Anaconda3 (64-bit)から、Anaconda Navigatorを起動
します。
6. Jupyter notebookをLaunchします。
7. 「Smart Meter Demo.ipynb」ファイルを選択し、開きます。
※これでデモ用のコマンドが実行可能となります。

セットアップ手順詳細：Anacondaセットアップ
1. Webブラウザにて、「https://www.anaconda.com/download/」にアクセスし、ノートPCに
Anacondaをダウンロードする。

2. ダウンロードしたexeファイル（例：Anaconda3-5.1.0-Windows-x86_64.exe）をクリックし、
インストール開始します。下記画面で、Nextをクリックします。

3. 下記画面で、I Agreeをクリックします。

4. 下記画面で、環境に応じていずれかのオプションを選択し、Nextをクリックします。

5. 下記画面で、Nextをクリックします。

6. デフォルトの設定のまま、Installをクリックします。

7. Completedと表示されたら、Nextをクリックします。

8. Skipをクリックします。

9. Finishをクリックし、インストールを終了します。

10. スタートボタン→すべてのプログラム→Anaconda3 (64-bit)から、Anaconda Promptを起動し
ます。
11. プロンプト画面上で、下記を実行します。途中、「y」を入力し更新します。
12. 続いて、sqlalchemyをUpdateするために、下記を実行します。
13. sqlalchemy-verticaをインストールします。
14. ipython-sqlをインストールします。
(base) C:Usersgeneraluser> conda update -n base conda
(base) C:Usersgeneraluser> conda update sqlalchemy
(base) C:Usersgeneraluser> pip install sqlalchemy-vertica[pyodbc,vertica-python]
(base) C:Usersgeneraluser> pip install ipython-sql

セットアップ手順詳細：Verticaドライバーセットアップ
1. Webブラウザにて、「https://my.vertica.com/download/vertica/client-drivers/」にアクセスし、
Windows用のDriverをダウンロードします。
2. ダウンロード後、exeファイル（例：VerticaSetup-9.0.1-4.exe）をクリックし、インストー
ラーを起動します。
3. インストーラーが開いたら、Installをクリックします。

4. 続いての画面で、Nextをクリックします。

5. 続いての画面で、Proceedをクリックします。

6. セットアップ完了画面で、Finishをクリックします。

7. 「C:WindowsSystem32odbcad32.exe」を起動します。
8. システムDSNを選択し、「追加」をクリックします。
9. データソースで「Vertica」を選択します。
10. 下記の情報を入力し、「Test Connection」で接続可能かどうか確認します。
- DSN name: 任意のデータソース名を入力してください。
※デモ用のJupyterノートブック上は「VerticaDSN」となっておりますのであわせるのが簡単で
す。
- Database: 接続されるVerticaのデータベース名を入力してください。
- Server: 接続されるVerticaのIPアドレスを入力してください。
※ロードバランサーを設定されている場合は、バックアップサーバーも入力し、「Use
connection load balancing」にもチェックを入れます。
- User name: データベースの接続ユーザー名を入力します。
- Password: データベースの接続ユーザーのパスワードを入力します。
11. 接続確認が取れたら、「OK」をクリックし設定を完了します。

データソース設定の画面例

セットアップ手順詳細：Vertica Rパッケージセットアップ
1. 必要なライブラリをインストールします。
- RHEL/CentOS - libfortran, xz-libs, libgomp
- 参考：
https://my.vertica.com/docs/9.0.x/HTML/index.htm#Authoring/ExtendingVertica/R/InstallingRForVerti
ca.htm
2. myVertica（https://my.vertica.com/download/vertica/）より、Rパッケージをダウンロードし
ます。
- myVerticaの登録の方法などにつきましては、日本語ガイドを参照ください。
（https://www.vertica.com/ja-jp/trials/）
3. RパッケージをVerticaサーバー上（全ノード上）にインストールします。
# rpm –ivh vertica-R-lang-9.0.1-0.x86_64.RHEL6.rpm

Vertica Community Edition
データ量1TB/3ノードまで
無期限でお試しいただけます
 Verticaの全ての機能を使えます。
 VMイメージ（OVA形式）ですぐに評価できます。
https://my.vertica.com/download/vertica/community-edition/
 Community Edition用のインストールガイド(日本語)もご用意しています
https://www.syuukyaku-pack.jp/discoverthenew/download/applicants/input

今すぐ体験！
 下記ページより、4時間以内であれば自由に使用可能なテストドライブ
にアクセス可能！
https://aws.amazon.com/jp/testdrive/hpe/

豊富な分析手法の無償トレーニングや教材
■スマートメーター機械学習分析 ■地理空間分析

サマリー
大規模データを
高速に
その場で
シンプルなSQLで
高度な分析
すべてがオールインワン
すぐ使えます！
ダウンサンプリン
グ不要
煩雑なデータ
準備も簡単に

ありがとうございました。

[db tech showcase Tokyo 2018]　#dbts2018 #D27 『Verticaの進化が止まらない！機械学習、データレイク、処理ノードの分離まで』

Recommended

Recommended

More Related Content

Similar to [db tech showcase Tokyo 2018]　#dbts2018 #D27 『Verticaの進化が止まらない！機械学習、データレイク、処理ノードの分離まで』

Similar to [db tech showcase Tokyo 2018]　#dbts2018 #D27 『Verticaの進化が止まらない！機械学習、データレイク、処理ノードの分離まで』 (20)

More from Insight Technology, Inc.

More from Insight Technology, Inc. (20)

Recently uploaded

Recently uploaded (9)