[db tech showcase Tokyo 2017] D25: データの分析や解析の前に必要となる「データ準備」とは。データ・プレパレーション・プラットフォーム『Paxata』 by 株式会社アシスト山口晃司

Copyright © K.K. Ashisuto
データの分析や解析の前に必要となる「データ準備」とは。
データ・プレパレーション・プラットフォーム『Paxata』
2017年9月6日
株式会社アシスト
情報基盤技術統括部技術2部山口晃司

講師紹介
2
山口晃司
株式会社アシスト
情報基盤技術統括部技術2部
アシスト入社後、BI製品のサポート、フィールド業務を経て、2016年よりデータ・
プレパレーション・プラットフォーム「Paxata」の製品技術として顧客への提案、導入、
開発支援を担当。

アシストについて
設立 1972年3月
代表取締役会長ビル・トッテン
代表取締役社長大塚辰男
資本金 6,000万円
売上高 262億円（2016年度）
社員数 1,075名（2017年4月） ※グループ会社含む
事業内容
コンピュータ用パッケージ・ソフト
ウェアの販売、技術サポート、教育
およびコンサルティング
本社所在地
東京都千代田区九段北4-2-1
市ヶ谷東急ビル
オフィス所在地
札幌、仙台、名古屋、金沢、大阪、
広島、宇部、福岡、沖縄
取引会社数 6,000社（2016年度）
主要取扱製品数 60製品（2017年4月現在）
グループ会社
株式会社アシスト北海道
株式会社のれん
※サポートセンターのみ
金沢
札幌
仙台
東京本社
名古屋
宇部
福岡
広島大阪
沖縄
※グループ会社：㈱アシスト北海道併設
サポート
センター
※グループ会社：
㈱のれん併設
3

データ・プレパレーション

E
T
L
データマネジメントが困難な時代に
セントラル
ウェアハウス
データマート
クラウドシステム
ローカルファイル
エンタープライズBIIT部門の
管理範囲
セルフサービスBI
データレイク
IoT
予測分析
オープンデータ
第三者データ
業務
システム
AI・機械学習
センサー
データ
IoT
IoT
データウェアハウス
既存の仕組みだけでは、
データドリブン経営は実現できない？！

「データ」と「情報」の違い
情報データ
完成されており
クリーンで
意味付けがあって
すぐに活用できる
CRM
企業情報
会計データ
ソーシャル
メディア ERP
マシン
データ

「データ」を「情報」に変える難しさ
ユーザ部門はITツールが
つかいこなせない
IT部門はデータの意味が
わからない
データ準備に全作業の 80% が費やされている
手作業やコーディングへの依存
IT部門だけが利用可能なテクノロジー

Copyright © K.K. Ashisuto 9
データ・プレパレーションとは？
企業内外に存在するデータを
IT部門だけでなく、ユーザ部門自らが
消費可能な情報に加工・変換すること

Paxata, Inc.
Paxata 社はデータドリブン経営を実現するデータプレパレーションプラットフォームの提供を
目指して製品の開発を行っています。
• 2012年にカリフォルニアで設立
• 2013年11月に製品版をリリース
• 現在のユーザ数は100社以上
幅広い業種で100社以上の採用
10

データ・プレパレーションの業界リーダーに選出
11

３つの特長：革新的な技術の活用
人工知能
機械学習
コンシューマー
エクスペリエンス
分散
コンピューティング
機械学習を利用し
テーブル間の
結合キーを自動で判別
ノンプログラミングで
データ加工が
進められるUI
Apache Sparkを
データ加工の
エンジンに採用

Paxata システムイメージ
データレイク
エンタープライズ
ローカル
探索
整形
データ
追加
発行
整備
変更
強化
統合
デ
ー
タ
セ
ッ
ト
格
納
メ
モ
リ
展
開
ア
ン
サ
ー
セ
ッ
ト
格
納
デ
ー
タ
エ
ク
ス
ポ
ー
ト
データ
エンジニアデータ
サイエンティスト
AI
機械学習 BI
ディベロッパー
BI
パワーユーザ BI
コンシューマー
HDFS
13

デモンストレーション

デモシナリオ
15
HDFS
Webキャンペーン
ログデータ
リード情報
（顧客マスタ）
データソース
HDFS
データ
追加
探索
整備
変更
整形統合強化
要件
ユーザ自身でWebキャンペーンのデータに顧客情報
を連携させたデータを作成し、BIツールで分析したい
＋

アーキテクチャ

アーキテクチャ
Apache Sparkをエンジンに独自開発された
データ加工を行うインメモリ分散処理エンジン
分散処理の技術を取り入れたスケーラブルな構成が可能
Visually Dynamic
Multi-User Interface
HTML5を使用したユーザインターフェース
Javaで開発されたWeb Service
加工前のデータセットと加工後に出力された
Answersetを格納するためのHDFS
Data Prep Application
Web Services
Parallel In-Memory
Pipelined Data Prep Engine
Powered by Intellifusion
Distributed Processing Engine
Data Management in
Hadoop Distributed File System
Paxataは以下の4構造でシステムを構成

サーバの構成と役割
Core Server
Worker
DataNode
RDBMS
ストレージ
S3/HDFS/SFTP
クライアントPC
Pipeline
Master
NameNode
ユーザ要求の分散処理
インポートもしくは
Paxataで生成されたデータの格納先
データのインポート/エクスポート処理
UIや加工処理の要求を生成

データのインポート
Core Server
Worker
DataNode
JDBC
HTTP/HTTPS
Connector
parquet
データ
変換
Pipeline
Master
NameNode
XLSX/CSV
JSON/XML
Table
/View
XLSX/CSV
JSON/XML
parquet
RDBMS
ストレージ
S3/HDFS/SFTP
DATA
→parquet
Paxataで使用するデータを登録
データ単位で利用可能なユーザを制限し共有
することが可能
インポートする
データを選択

プロジェクト作成
Core Server Pipeline
WorkerMaster
NameNode DataNode
parquet
parquet
cache
データ
変換
画面
生成
RDBMS
ストレージ
S3/HDFS/SFTP
クライアントPC DATA
DATA
parquet
→DATA
ブラウザ上のGUI操作でSparkへデータ加工
処理のリクエストを送信
加工結果をリアルタイムに参照しながら処理を
進めることができる
分散処理
データセットを
選択

AnswerSet出力
Core Server
Worker
DataNode
parquet
parquet
cache
cache
cache
データ
変換
Pipeline
Master
NameNode
RDBMS
ストレージ
S3/HDFS/SFTP
DATA
DATA
→parquet
parquet
Paxata上で生成されたデータを
AnswerSetとしてHDFSへ出力し、
新たなデータを作成可能
分散処理
AnswerSetを
Publish

データのエクスポート
Core Server
Worker
DataNode
JDBC
HTTP/HTTPS
Connector
parquet
データ
変換
Pipeline
Master
NameNode
Table
XLSX/CSV
JSON/XML
parquet
parquet
cache
cache
cache
parquet
RDBMS
ストレージ
S3/HDFS/SFTP
parquet
→DATA
ユーザは生成したデータを管理された
任意の出力先へエクスポートしテーブルや
ファイルとして参照することが可能
エクスポート
するデータを選択
XLSX/CSV
JSON/XML

実際のサーバ構成では、、、
Core Server
Worker
DataNode
Pipeline
Master
NameNode
（YARN）
Hadoop Distribution
Cloudera/Hortonworks/MapR
Hadoopクラスタを構成するノードと同居させる構成が可能
RDBMS
ストレージ
S3/HDFS/SFTP

Paxataの強み

慣れ親しんだユーザインターフェース
25
実データを見て、ノンコーディング加工データフローを描ける
スキルが必要
スプレッドシートワークフロー

すべてのデータを高速に処理
26
必要なすべてのデータを対話的に加工サンプリングはデータを限定する
フルデータセットサンプリング

共有とガバナンスを実現
27
すべてのユーザステップが記録、
バージョン管理され、監査可能
Excel職人と変わらない
無秩序な状態
プラットフォームスタンドアロン

Excelなどによる手作業のデータ収集と準備
ワンタイム分析のためのデータ加工基盤
AIのインプットデータ作成
急増するデータ準備の課題 TOP３
手軽に、素早く
データが準備できる基盤が求められている

Core Server
Worker
Pipeline
Master
EMR/HDInsight
S3/WABS
より高速な環境構築と
運用負荷の軽減が可能に！
Hadoop as a Serviceに対応予定（’17秋）
RDBMS
ストレージ
S3/HDFS/SFTP/WABS
AWS/Azure環境ではHadoop Distributionなしで構築可能

データ・プレパレーションの機能をクラウドでご利用いただける
SaaS型サービスを2017年9月1日にリリース
Cloud Powered by
5つの特徴
いつでもすぐに利用スタート！
インフラ設計や保守運用は不要！
Webブラウザさえあれば利用可能！
データ量に応じて3種類のモデルの中から選択！
初期コストを低減！
システムイメージ
ブラウザとデータがあれば
すぐに利用を開始できる！

まとめ

データドリブン時代のフレームワーク
32
データレイク
オープンデータ
第三者データ
予測分析・AI
E
T
L セントラルウェア
ハウスデータマート
ローカルファイル
エンタープライズBI
IT部門の
管理範囲
業務
システム
データウェアハウス
セルフサービスBI
クラウドシステム
データ活用の民主化を支える
「データ共有基盤」

アシスト Paxata
弊社Webサイトをチェック
Paxata Cloud

ご清聴ありがとうございました

[db tech showcase Tokyo 2017] D25: データの分析や解析の前に必要となる「データ準備」とは。データ・プレパレーション・プラットフォーム『Paxata』 by 株式会社アシスト山口晃司

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [db tech showcase Tokyo 2017] D25: データの分析や解析の前に必要となる「データ準備」とは。データ・プレパレーション・プラットフォーム『Paxata』 by 株式会社アシスト山口晃司

Similar to [db tech showcase Tokyo 2017] D25: データの分析や解析の前に必要となる「データ準備」とは。データ・プレパレーション・プラットフォーム『Paxata』 by 株式会社アシスト山口晃司 (20)

More from Insight Technology, Inc.

More from Insight Technology, Inc. (20)