SlideShare a Scribd company logo
1 of 23
Download to read offline
SPSS Modelerによる
データ加工入門
Co-graph Inc.
Takahashi Masaki
Co-graph confidential 2
本スライドは、SPSS Modelerに興味を持った
人/使い始めた人のために、SPSS Modelerを
使ったデータ加工の進め方を解説した資料です。
IBM(R) SPSS Modeler(以下、Modeler)の独自形式の
ファイルのことをストリームファイルと言います。
本スライドで使用しているサンプルデータと
ストリームファイルは、「コグラフ公式テクニカルWeb」から
ダウンロードできます。
http://www.co-graph.net/
「コグラフ公式テクニカルWeb」には、本スライドに
記載しきれなかった情報もたくさんありますので是非ご覧ください。
 IBM、IBM ロゴ、ibm.com、SPSSは、世界の多くの国で
登録されたInternational Business Machines Corp.の商標です。
Co-graph confidential 3
SPSS Modelerとは?
そもそも…
Co-graph confidential 4
・データの加工と分析をするソフトです。
・データマイニングに必要な機能は
ほぼ揃っています。
・データ加工がしやすいです。
・本格的なわりに、習得のハードルが低いので
大企業を中心に世界中で使われています。
Co-graph confidential 5
ではさっそく…
CSVデータの取り込みと内容表示
についてご説明します
Co-graph confidential 6
初めてModelerを使う人にとって、データの加工プロセスを「ノード」単位
で行っていく操作は、不慣れなものではないかと思います。
下の例は、CSVデータを取り込んで、表(テーブル)で表示するというごく簡
単なプロセスです。
Modelerでは、これらのような丸と四角のアイコンを「ノード」と呼んでい
ます。
また、このような、一連のノードを通過するデータ処理の流れのことを「ス
トリーム」といいます。
本資料では、まず上図のストリームを構築する方法についてご説明します。
Co-graph confidential 7
とりあえず…
CSVファイルを取り込んでみましょう
Co-graph confidential 8
【1】
CSVデータの取り込みについては、
Windows上からCSVファイルをModeler
画面上にドラッグすることでノードを作成
することができます。
【2】
データを表示させるための「テーブル」
ノードは、画面下部分のノードパレットと
呼ばれる領域からドラッグして作成します。
二つのノードを配置したら、CSV取り込みノードをマウスの中央ボ
タンでクリックします。
こうすると青い矢印が作成できますので、中央ボタンをクリックした
まま「テーブル」ノードまで矢印を繋げます。そしてテーブルをダブ
ルクリックして実行するとCSVファイルが全件表示されます。
Co-graph confidential 9
ここまでで、CSVファイルを取り込んで表示させるだけ
のシンプルなストリームを作成することができました。
次に、ノードの設定方法についてご説明します。
Co-graph confidential 10
CSV取り込みノード(正確には
「固定長ファイル」ノード)を
ダブルクリックすると右のような
画面を開くことができます。
CSVファイルの中身を確認するだけであれば細かな設定は必要ありません
が、場合によってはここで様々な変更を行います。
たとえば、CSVの区切りは、デフォルトでは「,」となっていますが、変更
する場合は、「フィールド区切り文字」のチェック箇所を変えます。
Co-graph confidential 11
次は…
簡単な集計をしてみましょう
Co-graph confidential 12
データ集計において最も基本的なノードともいえる「レコード集計」ノード
についてご説明します。
前回使用したものと同一のサンプルデータを使用します。
こちらは通販サイトにおける、特定商品の購買や閲覧の有無、これまでの購
買単価の平均値などを、会員ごとに示したデータとなっています。
(仮想のデータです)
Co-graph confidential 13
CSVファイルの取り込みで作成したストリームに
「レコード集計」ノードを下記のように追加します。
ダブルクリックして設定画面へ
Co-graph confidential 14
「レコード集計」ノードをダブルクリックして編集します。
今回は「キーフィールド」と「集計フィールド」を下記のように
設定します。
(解説と実行結果は次ページです)
Co-graph confidential 15
この例では、「商品A購買有無」というフラグ
変数を「キーフィールド」にしています。
(フラグ変数というのは、1が該当、
0が非該当を表す、2値の変数です)
そのため、商品Aの購買がある人とない人に
別れて集計されます。
「キーフィールド」というのは、テーブル内のレコードを一意に識別するためのフィール
ド(変数)のことです。
上の例では、「商品A購買有無」が1のレコードと0のレコードに分けて集計を行っており
「商品A購買有無」という「キーフィールド」でレコードが一意に定まっています。
「集計フィールド」は集計対象のフィールドのことです。上の例では「集計フィールド」
に、ユーザー一人一人の「購買の平均単価」を示す変数を指定しているので
その変数について、商品Aの購買があるグループ(1)、ないグループ(0)で平均を取ったも
のが「購買の平均単価_Mean」として表示されます。
「Record_Count」は、商品Aについての購買有無それぞれのレコード数を示します。
Co-graph confidential 16
次は…
複数のデータを結合してみましょう
Co-graph confidential 17
「レコード結合」ノードは、2つ以上のデータを特定のフィールド(変数)をキーにして結合
するときに使います。
下記の2つのCSVデータを例にしてご説明します。
これらは商品ごとの値段のデータ(price.csv)と発売年のデータ(year.csv)を想定しています。
Co-graph confidential 18
ノードを右のように配置します。
右は、「レコード結合」ノードの設定画面です。
結合の方法を下記4種類の中から選択します。
①内部結合
②完全外部結合
③部分外部結合
④逆結合
次ページ以降で、これらの結合について解説します。
ダブルクリックして設定画面へ
Co-graph confidential 19
①内部結合
内部結合は、両方のCSVで、結合キー(ID)が一致する
レコードだけを取得する結合方法です。
この場合、右のように出力されます。
値段は、元のcsvには下記4商品についてレコードが
存在しました。
【price.csv:1,2,3,5】
一方、発売年については、下記3商品について
レコードが存在しました。
【year.csv :1,2,4】
内部結合では、両方に共通してIDが存在するレコード
を取得しますので、下記2つが出力されます。
【内部結合後→1,2】
Co-graph confidential 20
②完全外部結合
内部結合での結果に加えて、どちらかのCSVにしか
存在しないレコードも取得するのが完全外部結合です。
完全外部結合では右のようになります。
元の各csvファイルのIDは下記です。
【price.csv:1,2,3,5】
【year.csv :1,2,4】
結合後のIDは下記となります。
【完全外部結合後→1,2,3,4,5】
IDの3~5は片方のcsvにしか存在しないため、取得で
きないデータ(欠損値)が発生します。
Modeler上では、欠損値は「$null$」と表示されます。
Co-graph confidential 21
③部分外部結合
選択したCSVのレコードをすべて取得す
るのが、部分外部結合です。
部分外部結合では、右のような選択画面が
表示されます。
price.csvを選択すると、price.csvに含ま
れるすべてのレコードが取得されます。
この場合、year.csvにもIDが存在するレ
コードには、yearの値が入り、それ以外は
欠損値となります。
元の各csvファイルのIDは下記です。
【price.csv:1,2,3,5】
【year.csv :1,2,4】
結合後のIDは下記となります。
【部分外部結合後→1,2,3,5】
Co-graph confidential 22
④逆結合
逆結合では、メインのCSVにのみ存在す
るレコードが取得されます。
メインのCSVは、「入力」タブで確認で
きます。
最初に「レコード結合」ノードにつながっ
た方がメインとなりますが、この画面の順
序を変えることで変更することもできます。
元の各csvファイルのIDは下記です。
【price.csv:1,2,3,5】
【year.csv :1,2,4】
結合後のIDは下記となります。
【逆結合後→3,5】
Co-graph confidential 23
本スライドで使用しているサンプルデータと
ストリームファイルは、「コグラフ公式テクニカルWeb」から
ダウンロードできます。
「コグラフ公式テクニカルWeb」には、本スライドに
記載しきれなかった情報もたくさんありますので是非ご覧ください。
http://www.co-graph.net/
本スライドは以上となります。
ご覧頂き、ありがとうございました。

More Related Content

Similar to [コグラフ]spss modelerによるデータ加工入門

刊行記念セミナー「HBase徹底入門」
刊行記念セミナー「HBase徹底入門」刊行記念セミナー「HBase徹底入門」
刊行記念セミナー「HBase徹底入門」cyberagent
 
SparkとJupyterNotebookを使った分析処理 [Html5 conference]
SparkとJupyterNotebookを使った分析処理 [Html5 conference]SparkとJupyterNotebookを使った分析処理 [Html5 conference]
SparkとJupyterNotebookを使った分析処理 [Html5 conference]Tanaka Yuichi
 
Map server入門 - FOSS4G 2012 Hokkaido
Map server入門 - FOSS4G 2012 HokkaidoMap server入門 - FOSS4G 2012 Hokkaido
Map server入門 - FOSS4G 2012 HokkaidoHideo Harada
 
VisualSFMとMeshLabとCloudCompareによるドローン撮影画像を用いたデジタル地図作成
VisualSFMとMeshLabとCloudCompareによるドローン撮影画像を用いたデジタル地図作成VisualSFMとMeshLabとCloudCompareによるドローン撮影画像を用いたデジタル地図作成
VisualSFMとMeshLabとCloudCompareによるドローン撮影画像を用いたデジタル地図作成Hiroshi Yamaguchi
 
Synapse lakedatabase
Synapse lakedatabaseSynapse lakedatabase
Synapse lakedatabaseRyoma Nagata
 
TensorFlowをもう少し詳しく入門
TensorFlowをもう少し詳しく入門TensorFlowをもう少し詳しく入門
TensorFlowをもう少し詳しく入門tak9029
 
Pachyderm Introduction
Pachyderm IntroductionPachyderm Introduction
Pachyderm IntroductionTetsurou Yano
 
Oracle Data Minerハンズオンセミナー170927:①Oracle 機械学習概要
Oracle Data Minerハンズオンセミナー170927:①Oracle 機械学習概要Oracle Data Minerハンズオンセミナー170927:①Oracle 機械学習概要
Oracle Data Minerハンズオンセミナー170927:①Oracle 機械学習概要オラクルエンジニア通信
 
Bluemixを使ったTwitter分析
Bluemixを使ったTwitter分析Bluemixを使ったTwitter分析
Bluemixを使ったTwitter分析Tanaka Yuichi
 
[CTO Night & Day 2019] ML services: MLOps #ctonight
[CTO Night & Day 2019] ML services: MLOps #ctonight[CTO Night & Day 2019] ML services: MLOps #ctonight
[CTO Night & Day 2019] ML services: MLOps #ctonightAmazon Web Services Japan
 
ドメイン駆動設計入門
ドメイン駆動設計入門ドメイン駆動設計入門
ドメイン駆動設計入門増田 亨
 
MySQLの公式GUIツール MySQL Workbench
MySQLの公式GUIツール MySQL WorkbenchMySQLの公式GUIツール MySQL Workbench
MySQLの公式GUIツール MySQL Workbenchyoyamasaki
 
SageMaker Neoの可能性について - 第3回 Amazon SageMaker 事例祭り+体験ハンズオン
SageMaker Neoの可能性について- 第3回 Amazon SageMaker 事例祭り+体験ハンズオンSageMaker Neoの可能性について- 第3回 Amazon SageMaker 事例祭り+体験ハンズオン
SageMaker Neoの可能性について - 第3回 Amazon SageMaker 事例祭り+体験ハンズオンtomohiro kato
 
クラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターンクラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターンAmazon Web Services Japan
 
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューションDell TechCenter Japan
 
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...NTT DATA Technology & Innovation
 
データ履歴管理のためのテンポラルデータモデルとReladomoの紹介 #jjug_ccc #ccc_g3
データ履歴管理のためのテンポラルデータモデルとReladomoの紹介 #jjug_ccc #ccc_g3 データ履歴管理のためのテンポラルデータモデルとReladomoの紹介 #jjug_ccc #ccc_g3
データ履歴管理のためのテンポラルデータモデルとReladomoの紹介 #jjug_ccc #ccc_g3 Hiroshi Ito
 

Similar to [コグラフ]spss modelerによるデータ加工入門 (20)

刊行記念セミナー「HBase徹底入門」
刊行記念セミナー「HBase徹底入門」刊行記念セミナー「HBase徹底入門」
刊行記念セミナー「HBase徹底入門」
 
SparkとJupyterNotebookを使った分析処理 [Html5 conference]
SparkとJupyterNotebookを使った分析処理 [Html5 conference]SparkとJupyterNotebookを使った分析処理 [Html5 conference]
SparkとJupyterNotebookを使った分析処理 [Html5 conference]
 
Map server入門 - FOSS4G 2012 Hokkaido
Map server入門 - FOSS4G 2012 HokkaidoMap server入門 - FOSS4G 2012 Hokkaido
Map server入門 - FOSS4G 2012 Hokkaido
 
VisualSFMとMeshLabとCloudCompareによるドローン撮影画像を用いたデジタル地図作成
VisualSFMとMeshLabとCloudCompareによるドローン撮影画像を用いたデジタル地図作成VisualSFMとMeshLabとCloudCompareによるドローン撮影画像を用いたデジタル地図作成
VisualSFMとMeshLabとCloudCompareによるドローン撮影画像を用いたデジタル地図作成
 
Synapse lakedatabase
Synapse lakedatabaseSynapse lakedatabase
Synapse lakedatabase
 
TensorFlowをもう少し詳しく入門
TensorFlowをもう少し詳しく入門TensorFlowをもう少し詳しく入門
TensorFlowをもう少し詳しく入門
 
Pachyderm Introduction
Pachyderm IntroductionPachyderm Introduction
Pachyderm Introduction
 
Oracle Data Minerハンズオンセミナー170927:①Oracle 機械学習概要
Oracle Data Minerハンズオンセミナー170927:①Oracle 機械学習概要Oracle Data Minerハンズオンセミナー170927:①Oracle 機械学習概要
Oracle Data Minerハンズオンセミナー170927:①Oracle 機械学習概要
 
Bluemixを使ったTwitter分析
Bluemixを使ったTwitter分析Bluemixを使ったTwitter分析
Bluemixを使ったTwitter分析
 
[CTO Night & Day 2019] ML services: MLOps #ctonight
[CTO Night & Day 2019] ML services: MLOps #ctonight[CTO Night & Day 2019] ML services: MLOps #ctonight
[CTO Night & Day 2019] ML services: MLOps #ctonight
 
ドメイン駆動設計入門
ドメイン駆動設計入門ドメイン駆動設計入門
ドメイン駆動設計入門
 
MySQLの公式GUIツール MySQL Workbench
MySQLの公式GUIツール MySQL WorkbenchMySQLの公式GUIツール MySQL Workbench
MySQLの公式GUIツール MySQL Workbench
 
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPANSAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
 
SageMaker Neoの可能性について - 第3回 Amazon SageMaker 事例祭り+体験ハンズオン
SageMaker Neoの可能性について- 第3回 Amazon SageMaker 事例祭り+体験ハンズオンSageMaker Neoの可能性について- 第3回 Amazon SageMaker 事例祭り+体験ハンズオン
SageMaker Neoの可能性について - 第3回 Amazon SageMaker 事例祭り+体験ハンズオン
 
クラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターンクラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターン
 
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
 
UShareSoft_20130425
UShareSoft_20130425UShareSoft_20130425
UShareSoft_20130425
 
UShareSoft_20130425
UShareSoft_20130425UShareSoft_20130425
UShareSoft_20130425
 
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
 
データ履歴管理のためのテンポラルデータモデルとReladomoの紹介 #jjug_ccc #ccc_g3
データ履歴管理のためのテンポラルデータモデルとReladomoの紹介 #jjug_ccc #ccc_g3 データ履歴管理のためのテンポラルデータモデルとReladomoの紹介 #jjug_ccc #ccc_g3
データ履歴管理のためのテンポラルデータモデルとReladomoの紹介 #jjug_ccc #ccc_g3
 

[コグラフ]spss modelerによるデータ加工入門