4. データセット (学習用のデータ) の読み込み
# the data, split between train and test sets
# Scale images to the [0, 1] range
# Make sure images have shape (28, 28, 1)
# convert class vectors to binary class matrices
53. DeviceID OEM Name SSD (GB)
CPU Clock
(GHz) Region OS Install Date
1 Hewlett Packard 500 3.2 US 12/12/2016
2 HP 1000 1233 US 05/02/2017
3 Hewlett-Packard 250 -7.8 USA 05/32/2017
4 hp 217 4.2 MEA 04/10/2016
5 Hewlet Packard NA 4.1 Latam 05/15/2087
6 DELL 250 0 Japan 03/13/2017
7 dell NULL 9.2 Japan 04-17-2016
8 “” 500 3.5 China 2015.02.141
9 Hewlett pakerd 500 2.8 China 3/2
答え: No… なぜなのか見ていきましょう
55. 4. 一貫性の無いデータ型や書
式
• アルゴリズムがデータ型や書式を誤解
釈しやすい
• 例: OS Install Date (日付の代わりに文字
列), OS Install Date (複数の書式)
5. 間違ったデータ
• 誤った結果になる
• 例: CPU Clock (マイナス, 存在しない値),
OS Install Date (不完全, 存在しない値)
6. 範囲
• 対象としたい範囲に絞る (*)
• 例: Region == “US”
…
CPU Clock
(GHz) Region OS Install Date
… 3.2 US 12/12/2016
… 1233 US 05/02/2017
… -7.8 USA 05/32/2017
… 4.2 MEA 04/10/2016
… 4.1 Latam 05/15/2087
… 0 Japan 03/13/2016
… 9.2 Japan 04-17-2016
… 3.5 China 2015.02.141
… 2.8 China 3/2
*注意: 範囲選択を注意して行わないと、モデルの安定性に影響がある
56. 可視化の代表例
• 度数分布表 (Histogram)
• パーセンタイル: 特定目的の範囲毎の
値
• 四分位数:分布を4つの等しい部分に分
割する
• 中央値: (ソートされた) 分布の中央値
• 外れ値を識別するための箱ひげ図
(BoxPlot) を作成する
largest
value
smallest
value
Histogram
Boxplot
Median
Outliers
目的: データのパターンや課題をチェックする
57. Positive (right) skew
データの傾きをチェック
(ロングテール)
Mean
Median
Tip: (Generally) If mean is right of
median, data is right skewed.
あなたのデータはどんな形状をしていますか?
• よくあるパターンなのか、異なるのか?
• 処理する価値があるのか?
Mean (average) = 0
バイモーダル分布
= 2
m = 0
Mean (average) 凡そ Median
最頻値
(最も数が多い値)
正規分布(Gaussian or “Bell curve”)
71. 実装
• 深層学習でないとAIでない vs. 深層学習は高コストで最終手段
• 目新しさで深層学習を使う vs. 課題解決のために役立つ技術を探
す
• 優秀なエンジニアがいないとやらない vs. 自分たちでも出来る方
法を考える
• 技術の完成度が上がるまで手を出さない vs. まずは試してみる
• モデルの精度にこだわる vs. 精度が低くても役に立つところを探
す
73. • AI や 機械学習の最新の
トレーニング
• 概要・基礎・チュートリアル
• 自分に適した、トレーニングコースの作成
• AI Business School
• Conversational AI
• AI Services
• Machine Learning
• Autonomous System
• Responsible AI
aischool.microsoft.com