SlideShare a Scribd company logo
1 of 67
データサイエンティストに聞く!
今更聞けない機械学習の基礎から応用まで
株式会社九DW
中村俊輔
今日の流れ
 何故今機械学習なのか
 機械学習を取り巻く環境とビジネス機会の関係
 機械学習のしくみ
 図で分かる機械学習、中では実際に何をしているのか
 データサイエンティストに必要な要素
 どんな力を身につければよいのか
 データサイエンティスト体験
 数式、プログラミングいらず。ビジネス課題を実際に解決
 機械学習のこれから
 機械学習とどう付き合っていくか 機械学習の今後の動きとあるべき姿
 おまけ
 ポケモンで分かるデータサイエンティストの育て方
ここがメイン
勉強会が終わったときにあなたは
 今日の勉強会で…
 機械学習でビジネス課題を解決する考え方が分かる
 データサイエンスの楽しさがわかる…かもしれない
自己紹介
 学生時代
 大学でアメフト部で相手チームのデータ分析
 大学、大学院で機械学習を専攻
 研究テーマ :機械学習によるアメリカンフットボールの戦略推定
 社会人
 楽天でキャリアスタート
 Hadoopを使ったビッグデータ処理、Webアプリケーション開発
 機械学習を使う機会には恵まれず
 cherry-pick入社
 自社サービスの機械学習部分の開発
 九DW CTO就任
 受託開発の機械学習部分
注意
 サッカー選手ではありません
データ!アメフト!
データ!データ!
中村俊輔
@shun_naka
自己紹介
 個人の活動
 NFLでデータ分析屋さんになるべく
アメフトのアプリの研究開発をそろそろやります
@京都
 一般社団法人Japan American football Dream
の一員として活動もしてます
 サッカーではなくアメフト
中村俊輔
@shun_naka
データ!とスポーツ(特にアメフト)で
面白いことをやりたい!
お知らせ
 手元で動かしながら体験したい人は準備をお願いします
 後半にRを利用したハンズオンを予定しております。(ハンズオンはv 3.3.1で動作確認済)
 “R インストール”で検索してインストールお願いします
http://www.okadajp.org/RWiki/?R%20%E3%81%AE%E3%82%A4%E3%8
3%B3%E3%82%B9%E3%83%88%E3%83%BC%E3%83%AB
 以下URLを開いておいてください
https://github.com/shunnakamu/machine_learning_training
何故今、機械学習なのか?
機械学習を取り巻く環境とビジネス機会の関係
まずは頭の整理
 よく聞く単語ってどこにいるの?
人工知能
汎用人工知能
機械学習
クラス分類器
Deep Learning
特化型人工知能
人間の脳を
計算機で作
るぞ!
人間の知的な行動の一部
を計算機で実現したい
はじめに
 機械学習?
 人間が自然に行っている学習能力と同様の機能を
コンピュータで実現しようとする技術・手法 (Wikipedia)
 1959年から存在
 特別新しい技術ではない
はじめに
 何故今注目されている?
 コンピュータのほうが安く
よりよく課題を解く場面が増えた
 何故そんな場面がふえたのか
 人間 vs コンピュータ
 人間の得意なこと
 曖昧さを許容
 多様な知識を自ら学習
 コンピュータの得意なこと
 大規模計算が正確、高速
 不眠不休
 コンピュータの性能上昇、データ量増加
 コンピュータのほうが安く
よりよく課題を解く場面が増えた
 今ある仕事のいくつかはコンピュータになる…
かも
 実用例
 スパムメール検知
 カメラの顔検出 …等
機械学習がもたらす影響
 現在進行形で産業革命が2つ起こっている
 ICT革命
 人工知能革命
 機械学習でビジネス課題を解決できると競争力があがる
 機械学習を使った方が低コストでよりよく解決できる課題が多くなる
 その課題を機械学習を使って解決することで競争力があがる
機械学習のしくみ
図で分かる機械学習、中では実際に何をしているのか
どうやって動いてるの?
 解きたい問題をコンピュータに解ける状態にして解く
 人間の問題解決を数値計算で表現する(数値計算に意思をもたせる)
 賢く解かせる
 現実の問題は厳密に最適解を求めることは難しい
 例) 巡回セールスマン問題
 厳密な最適解のためには総当たり計算が必要
 NP困難 (有限時間で計算が終わらない)
 最適じゃなくていいからそれっぽいものを出そう
 機械学習!
 人間がやっているようなことをまねる
http://sssslide.com/www.slideshare.net/DataScientist_JP/09-53539349
機械学習って…
 色々な手法が登場して全容が掴みづらい
Deep Learning
サポートベクターマシン
ロジスティック回帰
線形判別分析
線形回帰分析
K-meansクラスタリング
主成分分析
自己組織化マップ
K近傍判別
ランダムフォレスト
決定木分析
ニューラルネットワーク
サポートベクター回帰
機械学習って…
 まとめると
 クラス分類
 回帰
 クラスタリング
 その他
Deep Learning
サポートベクターマシン
ロジスティック回帰 線形判別分析
線形回帰分析
K-meansクラスタリング
主成分分析
自己組織化マップ
K近傍判別
ランダムフォレスト
決定木分析
ニューラルネットワーク
サポートベクター回帰
機械学習って…
 大きく分けると3つの問題を解く道具
 クラス分類
 回帰
 クラスタリング
 その他
 3つの問題と、代表的な解き方を学ぶことで全容が分かる
代表的な手法を通じて問題と解き方を理解する
 クラス分類
 線形判別分析
 回帰
 線形回帰分析
 クラスタリング
 K-means クラスタリング
教師あり学習、教師なし学習
 さらに大きく分けると2つに分かれる
 教師あり学習
 クラス分類
 回帰
 教師なし学習
 クラスタリング
教師あり学習
 教師データ
 コンピュータに推定させたいものの正解のデータ
 教師あり学習をするためには以下が必要
 教師データ (目的変数, 基本的に1変数)
 教師データを推定できる情報 (説明変数, 複数可)
 例
 スパムメール検知
 教師データ : メールごとのスパムメール or 通常メール
 推定できる情報 : メールタイトル、本文に登場する単語等
 アイスクリーム売り上げ推定
 教師データ : 日ごとの売り上げ金額
 推定できる情報 : その日の気温、湿度
[1] "make" "address" "all" "num3d"
[5] "our" "over" "remove" "internet"
[9] "order" "mail" "receive" "will"
[13] "people" "report" "addresses" "free"
[17] "business" "email" "you" "credit"
[21] "your" "font" "num000" "money"
[25] "hp" "hpl" "george" "num650"
[29] "lab" "labs" "telnet" "num857"
[33] "data" "num415" "num85" "technology"
[37] "num1999" "parts" "pm" "direct"
[41] "cs" "meeting" "original" "project"
[45] "re" "edu" "table" "conference"
[49] "charSemicolon" "charRoundbracket" "charSquarebracket"
"charExclamation"
[53] "charDollar" "charHash" "capitalAve" "capitalLong"
[57] "capitalTotal" "type"
例) メールのデータ
クラス分類と回帰の違い
 教師データの種類が違う
 クラス分類
 教師データが離散値、大小、順序関係を持たない
 例
 スパムメール検知
 回帰
 教師データが連続値、大小、順序関係を持つ
 例
 売り上げ推定
[1] "Ozone" "Solar.R" "Wind" "Temp" "Month" "Day"
例) オゾンのデータ
教師なし学習
 教師なし学習のためには
 なんらかの特徴を持ったデータ
 例
 顧客のセグメンテーション
 データ : 年齢、性別、購買頻度、購買金額
[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width"
例) 植物のデータ
解いてみよう!
代表的な解き方を使って解いてみましょう!
実際にお手元で解いていただきます
クラス分類
 線形判別分析
 群間の分散と郡内の分散の比が最大になる
判別用の超平面のパラメータを求める
z = ax + by + c
うまく分類できるa, b, cを求める
a,b,c を求めておけばzの正負で分類できる
z : 目的変数
x, y : 説明変数
a, b, c : 教師データを使って求めるパラメータ
-> これを利用することで未知のデータの分類ができる
モデルを作成するとも言う
 性能はテストデータの正答率で評価
Rで線形判別分析
https://github.com/shunnakamu/machine_learning_training/blob/master/R/
01_LinearDiscriminantAnalysis.R
# load iris data
data(iris)
# check data summary
nrow(iris)
names(iris)
# set odd & even number
odd.n <- 2*(1:50) -1
even.n <- 2*(1:50)
# check
odd.n
even.n
# divide data into train and test
iris.train <- iris[odd.n,]
iris.test <- iris[even.n,]
# load library
library(MASS)
# lda (linear discriminant analysis)
iris.lda <- lda(Species~., data=iris.train)
# ignore warning
# In lda.default(x, grouping, ...) : group virginica is empty
iris.lda
# plot summary
plot(iris.lda, dimen=1)
# predict
iris.pre <- predict(iris.lda, iris.test[,-5])
table(iris.test[,5], iris.pre$class)
x <- data.frame("Sepal.Length" = 1, "Sepal.Width" = 2,
"Petal.Length" = 3, "Petal.Width" = 4)
predict(iris.lda, x)$class
トレーニングデータ : 学習用(パラメータa,b,cを求めるための)データ
テストデータ : 学習したモデルの汎化性能(知らないデータに対しての性能)をチェックするためのデータ
irisデータセットとは?
 日本語で
 Edgar Anderson のあやめのデータ
 説明
 この有名な(Fiher もしくは Anderson の)あやめのデータセットは
三種類のあやめの品種のそれぞれからの50の花の
センチメートル単位の蕚(がく)片の長さと幅、花弁の長さと幅の計測結果を与える。
品種は Iris setosa, versicolor そして virginica である。
 書式
 iris は 150 例(行) と、
名前 Sepal.Length, Sepal.Width, Petal.Length, Petal.Width
そして Species を持つ 5 変量(列) からなるデータフレームである。
データフレーム : この場合2次元データフレームなので表形式のデータ
http://www.is.titech.ac.jp/~mase/mase/html.jp/temp/iris.jp.html
クラス分類 (おまけ)
 Deep Learning
 脳の情報処理の方法を真似て作られたネットワークである
ニューラルネットワークをより多層(Deep)にしたもの
 入力層、中間層、出力層からなるネットワーク
ノードはニューロンで
特定の信号に対して発火(特定の値をとる)する
 ニューラルネットワーク自体はかなり前からある
(1943年)※
 以前はDeepにすると過学習する傾向にあったが、
過学習しないための仕組みが発見され、一気にブーム
 良いところ
 画像、音声等の特徴量が多いデータに対して強い
 悪いところ
 何をやっているのか人間に理解できない
※Warren S. McCulloch; Walter Pitts (December 1943). "A
logical calculus of the ideas immanent in nervous activity".
回帰
 線形回帰分析
 目的変数を説明変数の式で表現し
誤差が最小になる係数を求める
y = ax + b
y をうまく表現する(誤差が最小になる)
a, bを求める
xが与えられればyが求まる
y : 目的変数
x : 説明変数
a, b : 教師データを使って求めるパラメータ
 性能はテストデータへの誤差で評価
Rで線形回帰
https://github.com/shunnakamu/machine_learning_training/blob/master/R/
02_LinearRegression.R
# load airquality data
data(airquality)
# check data summary
nrow(airquality)
names(airquality)
# linear regression
airquality.lm <- lm(Ozone ~ Solar.R + Wind + Temp, data=airquality)
summary(airquality.lm)
# see Multiple R-Squared
airquality.lm$residuals
# see average of error
mean(abs(airquality.lm$residuals))
# see function coefficients
airquality.lm$coefficients
airquality データセットとは?
 日本語で
 ニューヨークの大気状態観測値
 説明
 ニューヨークの大気状態観測値。1973 年の五月から九月
 書式
 6 変量を持つ 154 観測値からなるデータ。
[,1] Ozone 数値 オゾン (ppb)
[,2] Solar.R 数値 日射量 (lang)
[,3] Wind 数値 風力 (mph)
[,4] Temp 数値 温度 (華氏 F)
[,5] Month 数値 月 1~12
[,6] Day 数値 月のうちの日にち 1~31
http://www.is.titech.ac.jp/~mase/mase/html.jp/temp/airquality.jp.html
クラスタリング
 K-means クラスタリング
 クラスタ数を決める
 初期値を与える
1. 各クラスターの中心(平均値)を求める
2. 各データをもっとも近いクラスター中心に割り当てなおす
3. 1, 2を実行して割り当てが変化しなければ終了
RでK-means
https://github.com/shunnakamu/machine_learning_training/blob/master/R/
03_KMeans.R
iris.km <- kmeans(iris[,-5], 3)
iris.km$cluster
iris.pc <- prcomp(iris[1:4])
# plot result
par(mfrow=c(2,2))
# left: actual, right; cluster
plot(iris.pc$x[,1], iris.pc$x[,2], pch = 21, bg = c("red", "green3",
"blue")[unclass(iris$Species)])
plot(iris.pc$x[,1], iris.pc$x[,2], pch = 21, bg = c("red", "green3", "blue", " black ", "
white ")[unclass(iris.km$cluster)])
# if cluster number is 5
iris.km <- kmeans(iris[,-5], 5)
iris.km$cluster
iris.pc <- prcomp(iris[1:4])
par(mfrow=c(2,2))
plot(iris.pc$x[,1], iris.pc$x[,2], pch = 21, bg = c("red", "green3",
"blue")[unclass(iris$Species)])
plot(iris.pc$x[,1], iris.pc$x[,2], pch = 21, bg = c("red", "green3", "blue", " black ", "
white ")[unclass(iris.km$cluster)])
機械学習はビジネス課題を解くときの一部でしかない
 実際のビジネス課題を解く手順例
 問題選定
 データ選定
 前処理
 機械学習で分析
 結果確認、再処理
データサイエンティストに必要な要素
データサイエンティストに必要な要素3つ
※ミッション、スキルセット、定義、スキル. レベル byデータサイエンティスト協会
http://www.datascientist.or.jp/news/2014/pdf/1210.pdf
 黎明期の現在はすべてを持ち合わせる必要がある
 さらに素早く成果物を出すには一人ですべてカバーしている必要がある
よくある光景 (ビジネス力が足りていない)
よくある光景 (データサイエンス力が足りていない)
よくある光景 (データエンジニア力が足りてない)
スキルセットが必要な場面
 実際のビジネス課題を解く手順ごとに必要なスキル
 問題設定 (ビジネス力、データサイエンス力)
 データ選定 (ビジネス力、データサイエンス力)
 前処理 (データエンジニアリング力、データサイエンス力)
 機械学習で分析 (データエンジニアリング力、データサイエンス力)
 結果確認、再処理 (データエンジニアリング力、データサイエンス力)
 これから体験してもらうところ
 問題設定 ~ 前処理の一部まで
 体験しながら自分の現在のスキルや
どんなスキルが必要なのか理解しよう
データサイエンティスト体験
数式、プログラミングいらず。ビジネス課題を実際に解決
ビジネス課題を機械学習を使って解決
 今までのまとめ
 使うだけなら簡単
 資料もWebにたくさんある
 重要なところ
 どう使うの?
 どんなデータをどう処理するの?
 出した答えをどう理解するの?
 経験、ノウハウが必要でビジネスで差が出るところだが資料は少ない
ビジネス課題を機械学習を使って解決
 今からやってもらうもの
 あるビジネス課題を機械学習で解決するロールプレイ
 重要な部分をわざと曖昧にしてあります
ほしい情報は質問して入手してください
 何人かでチームを作って課題解決にあたってください
 プログラミングはしません
 対象フェーズ
 問題設定 (ビジネス力、データサイエンス力)
 データ選定 (ビジネス力、データサイエンス力)
 前処理 (データエンジニアリング力、データサイエンス力)
 機械学習で分析 (データエンジニアリング力、データサイエンス力)
 結果確認、再処理 (データエンジニアリング力、データサイエンス力)
シチュエーション
 会社
 旅行代理店 (J○B, H○S)
 ボス
 「過去の宿泊予約の履歴からその日に泊まる人数を予測するサービスを立ち上げたい」
 「持ってるデータはこれだから」
お客様性別
お客様都道府県
決済手段
宿泊年
宿泊月
宿泊日
販売年
販売月
販売日
施設所在都道府県
地区コード
施設コード
施設名
施設形態
客室タイプ
プラン名
食事
お客様年齢
金額
泊数
室数
大人男
大人女
小人
人数計
持っているデータ(過去の宿泊予約の履歴)
やること
 対象フェーズ
 問題設定 (ビジネス力、データサイエンス力)
 データ選定 (ビジネス力、データサイエンス力)
 前処理 (データエンジニアリング力、データサイエンス力)
 機械学習で分析 (データエンジニアリング力、データサイエンス力)
 結果確認、再処理 (データエンジニアリング力、データサイエンス力)
 ポイント
 ボスに質問して詳細を聞き出そう
 しばらくしたら先輩データサイエンティストが登場
問題設定
 どの問題として解くか?
 クラス分類
 回帰
 クラスタリング
 その他
 何に対して解くか?
 都道府県?地域?宿泊施設?
やること
 対象フェーズ
 問題設定 (ビジネス力、データサイエンス力)
 データ選定 (ビジネス力、データサイエンス力)
 前処理 (データエンジニアリング力、データサイエンス力)
 機械学習で分析 (データエンジニアリング力、データサイエンス力)
 結果確認、再処理 (データエンジニアリング力、データサイエンス力)
 ポイント
 持っているデータのどれを利用するか?
(どんな式にするか?)
 しばらくすると先輩データサイエンティストとの答え合わせ
変数設定、データセット作成
 データセットは自分たちが作らないといけない
 サンプルのように整備されたものはない
 目的変数
 目的変数に設定すべきものは?
 説明変数
 説明変数に設定すべきものは?
お客様性別
お客様都道府県
決済手段
宿泊年
宿泊月
宿泊日
販売年
販売月
販売日
施設所在都道府県
地区コード
施設コード
施設名
施設形態
客室タイプ
プラン名
食事条件
お客様年齢
金額
泊数
室数
大人男
大人女
小人
人数計
持っているデータ
変数設定 設定例
 目的変数
 人数計
 説明変数
 宿泊日_年
 宿泊日_月
 宿泊日_日
 客室タイプ
 食事条件
 金額
 モデルを作成する単位
 施設コード
お客様性別
お客様都道府県
決済手段
宿泊年
宿泊月
宿泊日
販売年
販売月
販売日
施設所在都道府県
地区コード
施設コード
施設名
施設形態
客室タイプ
プラン名
食事条件
お客様年齢
金額
泊数
室数
大人男
大人女
小人
人数計
持っているデータ
前処理
 前処理が必要なデータ
 人数計
 日付ごとに合計データにしておく
 宿泊日
 曜日を算出しておく
 客室タイプ、食事条件
 種類ごとにベクトル化、数が少ないものはその他に
お客様性別
お客様都道府県
決済手段
宿泊年
宿泊月
宿泊日
販売年
販売月
販売日
施設所在都道府県
地区コード
施設コード
施設名
施設形態
客室タイプ
プラン名
食事条件
お客様年齢
金額
泊数
室数
大人男
大人女
小人
人数計
持っているデータ
データサンプル
月 火 水 木 金 土 日
ツイ
ン
シン
グル
和室
和洋
室
洋室
客室
タイ
プ_そ
の他
2食付
き
朝食
付き
食事
無
(ル
ーム
チャ
ー
ジ)
食事
条件_
その
他
金額
宿泊
人数
0 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0 0
1610
0
1
1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0
2430
0
1
0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 8100 1
1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 8100 1
1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 7420 1
0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 7420 2
0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0
1607
0
5
0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 7636 1
1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 7300 1
0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 7300 1
0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 7200 1
0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 8500 1
0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 7924 1
0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 6736 1
0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 0 0
1080
0
2
※金額はこの後0-1の範囲にする
場合によっては対数もとる
分析
travel <-
read.table(“travel_data.tsv”,
header=TRUE, sep=“¥t”, na.strings=“NA”, dec=“.”, strip.white=TRUE)
travel.lm <- lm(宿泊人数 ~. , data=travel)
summary(travel.lm)
summary(travel$宿泊人数)
# 誤差の平均を確認する
travel.lm.pre <- predict(travel.lm, travel[,-23])
travel.lm.result <- abs(travel.lm.pre - travel[,23])
summary(travel.lm.result)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 1.000 1.000 2.000 2.634 3.000 30.000
# モデルのパラメータ
travel.lm$coefficients
# 誤差が一番大きかったデータを確認する
which.max(travel.lm.result)
# データを目検。
結果を確認する
 回帰がうまくできなかったデータはどのような特徴があるのか?
 対応すべきか否か?
 外れ値かどうか?
 これを繰り返して賢く問題を解く機械学習のモデルを作っていく
 これがデータサイエンティストの仕事のメイン
 データの前処理も結構メインだったりする
 解きたい問題の本質は何かを考える
 目的変数を表現できる情報を与えてあげれば機械は正しい答えを出してくれる
 目的変数を表現できる情報とは?
まとめ
 実際のビジネス課題を機械学習で解いた
 問題選定
 データ選定
 前処理
 機械学習で分析
 結果確認、再処理
 実際にビジネス課題を解くとすると…
 機械学習で分析の部分は簡単、Webで探せばいくらでも資料がある
 大切なこと
 問題の本質をとらえる
 機械が解ける状態にする
 結果を正しく理解する
機械学習のこれから
機械学習とどう付き合っていくか 機械学習の今後の動きとあるべき姿
機械学習のこれから
 現在進行形で産業革命が2つ起こっている
 ICT革命
 人工知能革命
 機械学習でビジネス課題を解決できると競争力があがる
 機械学習を使った方が低コストでよりよく解決できる課題が多くなる
機械学習を取り巻く環境
 使うだけなら誰でもできる
 機械学習ライブラリの充実
 R
 Python
 機械学習プラットフォームの充実
 Amazon Machine Learning
 Microsoft Azure Machine Learning
 結果を読み取ったり、より良くするできることが大切
 機械学習のPDCAをうまく回せる人がビジネス課題を解決できる
 これができる人、組織は現在少ない
機械学習とどう付き合うか?
 経営者や管理者
 どの課題を機械学習で解決すべきなのかを理解できるようにする
 機械学習で解決すべきでない課題を機械学習で解いてもうれしくない
 Deep Learningもビジネス課題を解決する目的なら力を発揮しない場面が多い
 機械学習で課題を解決できる環境を作る
 人材確保
 取引先確保
 データサイエンティスト
 基礎としての数学を身につける
 PDCAを回すときに数学ができないと結果を正しく理解できない
 大学数学の線形代数、微分積分は必須
 基本的な機械学習の手法は数式から理解するべき
 ビジネス課題を解決する教科書はない、経験値が大切
 基本的には仕事はICTエンジニアと変わらないが、ノウハウがない
さいごに
データサイエンスは楽しい!
今まで人間が解けなかった問題が解ける
働き方をどう変えるか?は我々次第
おまけ
ポケモンで分かるデータサイエンティストの育て方
データサイエンティストに必要な要素3つ
※ミッション、スキルセット、定義、スキル. レベル byデータサイエンティスト協会
http://www.datascientist.or.jp/news/2014/pdf/1210.pdf
 黎明期の現在はすべてを持ち合わせる必要がある
 さらに素早く成果物を出すには一人ですべてカバーしている必要がある
どうすれば3つの要素を持ち合わせられるのか?
その前にポケモンの話をしよう
※ポケモンGOではなくて本家ポケモン
強いポケモンの育て方
 ポケモンの個体ごとの強いものを選ぶ
 強くしたいステータスを育てる
 倒したポケモンに応じて成長する
倒すとこうげきが上がる 倒すとぼうぎょが上がる
効率よく育てるために
 狙っているポケモンが出現する草むらでポケモンを倒す
ん…?
データサイエンティストになりたければ
3つの能力が上がる場所で活動する…
ポケモンと同じだ!
たまげたなぁ
イワヤマトンネル おつきみやま
つまり…
ポケモン データサイエンス
倒すポケモン 仕事
草むら 職場
データサイエンティストに必要な要素3つが身に着く現場
 大学、大学院
 数学、機械学習を身に着ける
 論文を読んだら実装できる
 大企業、中企業
 開発、運用の基礎を身に着ける
 高速な開発と容易な運用、いわゆるきれいなコードを
書けるようになる
 ベンチャー企業
 自ら問題解決をする
 自社、クライアントの問題をデータサイエンスでどう
解決するかを提案できる
 九DW
 多種多様なクライアントとすべてのことができる!
 データサイエンティストのパイオニアになる
ビジネス力
データサイエ
ンス力
データエンジ
ニアリング力
ビジネス力
データサイエ
ンス力
データエンジ
ニアリング力
ビジネス力
データサイエ
ンス力
データエンジ
ニアリング力
ビジネス力
データサイエ
ンス力
データエンジ
ニアリング力
※個人の感想です
さいごに
データサイエンスは楽しい!
今まで人間が解けなかった問題が解ける
働き方をどう変えるか?は我々次第
さいごに 2
興味を持ってくれた人へ
やってみたい人で学生の人 : インターンっぽいのがあるのでやってみませんか
やってみたい人で働いてる人 : 副業してみませんか
何かデータで困っている人 : 力になります。お話を聞かせてください

More Related Content

Viewers also liked

TISにおける、研究開発のメソッド
TISにおける、研究開発のメソッドTISにおける、研究開発のメソッド
TISにおける、研究開発のメソッドTakahiro Kubo
 
Webエンジニアが初めて機械学習に触れてみた話
Webエンジニアが初めて機械学習に触れてみた話Webエンジニアが初めて機械学習に触れてみた話
Webエンジニアが初めて機械学習に触れてみた話Shohei Tai
 
mmapパッケージを使ってお手軽オブジェクト管理
mmapパッケージを使ってお手軽オブジェクト管理mmapパッケージを使ってお手軽オブジェクト管理
mmapパッケージを使ってお手軽オブジェクト管理Shintaro Fukushima
 
R超入門機械学習をはじめよう
R超入門機械学習をはじめようR超入門機械学習をはじめよう
R超入門機械学習をはじめよう幹雄 小川
 
An introduction to statistical learning 4 logistic regression manu
An introduction to statistical learning 4 logistic regression manuAn introduction to statistical learning 4 logistic regression manu
An introduction to statistical learning 4 logistic regression manuHideyuki Takahashi
 
MLaPP輪講 Chapter 1
MLaPP輪講 Chapter 1MLaPP輪講 Chapter 1
MLaPP輪講 Chapter 1ryuhmd
 
Python 機械学習入門
Python 機械学習入門Python 機械学習入門
Python 機械学習入門孝之 鈴木
 
Python&機械学習にHelloWorldして旦那候補を探す
Python&機械学習にHelloWorldして旦那候補を探すPython&機械学習にHelloWorldして旦那候補を探す
Python&機械学習にHelloWorldして旦那候補を探すKiriko Yano
 
データサイエンスワールドからC++を眺めてみる
データサイエンスワールドからC++を眺めてみるデータサイエンスワールドからC++を眺めてみる
データサイエンスワールドからC++を眺めてみるShintaro Fukushima
 
Dockerを使ったローカルでの開発から本番環境へのデプロイまで
Dockerを使ったローカルでの開発から本番環境へのデプロイまでDockerを使ったローカルでの開発から本番環境へのデプロイまで
Dockerを使ったローカルでの開発から本番環境へのデプロイまでRyo Nakamaru
 
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約ロジスティック回帰分析を扱った予測モデル作成研究事例の要約
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約Michimasa Haga
 
R言語で統計分類基本
R言語で統計分類基本R言語で統計分類基本
R言語で統計分類基本Paweł Rusin
 
Pythonによる機械学習
Pythonによる機械学習Pythonによる機械学習
Pythonによる機械学習Kimikazu Kato
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門shima o
 
全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131Hangyo Masatsugu
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量takaya imai
 
Pollution Prevention at CST Storage...
Pollution Prevention at CST Storage...Pollution Prevention at CST Storage...
Pollution Prevention at CST Storage...Sarif Patwary, Ph.D.
 

Viewers also liked (20)

TISにおける、研究開発のメソッド
TISにおける、研究開発のメソッドTISにおける、研究開発のメソッド
TISにおける、研究開発のメソッド
 
Webエンジニアが初めて機械学習に触れてみた話
Webエンジニアが初めて機械学習に触れてみた話Webエンジニアが初めて機械学習に触れてみた話
Webエンジニアが初めて機械学習に触れてみた話
 
mmapパッケージを使ってお手軽オブジェクト管理
mmapパッケージを使ってお手軽オブジェクト管理mmapパッケージを使ってお手軽オブジェクト管理
mmapパッケージを使ってお手軽オブジェクト管理
 
R超入門機械学習をはじめよう
R超入門機械学習をはじめようR超入門機械学習をはじめよう
R超入門機械学習をはじめよう
 
Regression2
Regression2Regression2
Regression2
 
An introduction to statistical learning 4 logistic regression manu
An introduction to statistical learning 4 logistic regression manuAn introduction to statistical learning 4 logistic regression manu
An introduction to statistical learning 4 logistic regression manu
 
MLaPP輪講 Chapter 1
MLaPP輪講 Chapter 1MLaPP輪講 Chapter 1
MLaPP輪講 Chapter 1
 
Python 機械学習入門
Python 機械学習入門Python 機械学習入門
Python 機械学習入門
 
おしゃスタat銀座
おしゃスタat銀座おしゃスタat銀座
おしゃスタat銀座
 
Python&機械学習にHelloWorldして旦那候補を探す
Python&機械学習にHelloWorldして旦那候補を探すPython&機械学習にHelloWorldして旦那候補を探す
Python&機械学習にHelloWorldして旦那候補を探す
 
データサイエンスワールドからC++を眺めてみる
データサイエンスワールドからC++を眺めてみるデータサイエンスワールドからC++を眺めてみる
データサイエンスワールドからC++を眺めてみる
 
Dockerを使ったローカルでの開発から本番環境へのデプロイまで
Dockerを使ったローカルでの開発から本番環境へのデプロイまでDockerを使ったローカルでの開発から本番環境へのデプロイまで
Dockerを使ったローカルでの開発から本番環境へのデプロイまで
 
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約ロジスティック回帰分析を扱った予測モデル作成研究事例の要約
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約
 
Pythonを始めよう
Pythonを始めよう Pythonを始めよう
Pythonを始めよう
 
R言語で統計分類基本
R言語で統計分類基本R言語で統計分類基本
R言語で統計分類基本
 
Pythonによる機械学習
Pythonによる機械学習Pythonによる機械学習
Pythonによる機械学習
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
 
全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
 
Pollution Prevention at CST Storage...
Pollution Prevention at CST Storage...Pollution Prevention at CST Storage...
Pollution Prevention at CST Storage...
 

Similar to データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7

データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1Shunsuke Nakamura
 
20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事Shunsuke Nakamura
 
Interop2017
Interop2017Interop2017
Interop2017tak9029
 
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編Daiyu Hatakeyama
 
データ・テキストマイニング
データ・テキストマイニングデータ・テキストマイニング
データ・テキストマイニングHiroshi Ono
 
Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) hirokazutanaka
 
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探るTakashi J OZAKI
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門Yuichiro Kobayashi
 
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門Daiyu Hatakeyama
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” Hajime Sasaki
 
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2Teruyuki Sakaue
 
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
ディープラーニング入門 ~ 画像処理・自然言語処理について ~ディープラーニング入門 ~ 画像処理・自然言語処理について ~
ディープラーニング入門 ~ 画像処理・自然言語処理について ~Kensuke Otsuki
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太Preferred Networks
 
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tatsuya Tojima
 
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装PythonによるDeep Learningの実装
PythonによるDeep Learningの実装Shinya Akiba
 

Similar to データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7 (20)

データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
 
20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事
 
Nttr study 20130206_share
Nttr study 20130206_shareNttr study 20130206_share
Nttr study 20130206_share
 
Interop2017
Interop2017Interop2017
Interop2017
 
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
 
データ・テキストマイニング
データ・テキストマイニングデータ・テキストマイニング
データ・テキストマイニング
 
Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course)
 
RandExcel
RandExcelRandExcel
RandExcel
 
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門
 
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
 
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
 
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
ディープラーニング入門 ~ 画像処理・自然言語処理について ~ディープラーニング入門 ~ 画像処理・自然言語処理について ~
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
 
Tokyo r28 1
Tokyo r28 1Tokyo r28 1
Tokyo r28 1
 
PFI Christmas seminar 2009
PFI Christmas seminar 2009PFI Christmas seminar 2009
PFI Christmas seminar 2009
 
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装PythonによるDeep Learningの実装
PythonによるDeep Learningの実装
 

More from Shunsuke Nakamura

【今日ジョブチェンジ】エンジニアからデータサイエンティストになる方法【サポーターズCoLab勉強会】
【今日ジョブチェンジ】エンジニアからデータサイエンティストになる方法【サポーターズCoLab勉強会】【今日ジョブチェンジ】エンジニアからデータサイエンティストになる方法【サポーターズCoLab勉強会】
【今日ジョブチェンジ】エンジニアからデータサイエンティストになる方法【サポーターズCoLab勉強会】Shunsuke Nakamura
 
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方Shunsuke Nakamura
 
20180925_【サポーターズCoLab勉強会】【営業から運用まで】データサイエンティストという職業
20180925_【サポーターズCoLab勉強会】【営業から運用まで】データサイエンティストという職業20180925_【サポーターズCoLab勉強会】【営業から運用まで】データサイエンティストという職業
20180925_【サポーターズCoLab勉強会】【営業から運用まで】データサイエンティストという職業Shunsuke Nakamura
 
20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方
20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方
20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方Shunsuke Nakamura
 
セミナー「会計士の仕事が人工知能に奪われる?」
セミナー「会計士の仕事が人工知能に奪われる?」セミナー「会計士の仕事が人工知能に奪われる?」
セミナー「会計士の仕事が人工知能に奪われる?」Shunsuke Nakamura
 
機械学習を使った「ビジネスになる」アプリケーションの作り方 v1
機械学習を使った「ビジネスになる」アプリケーションの作り方 v1機械学習を使った「ビジネスになる」アプリケーションの作り方 v1
機械学習を使った「ビジネスになる」アプリケーションの作り方 v1Shunsuke Nakamura
 

More from Shunsuke Nakamura (7)

【今日ジョブチェンジ】エンジニアからデータサイエンティストになる方法【サポーターズCoLab勉強会】
【今日ジョブチェンジ】エンジニアからデータサイエンティストになる方法【サポーターズCoLab勉強会】【今日ジョブチェンジ】エンジニアからデータサイエンティストになる方法【サポーターズCoLab勉強会】
【今日ジョブチェンジ】エンジニアからデータサイエンティストになる方法【サポーターズCoLab勉強会】
 
20190212 supporterz
20190212 supporterz20190212 supporterz
20190212 supporterz
 
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
 
20180925_【サポーターズCoLab勉強会】【営業から運用まで】データサイエンティストという職業
20180925_【サポーターズCoLab勉強会】【営業から運用まで】データサイエンティストという職業20180925_【サポーターズCoLab勉強会】【営業から運用まで】データサイエンティストという職業
20180925_【サポーターズCoLab勉強会】【営業から運用まで】データサイエンティストという職業
 
20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方
20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方
20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方
 
セミナー「会計士の仕事が人工知能に奪われる?」
セミナー「会計士の仕事が人工知能に奪われる?」セミナー「会計士の仕事が人工知能に奪われる?」
セミナー「会計士の仕事が人工知能に奪われる?」
 
機械学習を使った「ビジネスになる」アプリケーションの作り方 v1
機械学習を使った「ビジネスになる」アプリケーションの作り方 v1機械学習を使った「ビジネスになる」アプリケーションの作り方 v1
機械学習を使った「ビジネスになる」アプリケーションの作り方 v1
 

データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7