SlideShare a Scribd company logo
1 of 35
Download to read offline
Leverages Marketing Department
HRビジネスにおけるデータサイエンスの適用
BIT VALLEY -INSIDE- Vol.1 2018-09-26
レバレジーズ株式会社 マーケティング部 データアナリスト
阪上晃幸
Leverages Marketing Department
● 阪上晃幸(@Mr_Sakaue)
● データアナリスト@レバレジーズ株式会社
● 経歴
2012/2:インターン@レバレジーズ株式会社
2012/3:一橋大学大学院経済学研究科 修士課程修了
2012/4〜:レバレジーズ株式会社入社
● 趣味
料理、ブログ記事の作成
『かものはしの分析ブログ』で検索!
自己紹介
2
Leverages Marketing Department
● 対象リスナー
・データを蓄積して何かできないか、データを蓄積すると何ができるのか
 知りたい方々(エンジニア /マーケター)
● 話したいこと
・HR領域でのデータサイエンスの適用事例の紹介
 ・予測、意思決定支援、発見の 3軸での活用を扱う
● 話さないこと
・最先端技術などの紹介
・細かい技術の詳細(参考文献あり。または懇親会や質問などで)
話したいこと/話さないこと
3
公開するのでメモは
不要
Leverages Marketing Department
● 0章:レバレジーズの分析環境/課題など
● 1章:予測のための分析
● 2章:意思決定を支援する分析
● 3章:発見のための分析
4
Leverages Marketing Department
● 0章:レバレジーズの分析環境/課題など
● 1章:予測のための分析
● 2章:意思決定を支援する分析
● 3章:発見のための分析
5
Leverages Marketing Department
● 課題
・顧客体験を改善すること(自分の希望の仕事に就ける)
・顧客担当の業務効率などを改善すること(雑務や検索/調査などの時間が短縮)
・マーケティングにおけるROIを改善すること
 原則、データを活用した以上の課題解決をデータアナリストは提供するが、
 課題感によってはRPAなどのツール開発なども行うことがある。
0章:レバレジーズの分析環境/課題など
6
Leverages Marketing Department 7
0章:レバレジーズの分析環境/課題など
不特定多数のクエラー
Presto
HiveQL
with digdag
● 環境としては以下の通り。ほぼ全ての事業部のデータは TD上にあり、各人が目的に応じて活用。
Leverages Marketing Department
● よく分析に用いる言語/ツールなど
・Python(pandas, scikit-learn, gensim)
・R(tidyverse)
・Stan
・SQL
・簡単なシェルスクリプト
・MeCab neologd
0章:レバレジーズの分析環境/課題など
8
Leverages Marketing Department
0章:レバレジーズの分析環境/課題など0章:レバレジーズの分析環境/課題など
HR系サービスはデータサイエンスを活かす際に、他のサービス形態よりも恵まれておらず、データ数
が1桁になることも少なくない。
どの領域であればデータサイエンスが役に立つのか、丁寧に見つけていく必要がある。
EC系サービス 旅行系サービス HR系サービス
ログイン情報 ある ある あまりない
利用頻度 高い あまりない ない
成果が出るまでの期間 短い やや長い 長い
カテゴリ横断的行動 ありうる ありうる あまりない
9
● 余談
ふわっとデータ分析に向いている業界とそうでない業界についての考察
Leverages Marketing Department
● 0章:レバレジーズの分析環境/課題など
● 1章:予測のための分析
● 2章:意思決定を支援する分析
● 3章:発見のための分析
10
Leverages Marketing Department
● 問題設定
登録したユーザーの転職熱が高いか低いかを予測し、その情報を広告配信において活
用したい。予測値の更新は週次を想定。
● データ
・登録時の情報(年齢/学歴/性別/デバイス/希望転職時期)、アクセスログなど
・データ数は数千件程度
・不均衡データではない
1章:予測のための分析
11
Leverages Marketing Department
● 手法
PythonのScikit-learnを用いて、様々なアルゴリズムで二値分類を行う。
・ロジスティック回帰
・SVM
・Random Forest
・XGBoost
・LightGBM
1章:予測のための分析
12
Leverages Marketing Department
● 評価指標
AUC
・0.8を超えることを目指す
● 進め方
訓練データでハイパーパラメータのチューニング
↓
10分割クロスバリデーション
↓
学習に用いていないテストデータでの精度確認
1章:予測のための分析
13
二度漬け禁止
Leverages Marketing Department
● 結果
・SVMが最も性能が良かった
・テストデータでのAUCは0.7
・再現度は65%
・適合率は39%
1章:予測のための分析
Scikit-learnで行ったクロスバリデーション結果
14
Leverages Marketing Department
● 予測した転職熱に関する確率に応じた、
テストデータでの転職熱の高いユーザー
の割合が右図。
この確率を広告配信ロジックの一部に
組み込む。
・週次でモデルを更新する形で運用中
・予測結果を使ったもの、使わなかったものでの比較による検証を予定。
転職熱の高いユーザー割合
1章:予測のための分析
15
Leverages Marketing Department
【今後の取り組み】
● 求人の期間あたりの応募可能性を予測
● ユーザーの継続期間の予測(サバイバル分析)
● 求人情報のレコメンド(コンテンツベース)
● 検索クエリのCV予測(成果の出るキーワードかどうかの二値分類)
1章:予測のための分析
16
Leverages Marketing Department
● 0章:レバレジーズの分析環境/課題など
● 1章:予測のための分析
● 2章:意思決定を支援する分析
● 3章:発見のための分析
17
Leverages Marketing Department
● 問題設定
SNSでの動画広告の配信がブランド名検索の増加に繋がっているか知りたい。
・動画広告は直接のCVだけでのROIが悪そうに見える
・一般にブランド名検索はCVRが高い
● データ
・SNSにおける動画広告の配信集計データ(時系列)
・日次でのアドワーズなどのIMPデータ(時系列)
・期間は2年弱程度
2章:意思決定を支援する分析
18
Leverages Marketing Department
● 手法
Causal Impact(Googleの考案した手法)
 ・オフライン広告の効果を測定するために使うことができる。
広告を見たことによるブランド検索効果は、広告を見ている人のブランド検索数から見ていない人のブランド検
索数をさっ引くことでわかるが、両方が手に入る世界は存在しない。存在しないものの、それを考えるのが反実
仮想。
ここで反実仮想を得るために、広告を打つ前のデータでブランド検索数の予測モデルを作成し、将来のブランド
検索数を予測する。
その予測結果と実測のブランド検索数のギャップを広告効果と見なす。
2章:意思決定を支援する分析
19
広告効果
動画を見た 動画を見てない
Leverages Marketing Department
2章:意思決定を支援する分析
20
ある日の男性のウエス
ト
電子器具をつけた場合の次の日のウエスト
電子器具をつけない場合の次の日のウエスト
どちらか一方しかデータとして観察されな
い。
よくあるダイエット法の効果検証は「付けた
人の付ける前との比較」しかしていない。
時期的に減りやすい時期だったかもしれな
いし、他の変数(次郎ラーメンの消費など)が
影響を与えていたかもしれない。
次郎ラーメンを消費しなかった際の翌日のウ
エストを時系列予測して、次郎を諦めた以上
にウエストが減っているのかを明らかにする
べき。
気温37度
気温37度
Leverages Marketing Department
2章:意思決定を支援する分析
SP PC
yyyy/mm yyyy/mm
SPにおいてはブランド名検索数が伸びたが、 PCにおいては伸びていない。
動画広告はSPでのブランド名検索数に影響を与えたと考える。
21
● Rのパッケージ(CausalImpact)で実行可能。
Leverages Marketing Department
【今後の取り組み】
● 顧客満足度アンケートから重点対策要素の抽出
● 顧客の性格診断データと顧客担当者の性格診断データに対して、クラスターを推定し、ク
ラスターごとの相性を分析
● 顧客の経歴書情報(フリーテキスト)と提案した求人情報などの組み合わせに関する分
析
2章:意思決定を支援する分析
22
Leverages Marketing Department
● 0章:レバレジーズの分析環境/課題など
● 1章:予測のための分析
● 2章:意思決定を支援する分析
● 3章:発見のための分析
23
Leverages Marketing Department
● 問題設定
顧客対応担当の音声通話データに何か業績向上の秘訣は眠っていないか?
● データ
・データ数は100件程度(担当は20人程度)
・MP3データ
 ・テキストデータ:SpeechToText APIを用いて文字起こし
          タイムスタンプ付きでの文字起こしも可能
 ・WAVデータ:FFmpegを用いて変換、左右の音声の分割も可能
※音声データと活動ログデータは繋ぐことが可能
3章:発見のための分析
24
Leverages Marketing Department
● 担当者のパフォーマンス指標に関して高い集団と低い集団をアドホックに定義
・高い集団をハイパフォーマー
・低い集団をローパフォーマー
※比較しやすいように入社から一定期間が経ち、
 同じ役割を担っている担当者に限定して抽出している。
3章:発見のための分析
25
OR
Leverages Marketing Department
● 手法
・文字起こしによるテキストアナリティクス
・音声波形データの分析
3章:発見のための分析
26
Leverages Marketing Department
3章:発見のための分析
● 文字起こしによるテキストアナリティクス
時系列情報が付与された文字起こしテキストに対して、
ある種類の発言(単語)がどの時点で出現したのかをハ
イパフォーマーとローパフォーマーで比較。
ハイパフォーマーが意識はしていたが、皆には共有して
いなかった顧客対応のアプローチ方法が発掘された。
金融や保険業界においては、
NG表現を言ったか言っていないかを文字起こしデータ
で判定している事例がある。
27
Leverages Marketing Department
● 文字起こしの課題
・文字起こし精度を高める必要がある。
 ・音声の問題(音質が悪い。途切れる時もある)
 ・API自体の問題(ユーザー辞書が使えない)
・対話分析の課題
 ・片方の音声だけでなく、対話についての分析も必要。
3章:発見のための分析
28
Leverages Marketing Department
3章:発見のための分析
青色が顧客対応担当の音声波形
橙色が顧客の音声波形
29
● 音声波形データの分析
・顧客対応の際の音声データを音声波形にして分析
Leverages Marketing Department
3章:発見のための分析
「顧客担当通話量÷顧客通話量」のヒストグラム 「重複フラグの合計÷顧客通話量」のヒストグラム
顧客担当の通話量のヒストグラム 顧客通話量のヒストグラム
30
● 波形データの簡単な集計
・双方の会話量の比
・会話が被ったかどうか
   などをみている。
3章:発見のための分析
Leverages Marketing Department
3章:発見のための分析
顧客担当の会話量÷顧客の会話量 顧客担当と顧客の音声が重複した会話量
÷顧客の会話量
会話し過ぎてはいけない、
顧客の音声と重複してもいけない、という傾向が得られた。
****
****
****
****
****
****
31
● 簡単な分析
Leverages Marketing Department
3章:発見のための分析
【挑戦中】
● 基本周波数(F0)…音程を抽出する際に用いられる。
         音程をもとに 感情の起伏を捉えることもできる
         可能性がある。感情解析の APIもあるが、カジュアルに分析
         できると面白い。
3章:発見のための分析
pyreaperモジュールで
抽出したF0
32
Leverages Marketing Department
【今後の取り組み】
● 音声認識の精度を高める
● 音声データに対してアノテーションを頑張ってみる?
● トピックモデル
● F0を用いた良いメトリクスを検討する
● 対話分析(会話の破綻とか?)
● リーダビリティ(わかりやすさ)
3章:発見のための分析
33
Leverages Marketing Department
● HR系企業でのデータサイエンスの適用事例を紹介した。
・実際に予測、意思決定、発見のために活用している。
・統計学やデータマイニングが多めで機械学習の適用できる領域は限定的。
・枯れた技術でも役に立つ場面は多い。
● これまでも、これからも非構造データの分析は必要。
● 機械学習を適用してうまくいくビジネス領域が増えてきたらチームも設立したい。
● Goal Orientedに一緒に事業を育ててくれる方を積極採用中です!
高いテクノロジーと高いモチベーションを兼ね揃えた方、是非!
まとめ
34
Leverages Marketing Department
● 里 洋平『戦略的データマイニング (シリーズ Useful R 4)』
● Aurélien Géron『scikit-learnとTensorFlowによる実践機械学習』
● Sebastian Raschka『[第2版]Python 機械学習プログラミング 達人データサイエンティ
ストによる理論と実践』
● Kay H. Brodersen, Alain Hauser ”An R package for causal inference using
Bayesian structural time-series models”
● Diane Lambert, Daryl Pregibon “Online Effects of Offline Ads”
● Shota Yasui “計量経済学と 機械学習の交差点入り口 (公開用)”
● Cyrille Rossant『IPythonデータサイエンスクックブック――対話型コンピューティングと
可視化のためのレシピ集』
● @sylvan5 “Pythonで音声信号処理 ~ 人工知能に関する断創録”
参考文献など
35

More Related Content

Similar to HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1

メルカリのアナリストのスキルセットについて
メルカリのアナリストのスキルセットについてメルカリのアナリストのスキルセットについて
メルカリのアナリストのスキルセットについてshintaro matsuda
 
宣伝会議インターネットフォーラム2012/トライバルメディアハウス講演資料
宣伝会議インターネットフォーラム2012/トライバルメディアハウス講演資料宣伝会議インターネットフォーラム2012/トライバルメディアハウス講演資料
宣伝会議インターネットフォーラム2012/トライバルメディアハウス講演資料ikedanoriyuki
 
freee株式会社:「デジタル社会における楽しい働き方」公開シンポジウム
freee株式会社:「デジタル社会における楽しい働き方」公開シンポジウムfreee株式会社:「デジタル社会における楽しい働き方」公開シンポジウム
freee株式会社:「デジタル社会における楽しい働き方」公開シンポジウムDigitalPublicPolicy
 
Shifter様いつもお世話になっています!
Shifter様いつもお世話になっています!Shifter様いつもお世話になっています!
Shifter様いつもお世話になっています!Sachika Arisawa
 
Shifter様いつもお世話になっています!
Shifter様いつもお世話になっています!Shifter様いつもお世話になっています!
Shifter様いつもお世話になっています!Sachika Arisawa
 
新卒採用を、まっとうに ー面接者への通信簿ー
新卒採用を、まっとうに ー面接者への通信簿ー新卒採用を、まっとうに ー面接者への通信簿ー
新卒採用を、まっとうに ー面接者への通信簿ー慧悟 岩本
 
顧客戦略プラットフォーム「FORCAS」
顧客戦略プラットフォーム「FORCAS」顧客戦略プラットフォーム「FORCAS」
顧客戦略プラットフォーム「FORCAS」NatsukiTachibana
 
※サンプル マーケティング目標を明確化するサイエンス【確率モデルで戦略仮説】
※サンプル マーケティング目標を明確化するサイエンス【確率モデルで戦略仮説】※サンプル マーケティング目標を明確化するサイエンス【確率モデルで戦略仮説】
※サンプル マーケティング目標を明確化するサイエンス【確率モデルで戦略仮説】貴史 小川
 
※サンプル マーケティング目標を明確化するサイエンス【統計モデルで効果検証】
※サンプル マーケティング目標を明確化するサイエンス【統計モデルで効果検証】※サンプル マーケティング目標を明確化するサイエンス【統計モデルで効果検証】
※サンプル マーケティング目標を明確化するサイエンス【統計モデルで効果検証】貴史 小川
 
Markezine チラ見せ用
Markezine チラ見せ用Markezine チラ見せ用
Markezine チラ見せ用Shinya Nakazawa
 
Webマーケティングを通じたデータサイエンティストの価値発揮方法
Webマーケティングを通じたデータサイエンティストの価値発揮方法Webマーケティングを通じたデータサイエンティストの価値発揮方法
Webマーケティングを通じたデータサイエンティストの価値発揮方法E2D3.org
 
【Truestar】alteryx×tableau 20171102
【Truestar】alteryx×tableau 20171102【Truestar】alteryx×tableau 20171102
【Truestar】alteryx×tableau 20171102Toshikuni Fuji
 
プロダクトマネージャとセールスチームはどう連携すべきか 〜 失敗例と方針
プロダクトマネージャとセールスチームはどう連携すべきか 〜 失敗例と方針プロダクトマネージャとセールスチームはどう連携すべきか 〜 失敗例と方針
プロダクトマネージャとセールスチームはどう連携すべきか 〜 失敗例と方針Nao Haida
 
本を読んでもわからないリアルなアンケート実践法
本を読んでもわからないリアルなアンケート実践法本を読んでもわからないリアルなアンケート実践法
本を読んでもわからないリアルなアンケート実践法takashi sasaki
 
少しの工夫で成果に直結!アンケート調査To Do リスト
少しの工夫で成果に直結!アンケート調査To Do リスト少しの工夫で成果に直結!アンケート調査To Do リスト
少しの工夫で成果に直結!アンケート調査To Do リストSPIRAL Inc.
 
20220524_採用ピッチ
20220524_採用ピッチ20220524_採用ピッチ
20220524_採用ピッチSAIRU
 
The introduction to_sns_marketing_20200515
The introduction to_sns_marketing_20200515The introduction to_sns_marketing_20200515
The introduction to_sns_marketing_20200515SAKURUG co.
 
要求開発アライアンス定例会 2014年1月 大西純
要求開発アライアンス定例会 2014年1月 大西純要求開発アライアンス定例会 2014年1月 大西純
要求開発アライアンス定例会 2014年1月 大西純Jun Ohnishi
 
SEOにおけるユーザーの検索体験の重要性
SEOにおけるユーザーの検索体験の重要性SEOにおけるユーザーの検索体験の重要性
SEOにおけるユーザーの検索体験の重要性Keita Takaku
 

Similar to HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1 (20)

メルカリのアナリストのスキルセットについて
メルカリのアナリストのスキルセットについてメルカリのアナリストのスキルセットについて
メルカリのアナリストのスキルセットについて
 
宣伝会議インターネットフォーラム2012/トライバルメディアハウス講演資料
宣伝会議インターネットフォーラム2012/トライバルメディアハウス講演資料宣伝会議インターネットフォーラム2012/トライバルメディアハウス講演資料
宣伝会議インターネットフォーラム2012/トライバルメディアハウス講演資料
 
freee株式会社:「デジタル社会における楽しい働き方」公開シンポジウム
freee株式会社:「デジタル社会における楽しい働き方」公開シンポジウムfreee株式会社:「デジタル社会における楽しい働き方」公開シンポジウム
freee株式会社:「デジタル社会における楽しい働き方」公開シンポジウム
 
Shifter様いつもお世話になっています!
Shifter様いつもお世話になっています!Shifter様いつもお世話になっています!
Shifter様いつもお世話になっています!
 
Shifter様いつもお世話になっています!
Shifter様いつもお世話になっています!Shifter様いつもお世話になっています!
Shifter様いつもお世話になっています!
 
新卒採用を、まっとうに ー面接者への通信簿ー
新卒採用を、まっとうに ー面接者への通信簿ー新卒採用を、まっとうに ー面接者への通信簿ー
新卒採用を、まっとうに ー面接者への通信簿ー
 
顧客戦略プラットフォーム「FORCAS」
顧客戦略プラットフォーム「FORCAS」顧客戦略プラットフォーム「FORCAS」
顧客戦略プラットフォーム「FORCAS」
 
※サンプル マーケティング目標を明確化するサイエンス【確率モデルで戦略仮説】
※サンプル マーケティング目標を明確化するサイエンス【確率モデルで戦略仮説】※サンプル マーケティング目標を明確化するサイエンス【確率モデルで戦略仮説】
※サンプル マーケティング目標を明確化するサイエンス【確率モデルで戦略仮説】
 
※サンプル マーケティング目標を明確化するサイエンス【統計モデルで効果検証】
※サンプル マーケティング目標を明確化するサイエンス【統計モデルで効果検証】※サンプル マーケティング目標を明確化するサイエンス【統計モデルで効果検証】
※サンプル マーケティング目標を明確化するサイエンス【統計モデルで効果検証】
 
Markezine チラ見せ用
Markezine チラ見せ用Markezine チラ見せ用
Markezine チラ見せ用
 
Webマーケティングを通じたデータサイエンティストの価値発揮方法
Webマーケティングを通じたデータサイエンティストの価値発揮方法Webマーケティングを通じたデータサイエンティストの価値発揮方法
Webマーケティングを通じたデータサイエンティストの価値発揮方法
 
【Truestar】alteryx×tableau 20171102
【Truestar】alteryx×tableau 20171102【Truestar】alteryx×tableau 20171102
【Truestar】alteryx×tableau 20171102
 
プロダクトマネージャとセールスチームはどう連携すべきか 〜 失敗例と方針
プロダクトマネージャとセールスチームはどう連携すべきか 〜 失敗例と方針プロダクトマネージャとセールスチームはどう連携すべきか 〜 失敗例と方針
プロダクトマネージャとセールスチームはどう連携すべきか 〜 失敗例と方針
 
関西匠塾
関西匠塾関西匠塾
関西匠塾
 
本を読んでもわからないリアルなアンケート実践法
本を読んでもわからないリアルなアンケート実践法本を読んでもわからないリアルなアンケート実践法
本を読んでもわからないリアルなアンケート実践法
 
少しの工夫で成果に直結!アンケート調査To Do リスト
少しの工夫で成果に直結!アンケート調査To Do リスト少しの工夫で成果に直結!アンケート調査To Do リスト
少しの工夫で成果に直結!アンケート調査To Do リスト
 
20220524_採用ピッチ
20220524_採用ピッチ20220524_採用ピッチ
20220524_採用ピッチ
 
The introduction to_sns_marketing_20200515
The introduction to_sns_marketing_20200515The introduction to_sns_marketing_20200515
The introduction to_sns_marketing_20200515
 
要求開発アライアンス定例会 2014年1月 大西純
要求開発アライアンス定例会 2014年1月 大西純要求開発アライアンス定例会 2014年1月 大西純
要求開発アライアンス定例会 2014年1月 大西純
 
SEOにおけるユーザーの検索体験の重要性
SEOにおけるユーザーの検索体験の重要性SEOにおけるユーザーの検索体験の重要性
SEOにおけるユーザーの検索体験の重要性
 

More from Teruyuki Sakaue

実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022Teruyuki Sakaue
 
警察庁オープンデータで交通事故の世界にDeepDive!
警察庁オープンデータで交通事故の世界にDeepDive!警察庁オープンデータで交通事故の世界にDeepDive!
警察庁オープンデータで交通事故の世界にDeepDive!Teruyuki Sakaue
 
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組みTeruyuki Sakaue
 
[DSO] Machine Learning Seminar Vol.8 Chapter 9
[DSO] Machine Learning Seminar Vol.8 Chapter 9[DSO] Machine Learning Seminar Vol.8 Chapter 9
[DSO] Machine Learning Seminar Vol.8 Chapter 9Teruyuki Sakaue
 
データ分析ランチセッション#24 OSSのAutoML~TPOTについて
データ分析ランチセッション#24 OSSのAutoML~TPOTについてデータ分析ランチセッション#24 OSSのAutoML~TPOTについて
データ分析ランチセッション#24 OSSのAutoML~TPOTについてTeruyuki Sakaue
 
[DSO] Machine Learning Seminar Vol.2 Chapter 3
[DSO] Machine Learning Seminar Vol.2 Chapter 3[DSO] Machine Learning Seminar Vol.2 Chapter 3
[DSO] Machine Learning Seminar Vol.2 Chapter 3Teruyuki Sakaue
 
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2Teruyuki Sakaue
 
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16Teruyuki Sakaue
 
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選Teruyuki Sakaue
 
機械学習による積極的失業〜オウンドメディアの訪問予測
機械学習による積極的失業〜オウンドメディアの訪問予測機械学習による積極的失業〜オウンドメディアの訪問予測
機械学習による積極的失業〜オウンドメディアの訪問予測Teruyuki Sakaue
 

More from Teruyuki Sakaue (10)

実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022
 
警察庁オープンデータで交通事故の世界にDeepDive!
警察庁オープンデータで交通事故の世界にDeepDive!警察庁オープンデータで交通事故の世界にDeepDive!
警察庁オープンデータで交通事故の世界にDeepDive!
 
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
 
[DSO] Machine Learning Seminar Vol.8 Chapter 9
[DSO] Machine Learning Seminar Vol.8 Chapter 9[DSO] Machine Learning Seminar Vol.8 Chapter 9
[DSO] Machine Learning Seminar Vol.8 Chapter 9
 
データ分析ランチセッション#24 OSSのAutoML~TPOTについて
データ分析ランチセッション#24 OSSのAutoML~TPOTについてデータ分析ランチセッション#24 OSSのAutoML~TPOTについて
データ分析ランチセッション#24 OSSのAutoML~TPOTについて
 
[DSO] Machine Learning Seminar Vol.2 Chapter 3
[DSO] Machine Learning Seminar Vol.2 Chapter 3[DSO] Machine Learning Seminar Vol.2 Chapter 3
[DSO] Machine Learning Seminar Vol.2 Chapter 3
 
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
 
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
 
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
 
機械学習による積極的失業〜オウンドメディアの訪問予測
機械学習による積極的失業〜オウンドメディアの訪問予測機械学習による積極的失業〜オウンドメディアの訪問予測
機械学習による積極的失業〜オウンドメディアの訪問予測
 

HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1

  • 1. Leverages Marketing Department HRビジネスにおけるデータサイエンスの適用 BIT VALLEY -INSIDE- Vol.1 2018-09-26 レバレジーズ株式会社 マーケティング部 データアナリスト 阪上晃幸
  • 2. Leverages Marketing Department ● 阪上晃幸(@Mr_Sakaue) ● データアナリスト@レバレジーズ株式会社 ● 経歴 2012/2:インターン@レバレジーズ株式会社 2012/3:一橋大学大学院経済学研究科 修士課程修了 2012/4〜:レバレジーズ株式会社入社 ● 趣味 料理、ブログ記事の作成 『かものはしの分析ブログ』で検索! 自己紹介 2
  • 3. Leverages Marketing Department ● 対象リスナー ・データを蓄積して何かできないか、データを蓄積すると何ができるのか  知りたい方々(エンジニア /マーケター) ● 話したいこと ・HR領域でのデータサイエンスの適用事例の紹介  ・予測、意思決定支援、発見の 3軸での活用を扱う ● 話さないこと ・最先端技術などの紹介 ・細かい技術の詳細(参考文献あり。または懇親会や質問などで) 話したいこと/話さないこと 3 公開するのでメモは 不要
  • 4. Leverages Marketing Department ● 0章:レバレジーズの分析環境/課題など ● 1章:予測のための分析 ● 2章:意思決定を支援する分析 ● 3章:発見のための分析 4
  • 5. Leverages Marketing Department ● 0章:レバレジーズの分析環境/課題など ● 1章:予測のための分析 ● 2章:意思決定を支援する分析 ● 3章:発見のための分析 5
  • 6. Leverages Marketing Department ● 課題 ・顧客体験を改善すること(自分の希望の仕事に就ける) ・顧客担当の業務効率などを改善すること(雑務や検索/調査などの時間が短縮) ・マーケティングにおけるROIを改善すること  原則、データを活用した以上の課題解決をデータアナリストは提供するが、  課題感によってはRPAなどのツール開発なども行うことがある。 0章:レバレジーズの分析環境/課題など 6
  • 7. Leverages Marketing Department 7 0章:レバレジーズの分析環境/課題など 不特定多数のクエラー Presto HiveQL with digdag ● 環境としては以下の通り。ほぼ全ての事業部のデータは TD上にあり、各人が目的に応じて活用。
  • 8. Leverages Marketing Department ● よく分析に用いる言語/ツールなど ・Python(pandas, scikit-learn, gensim) ・R(tidyverse) ・Stan ・SQL ・簡単なシェルスクリプト ・MeCab neologd 0章:レバレジーズの分析環境/課題など 8
  • 9. Leverages Marketing Department 0章:レバレジーズの分析環境/課題など0章:レバレジーズの分析環境/課題など HR系サービスはデータサイエンスを活かす際に、他のサービス形態よりも恵まれておらず、データ数 が1桁になることも少なくない。 どの領域であればデータサイエンスが役に立つのか、丁寧に見つけていく必要がある。 EC系サービス 旅行系サービス HR系サービス ログイン情報 ある ある あまりない 利用頻度 高い あまりない ない 成果が出るまでの期間 短い やや長い 長い カテゴリ横断的行動 ありうる ありうる あまりない 9 ● 余談 ふわっとデータ分析に向いている業界とそうでない業界についての考察
  • 10. Leverages Marketing Department ● 0章:レバレジーズの分析環境/課題など ● 1章:予測のための分析 ● 2章:意思決定を支援する分析 ● 3章:発見のための分析 10
  • 11. Leverages Marketing Department ● 問題設定 登録したユーザーの転職熱が高いか低いかを予測し、その情報を広告配信において活 用したい。予測値の更新は週次を想定。 ● データ ・登録時の情報(年齢/学歴/性別/デバイス/希望転職時期)、アクセスログなど ・データ数は数千件程度 ・不均衡データではない 1章:予測のための分析 11
  • 12. Leverages Marketing Department ● 手法 PythonのScikit-learnを用いて、様々なアルゴリズムで二値分類を行う。 ・ロジスティック回帰 ・SVM ・Random Forest ・XGBoost ・LightGBM 1章:予測のための分析 12
  • 13. Leverages Marketing Department ● 評価指標 AUC ・0.8を超えることを目指す ● 進め方 訓練データでハイパーパラメータのチューニング ↓ 10分割クロスバリデーション ↓ 学習に用いていないテストデータでの精度確認 1章:予測のための分析 13 二度漬け禁止
  • 14. Leverages Marketing Department ● 結果 ・SVMが最も性能が良かった ・テストデータでのAUCは0.7 ・再現度は65% ・適合率は39% 1章:予測のための分析 Scikit-learnで行ったクロスバリデーション結果 14
  • 15. Leverages Marketing Department ● 予測した転職熱に関する確率に応じた、 テストデータでの転職熱の高いユーザー の割合が右図。 この確率を広告配信ロジックの一部に 組み込む。 ・週次でモデルを更新する形で運用中 ・予測結果を使ったもの、使わなかったものでの比較による検証を予定。 転職熱の高いユーザー割合 1章:予測のための分析 15
  • 16. Leverages Marketing Department 【今後の取り組み】 ● 求人の期間あたりの応募可能性を予測 ● ユーザーの継続期間の予測(サバイバル分析) ● 求人情報のレコメンド(コンテンツベース) ● 検索クエリのCV予測(成果の出るキーワードかどうかの二値分類) 1章:予測のための分析 16
  • 17. Leverages Marketing Department ● 0章:レバレジーズの分析環境/課題など ● 1章:予測のための分析 ● 2章:意思決定を支援する分析 ● 3章:発見のための分析 17
  • 18. Leverages Marketing Department ● 問題設定 SNSでの動画広告の配信がブランド名検索の増加に繋がっているか知りたい。 ・動画広告は直接のCVだけでのROIが悪そうに見える ・一般にブランド名検索はCVRが高い ● データ ・SNSにおける動画広告の配信集計データ(時系列) ・日次でのアドワーズなどのIMPデータ(時系列) ・期間は2年弱程度 2章:意思決定を支援する分析 18
  • 19. Leverages Marketing Department ● 手法 Causal Impact(Googleの考案した手法)  ・オフライン広告の効果を測定するために使うことができる。 広告を見たことによるブランド検索効果は、広告を見ている人のブランド検索数から見ていない人のブランド検 索数をさっ引くことでわかるが、両方が手に入る世界は存在しない。存在しないものの、それを考えるのが反実 仮想。 ここで反実仮想を得るために、広告を打つ前のデータでブランド検索数の予測モデルを作成し、将来のブランド 検索数を予測する。 その予測結果と実測のブランド検索数のギャップを広告効果と見なす。 2章:意思決定を支援する分析 19 広告効果 動画を見た 動画を見てない
  • 21. Leverages Marketing Department 2章:意思決定を支援する分析 SP PC yyyy/mm yyyy/mm SPにおいてはブランド名検索数が伸びたが、 PCにおいては伸びていない。 動画広告はSPでのブランド名検索数に影響を与えたと考える。 21 ● Rのパッケージ(CausalImpact)で実行可能。
  • 22. Leverages Marketing Department 【今後の取り組み】 ● 顧客満足度アンケートから重点対策要素の抽出 ● 顧客の性格診断データと顧客担当者の性格診断データに対して、クラスターを推定し、ク ラスターごとの相性を分析 ● 顧客の経歴書情報(フリーテキスト)と提案した求人情報などの組み合わせに関する分 析 2章:意思決定を支援する分析 22
  • 23. Leverages Marketing Department ● 0章:レバレジーズの分析環境/課題など ● 1章:予測のための分析 ● 2章:意思決定を支援する分析 ● 3章:発見のための分析 23
  • 24. Leverages Marketing Department ● 問題設定 顧客対応担当の音声通話データに何か業績向上の秘訣は眠っていないか? ● データ ・データ数は100件程度(担当は20人程度) ・MP3データ  ・テキストデータ:SpeechToText APIを用いて文字起こし           タイムスタンプ付きでの文字起こしも可能  ・WAVデータ:FFmpegを用いて変換、左右の音声の分割も可能 ※音声データと活動ログデータは繋ぐことが可能 3章:発見のための分析 24
  • 25. Leverages Marketing Department ● 担当者のパフォーマンス指標に関して高い集団と低い集団をアドホックに定義 ・高い集団をハイパフォーマー ・低い集団をローパフォーマー ※比較しやすいように入社から一定期間が経ち、  同じ役割を担っている担当者に限定して抽出している。 3章:発見のための分析 25 OR
  • 26. Leverages Marketing Department ● 手法 ・文字起こしによるテキストアナリティクス ・音声波形データの分析 3章:発見のための分析 26
  • 27. Leverages Marketing Department 3章:発見のための分析 ● 文字起こしによるテキストアナリティクス 時系列情報が付与された文字起こしテキストに対して、 ある種類の発言(単語)がどの時点で出現したのかをハ イパフォーマーとローパフォーマーで比較。 ハイパフォーマーが意識はしていたが、皆には共有して いなかった顧客対応のアプローチ方法が発掘された。 金融や保険業界においては、 NG表現を言ったか言っていないかを文字起こしデータ で判定している事例がある。 27
  • 28. Leverages Marketing Department ● 文字起こしの課題 ・文字起こし精度を高める必要がある。  ・音声の問題(音質が悪い。途切れる時もある)  ・API自体の問題(ユーザー辞書が使えない) ・対話分析の課題  ・片方の音声だけでなく、対話についての分析も必要。 3章:発見のための分析 28
  • 29. Leverages Marketing Department 3章:発見のための分析 青色が顧客対応担当の音声波形 橙色が顧客の音声波形 29 ● 音声波形データの分析 ・顧客対応の際の音声データを音声波形にして分析
  • 30. Leverages Marketing Department 3章:発見のための分析 「顧客担当通話量÷顧客通話量」のヒストグラム 「重複フラグの合計÷顧客通話量」のヒストグラム 顧客担当の通話量のヒストグラム 顧客通話量のヒストグラム 30 ● 波形データの簡単な集計 ・双方の会話量の比 ・会話が被ったかどうか    などをみている。 3章:発見のための分析
  • 31. Leverages Marketing Department 3章:発見のための分析 顧客担当の会話量÷顧客の会話量 顧客担当と顧客の音声が重複した会話量 ÷顧客の会話量 会話し過ぎてはいけない、 顧客の音声と重複してもいけない、という傾向が得られた。 **** **** **** **** **** **** 31 ● 簡単な分析
  • 32. Leverages Marketing Department 3章:発見のための分析 【挑戦中】 ● 基本周波数(F0)…音程を抽出する際に用いられる。          音程をもとに 感情の起伏を捉えることもできる          可能性がある。感情解析の APIもあるが、カジュアルに分析          できると面白い。 3章:発見のための分析 pyreaperモジュールで 抽出したF0 32
  • 33. Leverages Marketing Department 【今後の取り組み】 ● 音声認識の精度を高める ● 音声データに対してアノテーションを頑張ってみる? ● トピックモデル ● F0を用いた良いメトリクスを検討する ● 対話分析(会話の破綻とか?) ● リーダビリティ(わかりやすさ) 3章:発見のための分析 33
  • 34. Leverages Marketing Department ● HR系企業でのデータサイエンスの適用事例を紹介した。 ・実際に予測、意思決定、発見のために活用している。 ・統計学やデータマイニングが多めで機械学習の適用できる領域は限定的。 ・枯れた技術でも役に立つ場面は多い。 ● これまでも、これからも非構造データの分析は必要。 ● 機械学習を適用してうまくいくビジネス領域が増えてきたらチームも設立したい。 ● Goal Orientedに一緒に事業を育ててくれる方を積極採用中です! 高いテクノロジーと高いモチベーションを兼ね揃えた方、是非! まとめ 34
  • 35. Leverages Marketing Department ● 里 洋平『戦略的データマイニング (シリーズ Useful R 4)』 ● Aurélien Géron『scikit-learnとTensorFlowによる実践機械学習』 ● Sebastian Raschka『[第2版]Python 機械学習プログラミング 達人データサイエンティ ストによる理論と実践』 ● Kay H. Brodersen, Alain Hauser ”An R package for causal inference using Bayesian structural time-series models” ● Diane Lambert, Daryl Pregibon “Online Effects of Offline Ads” ● Shota Yasui “計量経済学と 機械学習の交差点入り口 (公開用)” ● Cyrille Rossant『IPythonデータサイエンスクックブック――対話型コンピューティングと 可視化のためのレシピ集』 ● @sylvan5 “Pythonで音声信号処理 ~ 人工知能に関する断創録” 参考文献など 35