SlideShare a Scribd company logo
1 of 11
Download to read offline
Jubatus
Hackathon
2016.11.12
発言小町からのプロファイリング
分析目的
 発言小町を発言者カットで見てみて発言者のペルソナを分析してみたい
 可能であれば発言者のペルソナの時間軸上での変遷を見てみたい
入力データ
 発言小町
 User ID
 User Name
 Date
 Title
 Url
 Topic Id
 Group
 Message
 Votes
 Responses
 Face
 n_response
 n_favorite
 発言小町からとってきたデータ
 とりあえず、約10,500件
k-Meansによるクラスターの頻度分布
6 48.78154
2 22.20186
3 13.48933
0 7.709726
7 3.493638
1 2.792754
5 1.52038
4 0.010783
クラスターの解釈
クラスター
番号 6 2 3 4
の 1.19 4.78 2.77 4.72
こと 0.71 1.22 1.45 5.66
私 0.66 1.27 5.31 2.79
よう 0.58 1.19 1.09 1.99
方 0.53 0.80 0.65 0.85
ない 0.46 0.97 1.00 1.37
人 0.38 0.80 1.17 1.48
何 0.30 0.55 0.67 0.76
ん 0.29 0.45 0.68 0.60
分析設計
 発言小町のデータのMessageからBag of wordsを作成
 Bag of wordsを元にクラスタリング
 User IDごとに各発言の分類されたクラスタIDを集計
 クラスタごとの合計を総発言数で除してスコアを作成
 これをそのユーザのペルソナとする
データ加工
 文章をMeCabで形態素解析して単語を抽出
 単語は品詞として名詞、形容詞、副詞を分析対象とする
 MeCabで特殊扱いされている*を表層とするものは解析対象から外す
 同様にが、の、に、をのような単語も分析対象としない
 形態素解析後
 30000変数ぐらい
 変数数を削減
 出現頻度のあまりにも少なすぎる変数や外れ値と考えられる記号などが単独で
抽出された変数を削除するなどクレンジングを実施
 削減後7000位に
クラスタリング
 Jubatusでクラスタリングを実
施する
 クラスタリング手法としては
DBSCAN(Density-Based Spatial
Clustering Applications with
Noise)を使用する
 本データの場合、クラスタ数が
不明、加えてクラスタとして超
球面を仮定するのは妥当ではな
いため、k-Means法の使用は妥
当ではない
Jubatusに入れてみるテスト
 jubaclustering --configpath
/opt/jubatus/share/jubatus/example/config/clustering/dbscan.json
 ハイパーパラメータはExampleそのもので
 df = jubaClient.push(batch)
 res = jubaClient.get_core_members()
Error!
 msgpackrpc.error.RPCError: b'clustering is not performed yet‘
What?
Use the source,
Luke!
 Jubatus coreのソース読む
 get_clusters綾しい
 If (clusters.empty()) {
 throw
JUBATUS_EXCEPTION(not_perfo
rmed());
 }
 なぜに空っぽ!ガンガンガン!
 ドキュメントがあるわけでもな
く謎
ハイパーパラメー
タを洗ってみる
 eps : 2.0,
 min_core_point : 3
 Density-Based Spatial Clustering
Applications with Noise
 EpsとMinPtsの二つのハイパーパラ
メータ
 とりあえず怪しくなさそう
困った

More Related Content

Viewers also liked

かまってちゃん小町
かまってちゃん小町かまってちゃん小町
かまってちゃん小町JubatusOfficial
 
新聞から今年の漢字を予測する
新聞から今年の漢字を予測する新聞から今年の漢字を予測する
新聞から今年の漢字を予測するJubatusOfficial
 
小町のレス数が予測できるか試してみた
小町のレス数が予測できるか試してみた小町のレス数が予測できるか試してみた
小町のレス数が予測できるか試してみたJubatusOfficial
 
地域の魅力を伝えるツアーガイドAI
地域の魅力を伝えるツアーガイドAI地域の魅力を伝えるツアーガイドAI
地域の魅力を伝えるツアーガイドAIJubatusOfficial
 
gRPCをちょこっと調べた話
gRPCをちょこっと調べた話gRPCをちょこっと調べた話
gRPCをちょこっと調べた話Shuzo Kashihara
 
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化JubatusOfficial
 
FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」Shohei Hido
 
"アレ"からJubatusを使う
"アレ"からJubatusを使う"アレ"からJubatusを使う
"アレ"からJubatusを使うJubatusOfficial
 
Jubatusハンズオン 機械学習はじめてみた
Jubatusハンズオン 機械学習はじめてみたJubatusハンズオン 機械学習はじめてみた
Jubatusハンズオン 機械学習はじめてみたJubatusOfficial
 
もくもくしたこと
もくもくしたこともくもくしたこと
もくもくしたことk_oi
 
もくもく成果 IMAMASU
もくもく成果 IMAMASUもくもく成果 IMAMASU
もくもく成果 IMAMASUJubatusOfficial
 
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用JubatusOfficial
 
jubarecommenderの紹介
jubarecommenderの紹介jubarecommenderの紹介
jubarecommenderの紹介JubatusOfficial
 
Apache Thrift Outline
Apache Thrift OutlineApache Thrift Outline
Apache Thrift OutlineAkihiro Katou
 

Viewers also liked (20)

かまってちゃん小町
かまってちゃん小町かまってちゃん小町
かまってちゃん小町
 
Jubakitの解説
Jubakitの解説Jubakitの解説
Jubakitの解説
 
新聞から今年の漢字を予測する
新聞から今年の漢字を予測する新聞から今年の漢字を予測する
新聞から今年の漢字を予測する
 
Jubatus 1.0 の紹介
Jubatus 1.0 の紹介Jubatus 1.0 の紹介
Jubatus 1.0 の紹介
 
小町のレス数が予測できるか試してみた
小町のレス数が予測できるか試してみた小町のレス数が予測できるか試してみた
小町のレス数が予測できるか試してみた
 
小町の溜息
小町の溜息小町の溜息
小町の溜息
 
JUBARHYME
JUBARHYMEJUBARHYME
JUBARHYME
 
地域の魅力を伝えるツアーガイドAI
地域の魅力を伝えるツアーガイドAI地域の魅力を伝えるツアーガイドAI
地域の魅力を伝えるツアーガイドAI
 
gRPCをちょこっと調べた話
gRPCをちょこっと調べた話gRPCをちょこっと調べた話
gRPCをちょこっと調べた話
 
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
 
FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」
 
"アレ"からJubatusを使う
"アレ"からJubatusを使う"アレ"からJubatusを使う
"アレ"からJubatusを使う
 
Jubatusハンズオン 機械学習はじめてみた
Jubatusハンズオン 機械学習はじめてみたJubatusハンズオン 機械学習はじめてみた
Jubatusハンズオン 機械学習はじめてみた
 
もくもくしたこと
もくもくしたこともくもくしたこと
もくもくしたこと
 
もくもく成果 IMAMASU
もくもく成果 IMAMASUもくもく成果 IMAMASU
もくもく成果 IMAMASU
 
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
 
jubarecommenderの紹介
jubarecommenderの紹介jubarecommenderの紹介
jubarecommenderの紹介
 
JubaQLご紹介
JubaQLご紹介JubaQLご紹介
JubaQLご紹介
 
Jubaanomalyについて
JubaanomalyについてJubaanomalyについて
Jubaanomalyについて
 
Apache Thrift Outline
Apache Thrift OutlineApache Thrift Outline
Apache Thrift Outline
 

More from JubatusOfficial

データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定JubatusOfficial
 
Jubatus 新機能ハイライト
Jubatus 新機能ハイライトJubatus 新機能ハイライト
Jubatus 新機能ハイライトJubatusOfficial
 
Jubatusでuserとbrandのレコメンドを試してみた話
Jubatusでuserとbrandのレコメンドを試してみた話Jubatusでuserとbrandのレコメンドを試してみた話
Jubatusでuserとbrandのレコメンドを試してみた話JubatusOfficial
 
興味ありそうなもの検索
興味ありそうなもの検索興味ありそうなもの検索
興味ありそうなもの検索JubatusOfficial
 
チーム:大杉さんの壮大な夢
チーム:大杉さんの壮大な夢チーム:大杉さんの壮大な夢
チーム:大杉さんの壮大な夢JubatusOfficial
 
Jubatus使ってみた 作ってみたJubatus
Jubatus使ってみた 作ってみたJubatusJubatus使ってみた 作ってみたJubatus
Jubatus使ってみた 作ってみたJubatusJubatusOfficial
 

More from JubatusOfficial (9)

jubabanditの紹介
jubabanditの紹介jubabanditの紹介
jubabanditの紹介
 
Jubakitの紹介
Jubakitの紹介Jubakitの紹介
Jubakitの紹介
 
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
 
Jubatus 新機能ハイライト
Jubatus 新機能ハイライトJubatus 新機能ハイライト
Jubatus 新機能ハイライト
 
Jubatusでuserとbrandのレコメンドを試してみた話
Jubatusでuserとbrandのレコメンドを試してみた話Jubatusでuserとbrandのレコメンドを試してみた話
Jubatusでuserとbrandのレコメンドを試してみた話
 
相撲
相撲相撲
相撲
 
興味ありそうなもの検索
興味ありそうなもの検索興味ありそうなもの検索
興味ありそうなもの検索
 
チーム:大杉さんの壮大な夢
チーム:大杉さんの壮大な夢チーム:大杉さんの壮大な夢
チーム:大杉さんの壮大な夢
 
Jubatus使ってみた 作ってみたJubatus
Jubatus使ってみた 作ってみたJubatusJubatus使ってみた 作ってみたJubatus
Jubatus使ってみた 作ってみたJubatus
 

発言小町からのプロファイリング