SlideShare a Scribd company logo
1 of 36
変数同士の関連を
見ようよ
~21世紀の相関 (MIC) の話とか~
難波 修史
自己紹介
•難波 修史(なんば しゅうし)
•広島大学大学院教育学研究科D1
•感情表情の表出・認知の研究してます。
•R歴:ちょこちょこ
•twitter:@NSushi
Motivation
• データを分析する人達
(ひいては R users
何が見たいん?
=データ同士の関連を見たい
• 得られたデータAとBの項目に何らかの関連がみ
られる=相関がある。(⇔項目同士が独立
ピアソンの相関係数
• 2つの変数(X and Y)間にある線形な関係の強
弱を図る指標(-1~1)。
• 式
線形?(http://www.sqc-works.com/qc7-04.htmlより拝借
こんな感じに
2変数が直線の
関係を持つこと
(例:xが高いほどyが低くなる
Rでの実装
• x <- runif(10)
• y <- 3*x + 2 # plot(x, y) ↓ こんな感じ
• cor(x,y) # 結果は当然1
こんなのもあるはず
• t <- seq(-2*pi, 2*pi, 0.2)
• y1 <- sin(2*t)
• plot(t, y1) # これ→
非線形データでは
ピアソンの相関係
数では関連無し
世の中はすべて線形?(wikiより拝借
下段のように明らかにデータ同士に関連があっても
線形関係を検討するPearsonじゃわかんないです><
どうすんの?
そこでMICですよ。
21世紀の相関なるものがある?
• Maximal Information Coefficient (Reshef et al., 2011) = 非線
形関係も含めた変数間の関連を見る指標
• 線形関係であればMIC ~= Pearsonの相関2
• Science誌にて報告
され、「21世紀の
相関」として推薦
される (右図
MICの哲学 (logics of blueより拝借
もしも2つの変数間
に相関があるなら
データを要約するよ
うにデータを分割す
るグリッドを引ける。
ちなみに詳細をわか
りやすく説明されて
る資料はこちら ↓
http://lectures.molgen.mpg
.de/algsysbio12/MINEPres
entation.pdf
MIC,つおい:ノイズなしの関連データに対する結果
あびゃー
すごーい
なんにでも
あてはまる
どんなデータにも概ね対応!
色=2変数間の
関連性
x軸=ノイズ
上=MIC
下=スピアマン
の順位相関係数
理想的
挙動!!
MICの実装
• library(minerva)
• mine(x, y) これだけ!!
Cor = -.19
ほかの指標
• MAS:単調性
• MEV:関数っぽさ
• MCN:複雑さ
• MIC-R2:非線形度合い
※詳しい内容は計算の仕方(グリッドの線の引き方やら相
互情報量やら)とも関わってくるのでminervaのHelpや上に
あげているわかりやすい資料などを参照ください
こいつらとあわせてMICを解釈して
データの関連に思いを馳せよう!!
データ生成の例
• n <- 100 #逆U字
• x <- runif(n, min = -1, max = 1)
• y <- sqrt(1 - x^2) + rnorm(n, 0, 0.05)
• plot(x, y)
• x1 <- runif(n, min = 0, max = 4) #なんかジグザグ
• y1 <- x1 - floor(x1) + rnorm(n, 0, 0.05)
• plot(x1, y1)
cor.test() と mine() の結果を見比
べて興奮したりしよう!!
補足
• MICはビッグデータを前提にしているの
で、nが少ない時はalphaを1.0に設定して
あげてネ!
• ※α = グリッドの分け方に関するパラメータ、
詳しくは論文とか、Help、読め
やったぜ!これでかつる!
21世紀の相関に関する
別のアプローチ
• HSIC (Hilbert-Schmidt Independence Criteria):独
立性の検定
• 独立性?
• 変数同士が関連を持つことを見たい
=変数同士が独立してるか否かを調べたい
=データを再生核ヒルベルト空間に
飛ばし、そこでの関係性を見る
ことで非線形であっても関係性を
見出せばええやん!!!
こんな資料が!
(http://www.slideshare.net/motivic/tokyo-r-lt-25759212
結果!
どうやらMICはノイズ
に弱いらしい!
ほんならHSIC
• データをなんかかっこいい次元にとばすらしい
ぜ!
• 友達に自慢しよう!
• ちゃんと自慢したい人は以下の論文を読もう!
※ぼくは諦めたぞ!!
Measuring Statistical Dependence with Hilbert-
Schmidt Norms (Gretton et al., Algorithmic
Learning Theory, 2005)
HSICの実装
• library(dHSIC) #hsicCCA, EDAでもいけるらしい
• X <- list(x, y) #さっきの逆U字型のやつ使ってます
• dhsic.test(X,method="gamma",kernel="gaussian",B
=100)
=関連してるぞ!!
※この辺、自信ないので、間違っ
てたらご指摘お願いします。
なるほど。
•つまりHSICをつかえばええのん?
は?負けてへんし
• MIC論文の著者がMICの限界を乗り越える
ためのMICに関する指標をいくつか提案
(Reshef et al. 2015; 実際の比較 Reshef et al. 2015)
• 関連を見るのにはMIC*(MICの母数値), MICe
(equicharacteristic matrixを用いたMIC*の推定値: このわけ
わからん行列の詳細はReshef et al. 2015のp12)
•TIC=独立性の検定にかかわる統計量
TICの実装
• git_hub版のminervaをインストールするん
じゃ(簡単!
• library(devtools)
• install_github(“cran/minerva”)
• ※もちろんネット環境でね!
TICの実装
• ※逆U字型のやつ使ってます。
高いほど2変数
が関連してる!
あれ?
• Reshef et al. (2015)の論文に
はMICeがたまんねえって書
いてあったけど、どう算出
すんのよ?
世界の変態を待ちましょう
(あなたが作ってもいいのよ
へー!2変数の関係を見る指
標っていろいろあるんだね!
でも…
やっぱ可視化が一番!
• 指標もいいけどまずはグラフやプロットで2変
数同士の関係を可視化しよう!
視覚的に2変数を眺めたら
関係性なんて一発やん!!
結論:可視化、大事
• やはりggplot2じゃっ
たか… 。
• 過去のHijiyama.Rで
発表されてる紀の定
先生の資料、つよい。
発表のまとめ
• 現状は最新版のminervaのmine関数で変数同士
の関連に思いをはせましょう。
• より素敵な指標に関しては世界の変態を待つ
か、待ちきれない変態は自分で作りましょう。
• 関係見るには可視化が一番だけどたくさん
データがあればとっかかりにMICを使える。
番外編
• http://www.exploredata.net/
• MINE: Maximal Information-based Nonparametric
Exploration MIC論文の著者によるサイト、
データセットなりJavaを介したRの関数なりが
あって興奮する。
• https://www.ncbi.nlm.nih.gov/pubmed/26283601
• CANOVA:非線形データの独立性を検討する
やつ。C++により作成されてる (Wang et al.
2015)。ちゃんと読んでない。
参考資料
• これまでのスライドに含まれてたURL
• http://logics-of-
blue.com/%E9%9D%9E%E7%B7%9A%E5%BD%
A2%E3%82%82ok%E3%81%AA%E7%9B%B8%
E9%96%A2%E4%BF%82%E6%95%B0%EF%BC
%9Amic/
• http://takehiko-i-
hayashi.hatenablog.com/entry/20130426/13669485
60
参考論文
• Reshef, D., Reshef, Y., Finucane, H., Grossman, S.,
McVean, G., Turnbaugh, P., Lander, E., Mitzenmacher,
M., and Sabeti, P. (2011) Detecting Novel Associations
in Large Data Sets,Science, highwire 334, 1518–1524.
• Reshef, D. N., Reshef, Y. A., Sabeti, P. C., &
Mitzenmacher, M. M. (2015). An empirical study of
leading measures of dependence. arXiv preprint
arXiv:1505.02214.
• Reshef, Y. A., Reshef, D. N., Finucane, H. K., Sabeti, P.
C., and Mitzenmacher, M. M. (2015) Measuring
dependence powerfully and equitably.

More Related Content

What's hot

差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーとは何か? (定義 & 解釈編)差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーとは何か? (定義 & 解釈編)Kentaro Minami
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper. challenge
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
論文の図表レイアウト例
論文の図表レイアウト例論文の図表レイアウト例
論文の図表レイアウト例Sunao Hara
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Hideki Tsunashima
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方ychtanaka
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
SAT/SMTソルバの仕組み
SAT/SMTソルバの仕組みSAT/SMTソルバの仕組み
SAT/SMTソルバの仕組みMasahiro Sakai
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説Shiga University, RIKEN
 
関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法Hidetoshi Matsui
 
機械学習と機械発見:自然科学研究におけるデータ利活用の再考
機械学習と機械発見:自然科学研究におけるデータ利活用の再考機械学習と機械発見:自然科学研究におけるデータ利活用の再考
機械学習と機械発見:自然科学研究におけるデータ利活用の再考Ichigaku Takigawa
 
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-Takuya Akiba
 
統計学勉強会#2
統計学勉強会#2統計学勉強会#2
統計学勉強会#2Hidehisa Arai
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15Yoichi Ochiai
 

What's hot (20)

差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーとは何か? (定義 & 解釈編)差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーとは何か? (定義 & 解釈編)
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
論文の図表レイアウト例
論文の図表レイアウト例論文の図表レイアウト例
論文の図表レイアウト例
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
SAT/SMTソルバの仕組み
SAT/SMTソルバの仕組みSAT/SMTソルバの仕組み
SAT/SMTソルバの仕組み
 
線形計画法入門
線形計画法入門線形計画法入門
線形計画法入門
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
 
関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法
 
機械学習と機械発見:自然科学研究におけるデータ利活用の再考
機械学習と機械発見:自然科学研究におけるデータ利活用の再考機械学習と機械発見:自然科学研究におけるデータ利活用の再考
機械学習と機械発見:自然科学研究におけるデータ利活用の再考
 
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-
 
統計学勉強会#2
統計学勉強会#2統計学勉強会#2
統計学勉強会#2
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15
 

Viewers also liked

StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章Shushi Namba
 
がんばろう!はじめてのDnn!
がんばろう!はじめてのDnn!がんばろう!はじめてのDnn!
がんばろう!はじめてのDnn!Shushi Namba
 
Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!Shushi Namba
 
心理学における「再現性」の問題とBayes Factor
心理学における「再現性」の問題とBayes Factor心理学における「再現性」の問題とBayes Factor
心理学における「再現性」の問題とBayes FactorShushi Namba
 
Sparkler - Spark Crawler
Sparkler - Spark Crawler Sparkler - Spark Crawler
Sparkler - Spark Crawler Thamme Gowda
 
Psychophysical functions@BCM勉強会
Psychophysical functions@BCM勉強会Psychophysical functions@BCM勉強会
Psychophysical functions@BCM勉強会Shushi Namba
 
Rでベイズをやってみよう!(コワい本1章)@BCM勉強会
Rでベイズをやってみよう!(コワい本1章)@BCM勉強会Rでベイズをやってみよう!(コワい本1章)@BCM勉強会
Rでベイズをやってみよう!(コワい本1章)@BCM勉強会Shushi Namba
 
主成分分析(Pca)
主成分分析(Pca)主成分分析(Pca)
主成分分析(Pca)Shushi Namba
 
Osaka.Stan #3 Chapter 5-2
Osaka.Stan #3 Chapter 5-2Osaka.Stan #3 Chapter 5-2
Osaka.Stan #3 Chapter 5-2Takayuki Goto
 
Sparkler—Crawler on Apache Spark: Spark Summit East talk by Karanjeet Singh a...
Sparkler—Crawler on Apache Spark: Spark Summit East talk by Karanjeet Singh a...Sparkler—Crawler on Apache Spark: Spark Summit East talk by Karanjeet Singh a...
Sparkler—Crawler on Apache Spark: Spark Summit East talk by Karanjeet Singh a...Spark Summit
 

Viewers also liked (10)

StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
 
がんばろう!はじめてのDnn!
がんばろう!はじめてのDnn!がんばろう!はじめてのDnn!
がんばろう!はじめてのDnn!
 
Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!
 
心理学における「再現性」の問題とBayes Factor
心理学における「再現性」の問題とBayes Factor心理学における「再現性」の問題とBayes Factor
心理学における「再現性」の問題とBayes Factor
 
Sparkler - Spark Crawler
Sparkler - Spark Crawler Sparkler - Spark Crawler
Sparkler - Spark Crawler
 
Psychophysical functions@BCM勉強会
Psychophysical functions@BCM勉強会Psychophysical functions@BCM勉強会
Psychophysical functions@BCM勉強会
 
Rでベイズをやってみよう!(コワい本1章)@BCM勉強会
Rでベイズをやってみよう!(コワい本1章)@BCM勉強会Rでベイズをやってみよう!(コワい本1章)@BCM勉強会
Rでベイズをやってみよう!(コワい本1章)@BCM勉強会
 
主成分分析(Pca)
主成分分析(Pca)主成分分析(Pca)
主成分分析(Pca)
 
Osaka.Stan #3 Chapter 5-2
Osaka.Stan #3 Chapter 5-2Osaka.Stan #3 Chapter 5-2
Osaka.Stan #3 Chapter 5-2
 
Sparkler—Crawler on Apache Spark: Spark Summit East talk by Karanjeet Singh a...
Sparkler—Crawler on Apache Spark: Spark Summit East talk by Karanjeet Singh a...Sparkler—Crawler on Apache Spark: Spark Summit East talk by Karanjeet Singh a...
Sparkler—Crawler on Apache Spark: Spark Summit East talk by Karanjeet Singh a...
 

More from Shushi Namba

回帰モデルとして見る信号検出理論
回帰モデルとして見る信号検出理論回帰モデルとして見る信号検出理論
回帰モデルとして見る信号検出理論Shushi Namba
 
ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析Shushi Namba
 
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにShushi Namba
 
表情から見た情動
表情から見た情動表情から見た情動
表情から見た情動Shushi Namba
 
今夜は動的モデリングよ~Dynrで簡単クッキング!~
今夜は動的モデリングよ~Dynrで簡単クッキング!~今夜は動的モデリングよ~Dynrで簡単クッキング!~
今夜は動的モデリングよ~Dynrで簡単クッキング!~Shushi Namba
 
Mental model for emotion
Mental model for emotionMental model for emotion
Mental model for emotionShushi Namba
 
ベイズ統計モデリングと心理学
ベイズ統計モデリングと心理学ベイズ統計モデリングと心理学
ベイズ統計モデリングと心理学Shushi Namba
 
馬に蹴られるモデリング
馬に蹴られるモデリング馬に蹴られるモデリング
馬に蹴られるモデリングShushi Namba
 

More from Shushi Namba (8)

回帰モデルとして見る信号検出理論
回帰モデルとして見る信号検出理論回帰モデルとして見る信号検出理論
回帰モデルとして見る信号検出理論
 
ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析
 
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
 
表情から見た情動
表情から見た情動表情から見た情動
表情から見た情動
 
今夜は動的モデリングよ~Dynrで簡単クッキング!~
今夜は動的モデリングよ~Dynrで簡単クッキング!~今夜は動的モデリングよ~Dynrで簡単クッキング!~
今夜は動的モデリングよ~Dynrで簡単クッキング!~
 
Mental model for emotion
Mental model for emotionMental model for emotion
Mental model for emotion
 
ベイズ統計モデリングと心理学
ベイズ統計モデリングと心理学ベイズ統計モデリングと心理学
ベイズ統計モデリングと心理学
 
馬に蹴られるモデリング
馬に蹴られるモデリング馬に蹴られるモデリング
馬に蹴られるモデリング
 

変数同士の関連_MIC