SlideShare a Scribd company logo
1 of 18
Download to read offline
S H O T A Y A S U I
2 0 1 4 / 3 / 2 9 T O K Y O . R 	
Rでお部屋探し
自己紹介	
安井翔太 / Shota Yasui
Twitter: @housecat442
<けーれき>
—  日本のド文系経済学部
—  アメリカで計量経済学1年
—  ノルウェーで資源・環境経済学修士取得
—  SNF研究所でデータ分析(環境税作成)
—  サイバーエージェントでデータ分析
¡  アトリビューション分析
¡  マス広告評価
¡  動画広告評価
¡  Etc…
実際に行った部屋探しの流れ	
1.  住みたい場所を決める
2.  当該エリアの物件情報をスクレイピング
3.  分析モデルを決めて分析
4.  モデルを持って不動産屋へ!
5.  おすすめの物件情報を片っ端から出してもらい、安め
の物件をモデルで特定して絞る。
6.  安めの物件が幾つか出て来たら内見。
7.  気に入ったら決める。(気に入らなかったら5へ戻る)
今日お話する部分	
1.  住みたい場所を決める
2.  当該エリアの物件情報をスクレイピング
3.  分析モデルを決めて分析
4.  モデルを持って不動産屋へ!
5.  おすすめの物件情報を片っ端から出してもらい、安め
の物件をモデルで特定して絞る。
6.  安めの物件が幾つか出て来たら内見。
7.  気に入ったら決める。(気に入らなかったら5へ戻る)
楽しい部分	
1.  住みたい場所を決める
2.  当該エリアの物件情報をスクレイピング
3.  分析モデルを決めて分析
4.  モデルを持って不動産屋へ!
5.  おすすめの物件情報を片っ端から出してもらい、安め
の物件をモデルで特定して絞る。
6.  安めの物件が幾つか出て来たら内見。
7.  気に入ったら決める。(気に入らなかったら5へ戻る)
1.住みたい場所を決める	
—  特に分析は用意しない。
—  皆さん大人なので、住みたい場所くらい自分で決めよう。
—  実際に行った際には会社の家賃補助「二駅ルール」の
圏内で限定。
—  一応広いエリアで分析して、割安なエリアを特定するとい
うアプローチもあり得るかも。
2.当該エリア物件データをスクレイピング	
—  XMLパッケージを利用
—  htmlParse()とpaste()とforを組み合わせて使えば検索
画面の情報は貴女の物
—  Flashのプラグイン切ってブラウジングすればFlash無し
バージョンのURLとかも解る。
—  怒られないようにSys.sleep()とかを入れときましょう。
sample
library(XML)
yatin <- c()
name <- c()
for(i in 1:2){
url <- paste(検索画面のURL, i , sep = "")
doc <- htmlParse(url, encoding="UTF-8")
add_yatin <- xpathSApply(doc, XPATHを入力, xmlValue)
add_name <- xpathSApply(doc, “XPATHを入力", xmlValue)
yatin <- c(yatin,add_yatin)
name <- c(name,add_name)
}
sample <- data.frame(name,yatin)
sample[,2] <- gsub("万円","",sample[,2])
sample[,2] <- as.numeric(sample[,2]) * 10000
3.分析モデルを決める	
—  物件の家賃設定が高いのか低いのかを判断したい。
—  Introductory Econometrics(Wooldridge)に例として提示さ
れていた家賃モデルを参考。
—  手法は単純に重回帰分析を選択。
¡  このお題で高度な分析が必要とされる気がしない
¡  不動産屋で計算する事を考えると単純なモデルが好ましい
—  変数選択のステップは省略。
¡  取って来たデータを取り敢えず突っ込んでみると重複する情報が多く、マ
ルチコとかある。(例:部屋数と面積)
分析!	
—  取得したデータを前処理
—  何の変哲も無く lm()してsummary()
—  今回は例として六本木,赤坂,西麻布エリアで分析。
—  被説明変数:二年分の家賃・管理費・礼金の合計
=大家に取っての2年分の収入
—  説明変数:部屋の面積・築年・階・地区・設備
=部屋の価値を創出しそうな要素
Call:
lm(formula = log(twoyp) ~ area + mati + kai + year + バス.トイレ + 洗面所独立 + 宅配ボックス + 温水
洗浄トイレ + 追い炊き風呂, data = minato)
Residuals:
Min 1Q Median 3Q Max
-1.12666 -0.12738 -0.01471 0.11891 1.22410
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 14.6126865 0.0208835 699.724 < 2e-16 ***
面積 0.0120446 0.0000946 127.323 < 2e-16 ***
mati赤坂 0.0778764 0.0103964 7.491 9.09e-14 ***
mati六本木 0.0298522 0.0112462 2.654 0.007989 **
kai 0.0146538 0.0007082 20.691 < 2e-16 ***
year -0.0096025 0.0004627 -20.751 < 2e-16 ***
バス.トイレ 0.0797114 0.0139576 5.711 1.24e-08 ***
洗面所独立 0.0665907 0.0111475 5.974 2.61e-09 ***
宅配ボックス -0.0585588 0.0111705 -5.242 1.70e-07 ***
温水洗浄トイレ -0.0367874 0.0106328 -3.460 0.000549 ***
追い炊き風呂 0.1250519 0.0100339 12.463 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2148 on 2842 degrees of freedom
Multiple R-squared: 0.9036, Adjusted R-squared: 0.9033
F-statistic: 2665 on 10 and 2842 DF, p-value: < 2.2e-16
自分の部屋の家賃を推定
log(twoyp) =
14.6126865 + 0.0120446*面積
+ 0.0778764*赤坂 + 0.0298522*六本木
+ 0.0146538*階 - 0.0096025 *築年
+ 0.0665907*バス.トイレ + 0.0665907*洗面所独立
-  0.0585588*宅配ボックス -0.0367874*温水洗浄トイレ
+ 0.1250519*追い炊き風呂
自分の部屋の推定家賃=
14.6126865 + 0.0120446*27.4
+ 0.0778764*0 + 0.0298522*0
+ 0.0146538*7 - 0.0096025 *10
+ 0.0665907*1+ 0.0665907*1
-  0.0585588*1 -0.0367874*1
+ 0.1250519*1
=15.12526 →exp(15.23526) = 3705274
管理費無しで礼金が1ヶ月分なので
3705274/25=148211
家賃が月12.2万円
148211 – 122000 = 26211
モデルに妥当性があるのであれば、
月2.5万円位お得!?
こんなお部屋探しの方法、
いかがでしょう?
おしまい!

More Related Content

Viewers also liked

Rで学ぶ離散選択モデル
Rで学ぶ離散選択モデルRで学ぶ離散選択モデル
Rで学ぶ離散選択モデル宏喜 佐野
 
Feature Selection with R / in JP
Feature Selection with R / in JPFeature Selection with R / in JP
Feature Selection with R / in JPSercan Ahi
 
Rで学ぶデータマイニングI 第8章〜第13章
Rで学ぶデータマイニングI 第8章〜第13章Rで学ぶデータマイニングI 第8章〜第13章
Rで学ぶデータマイニングI 第8章〜第13章Prunus 1350
 
Hijiyama.R Entry session
Hijiyama.R Entry sessionHijiyama.R Entry session
Hijiyama.R Entry session考司 小杉
 
巨人の勝率を上げたい (スクレイピングとデータ集計)
巨人の勝率を上げたい (スクレイピングとデータ集計)巨人の勝率を上げたい (スクレイピングとデータ集計)
巨人の勝率を上げたい (スクレイピングとデータ集計)Takuma Hatano
 
Rでセイバーメトリクス (イチローと松井 どっちが凄い?)
Rでセイバーメトリクス (イチローと松井 どっちが凄い?)Rでセイバーメトリクス (イチローと松井 どっちが凄い?)
Rでセイバーメトリクス (イチローと松井 どっちが凄い?)Takuma Hatano
 
経験過程
経験過程経験過程
経験過程hoxo_m
 
シンギュラリティを知らずに機械学習を語るな
シンギュラリティを知らずに機械学習を語るなシンギュラリティを知らずに機械学習を語るな
シンギュラリティを知らずに機械学習を語るなhoxo_m
 
確率論基礎
確率論基礎確率論基礎
確率論基礎hoxo_m
 
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjpShinichi Nakagawa
 
オレオレR-GUIを作りたい
オレオレR-GUIを作りたいオレオレR-GUIを作りたい
オレオレR-GUIを作りたいMasahiro Hayashi
 
#みどりぼん 11章「空間構造のある階層ベイズモデル」後半
#みどりぼん 11章「空間構造のある階層ベイズモデル」後半#みどりぼん 11章「空間構造のある階層ベイズモデル」後半
#みどりぼん 11章「空間構造のある階層ベイズモデル」後半Katsushi Yamashita
 
みどりぼん第11回 前半
みどりぼん第11回 前半みどりぼん第11回 前半
みどりぼん第11回 前半Atsushi Hayakawa
 
「データ解析のための統計モデリング入門」読書会 最終回 クロージング
「データ解析のための統計モデリング入門」読書会 最終回 クロージング「データ解析のための統計モデリング入門」読書会 最終回 クロージング
「データ解析のための統計モデリング入門」読書会 最終回 クロージングKatsushi Yamashita
 
TokyoR LT Rで連続データを離散化
TokyoR LT Rで連続データを離散化TokyoR LT Rで連続データを離散化
TokyoR LT Rで連続データを離散化tetsuro ito
 
分布から見た線形モデル・GLM・GLMM
分布から見た線形モデル・GLM・GLMM分布から見た線形モデル・GLM・GLMM
分布から見た線形モデル・GLM・GLMM. .
 
クラシックな機械学習の入門  10. マルコフ連鎖モンテカルロ 法
クラシックな機械学習の入門  10. マルコフ連鎖モンテカルロ 法クラシックな機械学習の入門  10. マルコフ連鎖モンテカルロ 法
クラシックな機械学習の入門  10. マルコフ連鎖モンテカルロ 法Hiroshi Nakagawa
 
Tokyo r #37 Rubin's Rule
Tokyo r #37 Rubin's RuleTokyo r #37 Rubin's Rule
Tokyo r #37 Rubin's RuleHiroki Matsui
 

Viewers also liked (20)

Rで学ぶ離散選択モデル
Rで学ぶ離散選択モデルRで学ぶ離散選択モデル
Rで学ぶ離散選択モデル
 
Feature Selection with R / in JP
Feature Selection with R / in JPFeature Selection with R / in JP
Feature Selection with R / in JP
 
Rで学ぶデータマイニングI 第8章〜第13章
Rで学ぶデータマイニングI 第8章〜第13章Rで学ぶデータマイニングI 第8章〜第13章
Rで学ぶデータマイニングI 第8章〜第13章
 
Hijiyama.R Entry session
Hijiyama.R Entry sessionHijiyama.R Entry session
Hijiyama.R Entry session
 
巨人の勝率を上げたい (スクレイピングとデータ集計)
巨人の勝率を上げたい (スクレイピングとデータ集計)巨人の勝率を上げたい (スクレイピングとデータ集計)
巨人の勝率を上げたい (スクレイピングとデータ集計)
 
Rでセイバーメトリクス (イチローと松井 どっちが凄い?)
Rでセイバーメトリクス (イチローと松井 どっちが凄い?)Rでセイバーメトリクス (イチローと松井 どっちが凄い?)
Rでセイバーメトリクス (イチローと松井 どっちが凄い?)
 
経験過程
経験過程経験過程
経験過程
 
シンギュラリティを知らずに機械学習を語るな
シンギュラリティを知らずに機械学習を語るなシンギュラリティを知らずに機械学習を語るな
シンギュラリティを知らずに機械学習を語るな
 
確率論基礎
確率論基礎確率論基礎
確率論基礎
 
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
 
次元の呪い
次元の呪い次元の呪い
次元の呪い
 
オレオレR-GUIを作りたい
オレオレR-GUIを作りたいオレオレR-GUIを作りたい
オレオレR-GUIを作りたい
 
#みどりぼん 11章「空間構造のある階層ベイズモデル」後半
#みどりぼん 11章「空間構造のある階層ベイズモデル」後半#みどりぼん 11章「空間構造のある階層ベイズモデル」後半
#みどりぼん 11章「空間構造のある階層ベイズモデル」後半
 
みどりぼん第11回 前半
みどりぼん第11回 前半みどりぼん第11回 前半
みどりぼん第11回 前半
 
「データ解析のための統計モデリング入門」読書会 最終回 クロージング
「データ解析のための統計モデリング入門」読書会 最終回 クロージング「データ解析のための統計モデリング入門」読書会 最終回 クロージング
「データ解析のための統計モデリング入門」読書会 最終回 クロージング
 
TokyoR LT Rで連続データを離散化
TokyoR LT Rで連続データを離散化TokyoR LT Rで連続データを離散化
TokyoR LT Rで連続データを離散化
 
TokyoR40
TokyoR40TokyoR40
TokyoR40
 
分布から見た線形モデル・GLM・GLMM
分布から見た線形モデル・GLM・GLMM分布から見た線形モデル・GLM・GLMM
分布から見た線形モデル・GLM・GLMM
 
クラシックな機械学習の入門  10. マルコフ連鎖モンテカルロ 法
クラシックな機械学習の入門  10. マルコフ連鎖モンテカルロ 法クラシックな機械学習の入門  10. マルコフ連鎖モンテカルロ 法
クラシックな機械学習の入門  10. マルコフ連鎖モンテカルロ 法
 
Tokyo r #37 Rubin's Rule
Tokyo r #37 Rubin's RuleTokyo r #37 Rubin's Rule
Tokyo r #37 Rubin's Rule
 

More from Shota Yasui

L 05 bandit with causality-公開版
L 05 bandit with causality-公開版L 05 bandit with causality-公開版
L 05 bandit with causality-公開版Shota Yasui
 
Contextual package
Contextual packageContextual package
Contextual packageShota Yasui
 
PaperFriday: The selective labels problem
PaperFriday: The selective labels problemPaperFriday: The selective labels problem
PaperFriday: The selective labels problemShota Yasui
 
何故あなたの機械学習はビジネスを改善出来ないのか?
何故あなたの機械学習はビジネスを改善出来ないのか?何故あなたの機械学習はビジネスを改善出来ないのか?
何故あなたの機械学習はビジネスを改善出来ないのか?Shota Yasui
 
木と電話と選挙(causalTree)
木と電話と選挙(causalTree)木と電話と選挙(causalTree)
木と電話と選挙(causalTree)Shota Yasui
 
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)Shota Yasui
 
Factorization machines with r
Factorization machines with rFactorization machines with r
Factorization machines with rShota Yasui
 
Estimating the effect of advertising with Machine learning
Estimating the effect of advertising with Machine learningEstimating the effect of advertising with Machine learning
Estimating the effect of advertising with Machine learningShota Yasui
 
Xgboost for share
Xgboost for shareXgboost for share
Xgboost for shareShota Yasui
 
重回帰分析で頑張る
重回帰分析で頑張る重回帰分析で頑張る
重回帰分析で頑張るShota Yasui
 
Dynamic panel in tokyo r
Dynamic panel in tokyo rDynamic panel in tokyo r
Dynamic panel in tokyo rShota Yasui
 

More from Shota Yasui (14)

L 05 bandit with causality-公開版
L 05 bandit with causality-公開版L 05 bandit with causality-公開版
L 05 bandit with causality-公開版
 
Contextual package
Contextual packageContextual package
Contextual package
 
PaperFriday: The selective labels problem
PaperFriday: The selective labels problemPaperFriday: The selective labels problem
PaperFriday: The selective labels problem
 
TokyoR 20180421
TokyoR 20180421TokyoR 20180421
TokyoR 20180421
 
何故あなたの機械学習はビジネスを改善出来ないのか?
何故あなたの機械学習はビジネスを改善出来ないのか?何故あなたの機械学習はビジネスを改善出来ないのか?
何故あなたの機械学習はビジネスを改善出来ないのか?
 
木と電話と選挙(causalTree)
木と電話と選挙(causalTree)木と電話と選挙(causalTree)
木と電話と選挙(causalTree)
 
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)
 
Factorization machines with r
Factorization machines with rFactorization machines with r
Factorization machines with r
 
Estimating the effect of advertising with Machine learning
Estimating the effect of advertising with Machine learningEstimating the effect of advertising with Machine learning
Estimating the effect of advertising with Machine learning
 
Prml nn
Prml nnPrml nn
Prml nn
 
Xgboost for share
Xgboost for shareXgboost for share
Xgboost for share
 
重回帰分析で頑張る
重回帰分析で頑張る重回帰分析で頑張る
重回帰分析で頑張る
 
Dynamic panel in tokyo r
Dynamic panel in tokyo rDynamic panel in tokyo r
Dynamic panel in tokyo r
 
Salmon cycle
Salmon cycleSalmon cycle
Salmon cycle
 

Rで部屋探し For slide share