Submit Search
Upload
Rで部屋探し For slide share
•
18 likes
•
10,577 views
Shota Yasui
Follow
Rで部屋を探そうというお話です。
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 18
Download now
Download to read offline
Recommended
データ解析で割安賃貸物件を探せ!(山手線沿線編) LT
データ解析で割安賃貸物件を探せ!(山手線沿線編) LT
. .
Tokyor37
Tokyor37
TokorosawaYoshio
ハイレゾの話
ハイレゾの話
Kazuya Wada
10分で分かるr言語入門ver2.7
10分で分かるr言語入門ver2.7
Nobuaki Oshiro
生物成長曲線予測の事例
生物成長曲線予測の事例
yoshi_flt
Maeshori missing
Maeshori missing
Daisuke Ichikawa
20140329 tokyo r lt 「カーネルとsvm」
20140329 tokyo r lt 「カーネルとsvm」
tetsuro ito
rChartsによるインタラクティブな可視化表現
rChartsによるインタラクティブな可視化表現
Yasuyuki Sugai
Recommended
データ解析で割安賃貸物件を探せ!(山手線沿線編) LT
データ解析で割安賃貸物件を探せ!(山手線沿線編) LT
. .
Tokyor37
Tokyor37
TokorosawaYoshio
ハイレゾの話
ハイレゾの話
Kazuya Wada
10分で分かるr言語入門ver2.7
10分で分かるr言語入門ver2.7
Nobuaki Oshiro
生物成長曲線予測の事例
生物成長曲線予測の事例
yoshi_flt
Maeshori missing
Maeshori missing
Daisuke Ichikawa
20140329 tokyo r lt 「カーネルとsvm」
20140329 tokyo r lt 「カーネルとsvm」
tetsuro ito
rChartsによるインタラクティブな可視化表現
rChartsによるインタラクティブな可視化表現
Yasuyuki Sugai
Rで学ぶ離散選択モデル
Rで学ぶ離散選択モデル
宏喜 佐野
Feature Selection with R / in JP
Feature Selection with R / in JP
Sercan Ahi
Rで学ぶデータマイニングI 第8章〜第13章
Rで学ぶデータマイニングI 第8章〜第13章
Prunus 1350
Hijiyama.R Entry session
Hijiyama.R Entry session
考司 小杉
巨人の勝率を上げたい (スクレイピングとデータ集計)
巨人の勝率を上げたい (スクレイピングとデータ集計)
Takuma Hatano
Rでセイバーメトリクス (イチローと松井 どっちが凄い?)
Rでセイバーメトリクス (イチローと松井 どっちが凄い?)
Takuma Hatano
経験過程
経験過程
hoxo_m
シンギュラリティを知らずに機械学習を語るな
シンギュラリティを知らずに機械学習を語るな
hoxo_m
確率論基礎
確率論基礎
hoxo_m
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
Shinichi Nakagawa
次元の呪い
次元の呪い
Kosuke Tsujino
オレオレR-GUIを作りたい
オレオレR-GUIを作りたい
Masahiro Hayashi
#みどりぼん 11章「空間構造のある階層ベイズモデル」後半
#みどりぼん 11章「空間構造のある階層ベイズモデル」後半
Katsushi Yamashita
みどりぼん第11回 前半
みどりぼん第11回 前半
Atsushi Hayakawa
「データ解析のための統計モデリング入門」読書会 最終回 クロージング
「データ解析のための統計モデリング入門」読書会 最終回 クロージング
Katsushi Yamashita
TokyoR LT Rで連続データを離散化
TokyoR LT Rで連続データを離散化
tetsuro ito
TokyoR40
TokyoR40
TokorosawaYoshio
分布から見た線形モデル・GLM・GLMM
分布から見た線形モデル・GLM・GLMM
. .
クラシックな機械学習の入門 10. マルコフ連鎖モンテカルロ 法
クラシックな機械学習の入門 10. マルコフ連鎖モンテカルロ 法
Hiroshi Nakagawa
Tokyo r #37 Rubin's Rule
Tokyo r #37 Rubin's Rule
Hiroki Matsui
L 05 bandit with causality-公開版
L 05 bandit with causality-公開版
Shota Yasui
Contextual package
Contextual package
Shota Yasui
More Related Content
Viewers also liked
Rで学ぶ離散選択モデル
Rで学ぶ離散選択モデル
宏喜 佐野
Feature Selection with R / in JP
Feature Selection with R / in JP
Sercan Ahi
Rで学ぶデータマイニングI 第8章〜第13章
Rで学ぶデータマイニングI 第8章〜第13章
Prunus 1350
Hijiyama.R Entry session
Hijiyama.R Entry session
考司 小杉
巨人の勝率を上げたい (スクレイピングとデータ集計)
巨人の勝率を上げたい (スクレイピングとデータ集計)
Takuma Hatano
Rでセイバーメトリクス (イチローと松井 どっちが凄い?)
Rでセイバーメトリクス (イチローと松井 どっちが凄い?)
Takuma Hatano
経験過程
経験過程
hoxo_m
シンギュラリティを知らずに機械学習を語るな
シンギュラリティを知らずに機械学習を語るな
hoxo_m
確率論基礎
確率論基礎
hoxo_m
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
Shinichi Nakagawa
次元の呪い
次元の呪い
Kosuke Tsujino
オレオレR-GUIを作りたい
オレオレR-GUIを作りたい
Masahiro Hayashi
#みどりぼん 11章「空間構造のある階層ベイズモデル」後半
#みどりぼん 11章「空間構造のある階層ベイズモデル」後半
Katsushi Yamashita
みどりぼん第11回 前半
みどりぼん第11回 前半
Atsushi Hayakawa
「データ解析のための統計モデリング入門」読書会 最終回 クロージング
「データ解析のための統計モデリング入門」読書会 最終回 クロージング
Katsushi Yamashita
TokyoR LT Rで連続データを離散化
TokyoR LT Rで連続データを離散化
tetsuro ito
TokyoR40
TokyoR40
TokorosawaYoshio
分布から見た線形モデル・GLM・GLMM
分布から見た線形モデル・GLM・GLMM
. .
クラシックな機械学習の入門 10. マルコフ連鎖モンテカルロ 法
クラシックな機械学習の入門 10. マルコフ連鎖モンテカルロ 法
Hiroshi Nakagawa
Tokyo r #37 Rubin's Rule
Tokyo r #37 Rubin's Rule
Hiroki Matsui
Viewers also liked
(20)
Rで学ぶ離散選択モデル
Rで学ぶ離散選択モデル
Feature Selection with R / in JP
Feature Selection with R / in JP
Rで学ぶデータマイニングI 第8章〜第13章
Rで学ぶデータマイニングI 第8章〜第13章
Hijiyama.R Entry session
Hijiyama.R Entry session
巨人の勝率を上げたい (スクレイピングとデータ集計)
巨人の勝率を上げたい (スクレイピングとデータ集計)
Rでセイバーメトリクス (イチローと松井 どっちが凄い?)
Rでセイバーメトリクス (イチローと松井 どっちが凄い?)
経験過程
経験過程
シンギュラリティを知らずに機械学習を語るな
シンギュラリティを知らずに機械学習を語るな
確率論基礎
確率論基礎
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
次元の呪い
次元の呪い
オレオレR-GUIを作りたい
オレオレR-GUIを作りたい
#みどりぼん 11章「空間構造のある階層ベイズモデル」後半
#みどりぼん 11章「空間構造のある階層ベイズモデル」後半
みどりぼん第11回 前半
みどりぼん第11回 前半
「データ解析のための統計モデリング入門」読書会 最終回 クロージング
「データ解析のための統計モデリング入門」読書会 最終回 クロージング
TokyoR LT Rで連続データを離散化
TokyoR LT Rで連続データを離散化
TokyoR40
TokyoR40
分布から見た線形モデル・GLM・GLMM
分布から見た線形モデル・GLM・GLMM
クラシックな機械学習の入門 10. マルコフ連鎖モンテカルロ 法
クラシックな機械学習の入門 10. マルコフ連鎖モンテカルロ 法
Tokyo r #37 Rubin's Rule
Tokyo r #37 Rubin's Rule
More from Shota Yasui
L 05 bandit with causality-公開版
L 05 bandit with causality-公開版
Shota Yasui
Contextual package
Contextual package
Shota Yasui
PaperFriday: The selective labels problem
PaperFriday: The selective labels problem
Shota Yasui
TokyoR 20180421
TokyoR 20180421
Shota Yasui
何故あなたの機械学習はビジネスを改善出来ないのか?
何故あなたの機械学習はビジネスを改善出来ないのか?
Shota Yasui
木と電話と選挙(causalTree)
木と電話と選挙(causalTree)
Shota Yasui
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)
Shota Yasui
Factorization machines with r
Factorization machines with r
Shota Yasui
Estimating the effect of advertising with Machine learning
Estimating the effect of advertising with Machine learning
Shota Yasui
Prml nn
Prml nn
Shota Yasui
Xgboost for share
Xgboost for share
Shota Yasui
重回帰分析で頑張る
重回帰分析で頑張る
Shota Yasui
Dynamic panel in tokyo r
Dynamic panel in tokyo r
Shota Yasui
Salmon cycle
Salmon cycle
Shota Yasui
More from Shota Yasui
(14)
L 05 bandit with causality-公開版
L 05 bandit with causality-公開版
Contextual package
Contextual package
PaperFriday: The selective labels problem
PaperFriday: The selective labels problem
TokyoR 20180421
TokyoR 20180421
何故あなたの機械学習はビジネスを改善出来ないのか?
何故あなたの機械学習はビジネスを改善出来ないのか?
木と電話と選挙(causalTree)
木と電話と選挙(causalTree)
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)
Factorization machines with r
Factorization machines with r
Estimating the effect of advertising with Machine learning
Estimating the effect of advertising with Machine learning
Prml nn
Prml nn
Xgboost for share
Xgboost for share
重回帰分析で頑張る
重回帰分析で頑張る
Dynamic panel in tokyo r
Dynamic panel in tokyo r
Salmon cycle
Salmon cycle
Rで部屋探し For slide share
1.
S H O
T A Y A S U I 2 0 1 4 / 3 / 2 9 T O K Y O . R Rでお部屋探し
2.
自己紹介 安井翔太 / Shota
Yasui Twitter: @housecat442 <けーれき> — 日本のド文系経済学部 — アメリカで計量経済学1年 — ノルウェーで資源・環境経済学修士取得 — SNF研究所でデータ分析(環境税作成) — サイバーエージェントでデータ分析 ¡ アトリビューション分析 ¡ マス広告評価 ¡ 動画広告評価 ¡ Etc…
3.
実際に行った部屋探しの流れ 1. 住みたい場所を決める 2. 当該エリアの物件情報をスクレイピング 3.
分析モデルを決めて分析 4. モデルを持って不動産屋へ! 5. おすすめの物件情報を片っ端から出してもらい、安め の物件をモデルで特定して絞る。 6. 安めの物件が幾つか出て来たら内見。 7. 気に入ったら決める。(気に入らなかったら5へ戻る)
4.
今日お話する部分 1. 住みたい場所を決める 2. 当該エリアの物件情報をスクレイピング 3.
分析モデルを決めて分析 4. モデルを持って不動産屋へ! 5. おすすめの物件情報を片っ端から出してもらい、安め の物件をモデルで特定して絞る。 6. 安めの物件が幾つか出て来たら内見。 7. 気に入ったら決める。(気に入らなかったら5へ戻る)
5.
楽しい部分 1. 住みたい場所を決める 2. 当該エリアの物件情報をスクレイピング 3.
分析モデルを決めて分析 4. モデルを持って不動産屋へ! 5. おすすめの物件情報を片っ端から出してもらい、安め の物件をモデルで特定して絞る。 6. 安めの物件が幾つか出て来たら内見。 7. 気に入ったら決める。(気に入らなかったら5へ戻る)
6.
1.住みたい場所を決める — 特に分析は用意しない。 — 皆さん大人なので、住みたい場所くらい自分で決めよう。 —
実際に行った際には会社の家賃補助「二駅ルール」の 圏内で限定。 — 一応広いエリアで分析して、割安なエリアを特定するとい うアプローチもあり得るかも。
7.
2.当該エリア物件データをスクレイピング — XMLパッケージを利用 — htmlParse()とpaste()とforを組み合わせて使えば検索 画面の情報は貴女の物 —
Flashのプラグイン切ってブラウジングすればFlash無し バージョンのURLとかも解る。 — 怒られないようにSys.sleep()とかを入れときましょう。
8.
sample library(XML) yatin <- c() name
<- c() for(i in 1:2){ url <- paste(検索画面のURL, i , sep = "") doc <- htmlParse(url, encoding="UTF-8") add_yatin <- xpathSApply(doc, XPATHを入力, xmlValue) add_name <- xpathSApply(doc, “XPATHを入力", xmlValue) yatin <- c(yatin,add_yatin) name <- c(name,add_name) } sample <- data.frame(name,yatin) sample[,2] <- gsub("万円","",sample[,2]) sample[,2] <- as.numeric(sample[,2]) * 10000
9.
3.分析モデルを決める — 物件の家賃設定が高いのか低いのかを判断したい。 — Introductory
Econometrics(Wooldridge)に例として提示さ れていた家賃モデルを参考。 — 手法は単純に重回帰分析を選択。 ¡ このお題で高度な分析が必要とされる気がしない ¡ 不動産屋で計算する事を考えると単純なモデルが好ましい — 変数選択のステップは省略。 ¡ 取って来たデータを取り敢えず突っ込んでみると重複する情報が多く、マ ルチコとかある。(例:部屋数と面積)
10.
分析! — 取得したデータを前処理 — 何の変哲も無く
lm()してsummary() — 今回は例として六本木,赤坂,西麻布エリアで分析。 — 被説明変数:二年分の家賃・管理費・礼金の合計 =大家に取っての2年分の収入 — 説明変数:部屋の面積・築年・階・地区・設備 =部屋の価値を創出しそうな要素
11.
Call: lm(formula = log(twoyp)
~ area + mati + kai + year + バス.トイレ + 洗面所独立 + 宅配ボックス + 温水 洗浄トイレ + 追い炊き風呂, data = minato) Residuals: Min 1Q Median 3Q Max -1.12666 -0.12738 -0.01471 0.11891 1.22410 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 14.6126865 0.0208835 699.724 < 2e-16 *** 面積 0.0120446 0.0000946 127.323 < 2e-16 *** mati赤坂 0.0778764 0.0103964 7.491 9.09e-14 *** mati六本木 0.0298522 0.0112462 2.654 0.007989 ** kai 0.0146538 0.0007082 20.691 < 2e-16 *** year -0.0096025 0.0004627 -20.751 < 2e-16 *** バス.トイレ 0.0797114 0.0139576 5.711 1.24e-08 *** 洗面所独立 0.0665907 0.0111475 5.974 2.61e-09 *** 宅配ボックス -0.0585588 0.0111705 -5.242 1.70e-07 *** 温水洗浄トイレ -0.0367874 0.0106328 -3.460 0.000549 *** 追い炊き風呂 0.1250519 0.0100339 12.463 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.2148 on 2842 degrees of freedom Multiple R-squared: 0.9036, Adjusted R-squared: 0.9033 F-statistic: 2665 on 10 and 2842 DF, p-value: < 2.2e-16
12.
自分の部屋の家賃を推定
13.
log(twoyp) = 14.6126865 +
0.0120446*面積 + 0.0778764*赤坂 + 0.0298522*六本木 + 0.0146538*階 - 0.0096025 *築年 + 0.0665907*バス.トイレ + 0.0665907*洗面所独立 - 0.0585588*宅配ボックス -0.0367874*温水洗浄トイレ + 0.1250519*追い炊き風呂 自分の部屋の推定家賃= 14.6126865 + 0.0120446*27.4 + 0.0778764*0 + 0.0298522*0 + 0.0146538*7 - 0.0096025 *10 + 0.0665907*1+ 0.0665907*1 - 0.0585588*1 -0.0367874*1 + 0.1250519*1 =15.12526 →exp(15.23526) = 3705274
14.
管理費無しで礼金が1ヶ月分なので 3705274/25=148211
15.
家賃が月12.2万円 148211 – 122000
= 26211
16.
モデルに妥当性があるのであれば、 月2.5万円位お得!?
17.
こんなお部屋探しの方法、 いかがでしょう?
18.
おしまい!
Download now