More Related Content
More from Tadayuki Onishi
More from Tadayuki Onishi (8)
Data Mining with R algae bloom case
- 4. Data Mining with R
Learning with Case Studies
Luis Torgo(2010)
• 導入
• 藻類の予測
• 株式市場のリターンの予測
• 不正行為の検知
• マクロアレイの分類
- 5. Data Mining with R
Learning with Case Studies
Luis Torgo(2010)
• 導入
• 藻類の予測
• 株式市場のリターンの予測 の 機会
た次 ま
• 不正行為の検知 の 機会
た次 ま
• マクロアレイの分類機会
次の
また
- 11. Predicting Algae Blooms
(直訳:藻類の予測)
川に有害な藻類が発生してます
http://digimaga.net/uploads/2008/07/player-
performs-sailing-competition-in-an-alga-in-the-
dirty-sea.jpg
藻類の大繁殖の予測は川の質の向上に必要
不可欠
じゃあ藻類の発生頻度を予測しましょう
- 16. mxPH・・・ ph値の最大値
mnO2・・・ 酸素の最小値
Cl ・・・ 塩化物の平均値
NO3 ・・・ 硝酸イオンの平均値
NH4 ・・・ アンモニウムイオンの平均値
oPO4 ・・・ オルソリン酸イオンの平均
PO4 ・・・ リン酸の合計の平均値
Chla ・・・ 葉緑素の平均
a1∼a7 ・・・ 異なる7つの藻類の発生頻度
- 26. Histogram of maximum pH value
1.0
0.8
0.6
Density
0.4
0.2
0.0
6 7 8 9 10
algae$mxPH
裾の辺りに小さい値が2つ存在することがわかる
- 27. Normal QQ plot of maximum pH
9
algae$mxPH
8
# distribution:デフォルトで norm
# envelope:デフォルトで 0.95
7
6
-3 -2 -1 0 1 2 3
norm quantiles
- 28. Normal QQ plot of maximum pH
9
algae$mxPH
8
# distribution:デフォルトで norm
# envelope:デフォルトで 0.95
7
6
-3 -2 -1 0 1 2 3
norm quantiles
5%エラーで
ほぼ正規分布であることがわかる
- 34. 25000
mean
mean+sd
median
15000
algae$NH4
5000
0
0 50 100 150 200
- 35. 25000
mean
mean+sd
median
15000
algae$NH4
5000
0
0 50 100 150 200
やっぱり外れ値いっぱいあるね
- 37. algae$NH4
0 5000 15000 25000
0
50
100
150
153
200
- 41. NAを処理する方法
manyNAs()
is.na()
complete.cases()
na.omit()
mean()やsd()などのna.rmオプション
- 43. 80
60
Algal a1
40
20
0
large medium small
River Size
見づらいので・・・
- 44. River Size small
medium
large
0 20 40 60 80
Algal a1
- 45. River Size small
medium
large
0 20 40 60 80
Algal a1
a1はsmallに多く分布していることが確認できる
- 47. small
River Size
# ●は頻度の平均値
medium # 縦線は左から 第一四分位点、中央値、第三四分位点
# ダッシュは実際のデータの頻度
large
0 20 40 60 80
Algal A1
- 48. small
River Size
# ●は頻度の平均値
medium # 縦線は左から 第一四分位点、中央値、第三四分位点
# ダッシュは実際のデータの頻度
large
0 20 40 60 80
Algal A1
頻度も確認できるので便利
- 49. 0 10 20 30 40
minO2 minO2
winter
summer
spring
autumn
# number:データを何個に分けるか
minO2 minO2 # overlap:分けた時にデータをどのくらい重複させるか
winter
# striplot は lattice パッケージ
summer
spring
autumn
0 10 20 30 40
a3
- 50. 0 10 20 30 40
minO2 minO2
winter
summer
spring
autumn
# number:データを何個に分けるか
minO2 minO2 # overlap:分けた時にデータをどのくらい重複させるか
winter
# striplot は lattice パッケージ
summer
spring
autumn
0 10 20 30 40
a3
a3とseasonの関係とminO2を表している
- 79. 80
Linear Model Regression Tree
80
60
60
True Values
True Values
40
40
20
20
0
0
-10 0 10 30 10 20 30 40
Predictions Predictions
正直、微妙
- 84. 言い訳をすると
この本は
「モデル選択の段階でとても興味深い得点を得ることができた」
と終わらせています