More Related Content Similar to Rで実験計画法 前編 (20) Rで実験計画法 前編3. 3
自己紹介
• twitterID : @ito_yan
• お仕事
• QA(品質保証)がメイン
• データマイニングツール開発
• Rに初めて触れて5年
• まどか☆マギカのアニメ版は観てません(爆
• 漫画版読みました(爆
6. 6
一元配置
問題:
素材の強度を上げるため、製造する環境の温度を
A1 = 15℃、 A2 = 20℃、A3 = 25℃
と変化させて試作し、強度を測定したところ次の結果を得た。
温度によって強度は変わるといえるか。
因子 水準
A1 A2 A3 問題を統計的に言うと…
27.2 33.3 28.5 各水準の平均は一定
28.7 31.5 31.3
水準の平均は一定で
27.7 30.8 29.5
はない
26.4 32.4 27.9
7. 7
Rによる分析
lev data
• データフレームでデータを表現 A1 27.2
data <- c(27.2,28.7,27.7,26.4, A1 28.7
33.3,31.5,30.8,32.4, A1 27.7
28.5,31.3,29.5,27.9) A1 26.4
lev <- c(rep("A1",4),rep("A2",4),rep("A3",4)) A2 33.3
exp.data <- data.frame(lev=lev,data=data) A2 31.5
A2 30.8
A2 32.4
A3 28.5
A3 31.3
A3 29.5
A3 27.9
9. 9
一元配置のデータの分解式
• データ=平均+因子ごとの影響+誤差
A1 A2 A3
27.2 33.3 28.5 水準A1の合計
28.7 31.5 31.3
27.7 30.8 29.5
=
26.4 32.4 27.9
A1 A2 A3 A1 A2 A3 A1 A2 A3
29.6 29.6 29.6 -2.1 2.4 -0.3 -0.3 1.3 -0.8
29.6 29.6 29.6 + -2.1 2.4 -0.3 + 1.2 -0.5 2.0
29.6 29.6 29.6 -2.1 2.4 -0.3 0.2 -1.2 0.2
29.6 29.6 29.6 -2.1 2.4 -0.3 -1.1 0.4 -1.4
11. 11
変動に関する用語
• 全変動(Sum of Square, SS)
• 全データの二乗和
• 平均変動(Correlation Term, CT, 修正変動)
• 全データの平均の二乗和
• 因子変動(主効果)
• 因子による効果の二乗和
• 誤差変動
• 平均変動、主効果で説明できない部分
• 測定器、測定者、偶然による誤差
12. 12
データの二乗和
• イメージは下図のように全データに^2をつけるだけ
A1 A2 A3
27.2^2 33.3^2 28.5^2
28.7^2 31.5^2 31.3^2
27.7^2 30.8^2 29.5^2
=
26.4^2 32.4^2 27.9^2
A1 A2 A3 A1 A2 A3 A1 A2 A3
(-0.3)^2 1.3^2 (-0.8)^2
29.6^2 + (-2.1)^2 2.4^2 -0.3^2
1.2^2
+ 0.2^2 -0.5^2 2.0^2
-1.2^2 0.2^2
(-1.1)^2 0.4^2 (-1.4)^2
14. 14
一元配置の分散分析表
result <- summary(aov(data~lev,data=exp.data))
有意である
> result
Df Sum Sq Mean Sq F value Pr(>F)
lev 2 41.04 20.52 14.25 0.001625 **
Residuals 9 12.96 1.44
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
DF・・・自由度
SumSq・・・要因変動
MeanSq・・・1自由度あたりの要因変動(41.04/2、12.96/9)
Fvalue・・・MeanSqを誤差の要因変動で割った値(20.52/1.44)
Pr・・・P値
17. 17
なぜ分散分析なのか
• t検定の繰り返しで差の有意性を調べるのは?
• 有意水準5%でn回検定すると1-0.95^nの確率で第
一種の誤り(違うのに正しいと言ってしまう)を犯して
しまう
→第一種の誤りが5%より大きくなるのでダメ
(多重性の問題)
• 本当にダメ? 4水準であれば =6
より5/6%が有意水準
• ボンフェローニ法という手法がある
• 5%/(t検定を行う回数)を有意水準としたt検定
• 手軽だが、かなり厳しめに見積もる傾向がある
19. 19
二元配置のデータ作成
levA levB sales
sales <- c(64,58,27,31,61,69, A1 B1 64
56,50,63,57,51,49) A1 B1 58
lev.A <- c(rep("A1",4), A1 B2 27
rep("A2",4),rep("A3",4)) A1 B2 31
lev.B <- rep(rep(c("B1","B2"),c(2,2)),3) A2 B1 61
sales.data <- data.frame(levA=lev.A, A2 B1 69
levB=lev.B,sales=sales) A2 B2 56
A2 B2 50
A3 B1 63
A3 B1 57
A3 B2 51
A3 B2 49
25. 25
交互作用を考慮したデータの分解
• データ=平均+Aの影響+Bの影響+交互作用+誤差
64、58 27、31 53、53 53、53 -8、-8 -8、-8
61、69 56、50 = 53、53 53、53 + 6、6 6、6
63、57 51、49 53、53 53、53 2、2 2、2
9、9 -9、-9 7、7 -7、-7 3、-3 -2、2
+ 9、9 -9、-9 + -3、-3 3、3 + -4、4 3、-3
9、9 -9、-9 -4、-4 4、4 3、-3 1、-1
10と4の平均=7
交互作用を考慮しない場合は
合わせて誤差になる
29. 29
ラテン方格と二元配置の関係
B1 B2 B3 ラテン方陣を用いた実験計
画をラテン方格という
A1 C1 C2 C3 どの因子のどの水準に着目し
A2 C2 C3 C1 ても、他の因子の水準が同数
実験されている
A3 C3 C1 C2 (バランスが取れているという)
バランスが取れていると、データ
ラテン方陣は二元配置
の分解式が容易に作成できる
に組み込むことができる
30. 30
ラテン方格利用時のデータの分解
B1 B2 B3
• これまでと同様に分解可能
A1 C1 C2 C3
• データ=平均+因子A,B,Cの効果+誤差
A2 C2 C3 C1
A3 C3 C1 C2
B1 B2 B3
A1 21 25 11 17 17 17 2 2 2
A2 5 27 16 = 17 17 17 + -1 -1 -1
A3 13 17 18 17 17 17 -1 -1 -1
-4 6 -2 5 1 6 1 1 0
+ -4 6 -2 + -6 5 1 + -1 0 1
-4 6 -2 1 -6 5 0 1 -1
31. 31
グレコ・ラテン方陣
バランスが取れている
α β γ δ a c d b αa βc γd δb
β α δ γ b d c a 重ねる βb αd δc γa
γ δ α β c a b d γc δa αb βd
δ γ β α d b a c δd γb βa αc
直交・・・重ねたときに同じ文字の組み合わせがない
2個のラテン方陣の関係
• グレコ・ラテン方陣はラテン方陣を重ねたもの
• 4水準4因子の実験が16回でできる(4元配置は4^4=256回)
32. 32
グレコ・ラテン方格で水準設定
B1 B2 B3 B4
A1 C1D1 C2D3 C3D4 C4D2
A2 C2D2 C1D4 C4D3 C3D1
A3 C3D3 C4D1 C1D2 C2D4
A4 C4D4 C3D2 C2D1 C1D3
グレコ・ラテン方陣で因子Cの水準にはギリシャ文字、
因子Dの水準にはアルファベットを割り当てる。
上の例では、以下のように水準を割り当てた。
α:C1、β:C2、γ:C3、δ:C4、a:D1、b:D2、c:D3、d:D4
データの分解や分散分析表の作り方はこれまでと同じ
35. 35
実験計画法の原則(by フィッシャー)
• 反復
• 誤差を評価できるようにする
• 無作為化
• 慣れを防ぐ
• 時間的・空間的な要因を排除する(気温・季節など)
• 局所管理
• 要因以外の要素を極力一定にする
• 例:生物の成長実験では体格が同じ個体を使う
これまでの実験は、実はランダムに実験するべき内容
であることに注意!