Dokumen tersebut membahas model regresi linier dengan variabel dummy untuk memodelkan hubungan antara variabel respon dan prediktor. Variabel dummy digunakan untuk mewakili variabel kategori dengan lebih dari dua kategori. Metode ini digunakan untuk melihat pengaruh kategori terhadap parameter estimasi. Contoh penerapannya adalah memodelkan pengeluaran makanan berdasarkan pendapatan dan jenis kelamin, serta kandungan zat terlarut berdasarkan pH dan
1. Nama Kelompok:
Lifa Fitri N (115090501111016)
Cici Lia Puspita (115090507111006)
Silvia Netsyah (115090507111022)
2. PENGERTIAN
VARIABEL DENGAN
DUA KATEGORI
VARIABEL DENGAN
LEBIH DARI DUA
KATEGORI
Non
Interaksi
Interaksi
Non
Interaksi
Interaksi
3. VARIABEL DUMMY
DATA KUALITATIF
Contoh:
1. Pengaruh jenis Kelamin terhadap gaji.
2. Pengaruh kualitas produk terhadap omset.
3. Pengaruh harga terhadap kepuasan
pelayanan.
4. Pengaruh pendidikan terhadap umur
perkawinan pertama.
4. Regresi Biasa Regresi Peubah Dummy
Regresi biasa hanya
membahas analisis
terhadap variabel-variabel
kuantitatif saja.
Regresi variabel dummy
membahas analisis
terhadap variabel
kuantitatif dan juga
variabel kualitatif saja.
5. Jika data kualitatif tsb memiliki m
kategori, maka jumlah variabel
dummy yg dicantumkan didlm
model adalah (m-1).
6. Jumlah
Kategori (m)
Aturan Nilai Variabel Dummy Berdasarkan
Jumlah Variabel yang Digunakan
Kategori 퐷1 퐷2 … 퐷푟−2 퐷푟−1
m=2 Kategori ke-1 0
Kategori ke-2 1
m=3
Kategori ke-1 0 0
Kategori ke-2 1 0
Kategori ke-3 0 1
m=4
Kategori ke-1 0 0 0 0 0
Kategori ke-2 1 0 0 0 0
Kategori ke-3 0 1 0 0 0
……………. 0 0 … 0 0
Kategori ke r-1 0 0 0 1 0
Kategori ke r 0 0 0 0 1
8. MODEL REGRESI LINIER MENGGUNAKAN
VARIABEL DUMMY
Variabel dummy digunakan sebagai upaya untuk melihat
bagaimana klasifikasi-klasifikasi dalam sampel
berpengaruh terhadap parameter pendugaan. Variabel
dummy juga mencoba membuat kuantifikasi dari variabel
kualitatif.
Kita pertimbangkan model berikut ini:
I. Y = a + bX + c D1 (Model Dummy Intersep)
II. Y = a + bX + c (D1X) (Model Dummy Slope)
III. Y = a + bX + c (D1X) + d D1 (Kombinasi)
9.
10. Berikut ini adalah data Pengeluaran
Untuk Makanan dan Pendapatan
Bersih para Pria dan Wanita lajang
yang dipilih secara random. Jenis
Kelamin merupakan variabel kategori,
dengan Pria diberi nilai 0 dan Wanita
diberi nilai 1. Datanya sebagai berikut:
DATA
11. Pengamatan ke
Pengeluaran
untuk makanan
Y ($) Pendapatan
Bersih X ($)
Jenis Kelamin
D
1 1983 11557 1
2 2987 29387 1
3 2993 31463 1
4 3156 29554 1
5 2706 25137 1
6 2217 14952 1
7 2230 11589 0
8 3757 33328 0
9 3821 36151 0
10 3291 35448 0
11 3429 32988 0
12 2533 20437 0
Sumber:
Wiwiek Setya
Winahju -
http://oc.its.ac.
id.
12. The regression equation is
Y = 1506 + 0.0590 X - 229 D
Predictor Coef SE Coef T P
Constant 1506.2 188.0 8.01 0.000
X 0.058982 0.006117 9.64 0.000
D -229.0 107.1 -2.14 0.061
S = 178.769 R-Sq = 92.8% R-Sq(adj) = 91.3%
Analysis of Variance
Source DF SS MS F P
Regression 2 3730492 1865246 58.36 0.000
Residual Error 9 287626 31958
Total 11 4018118
Source DF Seq SS
X 1 3584286
D 1 146206
13. i. Perumusan hipotesis,
H0 : 2 = 0
H1 : 2
ii. = 0,05
iii. Statistik Uji :
퐹 =
푅(훽2,|훽0,훽1)
푀푆퐸
=
146206
31958
= 4.5749
iv. Bila H0 benar maka F~ F1,9 sehingga titik
kritis ada-lah
F1,9, 0,05 = 5.12.
v.Kesimpulan : terima H0, karena statistik uji
F <
F1,9, 0,05, dengan tingkat kepercayaan
sebesar 95% belum
14. Plot Belanja Makanan terhadap Pendapatan
Pendapatan
Belanja untuk Makanan
3800
3600
3400
3200
3000
2800
2600
2400
2200
2000
10000 15000 20000 25000 30000 35000
Variable
Belanja Makanan oleh Wanita
Belanja Makanan oleh Pria
16. Analysis of Variance
Source DF SS
MS F P
Regression 3 3738694
1246231 35.68
Residual Error 8 279424
34928
Total 11 4018118
Source DF Seq SS
X 1 3584286
D 1 146206
X*D 1 8202
Unusual Observations
Obs X Y Fit SE Fit
Residual St Resid
The regression equation is
Y = 1433 + 0.0616 X - 68 D -
0.0063 X*D
Predictor Coef SE Coef T
P
Constant 1432.6 248.5 5.77
0.000
X 0.061583 0.008349 7.38
0.000
D -67.9 350.8 -0.19
0.851
X*D -0.00629 0.01299 -0.48
0.641
17. i. Perumusan hipotesis,
H0 : 1si= 0
H1 : 1si ≠ 0
ii. = 0,05
iii. Statistik Uji :
퐹 =
푅(훽푧1,|훽0,훽1)
푀푆퐸
=
8202
34928
= 0.234826
iv. Bila H0 benar maka F~ F1,8 sehingga titik kritis ada-lah
F1,8, 0,05 = 5.32.
v. Kesimpulan : terima H0, karena statistik uji F <
F1,8, 0,05, dengan tingkat kepercayaan sebesar 95% pengaruh
interaksi pendapatan bersih dengan pengeluaran membeli
makanan tidak bermakna . ini berarti pengaruh pendapatan
bersih pada setiap jenis kelamin sama.
18. Scatterplot of Pengeluaran vs Pendapatan B, Pengeluaran vs Pendapata
4000
3500
3000
2500
2000
10000 15000 20000 25000 30000 35000
X-Data
Y-Data
Variable
Pengeluaran Makanan Wanita * Pendapatan Bersih Wanita
Pengeluaran Makanan Laki-laki * Pendapatan Bersih Laki-laki
19. Kesimpulan: Tampak garis yang
menggambarkan model setiap jenis kelamin
memilki kemiringan (slope) yang tidak terlalu
berbeda, yang menggambarkan pengaruh
pendapatan bersih pada pengeluaran untuk
membeli makanan tidak berbeda nyata,
tidak tergantung pada jenis kelamin.
20. i
Suatu penelitian bertujuan memodelkan
hubungan antara kandungan Suspended
Solids dengan pH pada air yang keluar dari
outlet sistem pembersihan batubara. Sistem
menggunakan tiga macam Polymer. Model
dugaan ada-lah :
Y= + X+ D+ D+ , i = 1, 2, ... , 18.
i 0 11i 21i 32i Polimer sebagai variabel dummy yang terdiri
dari tiga level, yaitu 1, 2, dan 3, dinyatakan
oleh tiga variabel, yaitu D, D, dan DDATA
123.
21. pH
(X) Suspended Solid
(Y)
Polymer D1 D2 D3
6,5 292 1 1 0 0
6,9 329 1 1 0 0
7,8 352 1 1 0 0
8,4 378 1 1 0 0
8,8 392 1 1 0 0
9,2 410 1 1 0 0
6,7 198 2 0 1 0
6,9 227 2 0 1 0
7,5 277 2 0 1 0
7,9 297 2 0 1 0
8,7 364 2 0 1 0
9,2 375 2 0 1 0
6,5 167 3 0 0 1
7 225 3 0 0 1
7,2 247 3 0 0 1
7,6 268 3 0 0 1
8,7 288 3 0 0 1
9,2 342 3 0 0 1
T
A
N
P
A
I
N
T
E
R
A
K
S
I
Sumber : Classical And
Modern Regression, Second
Edition, oleh Raymond
H Myers, 1990,
halaman 143.
22. The regression equation is
Suspended Solid = - 162 + 54,3 pH + 90,0 D1 + 27,2 D2
Predictor Coef SE Coef T P
Constant -161,90 37,43 -4,32 0,001
pH 54,294 4,755 11,42 0,000
D1 90,00 11,05 8,14 0,000
D2 27,17 11,01 2,47 0,027
S = 19,0464 R-Sq = 94,0% R-Sq(adj) = 92,8%
Analysis of Variance
Source DF SS MS F P
Regression 3 80182 26727 73,68 0,000
Residual Error 14 5079 363
Total 17 85260
Source DF Seq SS
pH 1 54856
D1 1 23118
D2 1 2208
Munculnya peringatan : *
D3 is highly corre-lated
with other X variables,
dan * D3 has been
removed from the
equation, menunjukkan
bahwa hanya diperlukan
D1 dan D2; berarti untuk
satu prediktor dummy
dengan tiga level (pada
kasus ini Polymer terdiri
dari level 1, 2, dan 3)
cukup dinyatakan oleh
dua variabel dummy, D1
dan D2. Dengan demikian,
pada pengolahan data
yang digunakan sebagai
prediktor kualitatif adalah
D1 dan D2, bukan
Polymer.
23. i. Perumusan hipotesis,
H0 : 2 = 0 dan 3 = 0 , berarti pengaruh Polyner terhadap kandungan Suspended
69,77
( , | , ) 25326 2 3 0 1
363
MSE
R
F
Solid tidak bermakna,
H1 : 2 atau 3 tidak nol.
ii. = 0,05
iii. Statistik Uji :
Kemaknaan pengaruh Polymer dideteksi melalui Jumlah Kuadrat Regresi kontribusi D1 dan
D2, yang dinotasikan , dan didapatkan dengan menjum-lahkan SS Sequential D1 dengan D2,
yaitu :
R(휷ퟐ,휷ퟑ|휷ퟎ, 휷ퟏ) = 23118 + 2208 = 25326
iv. Bila H0 benar maka F~ F2,14, sehingga titik kritis ada-lah
F2,14, 0,05 = 3,74.
v. Kesimpulan : tolak H0, karena statistik uji F >
F2,14, 0,05 , sehingga Polymer berpengaruh pada kan-dungan
SS.
24. Plot Suspended Solid Pada Polimer1, Polimer2, Polimer3 terhadap pH
pH
Kandungan Suspended Solid
6,5 7,0 7,5 8,0 8,5 9,0 9,5
450
400
350
300
250
200
Variable
Y Polimer1
Y Polimer2
Y Polimer3
25. X Y D1 D2 D3 X*D1 X*D2
6,5 292 1 0 0 6,5 0
6,9 329 1 0 0 6,9 0
7,8 352 1 0 0 7,8 0
8,4 378 1 0 0 8,4 0
8,8 392 1 0 0 8,8 0
9,2 410 1 0 0 9,2 0
6,7 198 0 1 0 0 6,7
6,9 227 0 1 0 0 6,9
7,5 277 0 1 0 0 7,5
7,9 297 0 1 0 0 7,9
8,7 364 0 1 0 0 8,7
9,2 375 0 1 0 0 9,2
6,5 167 0 0 1 0 0
7 225 0 0 1 0 0
7,2 247 0 0 1 0 0
7,6 268 0 0 1 0 0
8,7 288 0 0 1 0 0
9,2 342 0 0 1 0 0
D
E
N
G
A
N
I
N
T
E
R
A
K
S
I
26. The regression equation is
Suspended Solid = - 158 + 53,8 pH + 198 Z1 - 109 Z2 - 13,6 pH,Z1 + 17,4 pH,Z2
Predictor Coef SE Coef T P
Constant -158,27 48,52 -3,26 0,007
pH 53,824 6,253 8,61 0,000
Z1 197,69 68,79 2,87 0,014
Z2 -108,74 71,05 -1,53 0,152
pH,Z1 -13,561 8,737 -1,55 0,147
pH,Z2 17,394 9,090 1,91 0,080
S = 14,5850 R-Sq = 97,0% R-Sq(adj) = 95,8%
Analysis of Variance
Source DF SS MS F P
Regression 5 82708 16542 77,76 0,000
Residual Error 12 2553 213
Total 17 85260
Source DF Seq SS
pH 1 54856
D1 1 23118
D2 1 2208
pH,D1 1 1747
pH,D2 1 779
27. i. Perumusan hipotesis,
H0 : = 0 dan = 0 , berarti pengaruh interaksi pH dengan Polymer tidak
bermakna.
H1 : atau tidak nol
ii. = 0,05
iii. Statistik Uji :
퐹 =
훽1퐶,훽1퐶,|훽0,훽1,훽2,훽3
푀푆퐸
=
1747 + 779
213
= 11,86
iv. Bila H0 benar maka F~ F2,14, sehingga titik kritis ada-lah
F2,12, 0,05 = 3,89.
v. Kesimpulan : tolak H0, karena statistik uji F >
F2,12, 0,05 , sehingga pengaruh interaksi pH dengan Po-lymer
bermakna. Ini berarti pengaruh pH pada setiap
Polymer berbeda.
29. Kesimpulan menunjukkan bahwa model
sebelumnya, dengan anggapan pengaruh
prediktor pH dan Polymer bersifat aditif, yaitu :
Yi = 훽0 + 훽1X1i + 훽2Z1i + 훽3Z2i + 휀i kurang
sesuai. Model terakhir, yaitu model yang
melibatkan efek interaksi, Yi = 훽0 + 훽1X1i + 훽
2Z1i + 훽3Z2i + 훽1cX1iZ1i+훽1cX1iZ1i+ 휀i lebih
sesuai. Hal ini ini dibuktikan dengan nilai R-sqr
dan grafik.
30. Variabel dummy ialah variabel yang bersifat
kualitatif seperti: jenis kelamin, suku, agama,
kejadian politik, dan lain-lain yang perlu di
buat kuantitatif dengan membentuk variabel
baru yang bernilai 0 atau 1.
Dalam regresi dengan variabel dummy, jika
suatu variabel kualitatif mempunyai m
kategori, maka digunakan hanya m – 1
variabel dummy. Jika tidak dipenuhi, maka
akan terjadi multikolinearitas sempurna
(perfect multicolinearity). Pada analisis regresi
dengan variabel dummy yang memiliki dua
variabel kategori, diberikan contoh
pengeluaran untuk makanan dan pendapatan