Quản Lý Hoạt Động Nghiên Cứu Khoa Học Sư Phạm Ứng Dụng Và Sáng Kiến Kinh Nghi...
Spss lesson #1 #4.1 (Vietnamese)
1. SPSS THẬT LÀ ĐƠN GIẢN
Hoàng Sĩ Thính
Department of Finance
Faculty of Accounting and Business Management
Vietnam National University of Agriculture
Mobile: +84942293689
Email: sithinhdf@gmail.com
Facebook: Jamesunimelb@yahoo.com
2. NỘI DUNG
• Phần 1: Bắt tay với SPSS
1. Thiết kế một nghiên cứu
2. Chuẩn bị mã biến (codebook)
3. Giao diện SPSS
• Phần 2: Chuẩn bị file dữ liệu
4. Tạo file số liệu và nhập dữ liệu
5. Kiểm tra và “làm sạch” dữ liệu
• Phần 3: Những phân tích số liệu căn bản
6. Phân tích thống kê mô tả
7. Phân tích số liệu bằng đồ thị
8. Quản lý, biến đổi dữ liệu
9. Kiểm tra độ tin cậy của thang đo
10. Lựa chọn và sử dụng các kỹ thuật thông kê
3. NỘI DUNG
• Phần 4: Công cụ thống kê phân tích mối quan hệ giữa các biến
11. Tương quan
12. Tương quan từng phần
13. Hồi quy đa biến
14. Hồi quy logistics
15. Phân tích nhân tố (Factor analysis)
• Phần 5: Kỹ thuật so sánh các nhóm
16. Kỹ thuật phân tích phi tham số
17. Kiểm định sai khác số trung bình của các nhóm (T-test)
18. Kiểm định khác biệt giữa hai hoặc nhiều nhóm (F-test; hoặc one-way
analysis of variance – hoặc One-way ANOVA)
19. Kiểm định Two-way analysis of variance
20. Kiểm định Mixed between-within subjects aualysis of variance (sẽ chi tiết
sau)
21. Multivariate analysis of variance
22. Analysis of covariance
4. 1. Thiết kế một nghiên cứu
• Thiết kế nghiên cứu theo kiểu nào (thực nghiệm, điều tra, quan sát)
nhằm trả lời câu hỏi nghiên cứu
• Nếu là nghiên cứu thực nghiệm: chú ý sự khác biệt giữa các nhóm: các
nhóm khác nhau cùng điều kiện, hoặc cùng một nhóm nhưng khác điều
kiện
• Trong nghiên cứu thực nghiệm, chú ý cần có đủ biến độc lập để kết luận
đưa ra được thỏa đáng.
• Cố gắng bao gồm trong kế hoạch nhiều hơn những gì nghiên cứu cần
(nội dung, đối tượng): tránh rủi ro
• Trong nghiên cứu thực nghiệm, các nội dung, phạm vi đối tượng cần thỏa
đáng (đủ), các nhóm nên được đặt trong các điều kiện tương đồng.
• Chọn biến phụ thuộc phù hợp (“có ý nghĩa lý luận”)
• Tránh sử dụng các biến không rõ ràng. Hãy tham vấn chuyên gia về vấn
đề này
• Nhớ phải điều tra thử (nếu có phiếu điều tra)
• Nếu nghiên cứu thực nghiệm, hãy chắc chắn mọi điều kiện được chuẩn
bị kỹ càng
5. Các chú ý khi l a ch n thang đo (scales) ự ọ và đơn vị đo (measures)
– Đáng tin cậy (reliability): tức là không bị ảnh hưởng bởi các sai số ngẫu
nhiên.
• Các lần thử (điều tra lặp lại) khác nhau cho cùng đối tượng phải
không khác nhau (tin cậy theo thời gian, hoặc test-retest reliability,
hoặc temporal stability);
• Và chắc chắn theo nội dung cần đo đạc (internal consistency): ví dụ
kết quả trả lời “bạn có thích sử dụng xe đạp không?” và “bạn có
ghét xe đạp không?”
– Tính chính xác (validity): thang đo có đo đúng nội dung mà người nghiên
cứu cần không? Bao gồm:
• chính xác về nội dung (content validity, hoặc chính xác về mặt lôgic
– logical validity);
• tính hợp lý (chính xác) trong mức độ thang đo của các biến khác
nhau (criterion validity), ví dụ: IQ cao hơn thì thường điểm số cao
hơn;
• tính chính xác về nguyên lý (construct validity)
6. Các d ng đo l ng c a thang đo ạ ườ ủ (measurement scale,
hoặc kiểu số liệu – types of data)
• Có 4 kiểu số liệu (kiểu đo lường của một thang đo):
nominal (kiểu định danh), ordinal (kiểu mức độ theo thứ
tự), interval (dạng số) , và ratio (dạng số hoàn hảo)
• Dạng thang đo định danh (nominal scale): là dạng thang đo
“thấp” nhất.
– chỉ là con số (hay nhãn) gán cho một lựa chọn nào đó. Chẳng
qua chỉ để phân loại (categorize) câu trả lời, không có ý nghĩa
về thứ tự hay cấu trúc
– Ví dụ: Yes, No; 1 = Brown, 2 = Black, 3 = Blond, 4 = Gray, 5 =
Other.
– Xử lý trong thống kê: thống kê phi tham số (non-parametric
group), thường gặp nhất là mode (xuất hiện nhiều nhất),
Crosstabulation with chis-quare. Ngoài ra số liệu dạng nominal
cũng được dùng trong các mô hình phức tạp.
7. Các d ng đo l ng c a thang đo ạ ườ ủ (measurement scale,
hoặc kiểu số liệu – types of data)
• Dạng số liệu thứ tự (ordinal): Phổ biến cho dạng câu hỏi yêu cầu
sắp xếp thứ hạng (ranking) hoặc cho điểm
– Ví dụ:
– Dạng số liệu thứ tự cho biết mức độ (lớn, bé), tuy nhiên không
cho biết chính xác khoảng cách thực giữa các giá trị (ví dụ
khoảng cách từ rất không hạnh phúc đến không hạnh phúc)
– Kỹ thuật thống kê có thể sử dụng: thống kê phi tham số (non-paramatric
statistics):
• Median and Mode; tương quan thứ tự (rank order correlation); phân
tích phương sai phi tham số (non-paramatric analysis of variance)
• Một số kỹ thuật mô hình cũng có thể áp dụng với số liệu theo tứ tự
8. Các dạng đo lường của thang đo
(measurement scale, hoặc kiểu số liệu – types of data) (tiếp)
• Thang đo theo khoảng (interval scale – kiểu số liệu theo khoảng):
giữa các giá trị của thang đo có một khoảng cách (khác biệt) được
nhận thức một cách rõ rệt. Khác với số liệu dạng thứ tự (chỉ biết
khác biệt về thứ tự, chứ không biết khoảng cách giữa các thứ tự
một cách chính xác)
– Ví dụ: Câu hỏi yêu cầu người trả lời đánh giá mức độ hài lòng dựa
trên thang đo có 7 mức (từ không hài lòng = 7 đến rất hài lòng = 7).
– Kỹ thuật thống kê áp dụng:
• Thống kê tham số (parametric statistics): số trung bình (mean) và độ lệch
chuẩn (standard deviation); tương quan r (correlation r); hồi quy
(regression);phân tích phương sai; phân tích nhân tố (factor analysis)
• Và tất cả các kỹ thuật thống kê đa biến và mô hình hóa chuyên sâu
9. Các dạng đo lường của thang đo
(measurement scale, hoặc kiểu số liệu – types of data) (tiếp)
• Thang đo dạng số (tỷ số - ratio – kiểu số liệu
số, hoặc tỷ số): Là dạng số liệu “cao cấp
nhất” trong thống kê.
– Sự khác biệt giữa số liệu dạng khoảng (interval)
và dạng số (ratio): dạng interval không có một số
0 tuyệt thực sự (chẳng hạn nhiệt độ), trong khi
dạng ratio có số 0 thực sự (ví dụ đo độ dài)
– Kỹ thuật thống kê: tương tự số liệu dạng interval
10. Các chú ý khi phát tri n b ng ể ả câu hỏi (phiếu điều tra)
• Mình dự định sẽ sử dụng thông tin thu thập được như thế nào?
• Kỹ thuật thống kê nào sẽ được sử dụng để xử lý số liệu (thông tin) sẽ thu
thập?
• Các loại câu hỏi trong phiếu điều tra: câu hỏi đóng và câu hỏi mở
– Câu hỏi đóng: người trả lời được đề nghị lựa chọn một (hoặc các) trong
những lựa chọn được chỉ định sẵn. Ví dụ: “giới tính của bạn là gì?” – nam/
nữ/ trung tính, hoặc “bạn có đang là sinh viên phải không?” – phải/ không
phải, …
– Câu hỏi mở: người trả lời được tự do đưa ra quan điểm của mình (có thể
không giống với những lựa chọn đã được liệt kê sẵn trong câu hỏi), ví dụ:
“nguyên nhân chính nào dẫn đến áp lực trong cuộc sống của bạn ở thời điểm
hiện tại?”
11. Các chú ý khi phát triển bảng câu hỏi (phiếu điều tra) (tiếp)
• Thi t k d ng th c cho câu tr l i (response ế ế ạ ứ ả ờ format) như thế nào?
– Thông tin thu thập sẽ được xử lý bằng kỹ thuật thống kê nào? Ví dụ:
nếu phân tích tương quan (correlation) thì thông tin thu thập phải là
dạng số liên tục
– Cố gắng tránh hỏi rằng “bạn có đồng ý?” hay “không đồng ý?” mà
hãy dùng thang đo Likert cho lựa chọn từ “rất không đồng ý” (lấy giá
trị 1) đến “rất đồng ý” (lấy giá trị 10).
– Khi sử dụng bất kỳ dạng thức gợi ý trả lời nào, bạn cần phải giải thích
cho nó một cách rõ ràng. Ví dụ: bạn muốn người trả lời tích vào một ô
vuông, hay khoanh tròn một số, hay đánh một dấu trên một hàng nào
đó.
– Không bao giờ được nghĩ rằng “người trả lời sẽ hiểu ta”. Nếu có thể,
kèm theo hướng dẫn, hãy đưa ra ví dụ về một câu trả lời cho câu hỏi
của mình.
– Loại bỏ tất cả những nội dung, từ ngữ có thể gây ra nhầm lẫn, khó
hiểu. Dự liệu được càng nhiều càng tốt các câu trả lời có thể của
người được hỏi.
12. Các chú ý khi phát tri n b ng câu h ể ả ỏi (phiếu điều tra) (tiếp)
• Sử dụng từ ngữ trong thiết kế câu hỏi điều tra thế
nào? Chú ý tránh:
– Câu hỏi dài và phức tạp;
– Phủ định của phủ định (hãy dùng khẳng định thay cho nó);
– Ôm đồm nhiều nội dung.
– Từ lóng hoặc viết tắt
– Tiếng hoặc ngữ nghĩa địa phương
– Từ đa nghĩa
– Câu hỏi gợi ý câu trả lời
– Những câu hỏi chủ ý gây ảnh hưởng đến tâm lý người trả
lời
13. 2. Mã hóa dữ liệu (Codebook)
• Bao gồm 2 việc chính:
– Định nghĩa và gắn nhãn cho mỗi biến. Ví dụ: tuổi có thể được
gán mã là “age”
– Gắn số cho mỗi câu trả lời. Ví dụ: “có” nhận số 1, “không” nhận
số 2
• Tên biến: mỗi một câu hỏi trong phiếu điều tra cần có một
tên biến riêng biệt. Luật đặt tên biến như sau:
– Tên biến nên duy nhất (không giống với biến khác)
– Nên bắt đầu bằng một chữ cái
– Không bao gồm các dấu chấm (.), dấu cách, hoặc các biểu
tượng
– Không được phép bao gồm các từ lệnh của SPSS (all, ne, eq, to,
le, it, by, or, gt, and, not, ge, with)
– Không được phép vượt quá 64 ký tự (tốt nhất là dưới 8 ký tự)
14. 2. Mã hóa dữ liệu (Codebook) (tiếp)
• Mã hóa câu trả lời:
– Mỗi câu trả lời cần được mã hóa cho một số (nếu nó
chưa phải là dạng số) trước khi được nhập vào SPSS.
Ví dụ: 1=“nam”, 2=“nữ”.
– Trong các câu hỏi đóng có liệt kê các ý trả lời, nên đặt
số theo đúng thứ tự liệt kê (sau này dễ nhập liệu).
• Đối với câu hỏi mở:
– Liệt kê các trả lời thường lặp lại trong các câu trả lời
– Mỗi câu trả lời thường gặp đó sẽ được mã hóa cho
một số.
– Với các câu trả lời khác, gán cho nó một mã hoàn
toàn khác (ví dụ mã 99)
15. Ví dụ về mã hóa dữ liệu
Tên biến trong phiếu
điều tra
Tên biến sử
dụng trong
SPSS
Ghi chú về mã hóa
Identification Number ID Number assigned to each survey
Sex Sex 1 = Male
2 = Female
Age Age Age in years
Marital Status Marital 1 = single
2 = steady relationship
3 = married for the first time
4 = remarried
5 = separated/divorced
6 = widowed
Optimism scale items 1
to 6
Opt1 to Opt6 Enter number circled from 1 (strongly
disagree) to 5 (strongly agree)
16. Ví dụ về mã hóa dữ liệu (tiếp)
Đối với câu hỏi mở
• Câu hỏi: “Đâu là nguyên nhân chính gây ra áp
lực trong cuộc sống của bạn hiện nay?”
• Các câu trả lời có thể sẽ rất nhiều (tùy theo
cảm nhận của từng người được hỏi)
• Bạn hãy nhóm các câu trả lời lại theo tính
chất, nội dung, rồi gắn mã
• Ví dụ: 1 = do công việc; 2 = do vợ (chồng, hoặc
bồ),…, và 99 = nguyên nhân khác
17. 3. Giao diện của SPSS
• Khởi động SPSS: có một số cách sau:
– Đưa chỏ chuột đến biểu tượng SPSS trên màn hình, kích đúp
vào nó;
– Vào Start/Program/SPSS
– Có thể mở bằng cách kích đúp vào một file SPSS nào đó
• Sau khi khởi động, bạn tắt cửa sổ màu xám “what would you like to
do?” đi và bắt đầu làm việc với SPSS
• Mở một file đã có sẵn: vào File/Open/Data; chú ý tất cả các file
SPSS đều có đuôi .sav
• Ghi lại file đang làm việc: chọn File/Save; hoặc chọn biểu tượng
Save (nếu có)
• Mở nhiều file một lúc: chỉ cần vào File/Open/file cần mở
• Tạo file mới: Chọn File/New
18. 3. Giao diện của SPSS (tiếp)
• Các thành phần chính trong giao diện: Data
Editor; Viewer; Pivot Table Editor; và Syntax
Editor
– Data Editor luôn xuất hiện khi bạn analyze dữ liệu
– Viewer luôn xuất hiện khi bạn xem kết quả của việc
phân tích (analyzing). Khi bạn đang thực hiện
analyzing thì Viewer sẽ không xuất hiện.
• Chú ý: mỗi phiên bản SPSS khác nhau, các giao
diện có thể khác nhau, nhưng bạn đều có thể
tìm thấy chúng trong phần Window trên thanh
thực đơn (menu bar)
19. 3. Giao diện của SPSS (tiếp)
• Giao diện Data Editor: từ đây bạn nhìn thấy
nội dung file dữ liệu của bạn
• Bạn có thể làm gì trên cửa sổ Data Editor?
– Mở/đóng một file mới/cũ
– Chỉnh sửa dữ liệu/ ghi lại file
– Làm một số phân tích trên file dữ liệu
• Ví dụ: mở file survey3ED.sav
20.
21. 3. Giao diện của SPSS (tiếp)
• Giao diện Viewer: Tự động được mở ra khi ta
bắt đầu làm bất kỳ phân tích nào
– Mô tả kết quả của các phân tích
– Các kết quả ở cửa sổ này có thể được sao chép ra
Word
– Bao gồm 2 phần: bên trái liệt kê tất cả những nội
dung mà bạn đã thực hiện phân tích. Bên phải là
các kết quả chi tiết cho các phân tích (mô tả bên
trái)
– Ví dụ:
22.
23. 3. Giao diện của SPSS (tiếp)
• Ghi lại kết quả: trên giao diện kết quả, chọn
Save
• In kết quả: chọn phần bên trái, sang bên phải
chọn phần cần in (bôi đen – sử dụng phím
control và chuột trái)
• Các giao diện khác: Nghiên cứu sau khi đã
thực hành
24. Ph ần 2. Chuẩn bị file dữ liệu
(Tạo file dữ liệu và nhập liệu)
25. Phần 2. Chuẩn bị file dữ liệu
(4. Tạo file dữ liệu và nhập liệu)
• (Chú ý: ta có thể thay đổi lựa chọn biểu hiện của
SPSS trước khi tạo file dữ liệu)
• Định dạng biến: trước khi nhập liệu, bạn cần
định nghĩa biến. Việc này được sử dụng kết hợp
giữa Codebook và giao diện Data Editor
• Các bước tiến hành định dạng biến:
– Mở codebook ra (trang 3, file Word;nếu không phải
tạo codebook trước)
– Tạo một file mới trên SPSS, vào giao diện Data Editor,
vào giao diện Variable View
26.
27. Định nghĩa biến
(Các khai báo)
• Name: Sử dụng tên như trong codebook
• Type (dạng biến): dạng mặc định là số (numeric), nếu muốn thay
đổi dạng (ví dụ dùng dạng chữ) thì nhấn chuột phải, hoặc đưa
chuột vào ô ứng với biến và dạng biến và chọn kiểu khác (ví dụ với
chữ thì dùng string.
• Width (độ rộng): thường là 8 ký tự
• Decimal (số thập phân): chỉnh số chữ số thập phân sau dấu phẩy
• Label (giải thích tên biến): phần này cho phép bạn giải thích tên
biến dài hơn 8 ký tự. Ví dụ biến “TMAST” có thể được giải thích là
“Total Mastery”
• Value (giá trị biến): phần này cho phép định nghĩa giá trị cho biến
đã được mã hóa
28. Định nghĩa biến
(Các khai báo)
• Ví dụ về định nghĩa biến:
Bạn đang muốn định nghĩa biến cho thông tin về giới tính
(câu hỏi 1 trong phiếu điều tra); người trả lời sẽ đưa ra các
lựa chọn hoặc là male (nam), hoặc là female (nữ)
– Bước 1: hãy tạo codebook (hoặc mở codebook có sẵn ra): bạn sẽ
thấy tên biến cho giới tính là sex, mô tả cho biến là: 1 = male, 2 =
female
– Bước 2: hãy khai báo những thông tin trên vào cửa sổ Data Editor,
phần Variable wiew
29. Định nghĩa biến
(Các khai báo)
• Align (d ạng lề): mặc định là lề bên phải
• Measure (kiểu số liệu): Mặc định sẽ là scale,
tức là kiểu số liệu liên tục đo lường dưới dạng
interval hoặc ratio. Nếu số liệu là dạng phân
loại (categorical data) thì chọn Nominal, nếu
số liệu là thứ tự (hoặc ranking) thì chọn
Ordinal.
30. Định nghĩa biến (tiếp)
Ví dụ 1
• Mở một file SPSS mới ra
• Mở file phiếu điều tra và codebook survey (file
Word)ra
• Tiến hành các thao tác định nghĩa biến cho từng biến
31. Nhập liệu trong SPSS
• Sau khi đã định nghĩa biến xong, bạn có thể sẵn sàng cho việc nhập liệu
(nhập số liệu) vào SPSS. Hãy chuẩn bị sẵn tập phiếu điều tra và codebook
đặt trước mặt.
• Các bước nhập liệu như sau:
1. Chọn cửa sổ Data View (hoặc sheet Data View) trên cùng cửa sổ Data
Editor. Hãy nhìn xem kết quả bạn đã làm ở Ví dụ 1 trong phần định nghĩa
biến
2. Dưa chuột vào ô đầu tiên trong file dữ liệu. Thử nghĩ xem bạn sẽ nhập
thông tin gì vào ô này??? (tất nhiên là số 1 cho ID đầu tiên rồi).
3. Chuyển chuột sang ô bên phải để điền thông tin cho biến thứ hai của ID
thứ nhất (case thứ nhất hoặc phiếu điều tra thứ nhất)
4. Tiếp tục chuyển chuột sang các ô bên phải và điền thông tin, hãy chắc chắn
là thông tin được điền đúng. Đến đây bạn đã nhập xong số liệu cho phiếu
điều tra đầu tiên.
5. Ấn nút home trên bàn phím để chuột chạy về ô ban đầu, chuyển nó xuống
dòng thứ hai, lặp lại các công việc như đối với phiếu điều tra thứ nhất
(case 1) cho phiếu điều tra thứ 2 (case 2)
6. Nếu muốn sửa lại giá trị của một biến nào đó, bạn chỉ cần ấn chuột vào nó
(vào ô của biến ứng với case đó) và điền lại giá trị đúng.
• Chú ý: Hãy thường xuyên ghi file dữ liệu trong lúc nhập liệu, vì SPSS
không tự động ghi file cho bạn. Đừng rủi ro nhé!!!
32. Đây là nh ng gì b n s th ữ ạ ẽ ấy sau khi bạn hoàn thành
nhập liệu
33. Đi u ch ề ỉnh (thay đổi) file dữ liệu
• Các thao tác bạn thường làm để thay đổi file dữ liệu: thêm (add), xóa (delete),
hoặc chuyển biến (move variables); thêm hoặc xóa case – tức là toàn bộ thông tin
cho một phiếu điều tra)
• Để thực hiện các thao tác này, đầu tiên mở cửa sổ Data Editor/Data View
• Delete a case (xóa toàn bộ thông tin của một phiếu điều tra: Chuyển chuột đến ô
đầu tiên của case cần xóa, nhấn nút delete trên bàn phím; hoặc chọn edit/clear
• Insert a case (chèn thêm một phiếu điều tra): chuyển chuột vào ô đầu tiên của
case ngay phía dưới case mình cần chèn, vào Data/Insert Case
• Delete a variable (xóa một biến – tức là xoát một thông tin của phiếu điều tra):
chọn cột cần xóa, ấn nút delete trên bàn phím
• Move an existing variable (Chuyển một biến đi chỗ khác): chuyển sang cửa sổ
Variable View, chọn biến, giữ chuột và chuyển đến nơi muốn chuyển
34. Nhập liệu từ Excel
• Một số chú ý quan trọng:
– Bạn cần có những hiểu biết căn bản về Excel
– Excel chỉ có 256 cột (tối đa cho 256 biến), phiếu điều tra
của bạn có nhiều hơn, bạn phải sử dụng nhiều sheet, mỗi
sheet bắt đầu bằng biến ID, sau đó bạn nhập riêng rẽ
từng sheet Excel vào SPSS rồi mới tiến hành việc gộp dữ
liệu (merge files) trong SPSS (việc này sẽ được chi tiết sau)
35. Nhập liệu từ Excel
Các bước tiến hành
• Bước 1: Set up the variable name (đặt biến, định nghĩa biến)
1. Tên biến luôn được đặt ở dòng thứ nhất của Excel sheet.
2. Luật đặt tên biến: như trong SPSS (đã trình bày ở phần định nghĩa biến)
• Bước 2: Entering data (nhập liệu trong Excel)
1. Nhập liệu cho case đầu tiên (phiếu đầu tiên): nhớ nhập chính xác thông tin
cho từng biến
2. Lặp lại quá trình trên cho các biến còn lại (ở các dòng phía dưới). Tuyệt đối
không được sử dụng bất kỳ công thức tính, hoặc hàm khi nhập liệu trong
Excel. Chú ý ghi fle thường xuyên
3. Ghi file với định dạng Excel cẩn thận
36. Nhập liệu từ Excel
Các bước tiến hành (tiếp)
• Bước 3: Chuyển dữ liệu (đã nhập trong Excel) sang SPSS
1. Đóng file Excel lại
2. Khởi động SPSS, vào cửa sổ Data Editor, vào File/Open/Data/Files of
Types chọn Excel, chọn file bạn cần mở (file vừa hoàn thiện ở bước
1 và 2)
3. Chọn Open/Open Excel Data Source, chọn Read Variable name from
the first row of data, chọn Ok
• Bước 4: Ghi lại file dưới dạng SPSS
1. Chọn File/Save As, chú ý trong Save As Type được chọn là SPSS
(tức .sav), sau đó chọn Save
2. Hiện giờ trong cửa sổ Data View, Variable View, bạn cần phải định
nghĩa lại nhãn biến (Variable Labels - ý nghĩa của biến), giá trị biến
(Variable Values), và cách đo lường (Measure) (Giống như phần định
nghĩa biến trong SPSS đã trình bày)
37. Tr n file ộ trong SPSS (Merge files)
• Đôi khi bạn phải trộn file:
– Ví dụ mỗi người nhập (cho một số lượng phiếu nào đó) trên một máy
tính khác nhau (do đó bạn phải trộn các file thành một file cuối cùng);
– Hoặc mỗi người nhập một phần của mỗi phiếu trên các máy tính
khách nhau hoặc sheet khác nhau trong Excel.
• Do đó, có hai dạng trộn file chủ yếu:
– Adding cases (tức là thêm các cases vào – bổ sung dữ liệu từ các
phiếu điều tra khác);
– Và (hoặc) adding variables (tức là không bổ sung phiếu điều tra, mà
chỉ trộn để bổ sung biến – ví dụ: mỗi người nhập một phần thông tin
của phiếu điều tra)
38. Tr n file trong ộ SPSS (Merge files) – Dạng Adding cases
(Tức là thêm thông tin từ các phiếu điều tra khác)
• Chú ý: các cases (các phiếu điều tra) phải giống hệt nhau về nội dung
(same variables)
• Nếu số ID của các file định trộn là như nhau (ID = 1,2,3…) thì cần đổi số
ID của một file trước khi thực hiện trộn. Cách làm như sau:
– Mở một file cần trộn ra
– Chọn Transform/Compute Variable, ghi ID vào hộp Target Variable và “ID
+ x” vào hộp Numeric Expression. Đố biết x là gì???
• Sau khi số ID đã được đổi, bạn hãy nhớ nó sẽ là một codebook mới cho
bạn với những trường hợp (cases – hoặc phiếu điều tra này). Đến đây,
bạn đã sẵn sàng để trộn file rồi.
39. Tr n file ộ trong SPSS (Merge files) – Dạng Adding cases
Các bước thực hiện
1. Mở file thứ nhất mà bạn muốn trộn
2. Chọn Data/Merge files/ Add Cases
3. Chọn An external SPSS data file, chọn file cần
trộn trong hộp An open data set.
4. Cọn Continue/Ok. Ghi file với tên mới bằng
cách vào File/Save As
40. Trộn file – Dạng Adding variables
• Thao tác này phù hợp khi bổ sung thông tin cho mỗi case (phiếu điều tra). Mỗi
case cần được bắt đầu bởi biến ID và một số biến khác (như nhau ở cả hai file
muốn trộn vào nhau)
• Các bước thực hiện:
– Bước 1: Sắp xếp mỗi file theo thứ tự tăng dần của ID các cases bằng cách
Data/Sort Cases/ID
– Bước 2: Data/Merge files/ Add Variables, chọn An external SPSS data file,
chọn file cần trộn (Nếu file cần trộn đang mở thì nó sẽ xuất hiện trong hộp
An open dataset)
– Bước 3: Trong hộp Excluded variables, bạn sẽ thấy biến ID được liệt kê. Ở
đây, nếu có bất kỳ biến nào khác được liệt kê, hãy ấn vào Rename .
– Bước 4: Ấn vào biến ID, ấn vào hộp Matche cases on key variables, ấn vào
mũi tên để chuyển ID vào hộp Key Variable (có nghĩa là tất cả các thông tin sẽ
được trộn dựa trên cơ sở cùng ID – cùng phiếu điều tra). Nhấn Continue/OK
– Bước 5: Ghi lại file sau khi trộn với tên khác: File/Save As
41. M t s ti n ích c a SPSS ộ ố ệ ủ khi chuẩn bị file dữ liệu
• Sắp xếp file dữ liệu: bạn có thể yêu cầu SPSS sắp xếp file dữ liệu
theo giá trị của một biến nào đó (ví dụ sex, age,…). Các bước thực
hiện như sau:
– Data/Sort Cases/Chọn biến cần sắp xếp/ Chọn Ascending hoặc
Descending / Chọn Ok
– Nếu bạn muốn file dữ liệu quay lại trạng thái sắp xếp theo ID,
chỉ việc làm như trên, nhưng biến cần sắp xếp lần này là ID.
– Ví dụ: hãy mở file Survey ra và làm cho vài biến
• Chia tách file dữ liệu: chẳng hạn bạn muốn so sánh giữa các nhóm
khác nhau. Các làm:
– Data/Split File/ Compare groups/ chọn biến muốn so sánh/ Ok
– Muốn trở lại trạng thái ban đầu vào Data/Sort Cases/ID/
Ascending hoặc Descending
42. M t s ti n ích c a SPSS ộ ố ệ ủ khi chuẩn bị file dữ liệu
(tiếp)
• Chọn một số cases để nghiên cứu trong cả file dữ liệu (ví dụ bạn chỉ phân
tích cho nam giới):
1. Data/Select Cases/ Chọn If condition is satisfied
2. Chọn IF
3. Chọn biến đúng với nhóm bạn đang muốn hướng tới (ví dụ biến sex)
4. Nhấn vào mũi tên để đưa biến vào hộp, nhấn vào dấu =
5. Điền giá trị của nhóm trong biến mà bạn đang cần chọn (cần kiểm tra ở
codebook). Ví dụ nếu bạn chọn 1 cho sex có nghĩa là bạn chọn nhóm
nam giới
6. Nhấn Continue/OK
Sau khi chọn xong, bạn có thể thực hiện một số phân tích riêng cho nhóm
mà bạn đã chọn, ví dụ phân tích tương quan (correlation). Sau khi phân
tích xong, bạn cần đưa file dữ liệu về trạng thái ban đầu:
Vào Data/Select Cases/ All cases/ Ok
43. Tiện ích USING SETS trong SPSS
• Nó là gì? Nó là một tập hợp các thông tin sử dụng cho một mục
đích phân tích nào đó trong SPSS
• Tại sao đôi khi lại dùng nó?: vì có thể phân tích của bạn sẽ không
cần đến tất cả các thông tin trong file dữ liệu. Ví dụ, phân tích của
bạn chỉ cần dùng đến các biến ID, Sex, và một vài biến khác. Hãy
mở file Survey3ED ra và thực hành theo các bước mô tả ở phần sau
44. Tiện ích USING SETS trong SPSS
Các bước thiết lập SETS
1. Ch n Utilities/ ọ Define variable sets
2. Chọn các biến muốn phân tích đưa vào mục
Variables in sets, bao gồm các biến ID, biến
sex đến biến “smoke number”, tất cả các
biến Total (bắt đầu từ biến “Total
Optimism”)
3. Trong hộp Set Name, hãy đặt tên cho set của
bạn (ví dụ hãy đặt là Totals)
4. Chọn Add set/Close
45. Tiện ích USING SETS trong SPSS
Khởi động SETS trước khi sử dụng nó
• Utilities/ Use variable sets
• Ch n set ọ bạn vừa tạo (Totals)/ bỏ lựa chọn
Allvariables/ chọn Newvariables/ Ok
• Sau bước trên, chỉ có các biến được chọn
xuất hiện trên màn hình
• Nếu bạn không muốn dùng SETS vừa tạo nữ,
hãy:
– Utilities/ Use Variable sets/ Allvariables/ Ok
46. Tiện ích Data file comments
• Trong phần Utilities, bạn được phép comment
trên file dữ liệu. Cách làm như sau:
– Utilities/Data file Comments
– Hãy nhập vào đó những nội dung bạn muốn
comment, nếu bạn muốn ghi lại chúng trong file
kết quả, hãy nhấn vào Display comments in
output
47. Tiện ích Data file information
• Các information trong codebook có thể được
hiển thị trên file của bạn bằng việc sử dụng
tiện ích này. Để làm được điều đó:
– File/ Display Data file information
– Chọn Working file. Nó sẽ activate phần View
(output). Ở đó ta sẽ nhận được thông tin về file
dữ liệu.
48. Tiện ích Values Labels Dispaly
• Thông thường bạn chỉ nhìn thấy dữ liệu dạng
số cho các biến (ví dụ 1 cho male, 2 cho nữ).
Nhưng nếu muốn nhìn thấy thông tin là male,
hoặc female cho các cases. Để thấy, hãy:
– View/ Values Labels
• Để tắt tiện ích này, lặp lại thao tác trên
49. 5. Kiểm tra và làm sạch dữ liệu
• Trước khi tiến hành phân tích dữ liệu, việc tối
quan trọng là bạn phải kiểm tra xem chúng có lỗi
gì không.
• Ví dụ về lỗi dữ liệu: thay vì nhập số 3, bạn có thể
đã nhập số 35. Lỗi này có thể ảnh hưởng nghiêm
trọng đến kết quả phân tích tương quan
• Ví dụ khác là các “outlier”, tức là các giá trị vượt
xa (dưới hoặc trên) so với những giá trị còn lại
của cả tổng thể mẫu
• Ví dụ khác nữa: 1 = male; 2 = female đối với biến
sex, vậy lỗi sẽ là giá trị biến sex khác với 1, và 2
50. Các bước tiến hành kiểm tra dữ liệu bao gồm:
• Trước khi thực hiện: bạn hãy mở file cần check ra, vào
Edit/Options/Variables values in lables shown as/ values and
lables (cái này sẽ có ích khi xem kết quả check dữ liệu)
• Bước 1: Kiểm tra lỗi dữ liệu. Việc đầu tiên là kiểm tra giá trị
của từng biến trong phiếu điều tra của bạn xem liệu giá trị
của một case nào đó có quá cao hay quá thấp hay không
• Bước 2 là xác định chính xác địa chỉ của những lỗi dữ liệu ấy
và thực hiện sửa lỗi (hoặc xóa)
51. Ki m tra d li u- B c 1: Th c hi n ể ữ ệ ướ ự ệ phân tích để phát hiện
lỗi
Với biến định danh (nominal – categorical variables)
• Mở file error3ED.sav ra và làm theo các bước sau:
1. Vào Analyze/Descriptive Statistics/Frequencies
2. Chọn biến bạn muốn kiểm tra (nhớ là biến định danh hoặc
categorical, vd: sex, marital, educaton,…)
3. Ấn vào mũi tên để đưa các biến cần chọn vào mục biến cần
check (tức hộp Variable)
4. Nhấn nút Statistics/Dispersion/Minimum and Maximum
5. Continue/Ok hoặc chọn Paste để ghi lại những gì đã làm trong
Syntax Editor (cái này không cần thiết lắm!!!)
Bạn sẽ thấy kết quả như ở slide sau bao gồm 2 phần: một bảng tổng
hợp và các bảng chi tiết cho từng biến
52. Vì bạn đã chọn
Edit/Options/Va
riables values in
lables shown as/
values and
lables trước khi
thực hiện phân
tích nên bạn mới
thấy cả giá trị và
mã của nó như
thế này: tức 1 là
Single, 2 là …
53. Ki m tra l i nh th nào khi đã ể ỗ ư ế có kết quả phân tích???
• Hãy nhìn vào giá trị Minimum và Maximum.
– Hãy nghĩ về ý nghĩa của chúng với từng biến (do they make sense?)
– Các giá trị Minimum, Maximum ấy có nằm trong vùng giá trị đã
được quy định cho mỗi biến không? Nếu không, đó là lỗi
– Ví dụ: với phân tích trên, bạn hãy để ý các phân tích cho biến Sex,
bạn có phát hiện điều gì bất thường không? (hãy chú ý đến
codebook)
– Ví dụ (tiếp): hãy để ý cả các phân tích cho biến marital và biến
educ.
• Kiểm tra cả thông tin về số Valid và số Missing.
• Chú ý: ở một vài slide nữa ta sẽ chỉ ra chính xác case nào có lỗi (nếu
có)
54. Kiểm tra dữ liệu- Bước 1: Thực hiện phân tích để phát hiện
• Analyze/ Descriptive statistics/ Descriptive
• Nh n vào bi n c n đ c phân ấ ế ầ ượ tích và đưa vào hộp Variables
• Nhấn vào hộp Options/ đánh dấu vào những tùy chọn: vd Standard
deviation, minimum, maximum
• Continue/ Ok
• Ví dụ: sử dụng file erro3ED.sav và kiểm tra cho biến age. Kết quả kiểm
tra như sau:
lỗi
Với biến liên tục (interval and ratio variables)
• Trong kết quả trên:
– Hãy kiểm tra giá trị Minimum và Maximum (chú ý đến đối tượng chọn mẫu điều tra)
– Kiểm tra giá trị trung bình (mean). Does it make sense? Nó có phù hợp với những tìm tòi
trước đây của bạn? Liệu nó có bị lệch về một phía nào không?...
55. Kiểm tra dữ liệu: Bước 2 - Phát hiện và sửa lỗ trong file dữ
liệu
• Chú ý trước khi thực hiện: đừng cố scan file dữ liệu để phát hiện lỗi, điều đó rất mất thời
gian và gần như không mang lại kết quả.
• Ví dụ: quay lại kết quả phân tích
• Trong SPSS có một số cách giúp bạn chỉ ra chính xác (và nhanh chóng) case nào (phiếu điều
tra nào) đang bị lỗi ở một hoặc một số chỉ tiêu nào đó.
• Cách 1 (phương pháp 1)
1. Trong cửa sổ Data Editor, vào Data/Sort cases
2. Chọn biến mà bạn đã biết rằng có lỗi (vd: sex) và đưa vào hộp Sort by/ Ascending hoặc
Descending/ Ok
– Vd: với biến sex, hãy chọn descending, nó sẽ giúp bạn tìm ra case có giá trị biến sex =3.
Case nào (phiếu điều tra nào) có lỗi? Bạn sẽ làm gì với nó?
• Cách 2:
– Ở cửa sổ Data Editor, trong sheet data viewing
– Chọn cột (biến) mà ta biết rằng đã có lỗi (vd: sex)/ Chọn Edit / Find
– Trong hộp Search for, hãy chọn giá trị lỗi mà bạn muốn tìm (vd: 3 tại sao??? )
– Chọn Search Forward (hoặc Find Next). SPSS sẽ check khắp file dữ liệu để tìm ra vị trí
của biến bị lỗi. Hãy take some note để biết vị trí cần phải sửa trong file dữ liệu.
– Tiếp tục ấn vào Find Next để tìm ra vị trí có dữ liệu sai
56. Sau khi th c hi n check ự ệ và correct lỗi xong, hãy
thử lại việc kiểm tra lỗi vì rất có thể trong lúc sửa
lỗi (có thể do tay chân lóng ngóng) bạn đã tạo ra
một số lỗi khác. Để làm điều này, hãy quay lại
bước 1 (frequencies cho biến nominal và
descriptive cho biến continuous)
57. Kiểm tra dữ liệu:
Sử dụng chức năng Case Summaries
(not highly recommended)
• Ch c năng này cho phép ứ xem một phần thông tin
cho từng case. Ví dụ: xem thông tin về giới tính.
• Các bước thực hiện:
– Nhấn vào Analyze/ Reports/ Summarize Cases
– Chọn ID và các biến khác cần xem xét (sex,…)
– Bỏ lựa chọn Limit cases to first 100
– Chọn Statistics/ Bỏ lựa chọn Number of cases/
Continue
– Trong Option, bỏ Subheadings for totals/ Continue/
Ok
58.
59. PH N Ầ 3. MỘT SỐ PHÂN TÍCH CĂN BẢN
6. Phân tích thống kê mô tả
• Chú ý: hãy chắc chắn rằng dữ liệu của bạn đã được kiểm tra và sửa lỗi
trước khi tiến hành phân tích này
• Phân tích thống kê mô tả để làm gì?
– Để mô tả đặc tính của mẫu mà bạn sẽ trình bày trong phần Phương
pháp nghiên cứu (trong báo cáo nghiên cứu)
– Để kiểm tra xem các biến có vi phạm các giả định của kỹ thuật
thống kê sẽ sử dụng để trả lời câu hỏi nghiên cứu hay không?
– Giúp trả lời một số câu hỏi nghiên cứu cụ thể
• Thông thường, các thống kê mô tả bao gồm giá trị trung bình (mean), độ
lệch chuẩn (standard deviation), mức độ bao phủ của biến (range of
scores), độ nghiêng, hoặc lệch (skewness), và độ nhọn (kurtosis)
• Các thống kê này có thể được tiến hành bằng việc sử dụng: Frequencies,
Descriptive, hoặc Explore trong phần Analyze/ Descriptive Statistics
60. Ví d v ụ ề độ nghiêng (skewness) và độ lệch
(kurtosis)
61. PHÂN TÍCH THỐNG KÊ MÔ TẢ
CHO BIẾN ĐỊNH DANH
• Phân tích TKMT với biến định danh giúp đưa ra thống kê xem bao nhiêu
người đã đồng thuận với một trả lời cụ thể. Vd: males, females
• Tuy nhiên, phân tích này sẽ không có ý nghĩa nếu tính ra các giá trị mean,
standard deviation.
• Các bước thực hiện: hãy mở file survey3ED.save
1. Trên cửa sổ Data Editor, chọn Analyze/ Descriptive Statistics/
Frequencies
2. Chọn biến cần phân tích đưa vào hộp Variables
3. Chọn Continue/ Ok
Các kết quả này có vấn đề gì
không? Chỉ liên quan đến giả
định của kỹ thuật thống kê
62. PHÂN TÍCH THỐNG KÊ MÔ TẢ
Cho biến liên tục
• Chọn Analyze/ Descriptive Statistics/ Descriptives
• Chọn biến dự định phân tích đưa vào hộp Variables
• Vào Options/ chọn mean, standard deviation, minimum, maximum,
skewness, kurtosis
• Continue/ Ok
63. Đ c k ọ ết quả phân tích trên như thế nào, để làm
gì???
• Các thông tin về mean, range, standard deviation thường được dùng cho
phần Phương pháp nghiên cứu trong báo cáo (mô tả về mẫu điều tra)
• Thông tin về skewness và kurtosis cung cấp thông tin đến phân bố (phân
phối) của biến.
– Skewness là độ nghiêng (hay cân xứng), kurtosis nói đến độ bẹt (độ
nhọn) trong phân phối của biến. Trong phân phối chuẩn, ta sẽ có
skewness và kurtosis bằng 0
– Nếu Skewness >0, phân bố sẽ lệch trái về phía giá trị thấp, ngược lại
phân bố lệch phải về giá trị cao
– Nếu kurtosis >0, các giá trị tập trung ở hai bên giá trị trung bình nhiều
hơn, đường phân phối hẹp và có đuôi dài sang hai bên. Ngược lại,
đường phân phối phẳng hơn.
– Đối với những dung lượng mẫu trên 200 thì việc kiểm tra Skewness có
thể tricky (ta chỉ cần biết vậy thôi)
64. Độ nhọn vượt chuẩn
Độ nhọn chuẩn
Độ nhọn dưới
chuẩn
65. THIẾU DỮ LIỆU (MISSING DATA)
• Trong nghiên cứu, hiếm khi bạn thu thập đầy đủ thông tin. Do đó, hãy quan tâm
các dữ liệu bị thiếu
• Bạn có thể chạy Descriptive để tìm ra tỷ lệ % các giá trị bị thiếu cho mỗi biến
• Khi có quá nhiều missing data, hãy tự đặt ra câu hỏi:
– Điều đó có phải do ngẫu nhiên không? Vd: dân nuôi lợn thả rong, không cho
ăn.
– Đó có phải là một lý do hệ thống? Vd: rất nhiều phụ nữ không trả lời về số
tuổi của họ
• Trong phân tích, ta phải xử lý với các số liệu missing như thế nào??? Rất may
SPSS đã có những lưu ý cho việc này!!!
– Với bất kỳ phân tích nào, hãy nhấn vào nút Options
– Chọn Exclude cases listwise: SPSS sẽ chỉ đưa vào nội dung phân tích đối với
những cases mà có đầy đủ dữ liệu cho tất cả các biến cần phân tích (đồng
thời). Khá nguy hiểm!!! Nếu bị ép buộc thì hãy chọn!!!
– Exclude cases pairwise: SPSS sẽ loại trừ case không có thông tin của biến
được phân tích, tuy nhiên nếu thông tin cho biến khác là đầy đủ thì SPSS lại
đưa case ấy vào phân tích. Nên chọn!!!
– Replicate with mean: SPSS sẽ tự động gán giá trị trung bình cho các case bị
miss thông tin. Cũng rất nguy hiểm, đặc biệ nếu dữ liệu bị thiếu quá
nhiều!!!
66. Ví dụ về các lựa chọn phân tích với missing data
67. ĐÁNH GIÁ PHÂN PHỐI CHUẨN
• Việc xem xét xem dữ liệu (số liệu) có chuẩn hay không cũng có thể được thực
hiện bởi phân tích Skewness và Kurtosis. Tuy nhiên hai giá trị này nên bằng bao
nhiêu thì cần phải…???
• Thống kê mô tả có thể giúp ta xem xét độ “chuẩn” trong phân phối của dữ liệu
• Các bước thực hiện: hãy mở tệp survey3ED ra
1. Vào Analyze/ Descriptive Statistics/ Explore
2. Chọn biến muốn phân tích (vd: total perceived stress) đưa vào hộp
Dependent List
3. Trong hộp Label Cases by, chọn biến ID
4. Trong hộp Display, nhớ chọn cả hai biến trên
5. Chọn Statistics/ Descriptive and Outliers
6. Plots/ Histogram/ Normality plots with tests/ Continue
7. Options/ Missing values/ Exclude cases pairwise/ Continue/ Ok
70. Đ ng th ng th hi n phân ph i chu n, còn đ ườ ẳ ể ệ ố ẩ ường chấm thể hiện phân
phối thực của mẫu
71. Đ c k ọ ết quả phân tích Normality thế nào?
• Hãy nhìn vào bảng Descriptives, các thông tin quan trọng cần quan tâm
gồm có:
– 5% Trimmed mean: giá trị trung bình của mẫu khi 5% các số liệu có giá trị cao
nhất và 5% giá trị thấp nhất được loại ra (trimmed) khỏi mẫu. Hãy nghĩ về ý
nghĩa của giá trị trung bình này???
– Hãy chú ý đến giá trị của độ nghiêng (skewness) và độ nhọn (kurtosis)
• Trong bảng Test of Normality, hãy chú ý đến giá trị kiểm định Kolmogorov.
Nếu giá trị này > 0.05 thì số liệu là chuẩn, và ngược lại
• Hình dạng của phân phối được mô tả ở biểu đồ Histogram. Hãy nhìn vào đó
xem nó có dạng hình một quả chuông (hoặc gần giống như vậy) không?
• Cuối cùng, hãy nhìn vào biểu đồ hình hộp (Box plot), cái hộp ấy từ đáy dưới
lên đáy trên mô tả cho 50% số liệu của mẫu (các số liệu ở giữa mẫu). Bất
kỳ những điểm nào được liệt kê ở ngoài phạm vi hai đường kẻ song song
với hai đáy hộp đều được coi là các outliers của dãy số liệu (tức là những số
liệu quá cao, hoặc quá thấp so với các số liệu khác trong mẫu)
72. Bài tập phần 3, mục 6 – thống kê mô tả
Bài 1 – Kinh doanh (business)
1. Hãy mở file staffsurvey3ED.sav ra và sử dụng thống kê mô tả để
trả lời các câu hỏi sau
a. Hãy cho biết tỷ lệ % nhân viên trong tổ chức là lao động dài
hạn (biến employstatus)
b. Thời gian làm việc trung bình của nhân viên trong tổ chức là
bao nhiêu (biến service)
c. Tỷ lệ % số người trả lời cho rằng tổ chức (đang được nghiên
cứu) là một nơi làm việc tốt là bao nhiêu? (biến recommend)
2. Vẫn trên file staffsurvey3ED, hãy đánh giá phân bố của biến tổng
mức hài lòng của nhân viên (biến totsatis)
a. Có bất kỳ giá trị nào của biến mà bạn cho rằng nó quá cao
hoặc quá thấp (outlier) không?
b. Phân bố của biến totsatis cho mỗi nhóm có chuẩn không?
73. Bài tập phần 3, mục 6 – thống kê mô tả
Bài 2 – Sức khỏe (Health) – file sleep3ED
1. Hãy s d ng th ng kê mô t ử ụ ố ả để trả lời các câu hỏi sau:
a. Tỷ lệ % người được điều tra là nữ giới (biến gender) là bao
nhiêu?
b. Tuổi trung bình của người được hỏi trong mẫu điều tra là bao
nhiêu?
c. Tỷ lệ % số người trả lời cho rằng họ có vấn đề với giấc ngủ là
bao nhiêu? (biến problem)
d. Trung vị (median) của thời gian ngủ một tuần là bao nhiêu
(biến hourwnit)
2. Hãy đánh giá phân phối giá trị của biến “ngủ và các vấn đề căng
thẳng” (totSAS) cho những người cho rằng/ không cho rằng họ có
vấn đề với giấc ngủ (biến problem)
a. Có giá trị outlier nào không?
b. Với mỗi nhóm, giá trị biến totSAS có phân phối chuẩn không?