More Related Content Similar to 12 งานนำสนอ cluster analysis (20) 12 งานนำสนอ cluster analysis2. การจัด Case (หมายถึง คน สั ตว์ สิ่ งของ หรือ องค์ กร ฯลฯ) หรือเป็ น
การจัดตัวแปรออกเป็ นกลุ่มย่ อย ๆ ตั้งแต่ 2 กลุ่มขึนไป Case ทีอยู่ในกลุ่ม
้ ่
เดียวกันจะมีลกษณะทีเ่ หมือนกันหรือคล้ายกัน ส่ วน Case ทีอยู่ต่างกลุ่มกันจะมี
ั ่
ลักษณะทีแตกต่ างกัน
่
ตัวแปรทีอยู่ในกลุ่มเดียวกันจะมีความสั มพันธ์ กนมากกว่ าตัวแปรทีอยู่
่ ั ่
ต่ างกลุ่มกัน
ตัวแปรทีอยู่ต่างกลุ่มกันจะมีความสั มพันธ์ กนน้ อยหรือไม่ มี
่ ั
ความสั มพันธ์ กนเลย
ั
3. ตัวอย่ างที่ 1 ถ้าต้องการแบ่งกลุ่มคน 6 คน คือ นาย A,B,C,D,E,F
โดยพิจารณาจากอายุและรายได้โดยมีขอมูลดังแสดงในตารางที่ 1
้
ชื่อ รายได้ (1,000 อายุ(ปี )
บาท)
A 5 25
B 6 26
C 15 34
D 16 35
E 25 40
F 30 39
www.themegallery.com Company Logo
5. จากตัวอย่ างซึ่งเป็ นกราฟ 2 มิติ คืออายุและรายได้ หรือ 2 ตัวแปร
เปาหมาย คือ จะแบ่ ง 6 คน(n =6) เป็ นกลุ่มย่ อย โดยให้ คนทีอยู่ในกลุ่มย่ อย
้ ่
เดียวกันมีอายุและรายได้ เท่ ากันหรือใกล้เคียงกันส่ วนคนทีอยู่ต่างกลุ่มกันจะมี
่
อายุและรายได้ แตกต่ างกัน จากการพล็อตกราฟอายุรายได้ ในตารางที่ 1 ทาให้
ตัดสิ นใจได้ ว่า ควรจะเป็ น 3 กลุ่ม
กลุ่มที่ 1 : ประกอบด้ วยนาย A และ B ซึ่งมีอายุน้อยและรายได้ ต่า
กลุ่มที่ 2 : ประกอบด้ วยนาย C และ D ซึ่งมีอายุกลางคน (34-35 ปี )
และรายได้ ปานกลาง
กลุ่มที่ 3 : ประกอบด้ วยนาย E และ F ซึ่งมีอายุกลางคน (39-40 ปี )
และรายได้ มาก
6. วัตถุประสงค์ ของการวิเคราะห์ จดกลุ่ม
ั
Cluster Analysis
การวิเคราะห์กลุ่มเป็ นเทคนิคที่ใช้ในการจัดกลุ่มโดยไม่ทราบมาก่อน
ว่าควรมีกี่กลุ่ม แต่จะแบ่งตามค่าของตัวแปรที่นามาใช้ในการแบ่ง
โดยให้หน่วยที่อยูในกลุ่มเดียวกัน มีความคล้ายกันในตัวแปรที่ศึกษา
่
แต่หน่วยที่อยูต่างกลุ่มกันจะมีความต่างกัน ดังเช่นในตัวอย่างที่ 1
่
คนที่อยูในกลุ่มเดียวกันมีอายุและรายได้ใกล้เคียงกัน สาหรับ
่
วัตถุประสงค์ของการแบ่งกลุ่มหรื อจัดกลุ่มจะขึ้นกับสาขาที่จะนาไป
ประยุกต์ใช้
8. สุ ชาติ ประสิ ทธิรัฐสิ นธ์(2540) ได้กล่าวถึงวัตถุประสงค์ของ
เทคนิควิธี Cluster Analysis ว่า เทคนิค Cluster Analysis มีวตถุประสงค์ที่
ั
สาคัญอยู่ 2 ประการ คือ การจัดกลุ่มหน่วยวิเคราะห์ การจัดกลุ่มตัวแปร
ซึ่งมีความสอดคล้องกับ กัลยา วานิชย์ บัญชา (2548) และสามารถกล่าว
โดยรวมคือ เพื่อจัดกลุ่ม Case ซึ่งจะเป็ นประโยชน์ในงานด้านต่าง ๆ เ ช่น
การตลาด การแพทย์ การปกครอง ฯลฯ
9. ข้ อตกลงเบืองต้ นเกียวกับการวิเคราะห์ จดกลุ่ม
้ ่ ั
Cluster Analysis
1. ไม่ ทราบจานวนกลุ่มมาก่อนว่ ามีกกลุ่ม
ี่
2. ไม่ ทราบมาก่อนว่ าหน่ วยหรือคนใดจะอยู่กลุ่มใด
3. หน่ วยหรือคนใดคนหนึ่งจะต้ องอยู่กลุ่มใดกลุ่มหนึ่งเพียง
กลุ่มเดียว
4. ตัวแปรทีใช้ ในการแบ่ งมีมากกว่ า 1 ตัวและตัวแปรอาจจะเป็ นตัวแปรที่มี
่
ค่ าได้ เพียง 1 ค่ าหรือตัวแปรเชิงคุณภาพหรือตัวแปรเชิงปริมาณ
11. สาหรับการวิเคราะห์จดกลุ่มหน่วยวิเคราะห์ผวิจย
ั ู้ ั
1 ความต้ องการ อาจใช้ขอมูลที่ระบุหน่วยวิเคราะห์และตัวแปรตามที่จดเก็บมาได้เลย
้ ั
ทางด้ านข้ อมูล
• สิ่ งสาคัญที่สุดของการวิเคราะห์การจัดกลุ่มคือ ตัวแปรที่
2 แนวคิดพืนฐาน
้ ใช้ หากผูวิจยไม่ได้เก็บข้อมูลเกี่ยวกับตัวแปรที่สาคัญ ๆ
้ ั
็
•ผลที่ได้กจะไม่ดีหรื อทาให้ไขว้เขวได้
ความคิดเกียวกับความคล้ายของหน่ วยศึกษา เป็ นเทคนิคของการ
่
3 ความคล้ายกันของ วิเคราะห์ ทางสถิตหลายวิธี โดยทั่วไปการวัดความคล้ายจะพิจารณา
ิ
หน่ วย จากความห่ างระหว่างวัตถุ หรือพิจารณาจากความคล้ายกัน
วิธีการวัดความห่ างสามารถวัดได้ หลายวิธี วิธีการหนึ่งที่นิยม
4 การวัดความห่ าง วัดกันมากก็คอ วิธีที่เรียกว่า ระยะห่ างเชิงยูคลิดยกกาลังสอง (Squared
ื
Euclidean distance)คือ ผลรวมของผลต่ างยกกาลังสองของทุกตัวแปร
12. เทคนิค Cluster Analysis แบ่งเป็ นหลายประเภทหรื อเทคนิคย่อย
ั
โดยเทคนิคที่ใช้กนมากมี 2 เทคนิค คือ
1 Hierarchical Cluster Analysis
2 K-Means Cluster Analysis
13. เป็ นเทคนิคที่นิยมใช้กนมากในการแบ่งกลุ่ม Case หรื อ
ั
แบ่งกลุ่มตัวแปร โดยมีเงื่อนไขดังนี้
1 ในกรณีที่ใช้ ในการแบ่ ง Case นั้น จานวน Case ต้ องไม่ มากนัก (จานวน Case ควรตากว่า 200
่
ถ้ าตั้งแต่ 200 ขึนไปใช้ K-Means Cluster) และจานวนตัวแปรต้ องไม่ มาก
้
2 ไม่จาเป็ นต้องทราบจานวนกลุ่มมาก่อน
3
ไม่จาเป็ นเป็ นต้องทราบว่าตัวแปรใดหรื อ Case ใดอยูกลุ่มใดก่อน
่
14. ขั้นตอนของเทคนิค Hierarchical Cluster สาหรับการแบ่ งกลุ่ม Case
1
ขั้นที่ 1 เลือกตัวแปรหรื อปั จจัยที่คาดว่ามีอิทธิพลที่ทาให้ Case ต่างกัน ตัวแปร
จะทาให้สามารถแบ่งกลุ่ม Case ได้ชดเจน ขั้นตอนนี้เป็ นขั้นตอนที่สาคัญ
ั
2
ขั้นที่ 2ที่เลือกวิธีการวัดระยะห่างระหว่าง Case แต่ละคู่ หรื อเลือก
วิธีการคานวณเพื่อวัดค่า ความคล้ายของ Case แต่ละคู่
3
เลือกหลักเกณฑ์ในการรวมกลุ่ม หรื อรวม Cluster
15. การวัดความคล้ าย (Similarity Measure)
การวัดความคล้ายกันของ Case ทีละคู่ ในกรณี ที่เป็ นการจัดกลุ่ม
Case ส่ วนการจัดกลุ่มตัวแปร การวัดความคล้ายจะเป็ นการวัดความคล้าย
ของตัวแปรแต่ละคู่ คือ การหาค่าสัมประสิ ทธิ์ สหสัมพันธ์เมื่อต้องการจัด
กลุ่ม Case จะต้องหาความคล้ายของ Case ถึง C คู่ เมื่อมีขอมูล Case = n
้
แต่ถาต้องการจัดกลุ่มตัวแปรจะต้องหาความสัมพันธ์ของตัวแปรทีละคู่
้
รวมถึง C คู่ เมื่อมีตวแปร k ตัว การวัดความคล้ายของ Case แต่ละคู่
ั
อาจจะวัดด้วยระยะห่ าง (Distance) หรื อวัดด้วยค่าความคล้าย (Similarity)
แต่การวัดความสัมพันธ์ของตัวแปรจะวัดด้วยค่าสัมประสิ ทธิ์ สหสัมพันธ์
เพียร์สัน (Pearson correlation)
16. การวัดความคล้ าย (Similarity Measure)(ต่ อ)
สาหรับวิธีการคานวณระยะห่ าง หรื อค่าความคล้ายของ Case แต่ละคู่
จะแตกต่างกันเมื่อชนิ ดของข้อมูลต่างกัน ซึ่ งชนิดของข้อมูลหรื อตัวแปรที่สามารถ
ใช้เทคนิค Hierarchical Cluster ได้ มี 3 ประเภท คือ
1. ข้อมูลเป็ นสเกลอันตรภาค (Interval scale) หรื อสเกลอัตราส่ วน
(Ratio scale)
่
2. ข้อมูลที่อยูในรู ปความถี่ (Count Data)
่ ่
3. ข้อมูลอยูในรู ป Binary นันคือ มีได้ 2 ค่า คือ 0 กับ 1 หรื อกล่าวได้วา
่
ข้อมูลที่นามาใช้ในเทคนิค Hierarchical จะเป็ นข้อมูลชนิดตัวเลข หรื อเป็ นเชิง
่
ปริ มาณ (Interval หรื อ Ratio scale) หรื อข้อมูลอยูในรู ปความถี่ หรื อ Binary
17. หลักการการรวมกลุ่ม (Methods for Combining Cluster)
สาหรับหลักการในการรวมกลุ่มของเทคนิค Hierarchical Cluster นั้นมีหลายวิธี วิธีที่นิยมกันมาก คือ Agglomerative
Hierarchical Cluster Analysis หรื อในโปรแกรม SPSS เรี ยกว่า Agglomerative Schedule ซึ่งหลักการเกณฑ์ของ
Agglomerative schedule จะทาการรวมกลุ่ม Cluster อย่างเป็ นขั้นตอนดังนี้
ขั้นที1
่ ขั้นที2
่ ขั้นที3,4
่
รวม Case 2 Case พิจารณาว่ าควรจะรวม ในแต่ละขั้นอาจจะรวม
Case ที่ 3 เข้ าอยู่ใน Case ใหม่เข้าไปใน
ให้อยูในกลุ่ม
่
กลุ่มเดียวกับ 2 Case กลุ่มที่มีอยูแล้ว หรื อ
่
เดียวกัน หรื อ แรก หรือควรจะรวม 2 รวม Case ใหม่ 2 Case
Cluster เดียวกัน Case ใหม่ เข้ าอยู่ใน
เป็ นกลุ่มใหม่ ทาเช่นนี้
กลุ่มใหม่ อกกลุ่มหนึ่ง
ี
โดย พิจารณาจาก ไปเรื่ อย ๆ จนกระทัง ่
โดยพิจารณาจากค่ า
ค่าระยะห่างหรื อค่า ระยะห่ างหรือค่ าความ ได้ ทุก Case อยูในกลุ่ม
่
ความคล้าย คล้ าย เดียวกัน นันคือ สุ ดท้าย
่
มีเพียง 1 กลุ่ม
18. หลักเกณฑ์ ในการรวมกลุ่ม
1. Between – groups Linkage หรื อเรี ยกว่าวิธี Average Linkage Between Groups
หรื อเรี ยกกว่า UPGMA (Unweightede Pair-Group Method Using Arithmetic
Average)
19. พิจารณาว่ า ควรรวม cluster ที่ i และ j ไว้ ด้วยกันหรือรวม cluster ที่ i และ
k หรือควรจะรวม cluster ที่ j และ k ไว้ ด้วยกัน โดยพิจารณาระห่ างเฉลีย ่
ระหว่ าง cluster เช่ น
d = ระยะห่ างเฉลีย ของ cluster ที่ i และ j
่
d = ระยะห่ างเฉลีย ของ cluster ที่ i และ j
่
d = ระยะห่ างเฉลีย ของ cluster ที่ i และ j
่
เลือกรวม cluster ทีมระยะห่ างเฉลียตาสุ ด เช่ น จากตัวอย่ างนีได้ ค่าระหว่ าง
่ ี ่ ่ ้
d ตาสุ ด ก็จะรวม cluster I และ k เข้ าด้ วยกัน
่
20. 2. Within-group Linkage Technique หรื อเรี ยกว่า Average Linkage Within Groups
Method วิธีน้ ีจะรวม Cluster เข้าด้วยกันถ้าระยะห่ างเฉลี่ยระหว่างทุก Case ใน Cluster
นั้น ๆ มีค่าน้อยที่สุด
21. 3. Nearest Neighbor หรือเรียกว่ า Single Linkage
ในทีนี้ d ระยะห่างที่ส้ ันที่สุดของ cluster i และ j
่
d ระยะห่างที่ส้ ันที่สุดของ cluster i และ k
d ระยะห่างที่ส้ ันที่สุดของ cluster j และ k
่
หาค่าต่าสุ ด d , d และ d , d ถ้าได้วา d ต่าสุ ดก็จะรวม cluster k และ j เข้าด้วยกัน
22. 4. Furthest Neighbor Technique หรื อเรี ยกว่า Complete Linkage
d ระยะห่างที่ยาวที่สุดของ cluster i และ j
d ระยะห่างที่ยาวที่สุดของ cluster i และ k
d ระยะห่างที่ยาวที่สุดของ cluster k และ j
่
แล้วเปรี ยบเทียบค่า d ,d ,d เลือกค่าต่าสุ ด ถ้าได้วา d ต่าสุ ด ก็รวม cluster i และ k
เข้าด้วยกัน
23. 5. Centroid Clustering
เป็ นการรวม cluster 2 cluster เข้าด้วยกัน โดยพิจารณาจากระยะห่างของจุดกลางของ cluster 2
cluster
โดยที่ d ระยะห่างจุดกลางของ cluster ที่ i และ cluster ที่ j
d ระยะห่างจุดกลางของ cluster ที่ i และ cluster ที่ k
d ระยะห่างจุดกลางของ cluster ที่ j และ cluster ที่ k
แล้วเลือกค่าระยะห่างที่ต่าสุ ด เช่น ถ้าได้ d ต่าสุ ด ก็จะรวม cluster k และ j เข้าด้วยกัน
24. 6. Median Clustering
วิธีนีจะรวม Cluster 2 Cluster เข้ าด้ วยกัน โดยให้ แต่ ละ Cluster
้
สาคัญเท่ ากัน(ให้ นาหนักเท่ ากัน) ในขณะทีวธีของ Centroid Clustering
้ ่ิ
จะให้ ความสาคัญแก่ Cluster มีขนาดใหญ่ มากกว่ า Cluster ทีมีขนาดเล็ก
่
(ให้ นาหนักไม่ เท่ ากัน) Median Clustering จะใช้ ค่า Median เป็ นค่ ากลาง
้
ของ Centroid ถ้ าระยะห่ าง ระหว่ างค่ า Median ของ Clustering จะใช้ ค่า
Median เป็ นค่ ากลางของ Centroid ถ้ าระยะห่ าง ระหว่ างค่ า Median
ของ Cluster คู่ใดตาจะรวม Cluster คู่น้ันเข้ าด้ วยกัน
่
25. 7. Ward’s Method
หลักการของวิธีนีจะพิจารณาจากค่ า Sum of the squared
้
within-cluster distance โดยจะรวม Cluster ทีทาให้ ค่า Sum of square
่
within-cluster distance เพิมขึนน้ อยทีสุด โดยค่ า Square within-cluster
่ ้ ่
distance คือค่ า Square Euclidean distance ของแต่ ละ Case กับ
Cluster Mean
26. K-Means Cluster Analysis
หลักการของเทคนิค K-Means Clustering
เป็ นเทคนิคการจาแนก Case ออกเป็ นกลุ่มย่ อย จะใช้ เมือมีจานวน Case มาก
่
โดยจะต้ องกาหนดจานวนกลุ่มหรือจานวน Cluster ทีต้องการ เช่ น กาหนดให้ มี k
่
กลุ่ม เทคนิค K-Means จะมีการทางานหลาย ๆ รอบ (Iteration) โดยในแต่ ละรอบจะ
มีการรวม Cases ให้ ไปอยู่ในกลุ่มใดกลุ่มหนึ่ง โดยเลือกกลุ่มที่ Case นั้นมีระยะห่ าง
จากค่ ากลางของกลุ่มน้ อยทีสุด แล้ วคานวณค่ ากลางของกลุ่มใหม่ จะทาเช่ นนี้
่
จนกระทังค่ ากลางของกลุ่มไม่ เปลียนแปลง หรือครบจานวนรอบทีกาหนดไว้
่ ่ ่
27. K-Means Cluster Analysis(ต่ อ)
ตัวแปรทีใช้ ในเทคนิค K-Means Clustering จะต้ องเป็ นตัวแปรเชิง
่
ปริมาณ คือ เป็ นสเกลอันตรภาค(Interval Scale) หรือสเกลอัตราส่ วน
(Ration Scale) โดยไม่ สามารถใช้ กบข้ อมูลทีอยู่ในรู ปความถี่ หรือ
ั ่
Binary เหมือนเทคนิค Hierarchical
28. K-Means Cluster Analysis(ต่ อ)
ขั้นตอนการวิเคราะห์ ของวิธี K-Means
การวิเคราะห์ จาแนกกลุ่มด้ วยเทคนิควิธี K-Means Clustering
สามารถสรุ ป ขั้นตอนของการวิเคราะห์ ได้ 4 ขั้นตอนดังนี้
ขั้นที่ 1 จัดกลุ่มข้อมูลเป็ น k กลุ่ม ซึ่ งมีการแบ่งได้หลายวิธีดงนี้
ั
- แบ่งอย่างสุ่ ม - แบ่งด้วยผูศึกษาเอง
้
ขั้นที่ 2 คานวณหาจุดกึ่งกลางกลุ่มของแต่ละกลุ่ม เช่น จุดกลางกลุ่มของกลุ่มที่ C
29. K-Means Cluster Analysis(ต่ อ)
ขั้นที่ 3 มีวธีการพิจารณา 2 แบบ โดยจะคานวณ
ิ
แบบที่ 1 คานวณหาระยะห่างจากแต่ละหน่วยไปยังจุดกลางกลุ่มของทุก
กลุ่มและจะพิจารณาย้ายหน่วยไปยังกลุ่มที่มีระยะห่างต่าสุ ด
แบบที่ 2 คานวณระยะห่างกาลังสองของแต่ละหน่วยไปยังจุดกลางกลุ่มที่
หน่วยนั้นอยู่ โดยให้ ESSZ(Error Sum Square) เท่ากับระยะห่างกาลังสองของแต่ละ
หน่วยไปยังจุดกลางกลุ่ม
โดยที่ C ( i ) หมายถึง กลุ่มของหน่วยที่ i
ESS = ผลบวกของระยะห่างจากแต่ละหน่วยใน
กลุ่มไปยังจุดกลางกลุ่มรวมทุกกลุ่ม กลุ่มใดที่มีค่า ESS ต่า แสดงว่าหน่วยที่อยูในกลุ่ม
่
นั้นมีความคล้ายคลึงกัน
30. K-Means Cluster Analysis(ต่ อ)
ขั้นที่ 4 การพิจารณาย้ายกลุ่ม จะใช้เกณฑ์การย้ายตามค่าที่คานวณได้ใน
ขั้นที่ 3
แบบที่ 1 จะทาการย้ายหน่วยที่ i ไปยังกลุ่มที่ทาให้ระยะห่างจาก
หน่วยที่ i ไปยังจุดกลางกลุ่มมีค่าต่าสุ ด
แบบที่ 2 จะทาการย้ายหน่วยที่ i ไปยังกลุ่มที่ทาให้คา ESS มีค่า
่
ต่าสุ ดถ้าขั้นที่ 4 ไม่มีการย้ายกลุ่มอีกแล้ว แสดงว่ากลุ่มที่แบ่งได้น้ น
ั
เหมาะสมแล้ว แต่ถาในนั้นที่ 4 มีการย้ายกลุ่ม กลุ่มที่มีหน่วยย้ายเข้าหรื อย้าย
้
ออกจะต้องทาการคานวณหาจุดกลางกลุ่มใหม่นนคือต้องกลับไปทาขั้นที่ 2
ั่
31. K-Means Cluster Analysis(ต่ อ)
ข้ อแตกต่ างระหว่ างเทคนิค Hierarchical กับวิธี K-Means
1. เทคนิค K-Means ใช้ เมือมีจานวน Case หรือจานวนข้ อมูลมาก โดยทัวไป
่ ่
นิยมใช้ เมือ n ≥ 200 เพราะเมือ n มาก เทคนิค K-Means
่ ่
2. เทคนิค K-Means นั้น ผู้ใช้ จะต้ องกาหนดจานวนกลุ่มทีแน่ นอนไว้
่
ล่ วงหน้ ากรณีทผ้ ูวเิ คราะห์ ยงไม่ แน่ ใจว่ าควรมีกกลุ่มจึงจะเหมาะสม
ี่ ั ี่
3. เทคนิค Hierarchical นั้น ผู้วเิ คราะห์ จะ Standardized ข้ อมูลหรือไม่ กได้
็
แต่ โดยวิธี K-Means จะต้ องทาการ Standardized ข้ อมูลก่ อนเสมอ
3. วิธี K-Means จะหาระยะห่ างโดยวิธี Euclidean Distance โดยอัตโนมัติ
ขณะที่ Hierarchical ผู้วเิ คราะห์ มสิทธิ์ทจะเลือกวิธีการคานวณระยะห่ าง หรือ
ี ี่
ความคล้ายได้
32. ข้ อแตกต่ างระหว่ างการจาแนกกลุ่มด้ วยเทคนิค Cluster Analysis
และเทคนิค Discriminant Analysis
Cluster Analysis Discriminant Analysis
1. ไม่จาเป็ นต้องทราบก่อนว่ามีกี่กลุ่ม 1. ต้องทราบมาก่อนว่ามีกี่กลุ่ม โดยผูวจย
้ิั
เป็ น
ผูจดกลุ่มเอง และกาหนดเองว่าจะมีกี่กลุ่ม
้ั
2. ไม่ทราบมาก่อนว่า Case ใดอยูกลุ่มไหน 2. ทราบมาก่อนว่า Case ใดอยูกลุ่มไหน
่ ่
เนื่องจากผูวจยเป็ นผูจดกลุ่มมาก่อน
้ิั ้ั
3. ไม่มีสมการแสดงความสัมพันธ์ 3. มีสมการแสดงความสัมพันธ์