2. การจัด Case (หมายถึง คน สัตว์ สิ่งของ หรือ องค์กร ฯลฯ) หรือเป็น
การจัดตัวแปรออกเป็นกลุ่มย่อย ๆ ตั้งแต่ 2 กลุ่มขึ้นไป Case ที่อยู่ในกลุ่ม
เดียวกันจะมีลักษณะที่เหมือนกันหรือคล้ายกัน ส่วน Case ที่อยู่ต่างกลุ่มกันจะมี
ลักษณะที่แตกต่างกัน
ตัวแปรที่อยู่ในกลุ่มเดียวกันจะมีความสัมพันธ์กันมากกว่าตัวแปรที่อยู่
ต่างกลุ่มกัน
ตัวแปรที่อยู่ต่างกลุ่มกันจะมีความสัมพันธ์กันน้อยหรือไม่มี
ความสัมพันธ์กันเลย
3. www.themegallery.com Company Logo
ชื่อ รายได้(1,000
บาท)
อายุ(ปี)
A 5 25
B 6 26
C 15 34
D 16 35
E 25 40
F 30 39
ตัวอย่างที่ 1 ถ้าต้องการแบ่งกลุ่มคน 6 คน คือ นาย A,B,C,D,E,F
โดยพิจารณาจากอายุและรายได้โดยมีข้อมูลดังแสดงในตารางที่ 1
13. เป็นเทคนิคที่นิยมใช้กันมากในการแบ่งกลุ่ม Case หรือ
แบ่งกลุ่มตัวแปร โดยมีเงื่อนไขดังนี้
ในกรณีที่ใช้ในการแบ่ง Case นั้น จานวน Case ต้องไม่มากนัก (จานวน Case ควรต่ากว่า 200
ถ้าตั้งแต่ 200 ขึ้นไปใช้ K-Means Cluster) และจานวนตัวแปรต้องไม่มาก
ไม่จาเป็นต้องทราบจานวนกลุ่มมาก่อน
ไม่จาเป็นเป็นต้องทราบว่าตัวแปรใดหรือ Case ใดอยู่กลุ่มใดก่อน
1
2
3
14. ขั้นตอนของเทคนิค Hierarchical Cluster สาหรับการแบ่งกลุ่ม Case
1
2
3
ขั้นที่ 1 เลือกตัวแปรหรือปัจจัยที่คาดว่ามีอิทธิพลที่ทาให้ Case ต่างกัน ตัวแปร
จะทาให้สามารถแบ่งกลุ่ม Case ได้ชัดเจน ขั้นตอนนี้เป็นขั้นตอนที่สาคัญ
ขั้นที่ 2ที่เลือกวิธีการวัดระยะห่างระหว่าง Case แต่ละคู่ หรือเลือก
วิธีการคานวณเพื่อวัดค่า ความคล้ายของ Case แต่ละคู่
เลือกหลักเกณฑ์ในการรวมกลุ่ม หรือรวม Cluster
15. การวัดความคล้าย (Similarity Measure)
การวัดความคล้ายกันของ Case ทีละคู่ ในกรณีที่เป็นการจัดกลุ่ม
Case ส่วนการจัดกลุ่มตัวแปร การวัดความคล้ายจะเป็นการวัดความคล้าย
ของตัวแปรแต่ละคู่ คือ การหาค่าสัมประสิทธิ์สหสัมพันธ์เมื่อต้องการจัด
กลุ่ม Case จะต้องหาความคล้ายของ Case ถึง C คู่ เมื่อมีข้อมูล Case = n
แต่ถ้าต้องการจัดกลุ่มตัวแปรจะต้องหาความสัมพันธ์ของตัวแปรทีละคู่
รวมถึง C คู่ เมื่อมีตัวแปร k ตัว การวัดความคล้ายของ Case แต่ละคู่
อาจจะวัดด้วยระยะห่าง (Distance) หรือวัดด้วยค่าความคล้าย (Similarity)
แต่การวัดความสัมพันธ์ของตัวแปรจะวัดด้วยค่าสัมประสิทธิ์สหสัมพันธ์
เพียร์สัน (Pearson correlation)
17. หลักการการรวมกลุ่ม (Methods for Combining Cluster)
ขั้นที่1 ขั้นที่2 ขั้นที่3,4
ในแต่ละขั้นอาจจะรวม
Case ใหม่เข้าไปใน
กลุ่มที่มีอยู่แล้ว หรือ
รวม Case ใหม่ 2 Case
เป็นกลุ่มใหม่ ทาเช่นนี้
ไปเรื่อย ๆ จนกระทั่ง
ได้ทุก Case อยู่ในกลุ่ม
เดียวกัน นั่นคือ สุดท้าย
มีเพียง 1 กลุ่ม
พิจารณาว่าควรจะรวม
Case ที่ 3 เข้าอยู่ใน
กลุ่มเดียวกับ 2 Case
แรก หรือควรจะรวม 2
Case ใหม่เข้าอยู่ใน
กลุ่มใหม่อีกกลุ่มหนึ่ง
โดยพิจารณาจากค่า
ระยะห่างหรือค่าความ
คล้าย
รวม Case 2 Case
ให้อยู่ในกลุ่ม
เดียวกัน หรือ
Cluster เดียวกัน
โดย พิจารณาจาก
ค่าระยะห่างหรือค่า
ความคล้าย
สาหรับหลักการในการรวมกลุ่มของเทคนิค HierarchicalClusterนั้นมีหลายวิธี วิธีที่นิยมกันมาก คือ Agglomerative
HierarchicalClusterAnalysis หรือในโปรแกรม SPSS เรียกว่า AgglomerativeSchedule ซึ่งหลักการเกณฑ์ของ
Agglomerativeschedule จะทาการรวมกลุ่ม Clusterอย่างเป็นขั้นตอนดังนี้
18. หลักเกณฑ์ในการรวมกลุ่ม
1. Between – groups Linkage หรือเรียกว่าวิธี Average Linkage Between Groups
หรือเรียกกว่า UPGMA (Unweightede Pair-Group Method Using Arithmetic
Average)
19. พิจารณาว่า ควรรวม cluster ที่ i และ j ไว้ด้วยกันหรือรวม cluster ที่ i และ
k หรือควรจะรวม cluster ที่ j และ k ไว้ด้วยกัน โดยพิจารณาระห่างเฉลี่ย
ระหว่าง cluster เช่น
d = ระยะห่างเฉลี่ย ของ cluster ที่ i และ j
d = ระยะห่างเฉลี่ย ของ cluster ที่ i และ j
d = ระยะห่างเฉลี่ย ของ cluster ที่ i และ j
เลือกรวม cluster ที่มีระยะห่างเฉลี่ยต่าสุด เช่น จากตัวอย่างนี้ได้ค่าระหว่าง
d ต่าสุด ก็จะรวม cluster I และ k เข้าด้วยกัน
20. 2. Within-group Linkage Technique หรือเรียกว่า Average Linkage Within Groups
Method วิธีนี้จะรวม Cluster เข้าด้วยกันถ้าระยะห่างเฉลี่ยระหว่างทุก Case ใน Cluster
นั้น ๆ มีค่าน้อยที่สุด
21. 3. Nearest Neighbor หรือเรียกว่า Single Linkage
ในที่นี้ d ระยะห่างที่สั้นที่สุดของ cluster i และ j
d ระยะห่างที่สั้นที่สุดของ cluster i และ k
d ระยะห่างที่สั้นที่สุดของ cluster j และ k
หาค่าต่าสุด d , d และ d , d ถ้าได้ว่า d ต่าสุดก็จะรวม cluster k และ j เข้าด้วยกัน
22. 4. Furthest Neighbor Technique หรือเรียกว่า Complete Linkage
d ระยะห่างที่ยาวที่สุดของ cluster i และ j
d ระยะห่างที่ยาวที่สุดของ cluster i และ k
d ระยะห่างที่ยาวที่สุดของ cluster k และ j
แล้วเปรียบเทียบค่า d ,d ,d เลือกค่าต่าสุด ถ้าได้ว่า d ต่าสุด ก็รวม cluster i และ k
เข้าด้วยกัน
23. 5. Centroid Clustering
เป็นการรวม cluster 2 cluster เข้าด้วยกัน โดยพิจารณาจากระยะห่างของจุดกลางของ cluster 2
cluster
โดยที่ d ระยะห่างจุดกลางของ cluster ที่ i และ cluster ที่ j
d ระยะห่างจุดกลางของ cluster ที่ i และ cluster ที่ k
d ระยะห่างจุดกลางของ cluster ที่ j และ cluster ที่ k
แล้วเลือกค่าระยะห่างที่ต่าสุด เช่น ถ้าได้d ต่าสุด ก็จะรวม cluster k และ j เข้าด้วยกัน
24. 6. Median Clustering
วิธีนี้จะรวม Cluster 2 Cluster เข้าด้วยกัน โดยให้แต่ละ Cluster
สาคัญเท่ากัน(ให้น้าหนักเท่ากัน) ในขณะที่วิธีของ Centroid Clustering
จะให้ความสาคัญแก่ Cluster มีขนาดใหญ่มากกว่า Cluster ที่มีขนาดเล็ก
(ให้น้าหนักไม่เท่ากัน) Median Clustering จะใช้ค่า Median เป็นค่ากลาง
ของ Centroid ถ้าระยะห่าง ระหว่างค่า Median ของ Clustering จะใช้ค่า
Median เป็นค่ากลางของ Centroid ถ้าระยะห่าง ระหว่างค่า Median
ของ Cluster คู่ใดต่าจะรวม Cluster คู่นั้นเข้าด้วยกัน
25. 7. Ward’s Method
หลักการของวิธีนี้จะพิจารณาจากค่า Sum of the squared
within-cluster distance โดยจะรวม Cluster ที่ทาให้ค่า Sum of square
within-cluster distance เพิ่มขึ้นน้อยที่สุด โดยค่า Square within-cluster
distance คือค่า Square Euclidean distance ของแต่ละ Case กับ
Cluster Mean
26. K-Means Cluster Analysis
หลักการของเทคนิค K-Means Clustering
เป็นเทคนิคการจาแนก Case ออกเป็นกลุ่มย่อย จะใช้เมื่อมีจานวน Case มาก
โดยจะต้องกาหนดจานวนกลุ่มหรือจานวน Cluster ที่ต้องการ เช่น กาหนดให้มี k
กลุ่ม เทคนิค K-Means จะมีการทางานหลาย ๆ รอบ (Iteration) โดยในแต่ละรอบจะ
มีการรวม Cases ให้ไปอยู่ในกลุ่มใดกลุ่มหนึ่ง โดยเลือกกลุ่มที่ Case นั้นมีระยะห่าง
จากค่ากลางของกลุ่มน้อยที่สุด แล้วคานวณค่ากลางของกลุ่มใหม่ จะทาเช่นนี้
จนกระทั่งค่ากลางของกลุ่มไม่เปลี่ยนแปลง หรือครบจานวนรอบที่กาหนดไว้