SlideShare a Scribd company logo
1 of 33
Download to read offline
LOGO
การจัด Case (หมายถึง คน สั ตว์ สิ่ งของ หรือ องค์ กร ฯลฯ) หรือเป็ น
การจัดตัวแปรออกเป็ นกลุ่มย่ อย ๆ ตั้งแต่ 2 กลุ่มขึนไป Case ทีอยู่ในกลุ่ม
                                                  ้            ่
เดียวกันจะมีลกษณะทีเ่ หมือนกันหรือคล้ายกัน ส่ วน Case ทีอยู่ต่างกลุ่มกันจะมี
               ั                                             ่
ลักษณะทีแตกต่ างกัน
           ่
          ตัวแปรทีอยู่ในกลุ่มเดียวกันจะมีความสั มพันธ์ กนมากกว่ าตัวแปรทีอยู่
                   ่                                     ั                ่
ต่ างกลุ่มกัน
          ตัวแปรทีอยู่ต่างกลุ่มกันจะมีความสั มพันธ์ กนน้ อยหรือไม่ มี
                     ่                               ั
ความสั มพันธ์ กนเลย
                 ั
ตัวอย่ างที่ 1 ถ้าต้องการแบ่งกลุ่มคน 6 คน คือ นาย A,B,C,D,E,F
       โดยพิจารณาจากอายุและรายได้โดยมีขอมูลดังแสดงในตารางที่ 1
                                              ้

                       ชื่อ    รายได้ (1,000          อายุ(ปี )
                                  บาท)
                       A            5                   25
                       B            6                   26
                       C           15                   34
                       D           16                   35
                       E           25                   40
                       F           30                   39
www.themegallery.com                                              Company Logo
แสดงการวิเคราะห์ กลุ่มอายุและรายได้
จากตัวอย่ างซึ่งเป็ นกราฟ 2 มิติ คืออายุและรายได้ หรือ 2 ตัวแปร
เปาหมาย คือ จะแบ่ ง 6 คน(n =6) เป็ นกลุ่มย่ อย โดยให้ คนทีอยู่ในกลุ่มย่ อย
  ้                                                           ่
เดียวกันมีอายุและรายได้ เท่ ากันหรือใกล้เคียงกันส่ วนคนทีอยู่ต่างกลุ่มกันจะมี
                                                         ่
อายุและรายได้ แตกต่ างกัน จากการพล็อตกราฟอายุรายได้ ในตารางที่ 1 ทาให้
ตัดสิ นใจได้ ว่า ควรจะเป็ น 3 กลุ่ม
         กลุ่มที่ 1 : ประกอบด้ วยนาย A และ B ซึ่งมีอายุน้อยและรายได้ ต่า
         กลุ่มที่ 2 : ประกอบด้ วยนาย C และ D ซึ่งมีอายุกลางคน (34-35 ปี )
และรายได้ ปานกลาง
         กลุ่มที่ 3 : ประกอบด้ วยนาย E และ F ซึ่งมีอายุกลางคน (39-40 ปี )
และรายได้ มาก
วัตถุประสงค์ ของการวิเคราะห์ จดกลุ่ม
                                    ั
      Cluster Analysis
การวิเคราะห์กลุ่มเป็ นเทคนิคที่ใช้ในการจัดกลุ่มโดยไม่ทราบมาก่อน
ว่าควรมีกี่กลุ่ม แต่จะแบ่งตามค่าของตัวแปรที่นามาใช้ในการแบ่ง
โดยให้หน่วยที่อยูในกลุ่มเดียวกัน มีความคล้ายกันในตัวแปรที่ศึกษา
                   ่
แต่หน่วยที่อยูต่างกลุ่มกันจะมีความต่างกัน ดังเช่นในตัวอย่างที่ 1
                ่
คนที่อยูในกลุ่มเดียวกันมีอายุและรายได้ใกล้เคียงกัน สาหรับ
        ่
วัตถุประสงค์ของการแบ่งกลุ่มหรื อจัดกลุ่มจะขึ้นกับสาขาที่จะนาไป
ประยุกต์ใช้
การนาเทคนิคการวิเคราะห์กลุ่มไปใช้ในงานด้านต่าง ๆ
จะพบว่าการเลือกตัวแปรที่นามาใช้ในการจัดกลุ่มนั้นมีความสาคัญ
มาก ถ้าผูวจยเลือกตัวแปรที่ไม่ได้ทาให้คนที่อยูต่างกลุ่มกันมี
         ้ิั                                    ่
ความแตกต่างกันแล้ว จะทาให้ไม่สามารถจัดกลุ่มได้ถกต้อง เช่น
                                                       ู
ด้านการตลาด ซึ่งเป็ นการจัดกลุ่มพื้นที่หรื อจังหวัด ผูวจยจะต้อง
                                                      ้ิั
ศึกษาว่า ตัวแปรใดบ้างที่มีอิทธิพลที่ทาให้กลุ่มต่าง ๆ เช่น จานวน
ประชากร รายได้เฉลี่ย อาชีพ สภาวะเศรษฐกิจ
สุ ชาติ ประสิ ทธิรัฐสิ นธ์(2540) ได้กล่าวถึงวัตถุประสงค์ของ
เทคนิควิธี Cluster Analysis ว่า เทคนิค Cluster Analysis มีวตถุประสงค์ที่
                                                             ั
สาคัญอยู่ 2 ประการ คือ การจัดกลุ่มหน่วยวิเคราะห์ การจัดกลุ่มตัวแปร
ซึ่งมีความสอดคล้องกับ กัลยา วานิชย์ บัญชา (2548) และสามารถกล่าว
โดยรวมคือ เพื่อจัดกลุ่ม Case ซึ่งจะเป็ นประโยชน์ในงานด้านต่าง ๆ เ ช่น
การตลาด การแพทย์ การปกครอง ฯลฯ
ข้ อตกลงเบืองต้ นเกียวกับการวิเคราะห์ จดกลุ่ม
           ้        ่                  ั
Cluster Analysis
  1. ไม่ ทราบจานวนกลุ่มมาก่อนว่ ามีกกลุ่ม
                                    ี่

  2. ไม่ ทราบมาก่อนว่ าหน่ วยหรือคนใดจะอยู่กลุ่มใด

  3. หน่ วยหรือคนใดคนหนึ่งจะต้ องอยู่กลุ่มใดกลุ่มหนึ่งเพียง
  กลุ่มเดียว
   4. ตัวแปรทีใช้ ในการแบ่ งมีมากกว่ า 1 ตัวและตัวแปรอาจจะเป็ นตัวแปรที่มี
                  ่
   ค่ าได้ เพียง 1 ค่ าหรือตัวแปรเชิงคุณภาพหรือตัวแปรเชิงปริมาณ
สาหรับการวิเคราะห์จดกลุ่มหน่วยวิเคราะห์ผวิจย
                                             ั                   ู้ ั
1    ความต้ องการ       อาจใช้ขอมูลที่ระบุหน่วยวิเคราะห์และตัวแปรตามที่จดเก็บมาได้เลย
                               ้                                        ั
     ทางด้ านข้ อมูล
                         • สิ่ งสาคัญที่สุดของการวิเคราะห์การจัดกลุ่มคือ ตัวแปรที่
2   แนวคิดพืนฐาน
            ้            ใช้ หากผูวิจยไม่ได้เก็บข้อมูลเกี่ยวกับตัวแปรที่สาคัญ ๆ
                                       ้ ั
                                     ็
                         •ผลที่ได้กจะไม่ดีหรื อทาให้ไขว้เขวได้
                         ความคิดเกียวกับความคล้ายของหน่ วยศึกษา เป็ นเทคนิคของการ
                                    ่
3   ความคล้ายกันของ     วิเคราะห์ ทางสถิตหลายวิธี โดยทั่วไปการวัดความคล้ายจะพิจารณา
                                         ิ
        หน่ วย          จากความห่ างระหว่างวัตถุ หรือพิจารณาจากความคล้ายกัน
                        วิธีการวัดความห่ างสามารถวัดได้ หลายวิธี วิธีการหนึ่งที่นิยม
4   การวัดความห่ าง    วัดกันมากก็คอ วิธีที่เรียกว่า ระยะห่ างเชิงยูคลิดยกกาลังสอง (Squared
                                    ื
                       Euclidean distance)คือ ผลรวมของผลต่ างยกกาลังสองของทุกตัวแปร
เทคนิค Cluster Analysis แบ่งเป็ นหลายประเภทหรื อเทคนิคย่อย
                ั
โดยเทคนิคที่ใช้กนมากมี 2 เทคนิค คือ



      1           Hierarchical Cluster Analysis



      2           K-Means Cluster Analysis
เป็ นเทคนิคที่นิยมใช้กนมากในการแบ่งกลุ่ม Case หรื อ
                       ั
แบ่งกลุ่มตัวแปร โดยมีเงื่อนไขดังนี้
       1     ในกรณีที่ใช้ ในการแบ่ ง Case นั้น จานวน Case ต้ องไม่ มากนัก (จานวน Case ควรตากว่า 200
                                                                                          ่
             ถ้ าตั้งแต่ 200 ขึนไปใช้ K-Means Cluster) และจานวนตัวแปรต้ องไม่ มาก
                               ้



        2 ไม่จาเป็ นต้องทราบจานวนกลุ่มมาก่อน


        3
            ไม่จาเป็ นเป็ นต้องทราบว่าตัวแปรใดหรื อ Case ใดอยูกลุ่มใดก่อน
                                                              ่
ขั้นตอนของเทคนิค Hierarchical Cluster สาหรับการแบ่ งกลุ่ม Case



        1
             ขั้นที่ 1 เลือกตัวแปรหรื อปั จจัยที่คาดว่ามีอิทธิพลที่ทาให้ Case ต่างกัน ตัวแปร
             จะทาให้สามารถแบ่งกลุ่ม Case ได้ชดเจน ขั้นตอนนี้เป็ นขั้นตอนที่สาคัญ
                                                    ั

        2
              ขั้นที่ 2ที่เลือกวิธีการวัดระยะห่างระหว่าง Case แต่ละคู่ หรื อเลือก
              วิธีการคานวณเพื่อวัดค่า ความคล้ายของ Case แต่ละคู่

        3
             เลือกหลักเกณฑ์ในการรวมกลุ่ม หรื อรวม Cluster
การวัดความคล้ าย (Similarity Measure)

           การวัดความคล้ายกันของ Case ทีละคู่ ในกรณี ที่เป็ นการจัดกลุ่ม
Case ส่ วนการจัดกลุ่มตัวแปร การวัดความคล้ายจะเป็ นการวัดความคล้าย
ของตัวแปรแต่ละคู่ คือ การหาค่าสัมประสิ ทธิ์ สหสัมพันธ์เมื่อต้องการจัด
กลุ่ม Case จะต้องหาความคล้ายของ Case ถึง C คู่ เมื่อมีขอมูล Case = n
                                                        ้
แต่ถาต้องการจัดกลุ่มตัวแปรจะต้องหาความสัมพันธ์ของตัวแปรทีละคู่
     ้
รวมถึง C คู่ เมื่อมีตวแปร k ตัว การวัดความคล้ายของ Case แต่ละคู่
                     ั
อาจจะวัดด้วยระยะห่ าง (Distance) หรื อวัดด้วยค่าความคล้าย (Similarity)
แต่การวัดความสัมพันธ์ของตัวแปรจะวัดด้วยค่าสัมประสิ ทธิ์ สหสัมพันธ์
เพียร์สัน (Pearson correlation)
การวัดความคล้ าย (Similarity Measure)(ต่ อ)

          สาหรับวิธีการคานวณระยะห่ าง หรื อค่าความคล้ายของ Case แต่ละคู่
จะแตกต่างกันเมื่อชนิ ดของข้อมูลต่างกัน ซึ่ งชนิดของข้อมูลหรื อตัวแปรที่สามารถ
ใช้เทคนิค Hierarchical Cluster ได้ มี 3 ประเภท คือ
          1. ข้อมูลเป็ นสเกลอันตรภาค (Interval scale) หรื อสเกลอัตราส่ วน
(Ratio scale)
                         ่
          2. ข้อมูลที่อยูในรู ปความถี่ (Count Data)
                       ่                                                         ่
          3. ข้อมูลอยูในรู ป Binary นันคือ มีได้ 2 ค่า คือ 0 กับ 1 หรื อกล่าวได้วา
                                        ่
ข้อมูลที่นามาใช้ในเทคนิค Hierarchical จะเป็ นข้อมูลชนิดตัวเลข หรื อเป็ นเชิง
                                                   ่
ปริ มาณ (Interval หรื อ Ratio scale) หรื อข้อมูลอยูในรู ปความถี่ หรื อ Binary
หลักการการรวมกลุ่ม (Methods for Combining Cluster)
สาหรับหลักการในการรวมกลุ่มของเทคนิค Hierarchical Cluster นั้นมีหลายวิธี วิธีที่นิยมกันมาก คือ Agglomerative
Hierarchical Cluster Analysis หรื อในโปรแกรม SPSS เรี ยกว่า Agglomerative Schedule ซึ่งหลักการเกณฑ์ของ
Agglomerative schedule จะทาการรวมกลุ่ม Cluster อย่างเป็ นขั้นตอนดังนี้

                     ขั้นที1
                           ่                         ขั้นที2
                                                           ่                              ขั้นที3,4
                                                                                                ่

    รวม Case 2 Case                          พิจารณาว่ าควรจะรวม                    ในแต่ละขั้นอาจจะรวม
                                             Case ที่ 3 เข้ าอยู่ใน                 Case ใหม่เข้าไปใน
    ให้อยูในกลุ่ม
          ่
                                             กลุ่มเดียวกับ 2 Case                   กลุ่มที่มีอยูแล้ว หรื อ
                                                                                                  ่
    เดียวกัน หรื อ                           แรก หรือควรจะรวม 2                     รวม Case ใหม่ 2 Case
    Cluster เดียวกัน                         Case ใหม่ เข้ าอยู่ใน
                                                                                    เป็ นกลุ่มใหม่ ทาเช่นนี้
                                             กลุ่มใหม่ อกกลุ่มหนึ่ง
                                                         ี
    โดย พิจารณาจาก                                                                  ไปเรื่ อย ๆ จนกระทัง   ่
                                             โดยพิจารณาจากค่ า
    ค่าระยะห่างหรื อค่า                      ระยะห่ างหรือค่ าความ                  ได้ ทุก Case อยูในกลุ่ม
                                                                                                      ่
    ความคล้าย                                คล้ าย                                 เดียวกัน นันคือ สุ ดท้าย
                                                                                                ่
                                                                                    มีเพียง 1 กลุ่ม
หลักเกณฑ์ ในการรวมกลุ่ม
1. Between – groups Linkage หรื อเรี ยกว่าวิธี Average Linkage Between Groups
หรื อเรี ยกกว่า UPGMA (Unweightede Pair-Group Method Using Arithmetic
Average)
พิจารณาว่ า ควรรวม cluster ที่ i และ j ไว้ ด้วยกันหรือรวม cluster ที่ i และ
k หรือควรจะรวม cluster ที่ j และ k ไว้ ด้วยกัน โดยพิจารณาระห่ างเฉลีย    ่
ระหว่ าง cluster เช่ น
      d =            ระยะห่ างเฉลีย ของ cluster ที่ i และ j
                                    ่
      d =            ระยะห่ างเฉลีย ของ cluster ที่ i และ j
                                  ่
      d =            ระยะห่ างเฉลีย ของ cluster ที่ i และ j
                                      ่
เลือกรวม cluster ทีมระยะห่ างเฉลียตาสุ ด เช่ น จากตัวอย่ างนีได้ ค่าระหว่ าง
                      ่ ี               ่ ่                  ้
d ตาสุ ด ก็จะรวม cluster I และ k เข้ าด้ วยกัน
    ่
2. Within-group Linkage Technique หรื อเรี ยกว่า Average Linkage Within Groups
Method วิธีน้ ีจะรวม Cluster เข้าด้วยกันถ้าระยะห่ างเฉลี่ยระหว่างทุก Case ใน Cluster
นั้น ๆ มีค่าน้อยที่สุด
3. Nearest Neighbor หรือเรียกว่ า Single Linkage
ในทีนี้ d ระยะห่างที่ส้ ันที่สุดของ cluster i และ j
    ่
        d ระยะห่างที่ส้ ันที่สุดของ cluster i และ k
        d ระยะห่างที่ส้ ันที่สุดของ cluster j และ k
                                    ่
หาค่าต่าสุ ด d , d และ d , d ถ้าได้วา d ต่าสุ ดก็จะรวม cluster k และ j เข้าด้วยกัน
4. Furthest Neighbor Technique หรื อเรี ยกว่า Complete Linkage
       d ระยะห่างที่ยาวที่สุดของ cluster i และ j
            d ระยะห่างที่ยาวที่สุดของ cluster i และ k
            d ระยะห่างที่ยาวที่สุดของ cluster k และ j
                                                   ่
แล้วเปรี ยบเทียบค่า d ,d ,d เลือกค่าต่าสุ ด ถ้าได้วา d ต่าสุ ด ก็รวม cluster i และ k
เข้าด้วยกัน
5. Centroid Clustering
เป็ นการรวม cluster 2 cluster เข้าด้วยกัน โดยพิจารณาจากระยะห่างของจุดกลางของ cluster 2
cluster
           โดยที่ d ระยะห่างจุดกลางของ cluster ที่ i และ cluster ที่ j
                  d ระยะห่างจุดกลางของ cluster ที่ i และ cluster ที่ k
                  d ระยะห่างจุดกลางของ cluster ที่ j และ cluster ที่ k
แล้วเลือกค่าระยะห่างที่ต่าสุ ด เช่น ถ้าได้ d ต่าสุ ด ก็จะรวม cluster k และ j เข้าด้วยกัน
6. Median Clustering
        วิธีนีจะรวม Cluster 2 Cluster เข้ าด้ วยกัน โดยให้ แต่ ละ Cluster
              ้
สาคัญเท่ ากัน(ให้ นาหนักเท่ ากัน) ในขณะทีวธีของ Centroid Clustering
                    ้                      ่ิ
จะให้ ความสาคัญแก่ Cluster มีขนาดใหญ่ มากกว่ า Cluster ทีมีขนาดเล็ก
                                                                ่
(ให้ นาหนักไม่ เท่ ากัน) Median Clustering จะใช้ ค่า Median เป็ นค่ ากลาง
      ้
ของ Centroid ถ้ าระยะห่ าง ระหว่ างค่ า Median ของ Clustering จะใช้ ค่า
Median เป็ นค่ ากลางของ Centroid ถ้ าระยะห่ าง ระหว่ างค่ า Median
ของ Cluster คู่ใดตาจะรวม Cluster คู่น้ันเข้ าด้ วยกัน
                      ่
7. Ward’s Method
         หลักการของวิธีนีจะพิจารณาจากค่ า Sum of the squared
                          ้
within-cluster distance โดยจะรวม Cluster ทีทาให้ ค่า Sum of square
                                              ่
within-cluster distance เพิมขึนน้ อยทีสุด โดยค่ า Square within-cluster
                            ่ ้       ่
distance คือค่ า Square Euclidean distance ของแต่ ละ Case กับ
Cluster Mean
K-Means Cluster Analysis

        หลักการของเทคนิค K-Means Clustering
      เป็ นเทคนิคการจาแนก Case ออกเป็ นกลุ่มย่ อย จะใช้ เมือมีจานวน Case มาก
                                                           ่
โดยจะต้ องกาหนดจานวนกลุ่มหรือจานวน Cluster ทีต้องการ เช่ น กาหนดให้ มี k
                                                    ่
กลุ่ม เทคนิค K-Means จะมีการทางานหลาย ๆ รอบ (Iteration) โดยในแต่ ละรอบจะ
มีการรวม Cases ให้ ไปอยู่ในกลุ่มใดกลุ่มหนึ่ง โดยเลือกกลุ่มที่ Case นั้นมีระยะห่ าง
จากค่ ากลางของกลุ่มน้ อยทีสุด แล้ วคานวณค่ ากลางของกลุ่มใหม่ จะทาเช่ นนี้
                          ่
จนกระทังค่ ากลางของกลุ่มไม่ เปลียนแปลง หรือครบจานวนรอบทีกาหนดไว้
           ่                     ่                                ่
K-Means Cluster Analysis(ต่ อ)


    ตัวแปรทีใช้ ในเทคนิค K-Means Clustering จะต้ องเป็ นตัวแปรเชิง
             ่
ปริมาณ คือ เป็ นสเกลอันตรภาค(Interval Scale) หรือสเกลอัตราส่ วน
(Ration Scale) โดยไม่ สามารถใช้ กบข้ อมูลทีอยู่ในรู ปความถี่ หรือ
                                 ั         ่
Binary เหมือนเทคนิค Hierarchical
K-Means Cluster Analysis(ต่ อ)

         ขั้นตอนการวิเคราะห์ ของวิธี K-Means

   การวิเคราะห์ จาแนกกลุ่มด้ วยเทคนิควิธี K-Means Clustering
สามารถสรุ ป ขั้นตอนของการวิเคราะห์ ได้ 4 ขั้นตอนดังนี้
   ขั้นที่ 1 จัดกลุ่มข้อมูลเป็ น k กลุ่ม ซึ่ งมีการแบ่งได้หลายวิธีดงนี้
                                                                   ั
            - แบ่งอย่างสุ่ ม            - แบ่งด้วยผูศึกษาเอง
                                                    ้
   ขั้นที่ 2 คานวณหาจุดกึ่งกลางกลุ่มของแต่ละกลุ่ม เช่น จุดกลางกลุ่มของกลุ่มที่ C
K-Means Cluster Analysis(ต่ อ)
ขั้นที่ 3 มีวธีการพิจารณา 2 แบบ โดยจะคานวณ
               ิ
          แบบที่ 1 คานวณหาระยะห่างจากแต่ละหน่วยไปยังจุดกลางกลุ่มของทุก
กลุ่มและจะพิจารณาย้ายหน่วยไปยังกลุ่มที่มีระยะห่างต่าสุ ด
          แบบที่ 2 คานวณระยะห่างกาลังสองของแต่ละหน่วยไปยังจุดกลางกลุ่มที่
หน่วยนั้นอยู่ โดยให้ ESSZ(Error Sum Square) เท่ากับระยะห่างกาลังสองของแต่ละ
หน่วยไปยังจุดกลางกลุ่ม



             โดยที่ C ( i )      หมายถึง กลุ่มของหน่วยที่ i
                                 ESS = ผลบวกของระยะห่างจากแต่ละหน่วยใน
กลุ่มไปยังจุดกลางกลุ่มรวมทุกกลุ่ม กลุ่มใดที่มีค่า ESS ต่า แสดงว่าหน่วยที่อยูในกลุ่ม
                                                                            ่
นั้นมีความคล้ายคลึงกัน
K-Means Cluster Analysis(ต่ อ)

ขั้นที่ 4 การพิจารณาย้ายกลุ่ม จะใช้เกณฑ์การย้ายตามค่าที่คานวณได้ใน
ขั้นที่ 3
           แบบที่ 1 จะทาการย้ายหน่วยที่ i ไปยังกลุ่มที่ทาให้ระยะห่างจาก
หน่วยที่ i ไปยังจุดกลางกลุ่มมีค่าต่าสุ ด
           แบบที่ 2 จะทาการย้ายหน่วยที่ i ไปยังกลุ่มที่ทาให้คา ESS มีค่า
                                                                 ่
ต่าสุ ดถ้าขั้นที่ 4 ไม่มีการย้ายกลุ่มอีกแล้ว แสดงว่ากลุ่มที่แบ่งได้น้ น
                                                                      ั
เหมาะสมแล้ว แต่ถาในนั้นที่ 4 มีการย้ายกลุ่ม กลุ่มที่มีหน่วยย้ายเข้าหรื อย้าย
                       ้
ออกจะต้องทาการคานวณหาจุดกลางกลุ่มใหม่นนคือต้องกลับไปทาขั้นที่ 2
                                                   ั่
K-Means Cluster Analysis(ต่ อ)
 ข้ อแตกต่ างระหว่ างเทคนิค Hierarchical กับวิธี K-Means
1. เทคนิค K-Means ใช้ เมือมีจานวน Case หรือจานวนข้ อมูลมาก โดยทัวไป
                                 ่                                          ่
นิยมใช้ เมือ n ≥ 200 เพราะเมือ n มาก เทคนิค K-Means
           ่                       ่
2. เทคนิค K-Means นั้น ผู้ใช้ จะต้ องกาหนดจานวนกลุ่มทีแน่ นอนไว้
                                                               ่
ล่ วงหน้ ากรณีทผ้ ูวเิ คราะห์ ยงไม่ แน่ ใจว่ าควรมีกกลุ่มจึงจะเหมาะสม
                ี่             ั                    ี่
3. เทคนิค Hierarchical นั้น ผู้วเิ คราะห์ จะ Standardized ข้ อมูลหรือไม่ กได้
                                                                          ็
แต่ โดยวิธี K-Means จะต้ องทาการ Standardized ข้ อมูลก่ อนเสมอ
3. วิธี K-Means จะหาระยะห่ างโดยวิธี Euclidean Distance โดยอัตโนมัติ
ขณะที่ Hierarchical ผู้วเิ คราะห์ มสิทธิ์ทจะเลือกวิธีการคานวณระยะห่ าง หรือ
                                      ี        ี่
ความคล้ายได้
ข้ อแตกต่ างระหว่ างการจาแนกกลุ่มด้ วยเทคนิค Cluster Analysis
และเทคนิค Discriminant Analysis


            Cluster Analysis                   Discriminant Analysis

1. ไม่จาเป็ นต้องทราบก่อนว่ามีกี่กลุ่ม 1. ต้องทราบมาก่อนว่ามีกี่กลุ่ม โดยผูวจย
                                                                           ้ิั
                                       เป็ น
                                       ผูจดกลุ่มเอง และกาหนดเองว่าจะมีกี่กลุ่ม
                                         ้ั
2. ไม่ทราบมาก่อนว่า Case ใดอยูกลุ่มไหน 2. ทราบมาก่อนว่า Case ใดอยูกลุ่มไหน
                              ่                                       ่
                                       เนื่องจากผูวจยเป็ นผูจดกลุ่มมาก่อน
                                                  ้ิั       ้ั
3. ไม่มีสมการแสดงความสัมพันธ์          3. มีสมการแสดงความสัมพันธ์
ขั้นตอนการใช้ SPSS ในการจัดกลุ่ม Case

More Related Content

What's hot

Lecture7 การแปลงโมเดลแบบ E-R เป็นรูปแบบโมเดลเชิงสัมพันธ์
Lecture7 การแปลงโมเดลแบบ E-R เป็นรูปแบบโมเดลเชิงสัมพันธ์Lecture7 การแปลงโมเดลแบบ E-R เป็นรูปแบบโมเดลเชิงสัมพันธ์
Lecture7 การแปลงโมเดลแบบ E-R เป็นรูปแบบโมเดลเชิงสัมพันธ์
skiats
 
กราฟ ม.3
กราฟ ม.3กราฟ ม.3
กราฟ ม.3
krookay2012
 
เฉลย Pat2 55
เฉลย Pat2 55เฉลย Pat2 55
เฉลย Pat2 55
Watcharinz
 

What's hot (20)

การแยกตัวประกอบพหุนาม
การแยกตัวประกอบพหุนามการแยกตัวประกอบพหุนาม
การแยกตัวประกอบพหุนาม
 
Hierarchical clustering and topology for psychometric validation
Hierarchical clustering and topology for psychometric validationHierarchical clustering and topology for psychometric validation
Hierarchical clustering and topology for psychometric validation
 
SQL Joins and Query Optimization
SQL Joins and Query OptimizationSQL Joins and Query Optimization
SQL Joins and Query Optimization
 
เลขยกกำลัง_9วิชาสามัญ(55-58)
เลขยกกำลัง_9วิชาสามัญ(55-58)เลขยกกำลัง_9วิชาสามัญ(55-58)
เลขยกกำลัง_9วิชาสามัญ(55-58)
 
06 classification 2 bayesian and instance based classification
06 classification 2 bayesian and instance based classification06 classification 2 bayesian and instance based classification
06 classification 2 bayesian and instance based classification
 
Graphs, Trees, Paths and Their Representations
Graphs, Trees, Paths and Their RepresentationsGraphs, Trees, Paths and Their Representations
Graphs, Trees, Paths and Their Representations
 
Qaพยาบาลเสนอจังหวัด
QaพยาบาลเสนอจังหวัดQaพยาบาลเสนอจังหวัด
Qaพยาบาลเสนอจังหวัด
 
Lecture7 การแปลงโมเดลแบบ E-R เป็นรูปแบบโมเดลเชิงสัมพันธ์
Lecture7 การแปลงโมเดลแบบ E-R เป็นรูปแบบโมเดลเชิงสัมพันธ์Lecture7 การแปลงโมเดลแบบ E-R เป็นรูปแบบโมเดลเชิงสัมพันธ์
Lecture7 การแปลงโมเดลแบบ E-R เป็นรูปแบบโมเดลเชิงสัมพันธ์
 
กราฟ ม.3
กราฟ ม.3กราฟ ม.3
กราฟ ม.3
 
02 abc
02 abc02 abc
02 abc
 
Cure, Clustering Algorithm
Cure, Clustering AlgorithmCure, Clustering Algorithm
Cure, Clustering Algorithm
 
joins and subqueries in big data analysis
joins and subqueries in big data analysisjoins and subqueries in big data analysis
joins and subqueries in big data analysis
 
โรคเบาหวานและการตรวจวัด โดยอาจารย์ธราธิป เรืองวิทยานนท์
โรคเบาหวานและการตรวจวัด โดยอาจารย์ธราธิป เรืองวิทยานนท์โรคเบาหวานและการตรวจวัด โดยอาจารย์ธราธิป เรืองวิทยานนท์
โรคเบาหวานและการตรวจวัด โดยอาจารย์ธราธิป เรืองวิทยานนท์
 
รายงานวิจัยฉบับสมบูรณ์ การประเมินผล การดูแลผู้ป่วยโรคเบาหวานชนิดที่ 2 และความ...
รายงานวิจัยฉบับสมบูรณ์ การประเมินผล การดูแลผู้ป่วยโรคเบาหวานชนิดที่ 2 และความ...รายงานวิจัยฉบับสมบูรณ์ การประเมินผล การดูแลผู้ป่วยโรคเบาหวานชนิดที่ 2 และความ...
รายงานวิจัยฉบับสมบูรณ์ การประเมินผล การดูแลผู้ป่วยโรคเบาหวานชนิดที่ 2 และความ...
 
สูตรต่างๆ ในคำนวณในข้อสอบครูผู้ช่วย
สูตรต่างๆ ในคำนวณในข้อสอบครูผู้ช่วยสูตรต่างๆ ในคำนวณในข้อสอบครูผู้ช่วย
สูตรต่างๆ ในคำนวณในข้อสอบครูผู้ช่วย
 
คู่มือการใช้งานSpss
คู่มือการใช้งานSpssคู่มือการใช้งานSpss
คู่มือการใช้งานSpss
 
แบบฝึกทักษะเรื่องสถิติ O net
แบบฝึกทักษะเรื่องสถิติ O netแบบฝึกทักษะเรื่องสถิติ O net
แบบฝึกทักษะเรื่องสถิติ O net
 
DBMS Unit - 5 - Query processing and optimization
DBMS Unit - 5 - Query processing and optimizationDBMS Unit - 5 - Query processing and optimization
DBMS Unit - 5 - Query processing and optimization
 
เฉลย Pat2 55
เฉลย Pat2 55เฉลย Pat2 55
เฉลย Pat2 55
 
Sql group functions
Sql group functionsSql group functions
Sql group functions
 

Similar to 12 งานนำสนอ cluster analysis

2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์
2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์
2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์
othanatoso
 
ใบงานที่ 5 การพัฒนาเครื่องมือ
ใบงานที่ 5  การพัฒนาเครื่องมือใบงานที่ 5  การพัฒนาเครื่องมือ
ใบงานที่ 5 การพัฒนาเครื่องมือ
Rut' Np
 
แผนการจัดการเรียนรู้ที่ 10
แผนการจัดการเรียนรู้ที่ 10แผนการจัดการเรียนรู้ที่ 10
แผนการจัดการเรียนรู้ที่ 10
Aon Narinchoti
 
แผนการจัดการเรียนรู้ที่ 10
แผนการจัดการเรียนรู้ที่ 10แผนการจัดการเรียนรู้ที่ 10
แผนการจัดการเรียนรู้ที่ 10
Aon Narinchoti
 
ค่ากลางปี
ค่ากลางปีค่ากลางปี
ค่ากลางปี
anutree pankulab
 
การประยุกต์ของสมการเชิงเส้นตัวแปรเดียว
การประยุกต์ของสมการเชิงเส้นตัวแปรเดียวการประยุกต์ของสมการเชิงเส้นตัวแปรเดียว
การประยุกต์ของสมการเชิงเส้นตัวแปรเดียว
krusongkran
 
Week 5 scale_and_measurement
Week 5 scale_and_measurementWeek 5 scale_and_measurement
Week 5 scale_and_measurement
Sani Satjachaliao
 
สถิติเบื้องต้นกลุ่ม 2 สำรอง
สถิติเบื้องต้นกลุ่ม 2 สำรองสถิติเบื้องต้นกลุ่ม 2 สำรอง
สถิติเบื้องต้นกลุ่ม 2 สำรอง
ดา ดาลี่
 
สถิติเบื้องต้นกลุ่ม 2 สำรอง
สถิติเบื้องต้นกลุ่ม 2 สำรองสถิติเบื้องต้นกลุ่ม 2 สำรอง
สถิติเบื้องต้นกลุ่ม 2 สำรอง
ดา ดาลี่
 

Similar to 12 งานนำสนอ cluster analysis (20)

06
0606
06
 
2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์
2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์
2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์
 
ใบงานที่ 5 การพัฒนาเครื่องมือ
ใบงานที่ 5  การพัฒนาเครื่องมือใบงานที่ 5  การพัฒนาเครื่องมือ
ใบงานที่ 5 การพัฒนาเครื่องมือ
 
รายงาน
รายงานรายงาน
รายงาน
 
9789740333432
97897403334329789740333432
9789740333432
 
วิชาโปรแกรมสำเร็จรูปทางสถิติเพื่อการวิจัย
วิชาโปรแกรมสำเร็จรูปทางสถิติเพื่อการวิจัยวิชาโปรแกรมสำเร็จรูปทางสถิติเพื่อการวิจัย
วิชาโปรแกรมสำเร็จรูปทางสถิติเพื่อการวิจัย
 
แผนการจัดการเรียนรู้ที่ 10
แผนการจัดการเรียนรู้ที่ 10แผนการจัดการเรียนรู้ที่ 10
แผนการจัดการเรียนรู้ที่ 10
 
แผนการจัดการเรียนรู้ที่ 10
แผนการจัดการเรียนรู้ที่ 10แผนการจัดการเรียนรู้ที่ 10
แผนการจัดการเรียนรู้ที่ 10
 
Plan10
Plan10Plan10
Plan10
 
ค่ากลางปี
ค่ากลางปีค่ากลางปี
ค่ากลางปี
 
Random 121009010211-phpapp02
Random 121009010211-phpapp02Random 121009010211-phpapp02
Random 121009010211-phpapp02
 
การประยุกต์ของสมการเชิงเส้นตัวแปรเดียว
การประยุกต์ของสมการเชิงเส้นตัวแปรเดียวการประยุกต์ของสมการเชิงเส้นตัวแปรเดียว
การประยุกต์ของสมการเชิงเส้นตัวแปรเดียว
 
สถิติเพื่อการวิจัย
สถิติเพื่อการวิจัยสถิติเพื่อการวิจัย
สถิติเพื่อการวิจัย
 
การวัดการกระจายสัมพัทธ์
การวัดการกระจายสัมพัทธ์การวัดการกระจายสัมพัทธ์
การวัดการกระจายสัมพัทธ์
 
สรุปบทที่ 8
สรุปบทที่ 8สรุปบทที่ 8
สรุปบทที่ 8
 
Week 5 scale_and_measurement
Week 5 scale_and_measurementWeek 5 scale_and_measurement
Week 5 scale_and_measurement
 
สถิติเบื้องต้นกลุ่ม 2 สำรอง
สถิติเบื้องต้นกลุ่ม 2 สำรองสถิติเบื้องต้นกลุ่ม 2 สำรอง
สถิติเบื้องต้นกลุ่ม 2 สำรอง
 
สถิติเบื้องต้นกลุ่ม 2 สำรอง
สถิติเบื้องต้นกลุ่ม 2 สำรองสถิติเบื้องต้นกลุ่ม 2 สำรอง
สถิติเบื้องต้นกลุ่ม 2 สำรอง
 
ข้อสอบความคิดสร้างสรรค์
ข้อสอบความคิดสร้างสรรค์ข้อสอบความคิดสร้างสรรค์
ข้อสอบความคิดสร้างสรรค์
 
Thailand household's disparity of socioeconomic statust: A cluster analysis โ...
Thailand household's disparity of socioeconomic statust: A cluster analysis โ...Thailand household's disparity of socioeconomic statust: A cluster analysis โ...
Thailand household's disparity of socioeconomic statust: A cluster analysis โ...
 

12 งานนำสนอ cluster analysis

  • 2. การจัด Case (หมายถึง คน สั ตว์ สิ่ งของ หรือ องค์ กร ฯลฯ) หรือเป็ น การจัดตัวแปรออกเป็ นกลุ่มย่ อย ๆ ตั้งแต่ 2 กลุ่มขึนไป Case ทีอยู่ในกลุ่ม ้ ่ เดียวกันจะมีลกษณะทีเ่ หมือนกันหรือคล้ายกัน ส่ วน Case ทีอยู่ต่างกลุ่มกันจะมี ั ่ ลักษณะทีแตกต่ างกัน ่ ตัวแปรทีอยู่ในกลุ่มเดียวกันจะมีความสั มพันธ์ กนมากกว่ าตัวแปรทีอยู่ ่ ั ่ ต่ างกลุ่มกัน ตัวแปรทีอยู่ต่างกลุ่มกันจะมีความสั มพันธ์ กนน้ อยหรือไม่ มี ่ ั ความสั มพันธ์ กนเลย ั
  • 3. ตัวอย่ างที่ 1 ถ้าต้องการแบ่งกลุ่มคน 6 คน คือ นาย A,B,C,D,E,F โดยพิจารณาจากอายุและรายได้โดยมีขอมูลดังแสดงในตารางที่ 1 ้ ชื่อ รายได้ (1,000 อายุ(ปี ) บาท) A 5 25 B 6 26 C 15 34 D 16 35 E 25 40 F 30 39 www.themegallery.com Company Logo
  • 5. จากตัวอย่ างซึ่งเป็ นกราฟ 2 มิติ คืออายุและรายได้ หรือ 2 ตัวแปร เปาหมาย คือ จะแบ่ ง 6 คน(n =6) เป็ นกลุ่มย่ อย โดยให้ คนทีอยู่ในกลุ่มย่ อย ้ ่ เดียวกันมีอายุและรายได้ เท่ ากันหรือใกล้เคียงกันส่ วนคนทีอยู่ต่างกลุ่มกันจะมี ่ อายุและรายได้ แตกต่ างกัน จากการพล็อตกราฟอายุรายได้ ในตารางที่ 1 ทาให้ ตัดสิ นใจได้ ว่า ควรจะเป็ น 3 กลุ่ม กลุ่มที่ 1 : ประกอบด้ วยนาย A และ B ซึ่งมีอายุน้อยและรายได้ ต่า กลุ่มที่ 2 : ประกอบด้ วยนาย C และ D ซึ่งมีอายุกลางคน (34-35 ปี ) และรายได้ ปานกลาง กลุ่มที่ 3 : ประกอบด้ วยนาย E และ F ซึ่งมีอายุกลางคน (39-40 ปี ) และรายได้ มาก
  • 6. วัตถุประสงค์ ของการวิเคราะห์ จดกลุ่ม ั Cluster Analysis การวิเคราะห์กลุ่มเป็ นเทคนิคที่ใช้ในการจัดกลุ่มโดยไม่ทราบมาก่อน ว่าควรมีกี่กลุ่ม แต่จะแบ่งตามค่าของตัวแปรที่นามาใช้ในการแบ่ง โดยให้หน่วยที่อยูในกลุ่มเดียวกัน มีความคล้ายกันในตัวแปรที่ศึกษา ่ แต่หน่วยที่อยูต่างกลุ่มกันจะมีความต่างกัน ดังเช่นในตัวอย่างที่ 1 ่ คนที่อยูในกลุ่มเดียวกันมีอายุและรายได้ใกล้เคียงกัน สาหรับ ่ วัตถุประสงค์ของการแบ่งกลุ่มหรื อจัดกลุ่มจะขึ้นกับสาขาที่จะนาไป ประยุกต์ใช้
  • 7. การนาเทคนิคการวิเคราะห์กลุ่มไปใช้ในงานด้านต่าง ๆ จะพบว่าการเลือกตัวแปรที่นามาใช้ในการจัดกลุ่มนั้นมีความสาคัญ มาก ถ้าผูวจยเลือกตัวแปรที่ไม่ได้ทาให้คนที่อยูต่างกลุ่มกันมี ้ิั ่ ความแตกต่างกันแล้ว จะทาให้ไม่สามารถจัดกลุ่มได้ถกต้อง เช่น ู ด้านการตลาด ซึ่งเป็ นการจัดกลุ่มพื้นที่หรื อจังหวัด ผูวจยจะต้อง ้ิั ศึกษาว่า ตัวแปรใดบ้างที่มีอิทธิพลที่ทาให้กลุ่มต่าง ๆ เช่น จานวน ประชากร รายได้เฉลี่ย อาชีพ สภาวะเศรษฐกิจ
  • 8. สุ ชาติ ประสิ ทธิรัฐสิ นธ์(2540) ได้กล่าวถึงวัตถุประสงค์ของ เทคนิควิธี Cluster Analysis ว่า เทคนิค Cluster Analysis มีวตถุประสงค์ที่ ั สาคัญอยู่ 2 ประการ คือ การจัดกลุ่มหน่วยวิเคราะห์ การจัดกลุ่มตัวแปร ซึ่งมีความสอดคล้องกับ กัลยา วานิชย์ บัญชา (2548) และสามารถกล่าว โดยรวมคือ เพื่อจัดกลุ่ม Case ซึ่งจะเป็ นประโยชน์ในงานด้านต่าง ๆ เ ช่น การตลาด การแพทย์ การปกครอง ฯลฯ
  • 9. ข้ อตกลงเบืองต้ นเกียวกับการวิเคราะห์ จดกลุ่ม ้ ่ ั Cluster Analysis 1. ไม่ ทราบจานวนกลุ่มมาก่อนว่ ามีกกลุ่ม ี่ 2. ไม่ ทราบมาก่อนว่ าหน่ วยหรือคนใดจะอยู่กลุ่มใด 3. หน่ วยหรือคนใดคนหนึ่งจะต้ องอยู่กลุ่มใดกลุ่มหนึ่งเพียง กลุ่มเดียว 4. ตัวแปรทีใช้ ในการแบ่ งมีมากกว่ า 1 ตัวและตัวแปรอาจจะเป็ นตัวแปรที่มี ่ ค่ าได้ เพียง 1 ค่ าหรือตัวแปรเชิงคุณภาพหรือตัวแปรเชิงปริมาณ
  • 10.
  • 11. สาหรับการวิเคราะห์จดกลุ่มหน่วยวิเคราะห์ผวิจย ั ู้ ั 1 ความต้ องการ อาจใช้ขอมูลที่ระบุหน่วยวิเคราะห์และตัวแปรตามที่จดเก็บมาได้เลย ้ ั ทางด้ านข้ อมูล • สิ่ งสาคัญที่สุดของการวิเคราะห์การจัดกลุ่มคือ ตัวแปรที่ 2 แนวคิดพืนฐาน ้ ใช้ หากผูวิจยไม่ได้เก็บข้อมูลเกี่ยวกับตัวแปรที่สาคัญ ๆ ้ ั ็ •ผลที่ได้กจะไม่ดีหรื อทาให้ไขว้เขวได้ ความคิดเกียวกับความคล้ายของหน่ วยศึกษา เป็ นเทคนิคของการ ่ 3 ความคล้ายกันของ วิเคราะห์ ทางสถิตหลายวิธี โดยทั่วไปการวัดความคล้ายจะพิจารณา ิ หน่ วย จากความห่ างระหว่างวัตถุ หรือพิจารณาจากความคล้ายกัน วิธีการวัดความห่ างสามารถวัดได้ หลายวิธี วิธีการหนึ่งที่นิยม 4 การวัดความห่ าง วัดกันมากก็คอ วิธีที่เรียกว่า ระยะห่ างเชิงยูคลิดยกกาลังสอง (Squared ื Euclidean distance)คือ ผลรวมของผลต่ างยกกาลังสองของทุกตัวแปร
  • 12. เทคนิค Cluster Analysis แบ่งเป็ นหลายประเภทหรื อเทคนิคย่อย ั โดยเทคนิคที่ใช้กนมากมี 2 เทคนิค คือ 1 Hierarchical Cluster Analysis 2 K-Means Cluster Analysis
  • 13. เป็ นเทคนิคที่นิยมใช้กนมากในการแบ่งกลุ่ม Case หรื อ ั แบ่งกลุ่มตัวแปร โดยมีเงื่อนไขดังนี้ 1 ในกรณีที่ใช้ ในการแบ่ ง Case นั้น จานวน Case ต้ องไม่ มากนัก (จานวน Case ควรตากว่า 200 ่ ถ้ าตั้งแต่ 200 ขึนไปใช้ K-Means Cluster) และจานวนตัวแปรต้ องไม่ มาก ้ 2 ไม่จาเป็ นต้องทราบจานวนกลุ่มมาก่อน 3 ไม่จาเป็ นเป็ นต้องทราบว่าตัวแปรใดหรื อ Case ใดอยูกลุ่มใดก่อน ่
  • 14. ขั้นตอนของเทคนิค Hierarchical Cluster สาหรับการแบ่ งกลุ่ม Case 1 ขั้นที่ 1 เลือกตัวแปรหรื อปั จจัยที่คาดว่ามีอิทธิพลที่ทาให้ Case ต่างกัน ตัวแปร จะทาให้สามารถแบ่งกลุ่ม Case ได้ชดเจน ขั้นตอนนี้เป็ นขั้นตอนที่สาคัญ ั 2 ขั้นที่ 2ที่เลือกวิธีการวัดระยะห่างระหว่าง Case แต่ละคู่ หรื อเลือก วิธีการคานวณเพื่อวัดค่า ความคล้ายของ Case แต่ละคู่ 3 เลือกหลักเกณฑ์ในการรวมกลุ่ม หรื อรวม Cluster
  • 15. การวัดความคล้ าย (Similarity Measure) การวัดความคล้ายกันของ Case ทีละคู่ ในกรณี ที่เป็ นการจัดกลุ่ม Case ส่ วนการจัดกลุ่มตัวแปร การวัดความคล้ายจะเป็ นการวัดความคล้าย ของตัวแปรแต่ละคู่ คือ การหาค่าสัมประสิ ทธิ์ สหสัมพันธ์เมื่อต้องการจัด กลุ่ม Case จะต้องหาความคล้ายของ Case ถึง C คู่ เมื่อมีขอมูล Case = n ้ แต่ถาต้องการจัดกลุ่มตัวแปรจะต้องหาความสัมพันธ์ของตัวแปรทีละคู่ ้ รวมถึง C คู่ เมื่อมีตวแปร k ตัว การวัดความคล้ายของ Case แต่ละคู่ ั อาจจะวัดด้วยระยะห่ าง (Distance) หรื อวัดด้วยค่าความคล้าย (Similarity) แต่การวัดความสัมพันธ์ของตัวแปรจะวัดด้วยค่าสัมประสิ ทธิ์ สหสัมพันธ์ เพียร์สัน (Pearson correlation)
  • 16. การวัดความคล้ าย (Similarity Measure)(ต่ อ) สาหรับวิธีการคานวณระยะห่ าง หรื อค่าความคล้ายของ Case แต่ละคู่ จะแตกต่างกันเมื่อชนิ ดของข้อมูลต่างกัน ซึ่ งชนิดของข้อมูลหรื อตัวแปรที่สามารถ ใช้เทคนิค Hierarchical Cluster ได้ มี 3 ประเภท คือ 1. ข้อมูลเป็ นสเกลอันตรภาค (Interval scale) หรื อสเกลอัตราส่ วน (Ratio scale) ่ 2. ข้อมูลที่อยูในรู ปความถี่ (Count Data) ่ ่ 3. ข้อมูลอยูในรู ป Binary นันคือ มีได้ 2 ค่า คือ 0 กับ 1 หรื อกล่าวได้วา ่ ข้อมูลที่นามาใช้ในเทคนิค Hierarchical จะเป็ นข้อมูลชนิดตัวเลข หรื อเป็ นเชิง ่ ปริ มาณ (Interval หรื อ Ratio scale) หรื อข้อมูลอยูในรู ปความถี่ หรื อ Binary
  • 17. หลักการการรวมกลุ่ม (Methods for Combining Cluster) สาหรับหลักการในการรวมกลุ่มของเทคนิค Hierarchical Cluster นั้นมีหลายวิธี วิธีที่นิยมกันมาก คือ Agglomerative Hierarchical Cluster Analysis หรื อในโปรแกรม SPSS เรี ยกว่า Agglomerative Schedule ซึ่งหลักการเกณฑ์ของ Agglomerative schedule จะทาการรวมกลุ่ม Cluster อย่างเป็ นขั้นตอนดังนี้ ขั้นที1 ่ ขั้นที2 ่ ขั้นที3,4 ่ รวม Case 2 Case พิจารณาว่ าควรจะรวม ในแต่ละขั้นอาจจะรวม Case ที่ 3 เข้ าอยู่ใน Case ใหม่เข้าไปใน ให้อยูในกลุ่ม ่ กลุ่มเดียวกับ 2 Case กลุ่มที่มีอยูแล้ว หรื อ ่ เดียวกัน หรื อ แรก หรือควรจะรวม 2 รวม Case ใหม่ 2 Case Cluster เดียวกัน Case ใหม่ เข้ าอยู่ใน เป็ นกลุ่มใหม่ ทาเช่นนี้ กลุ่มใหม่ อกกลุ่มหนึ่ง ี โดย พิจารณาจาก ไปเรื่ อย ๆ จนกระทัง ่ โดยพิจารณาจากค่ า ค่าระยะห่างหรื อค่า ระยะห่ างหรือค่ าความ ได้ ทุก Case อยูในกลุ่ม ่ ความคล้าย คล้ าย เดียวกัน นันคือ สุ ดท้าย ่ มีเพียง 1 กลุ่ม
  • 18. หลักเกณฑ์ ในการรวมกลุ่ม 1. Between – groups Linkage หรื อเรี ยกว่าวิธี Average Linkage Between Groups หรื อเรี ยกกว่า UPGMA (Unweightede Pair-Group Method Using Arithmetic Average)
  • 19. พิจารณาว่ า ควรรวม cluster ที่ i และ j ไว้ ด้วยกันหรือรวม cluster ที่ i และ k หรือควรจะรวม cluster ที่ j และ k ไว้ ด้วยกัน โดยพิจารณาระห่ างเฉลีย ่ ระหว่ าง cluster เช่ น d = ระยะห่ างเฉลีย ของ cluster ที่ i และ j ่ d = ระยะห่ างเฉลีย ของ cluster ที่ i และ j ่ d = ระยะห่ างเฉลีย ของ cluster ที่ i และ j ่ เลือกรวม cluster ทีมระยะห่ างเฉลียตาสุ ด เช่ น จากตัวอย่ างนีได้ ค่าระหว่ าง ่ ี ่ ่ ้ d ตาสุ ด ก็จะรวม cluster I และ k เข้ าด้ วยกัน ่
  • 20. 2. Within-group Linkage Technique หรื อเรี ยกว่า Average Linkage Within Groups Method วิธีน้ ีจะรวม Cluster เข้าด้วยกันถ้าระยะห่ างเฉลี่ยระหว่างทุก Case ใน Cluster นั้น ๆ มีค่าน้อยที่สุด
  • 21. 3. Nearest Neighbor หรือเรียกว่ า Single Linkage ในทีนี้ d ระยะห่างที่ส้ ันที่สุดของ cluster i และ j ่ d ระยะห่างที่ส้ ันที่สุดของ cluster i และ k d ระยะห่างที่ส้ ันที่สุดของ cluster j และ k ่ หาค่าต่าสุ ด d , d และ d , d ถ้าได้วา d ต่าสุ ดก็จะรวม cluster k และ j เข้าด้วยกัน
  • 22. 4. Furthest Neighbor Technique หรื อเรี ยกว่า Complete Linkage d ระยะห่างที่ยาวที่สุดของ cluster i และ j d ระยะห่างที่ยาวที่สุดของ cluster i และ k d ระยะห่างที่ยาวที่สุดของ cluster k และ j ่ แล้วเปรี ยบเทียบค่า d ,d ,d เลือกค่าต่าสุ ด ถ้าได้วา d ต่าสุ ด ก็รวม cluster i และ k เข้าด้วยกัน
  • 23. 5. Centroid Clustering เป็ นการรวม cluster 2 cluster เข้าด้วยกัน โดยพิจารณาจากระยะห่างของจุดกลางของ cluster 2 cluster โดยที่ d ระยะห่างจุดกลางของ cluster ที่ i และ cluster ที่ j d ระยะห่างจุดกลางของ cluster ที่ i และ cluster ที่ k d ระยะห่างจุดกลางของ cluster ที่ j และ cluster ที่ k แล้วเลือกค่าระยะห่างที่ต่าสุ ด เช่น ถ้าได้ d ต่าสุ ด ก็จะรวม cluster k และ j เข้าด้วยกัน
  • 24. 6. Median Clustering วิธีนีจะรวม Cluster 2 Cluster เข้ าด้ วยกัน โดยให้ แต่ ละ Cluster ้ สาคัญเท่ ากัน(ให้ นาหนักเท่ ากัน) ในขณะทีวธีของ Centroid Clustering ้ ่ิ จะให้ ความสาคัญแก่ Cluster มีขนาดใหญ่ มากกว่ า Cluster ทีมีขนาดเล็ก ่ (ให้ นาหนักไม่ เท่ ากัน) Median Clustering จะใช้ ค่า Median เป็ นค่ ากลาง ้ ของ Centroid ถ้ าระยะห่ าง ระหว่ างค่ า Median ของ Clustering จะใช้ ค่า Median เป็ นค่ ากลางของ Centroid ถ้ าระยะห่ าง ระหว่ างค่ า Median ของ Cluster คู่ใดตาจะรวม Cluster คู่น้ันเข้ าด้ วยกัน ่
  • 25. 7. Ward’s Method หลักการของวิธีนีจะพิจารณาจากค่ า Sum of the squared ้ within-cluster distance โดยจะรวม Cluster ทีทาให้ ค่า Sum of square ่ within-cluster distance เพิมขึนน้ อยทีสุด โดยค่ า Square within-cluster ่ ้ ่ distance คือค่ า Square Euclidean distance ของแต่ ละ Case กับ Cluster Mean
  • 26. K-Means Cluster Analysis หลักการของเทคนิค K-Means Clustering เป็ นเทคนิคการจาแนก Case ออกเป็ นกลุ่มย่ อย จะใช้ เมือมีจานวน Case มาก ่ โดยจะต้ องกาหนดจานวนกลุ่มหรือจานวน Cluster ทีต้องการ เช่ น กาหนดให้ มี k ่ กลุ่ม เทคนิค K-Means จะมีการทางานหลาย ๆ รอบ (Iteration) โดยในแต่ ละรอบจะ มีการรวม Cases ให้ ไปอยู่ในกลุ่มใดกลุ่มหนึ่ง โดยเลือกกลุ่มที่ Case นั้นมีระยะห่ าง จากค่ ากลางของกลุ่มน้ อยทีสุด แล้ วคานวณค่ ากลางของกลุ่มใหม่ จะทาเช่ นนี้ ่ จนกระทังค่ ากลางของกลุ่มไม่ เปลียนแปลง หรือครบจานวนรอบทีกาหนดไว้ ่ ่ ่
  • 27. K-Means Cluster Analysis(ต่ อ) ตัวแปรทีใช้ ในเทคนิค K-Means Clustering จะต้ องเป็ นตัวแปรเชิง ่ ปริมาณ คือ เป็ นสเกลอันตรภาค(Interval Scale) หรือสเกลอัตราส่ วน (Ration Scale) โดยไม่ สามารถใช้ กบข้ อมูลทีอยู่ในรู ปความถี่ หรือ ั ่ Binary เหมือนเทคนิค Hierarchical
  • 28. K-Means Cluster Analysis(ต่ อ) ขั้นตอนการวิเคราะห์ ของวิธี K-Means การวิเคราะห์ จาแนกกลุ่มด้ วยเทคนิควิธี K-Means Clustering สามารถสรุ ป ขั้นตอนของการวิเคราะห์ ได้ 4 ขั้นตอนดังนี้ ขั้นที่ 1 จัดกลุ่มข้อมูลเป็ น k กลุ่ม ซึ่ งมีการแบ่งได้หลายวิธีดงนี้ ั - แบ่งอย่างสุ่ ม - แบ่งด้วยผูศึกษาเอง ้ ขั้นที่ 2 คานวณหาจุดกึ่งกลางกลุ่มของแต่ละกลุ่ม เช่น จุดกลางกลุ่มของกลุ่มที่ C
  • 29. K-Means Cluster Analysis(ต่ อ) ขั้นที่ 3 มีวธีการพิจารณา 2 แบบ โดยจะคานวณ ิ แบบที่ 1 คานวณหาระยะห่างจากแต่ละหน่วยไปยังจุดกลางกลุ่มของทุก กลุ่มและจะพิจารณาย้ายหน่วยไปยังกลุ่มที่มีระยะห่างต่าสุ ด แบบที่ 2 คานวณระยะห่างกาลังสองของแต่ละหน่วยไปยังจุดกลางกลุ่มที่ หน่วยนั้นอยู่ โดยให้ ESSZ(Error Sum Square) เท่ากับระยะห่างกาลังสองของแต่ละ หน่วยไปยังจุดกลางกลุ่ม โดยที่ C ( i ) หมายถึง กลุ่มของหน่วยที่ i ESS = ผลบวกของระยะห่างจากแต่ละหน่วยใน กลุ่มไปยังจุดกลางกลุ่มรวมทุกกลุ่ม กลุ่มใดที่มีค่า ESS ต่า แสดงว่าหน่วยที่อยูในกลุ่ม ่ นั้นมีความคล้ายคลึงกัน
  • 30. K-Means Cluster Analysis(ต่ อ) ขั้นที่ 4 การพิจารณาย้ายกลุ่ม จะใช้เกณฑ์การย้ายตามค่าที่คานวณได้ใน ขั้นที่ 3 แบบที่ 1 จะทาการย้ายหน่วยที่ i ไปยังกลุ่มที่ทาให้ระยะห่างจาก หน่วยที่ i ไปยังจุดกลางกลุ่มมีค่าต่าสุ ด แบบที่ 2 จะทาการย้ายหน่วยที่ i ไปยังกลุ่มที่ทาให้คา ESS มีค่า ่ ต่าสุ ดถ้าขั้นที่ 4 ไม่มีการย้ายกลุ่มอีกแล้ว แสดงว่ากลุ่มที่แบ่งได้น้ น ั เหมาะสมแล้ว แต่ถาในนั้นที่ 4 มีการย้ายกลุ่ม กลุ่มที่มีหน่วยย้ายเข้าหรื อย้าย ้ ออกจะต้องทาการคานวณหาจุดกลางกลุ่มใหม่นนคือต้องกลับไปทาขั้นที่ 2 ั่
  • 31. K-Means Cluster Analysis(ต่ อ) ข้ อแตกต่ างระหว่ างเทคนิค Hierarchical กับวิธี K-Means 1. เทคนิค K-Means ใช้ เมือมีจานวน Case หรือจานวนข้ อมูลมาก โดยทัวไป ่ ่ นิยมใช้ เมือ n ≥ 200 เพราะเมือ n มาก เทคนิค K-Means ่ ่ 2. เทคนิค K-Means นั้น ผู้ใช้ จะต้ องกาหนดจานวนกลุ่มทีแน่ นอนไว้ ่ ล่ วงหน้ ากรณีทผ้ ูวเิ คราะห์ ยงไม่ แน่ ใจว่ าควรมีกกลุ่มจึงจะเหมาะสม ี่ ั ี่ 3. เทคนิค Hierarchical นั้น ผู้วเิ คราะห์ จะ Standardized ข้ อมูลหรือไม่ กได้ ็ แต่ โดยวิธี K-Means จะต้ องทาการ Standardized ข้ อมูลก่ อนเสมอ 3. วิธี K-Means จะหาระยะห่ างโดยวิธี Euclidean Distance โดยอัตโนมัติ ขณะที่ Hierarchical ผู้วเิ คราะห์ มสิทธิ์ทจะเลือกวิธีการคานวณระยะห่ าง หรือ ี ี่ ความคล้ายได้
  • 32. ข้ อแตกต่ างระหว่ างการจาแนกกลุ่มด้ วยเทคนิค Cluster Analysis และเทคนิค Discriminant Analysis Cluster Analysis Discriminant Analysis 1. ไม่จาเป็ นต้องทราบก่อนว่ามีกี่กลุ่ม 1. ต้องทราบมาก่อนว่ามีกี่กลุ่ม โดยผูวจย ้ิั เป็ น ผูจดกลุ่มเอง และกาหนดเองว่าจะมีกี่กลุ่ม ้ั 2. ไม่ทราบมาก่อนว่า Case ใดอยูกลุ่มไหน 2. ทราบมาก่อนว่า Case ใดอยูกลุ่มไหน ่ ่ เนื่องจากผูวจยเป็ นผูจดกลุ่มมาก่อน ้ิั ้ั 3. ไม่มีสมการแสดงความสัมพันธ์ 3. มีสมการแสดงความสัมพันธ์