SlideShare a Scribd company logo
1 of 35
Online Reputation Management
          và Sentiment Analysis
        MINH, Lê Ngọc & NGỌC, Đỗ Bích
                  ePi Technologies, JSC.
05/07: Bán chiếc Galaxy S2 đầu tiên.



07/08: Thread trên tinhte về lỗi hồng tâm (namanh18102007).



11/08: Vietnamnet: Sự thất vọng mang
tên Galaxy S2.

14/08: Samsung Vina phản hồi về lỗi.



16/08: Samsung Vina sửa lỗi cho namanh18102007.
                                                              2
Danh tiếng




             • Danh tiếng
               [Reputation]
             • Danh tiếng trực tuyến
               [Online reputation].




                                   3
Bạn có cần bảo vệ danh tiếng trên mạng?
              Thương hiệu
                                                 Đời tư
                                  Bị bạn gái cũ
                                  nói xấu trên
                                     mạng!




  Công việc
                               Người nổi tiếng
                                                          4
Online Reputation Management (ORM)




                                     5
Thị trường ORM


• Năm 2008: ORM tăng trưởng 30% ước tính đạt giá trị £60 triệu vào cuối
  năm 2008 (*).
• Ước tính: Năm 2008, $100 triệu được chi cho các dịch vụ ORM, vào năm
  2011 con số này tăng hơn gấp đôi, khoảng $250 triệu (**).
• Năm 2011: Salesforce mua công ty Radian6 với giá $326 triệu (***).




   * E-consultancy
   ** Online-Reputation-Management.us
   *** techcrunch.com

                                                                          6
Khách hàng của ORM




                     7
Dịch vụ ORM trên thế giới




                            8
Dịch vụ ORM ở Việt Nam




                         9
Tính năng của một dịch vụ ORM


                       Theo
                        dõi



             Tác                Phân
            động      ORM        tích



                        Báo
                        cáo

                                        10
11
• Nguồn dữ liệu đang theo dõi hiện tại:
    • Tin tức: 165
    • Forum: 21
    • Mạng xã hội: Facebook, Youtube.
    • Dự kiến: linkhay, ZingMe, Twitter.
• Bất kz nguồn dữ liệu nào (blog, forum, tin tức…) khách hàng yêu cầu.




                                                                         12
Bài toán phân tích ý kiến
Bài toán phân tích ý kiến
                                  (*) Tìm kiếm trên 3 từ khóa
                                  "sentiment analysis", “sentiment
                                  classification” và "opinion mining" .
• Opinion Mining
• Sentiment Analysis          Số bài báo trên Google Scholar *
                       4500
                       4000
                       3500
                       3000
                       2500
                       2000
                       1500
                       1000
                       500
                          0
                          2000    2002   2004    2006   2008     2010
                                                                          14
Ý kiến


                                             • “Máy tạo cảm giác rất chắc
                   Ai phát                     chắn và đầm tay do báng
                    biểu                       được bọc cao su chống trơn
                             Người viết        trượt” - Canon 550D đơn
 Thời
                                               giản nhưng mạnh mẽ.
 điểm                            Về cái gì
                                            • Khi sử dụng trong khoảng 15
  nói               Ý                         phút, máy chỉ hơi ấm lên một
                  kiến            Vaio dòng E chút và nhiều nhất ở vùng bên
                                  Canon 550D
 Tốt                                          cạnh touchpad nhưng điều
                                              này có thể chấp nhận được -
                             Khía             Vaio dòng E phong cách, hiệu
        Tốt hay
                             cạnh
          xấu                                 suất cao.
                              nào

                    Tản
                  Thiết kế
                   nhiệt                                                      15
Bài toán phân tích ý kiến tiếng Việt


• Không thể áp dụng
  hoàn toàn các nghiên
  cứu tiếng Anh cho tiếng
  Việt:
   • Từ đa tiếng.
   • Văn phạm phức
     tạp, chưa thống nhất.
   • Không có kho ngữ liệu
     lớn.

                                       16
Các vấn đề trong phân tích ý kiến
                      tiếng Việt
Các vấn đề trong phân tích ý kiến tiếng Việt


1.   Xác định khía cạnh.
2.   Vấn đề đồng tham chiếu.
3.   Cách diễn đạt ý kiến.
4.   Ý kiến cho cả tài liệu.
5.   Vấn đề ngôn ngữ.




                                               18
Khía cạnh


• Khía cạnh là gì:
    • VD: màn hình, màu sắc là khía cạnh của điện thoại…
• Tại sao phải xác định khía cạnh?
    • Thống kê ý kiến trên một khía cạnh nào đó.
• Việc biểu diễn khía cạnh:
    • “Chiếc điện thoại trông rất bắt mắt”.
    • “Máy có thể sử dụng liên tục từ 5-6 tiếng”.
    • “Máy không để vừa túi quần”.




                                                           19
Đồng tham chiếu


•   Nếu các mẫu laptop trước đây của Acer bị chê là dày và nặng hơn so với các
    hãng khác thì Aspire 3935 sẽ thay đổi quan điểm này. Máy có vỏ kim loại sáng
    loáng, thân chỉ dày khoảng 2,54 cm nên tính di động rất cao.
•   BlackBerry Curve 8900 là sự lai tạp giữa thiết kế của Curve 8310 và Bold 9000.
    Máy sở hữu bộ khung của máy chắc chắn, kiểu dáng theo truyền thống của
    hãng.
•   “Được thiết kế theo phong cách DSLR nhưng Canon PowerShot SX40 HS có
    zoom quang khủng 35x (…). Là bản nâng cấp từ SX30IS ra mắt năm
    ngoái, phiên bản mới mặc dù hình dáng gần như không khác so với người tiền
    nhiệm với (…)”.
•   “Beetle 2012 lấy cảm hứng từ chiếc Beelte Ragster Concept, giới thiệu tại
    triễn lãm Detroit năm 2005. "Con bọ" mới có chiều dài 4.278 mm, rộng 1.808
    mm, và cao 1.486 mm. Không gian bên trong cũng tăng lên đáng kể, đạt đến
    310 lít”.
                                                                                20
Cách diễn đạt ý kiến

•   Trực tiếp hoặc gián tiếp:
     • “Vừa sắm được chiếc laptop này là mình liền đi khoe với tất cả bạn bè”.
•   Nhiều ý kiến trong một câu:
     • “Chất lượng ảnh đáng kinh ngạc và pin dùng rất lâu nhưng ống ngắm bé quá”.
•   Phân biệt ý kiến với thông số kỹ thuật:
     • “Chiếc máy này khá nặng”.
     • “Chiếc máy này nặng khoảng 3kg”.
•   Ý nghĩa của cách diễn đạt:
     • Pin có thể dùng được 3 tiếng.
     • Pin chỉ dùng được mỗi 3 tiếng.
     • Pin dùng được những 3 tiếng.



                                                                                    21
Ý kiến chung cho cả tài liệu


• Tạo hóa đã định ra quy luật “già là phải yếu”, cứ hễ bước qua ngưỡng 50
  là chức năng các bộ phận chính trong cơ thể bị suy giảm, hệ miễn dịch
  cũng dần bị “xuống cấp” làm cho người cao tuổi hay mắc nhiều chứng
  bệnh mà thời trẻ chưa bao giờ biết đến…
• Vinamilk Sure Prevent là sản phẩm dinh dưỡng đặc biệt dành cho người
  cao tuổi có chứa Plant Sterol…




                                                                            22
Vấn đề ngôn ngữ


• Mỉa mai:
    • “Chiếc xe thật tuyệt vời, mới hai ngày đã chết máy”.
    • “Công dụng tuyệt vời nhất của chiếc điện thoại này là chặn giấy”.
• Tu từ, câu nghi vấn:
    • “Không biết sắp tới Canon có thành công hay không?”
    • “Laptop này mà tốt thì chẳng còn cái gì dở nữa!”




                                                                          23
Vấn đề ngôn ngữ (tiếp)

                          Bo ve
• Tiếng việt không dấu:   ngay, me
                          dang om 1
                          thang nam
                          tren giuong!




                                          Bố về ngay, mẹ
                                         đang ốm 1 tháng
                                            nằm trên
                                             giường!



                                                           24
Vấn đề ngôn ngữ (tiếp)


• Ngôn ngữ xì-tin:



                     ][(¬Cl¥ ]_µ(' ][Cl¥' ])Cl¥ PvF_
                     (Cl/v? ††|Cl¥' /v++*†|` 3Cl†'
                     +_µ( , ¥F_µ' +)µº+',††|+F_µ'
                     3Cl+*? +_++*†|~ +<†|+
                     +<†|º+*(¬ ††|F_? +_º
                     +_Cl+*(¬'(†|ºF_/v+*†|µ+*(¬µº
                     +`+<†|Cl('.



                                                       25
Vấn đề ngôn ngữ (tiếp)


• Emoticon:




              Điện thoại này bền lắm
                        :((




                                       26
ePi giải quyết bài toán phân tích ý
                              kiến
                      như thế nào
Sơ đồ hệ thống

                              Tiền xử lý
                                      Xác định thực    Phân giải đồng
      Tách từ         Gán nhãn từ
                                           thể          tham chiếu




                             Cơ sở dữ liệu

            Các thuật ngữ               Quan hệ giữa các thuật ngữ




                            Phân tích ý kiến


                                                                        28
Giải quyết bài toán phân tích ý kiến

•   Cách tiếp cận: Dựa trên luật.
•   Các bước tiến hành:
     • Phân tích cú pháp nông để xác
       định các cụm từ có quan hệ
       với nhau.
     • Xác định quan hệ của các cụm
       từ:
         • Có phải là quan hệ ý kiến
           không?
         • Có liên quan tới văn cảnh
           chung không?
     • Dùng các thuật toán thống kê
       đánh giá ý kiến chung của văn
       bản.



                                       29
Xây dựng bộ dữ liệu


• Xây dựng cơ sở dũ liệu cho chủ đề hẹp:
    • Điện thoại di động.
    • Laptop.
    • …
• Cơ sở dữ liệu hiện tại:
    • Từ chỉ quan điểm: 479 (không có ngữ cảnh) + 7450 (có ngữ cảnh).
    • Khía cạnh: 1646.
    • Sản phẩm: 14241.
    • Địa danh: 3197 (của Việt Nam) + 2317 (của thế giới).
    • Người: 6350.

                                                                        30
ePi ORM: Hệ thống hiện tại




                             31
ePi ORM: Hệ thống hiện tại (tiếp)




                                    32
ePi Lab: Sentiment Analysis




                              33
Hướng phát triển


• Phân tích ý kiến:
    • Bộ luật phát hiện có thể được bổ sung.
    •   Kết hợp các cách tiếp cận khác.
         • Thống kê.
         • Học (không giám sát, giám sát hay nửa giám sát).

• Dữ liệu:
    • Thực phẩm, đồ uống.
    • Người nổi tiếng.




                                                              34
35

More Related Content

Viewers also liked

4410691 d 11d9-47f6-9620-db62c6663b70
4410691 d 11d9-47f6-9620-db62c6663b704410691 d 11d9-47f6-9620-db62c6663b70
4410691 d 11d9-47f6-9620-db62c6663b70lola caravaca
 
Sectors of the economy alonso
Sectors of the economy alonsoSectors of the economy alonso
Sectors of the economy alonsolola caravaca
 
Thesis1 final
Thesis1 finalThesis1 final
Thesis1 finalalimac326
 
Health and illnesses
Health and illnessesHealth and illnesses
Health and illnesseslola caravaca
 
Best practiclessme2012
Best practiclessme2012Best practiclessme2012
Best practiclessme2012VIRTA s.r.o.
 
2007 05-newsletter
2007 05-newsletter2007 05-newsletter
2007 05-newslettergorin2008
 
How deep is your love
How deep is your loveHow deep is your love
How deep is your loveevei
 
Apr june2010
Apr june2010Apr june2010
Apr june2010gorin2008
 
Source Code Trailer Analysis
Source Code Trailer AnalysisSource Code Trailer Analysis
Source Code Trailer Analysisalexbrend
 
BTXA part 5 of 5
BTXA part 5 of 5BTXA part 5 of 5
BTXA part 5 of 5justmargie
 
Presentación1. de gonzalo science
Presentación1. de gonzalo sciencePresentación1. de gonzalo science
Presentación1. de gonzalo sciencelola caravaca
 
Weather and climate miguel angel-martinez
Weather and climate miguel angel-martinezWeather and climate miguel angel-martinez
Weather and climate miguel angel-martinezlola caravaca
 

Viewers also liked (17)

4410691 d 11d9-47f6-9620-db62c6663b70
4410691 d 11d9-47f6-9620-db62c6663b704410691 d 11d9-47f6-9620-db62c6663b70
4410691 d 11d9-47f6-9620-db62c6663b70
 
English6 0
English6 0English6 0
English6 0
 
Sectors of the economy alonso
Sectors of the economy alonsoSectors of the economy alonso
Sectors of the economy alonso
 
Thesis1 final
Thesis1 finalThesis1 final
Thesis1 final
 
Health and illnesses
Health and illnessesHealth and illnesses
Health and illnesses
 
Best practiclessme2012
Best practiclessme2012Best practiclessme2012
Best practiclessme2012
 
Unit 2
Unit 2Unit 2
Unit 2
 
2007 05-newsletter
2007 05-newsletter2007 05-newsletter
2007 05-newsletter
 
How deep is your love
How deep is your loveHow deep is your love
How deep is your love
 
Apr june2010
Apr june2010Apr june2010
Apr june2010
 
Source Code Trailer Analysis
Source Code Trailer AnalysisSource Code Trailer Analysis
Source Code Trailer Analysis
 
BTXA part 5 of 5
BTXA part 5 of 5BTXA part 5 of 5
BTXA part 5 of 5
 
Presentación1. de gonzalo science
Presentación1. de gonzalo sciencePresentación1. de gonzalo science
Presentación1. de gonzalo science
 
Sea ecosystem 4
Sea ecosystem 4Sea ecosystem 4
Sea ecosystem 4
 
Sofia unit8
Sofia unit8Sofia unit8
Sofia unit8
 
Weather and climate miguel angel-martinez
Weather and climate miguel angel-martinezWeather and climate miguel angel-martinez
Weather and climate miguel angel-martinez
 
Facebook Presentatie
Facebook PresentatieFacebook Presentatie
Facebook Presentatie
 

Online Reputation Management and Sentiment Analysis

  • 1. Online Reputation Management và Sentiment Analysis MINH, Lê Ngọc & NGỌC, Đỗ Bích ePi Technologies, JSC.
  • 2. 05/07: Bán chiếc Galaxy S2 đầu tiên. 07/08: Thread trên tinhte về lỗi hồng tâm (namanh18102007). 11/08: Vietnamnet: Sự thất vọng mang tên Galaxy S2. 14/08: Samsung Vina phản hồi về lỗi. 16/08: Samsung Vina sửa lỗi cho namanh18102007. 2
  • 3. Danh tiếng • Danh tiếng [Reputation] • Danh tiếng trực tuyến [Online reputation]. 3
  • 4. Bạn có cần bảo vệ danh tiếng trên mạng? Thương hiệu Đời tư Bị bạn gái cũ nói xấu trên mạng! Công việc Người nổi tiếng 4
  • 6. Thị trường ORM • Năm 2008: ORM tăng trưởng 30% ước tính đạt giá trị £60 triệu vào cuối năm 2008 (*). • Ước tính: Năm 2008, $100 triệu được chi cho các dịch vụ ORM, vào năm 2011 con số này tăng hơn gấp đôi, khoảng $250 triệu (**). • Năm 2011: Salesforce mua công ty Radian6 với giá $326 triệu (***). * E-consultancy ** Online-Reputation-Management.us *** techcrunch.com 6
  • 8. Dịch vụ ORM trên thế giới 8
  • 9. Dịch vụ ORM ở Việt Nam 9
  • 10. Tính năng của một dịch vụ ORM Theo dõi Tác Phân động ORM tích Báo cáo 10
  • 11. 11
  • 12. • Nguồn dữ liệu đang theo dõi hiện tại: • Tin tức: 165 • Forum: 21 • Mạng xã hội: Facebook, Youtube. • Dự kiến: linkhay, ZingMe, Twitter. • Bất kz nguồn dữ liệu nào (blog, forum, tin tức…) khách hàng yêu cầu. 12
  • 13. Bài toán phân tích ý kiến
  • 14. Bài toán phân tích ý kiến (*) Tìm kiếm trên 3 từ khóa "sentiment analysis", “sentiment classification” và "opinion mining" . • Opinion Mining • Sentiment Analysis Số bài báo trên Google Scholar * 4500 4000 3500 3000 2500 2000 1500 1000 500 0 2000 2002 2004 2006 2008 2010 14
  • 15. Ý kiến • “Máy tạo cảm giác rất chắc Ai phát chắn và đầm tay do báng biểu được bọc cao su chống trơn Người viết trượt” - Canon 550D đơn Thời giản nhưng mạnh mẽ. điểm Về cái gì • Khi sử dụng trong khoảng 15 nói Ý phút, máy chỉ hơi ấm lên một kiến Vaio dòng E chút và nhiều nhất ở vùng bên Canon 550D Tốt cạnh touchpad nhưng điều này có thể chấp nhận được - Khía Vaio dòng E phong cách, hiệu Tốt hay cạnh xấu suất cao. nào Tản Thiết kế nhiệt 15
  • 16. Bài toán phân tích ý kiến tiếng Việt • Không thể áp dụng hoàn toàn các nghiên cứu tiếng Anh cho tiếng Việt: • Từ đa tiếng. • Văn phạm phức tạp, chưa thống nhất. • Không có kho ngữ liệu lớn. 16
  • 17. Các vấn đề trong phân tích ý kiến tiếng Việt
  • 18. Các vấn đề trong phân tích ý kiến tiếng Việt 1. Xác định khía cạnh. 2. Vấn đề đồng tham chiếu. 3. Cách diễn đạt ý kiến. 4. Ý kiến cho cả tài liệu. 5. Vấn đề ngôn ngữ. 18
  • 19. Khía cạnh • Khía cạnh là gì: • VD: màn hình, màu sắc là khía cạnh của điện thoại… • Tại sao phải xác định khía cạnh? • Thống kê ý kiến trên một khía cạnh nào đó. • Việc biểu diễn khía cạnh: • “Chiếc điện thoại trông rất bắt mắt”. • “Máy có thể sử dụng liên tục từ 5-6 tiếng”. • “Máy không để vừa túi quần”. 19
  • 20. Đồng tham chiếu • Nếu các mẫu laptop trước đây của Acer bị chê là dày và nặng hơn so với các hãng khác thì Aspire 3935 sẽ thay đổi quan điểm này. Máy có vỏ kim loại sáng loáng, thân chỉ dày khoảng 2,54 cm nên tính di động rất cao. • BlackBerry Curve 8900 là sự lai tạp giữa thiết kế của Curve 8310 và Bold 9000. Máy sở hữu bộ khung của máy chắc chắn, kiểu dáng theo truyền thống của hãng. • “Được thiết kế theo phong cách DSLR nhưng Canon PowerShot SX40 HS có zoom quang khủng 35x (…). Là bản nâng cấp từ SX30IS ra mắt năm ngoái, phiên bản mới mặc dù hình dáng gần như không khác so với người tiền nhiệm với (…)”. • “Beetle 2012 lấy cảm hứng từ chiếc Beelte Ragster Concept, giới thiệu tại triễn lãm Detroit năm 2005. "Con bọ" mới có chiều dài 4.278 mm, rộng 1.808 mm, và cao 1.486 mm. Không gian bên trong cũng tăng lên đáng kể, đạt đến 310 lít”. 20
  • 21. Cách diễn đạt ý kiến • Trực tiếp hoặc gián tiếp: • “Vừa sắm được chiếc laptop này là mình liền đi khoe với tất cả bạn bè”. • Nhiều ý kiến trong một câu: • “Chất lượng ảnh đáng kinh ngạc và pin dùng rất lâu nhưng ống ngắm bé quá”. • Phân biệt ý kiến với thông số kỹ thuật: • “Chiếc máy này khá nặng”. • “Chiếc máy này nặng khoảng 3kg”. • Ý nghĩa của cách diễn đạt: • Pin có thể dùng được 3 tiếng. • Pin chỉ dùng được mỗi 3 tiếng. • Pin dùng được những 3 tiếng. 21
  • 22. Ý kiến chung cho cả tài liệu • Tạo hóa đã định ra quy luật “già là phải yếu”, cứ hễ bước qua ngưỡng 50 là chức năng các bộ phận chính trong cơ thể bị suy giảm, hệ miễn dịch cũng dần bị “xuống cấp” làm cho người cao tuổi hay mắc nhiều chứng bệnh mà thời trẻ chưa bao giờ biết đến… • Vinamilk Sure Prevent là sản phẩm dinh dưỡng đặc biệt dành cho người cao tuổi có chứa Plant Sterol… 22
  • 23. Vấn đề ngôn ngữ • Mỉa mai: • “Chiếc xe thật tuyệt vời, mới hai ngày đã chết máy”. • “Công dụng tuyệt vời nhất của chiếc điện thoại này là chặn giấy”. • Tu từ, câu nghi vấn: • “Không biết sắp tới Canon có thành công hay không?” • “Laptop này mà tốt thì chẳng còn cái gì dở nữa!” 23
  • 24. Vấn đề ngôn ngữ (tiếp) Bo ve • Tiếng việt không dấu: ngay, me dang om 1 thang nam tren giuong! Bố về ngay, mẹ đang ốm 1 tháng nằm trên giường! 24
  • 25. Vấn đề ngôn ngữ (tiếp) • Ngôn ngữ xì-tin: ][(¬Cl¥ ]_µ(' ][Cl¥' ])Cl¥ PvF_ (Cl/v? ††|Cl¥' /v++*†|` 3Cl†' +_µ( , ¥F_µ' +)µº+',††|+F_µ' 3Cl+*? +_++*†|~ +<†|+ +<†|º+*(¬ ††|F_? +_º +_Cl+*(¬'(†|ºF_/v+*†|µ+*(¬µº +`+<†|Cl('. 25
  • 26. Vấn đề ngôn ngữ (tiếp) • Emoticon: Điện thoại này bền lắm :(( 26
  • 27. ePi giải quyết bài toán phân tích ý kiến như thế nào
  • 28. Sơ đồ hệ thống Tiền xử lý Xác định thực Phân giải đồng Tách từ Gán nhãn từ thể tham chiếu Cơ sở dữ liệu Các thuật ngữ Quan hệ giữa các thuật ngữ Phân tích ý kiến 28
  • 29. Giải quyết bài toán phân tích ý kiến • Cách tiếp cận: Dựa trên luật. • Các bước tiến hành: • Phân tích cú pháp nông để xác định các cụm từ có quan hệ với nhau. • Xác định quan hệ của các cụm từ: • Có phải là quan hệ ý kiến không? • Có liên quan tới văn cảnh chung không? • Dùng các thuật toán thống kê đánh giá ý kiến chung của văn bản. 29
  • 30. Xây dựng bộ dữ liệu • Xây dựng cơ sở dũ liệu cho chủ đề hẹp: • Điện thoại di động. • Laptop. • … • Cơ sở dữ liệu hiện tại: • Từ chỉ quan điểm: 479 (không có ngữ cảnh) + 7450 (có ngữ cảnh). • Khía cạnh: 1646. • Sản phẩm: 14241. • Địa danh: 3197 (của Việt Nam) + 2317 (của thế giới). • Người: 6350. 30
  • 31. ePi ORM: Hệ thống hiện tại 31
  • 32. ePi ORM: Hệ thống hiện tại (tiếp) 32
  • 33. ePi Lab: Sentiment Analysis 33
  • 34. Hướng phát triển • Phân tích ý kiến: • Bộ luật phát hiện có thể được bổ sung. • Kết hợp các cách tiếp cận khác. • Thống kê. • Học (không giám sát, giám sát hay nửa giám sát). • Dữ liệu: • Thực phẩm, đồ uống. • Người nổi tiếng. 34
  • 35. 35

Editor's Notes

  1. ngày 5.7.2011: bán chiếc S2 đầu tiên13,5 triệu“smart phone điểm 10”ngày 7.8.2011: thread trên tinh tế yêu cầ SSVN phải đổi S2 vì lỗi hồng tâm và ám màu namanh18102007lôi ra các lỗi khác Việt hoá chưa đầy đủ chưa có bộ gõ t.Việt tích hợp11.8: thông tin đưa lên báo Sự thất vọng mang tên Galaxy SII14.8: SSVN chính thức trả lời Samsung Vina phản hồi về lỗi trên điện thoại Galaxy SII16.8: SSVN sửa lỗi cho namanh18102007 &quot;Hài lòng về độ nhiệt tình, không hài lòng về sự phản hồi, có thể nói là quá chậm&quot;-&gt; cần phải nắm bắt ý kiến của khách hàng và phản hồi nhanh chóng
  2. Danh tiếng:Là hình ảnh của bạn trong mắt người khác.Xây dựng danh tiếng mất hàng chục năm, nhưng dễ dàng bị phá hủy trong 1 giờ.Online reputation:Mọi người có thể nói bất kỳ điều gì về bạn.Thông tin liên quan tới bạn được lưu lại và dễ dàng tìm kiếm qua internet.
  3. Ai cần?Người nổi tiếng, nhãn hiệu, sản phẩm…Người hoạt động online (forum, bán hàng…)Cá nhân thông thường: Nhà tuyển dụng, khách hàng… có thể tra thông tin của bạn trên google.
  4. Mức giá dịch vụ của ORM: Tham khảo radian6.com
  5. http://econsultancy.com/us/press-releases/140-online-reputation-monitoring-market-worth-60-million-in-2008http://www.online-reputation-management.us/press/reputation-management-as-important-as-seo/
  6. Trên thế giới ORM rất được chú trọngKhách hàng của ORM đều là các tên tuổi lớnTrích từ danh sách khách hàng của:+ viralheat+ Trendrr+ Brandtology+ JamiQ+ Synthesio+ ePi ORM
  7. (logo hình tròn: brandtology)
  8. Lĩnh vực còn rất mới mẻMiền Nam: Boomerang: Là sản phẩm của Click Media.Miền Bắc: ePi ORM, phát triển công nghệ dành riêng cho tiếng Việt.
  9. ORM:Báocáo: Thốngkêtheothờigiancóbaonhiêuphảnhồi, tốt hay xấuvềmình.Theo dõi: Cảnhbáothờigianthựckhicódưluậnkhôngtốtđểcósự can thiệpkịpthời: Sửachữasailầm hay phảnhồivềnhữngthông tin sai.Phântích: Tựđộngphântíchphảnhồiđểbiếtđượclàtốt hay xấu.Tácđộng: Đưanhữngthông tin cólợilêntrênđầukếtquảtìmkiếm.
  10. Crawler của ePi thể hiện qua trang baomoi.com
  11. Trên thế giới:Kết quả tìm kiếm Google Scholar cho 3 từ khoá: &quot;sentiment analysis&quot;,“sentiment classification” và&quot;opinion mining&quot; Năm 2000: 6 Năm 2001: 10 ... Năm 2009: 1929 Năm 2010: 3030 Năm 2011: 4022 Đầu năm 2012: 896 sự phát triển nhanh chóng của lĩnh vực này.Hội thảo chuyên đề “Sentiment Analysis Symposium” được tổ chức hàng năm tại New York kể từ năm 2010 Các nhà nghiên cứu Các nhà thực hành (practitioner) Các doanh nghiệpHội thảo: making sense of microposts (2nd), Computational Approaches to Subjectivity and Sentiment Analysis (3rd), Workshop on Issues of Sentiment Discovery and Opinion MiningViệt Nam: mới bắt đầu (ePi, BKHN, Đại học Công nghệ)
  12. Cácthànhphầncủa ý kiến
  13. Liệu có sử dụng được các kết quả tiếng Anh vào tiếng Việt: Có, nhưng không hoàn toàn.Tiếng Anh là từ đơn tiếng trong khi tiếng Việt là từ đa tiếng, khi tách từ độ chính xác đã bị giảm đi một phần.Văn phạm tiếng Anh đơn giản hơn tiếng Việt, được nghiên cứu từ lâu, thống nhất, độ chính xác cao.Tiếng Anh có kho ngữ liệu lớn phục vụ các nghiên cứu thống kê, học máy...Khókhăn:Các bài toán tiền xử lý:Gồm: Tách từ, gán nhãn từ loại, phân tích ngữ pháp, xác định thực thể.Độ chính xác còn thấp.Các kết quả nghiên cứu phân tán, không công bố chương trình.Nghiên cứu về tiếng Việt còn nhiều chỗ chưa thống nhất. VD: ngữ pháp tiếng Việt.
  14. Nếu bạn nghĩ ý kiến được thể hiện đơn giản, bạn đã nhầm.
  15. Cần xác định khía cạnh:Thống kê, biết được mặt được/chưa được để có hướng cải tiến, phát triển, tiếp thị.Còn tùy vào nhu cầu khách hàng.Biểu diễn khía cạnh:Khía cạnh không phải lúc nào cũng là danh từ hay động từ.Có thể trực tiếp hoặc gián tiếp.Phân cấp.
  16. Xác định xem đối tượng được nói tới là gì.Có thể xác định theo cách nào:Tham lam: Chọn đối tượng gần nhất.Đối tượng được nói tới nhiều nhất.…
  17. Không phải cứ có những từ ngữ “tiêu cực” là đánh giá tài liệu có ý kiến tiêu cực.
  18. Dịch là: Ngay lúc này đây, cảm thấy mình bất lực, yếu đuối, thiếu bản lĩnh khi không thể lo lắng cho em như người khác, không thể ở bên cạnh để an ủi em, lo lắng cho em mỗi ngày, chỉ còn biết viết entry, tất cả niềm tin đều đặt vào những entry như thế này.
  19. Chọn cách tiếp cận dựa trên luật:Phù hợp với ngôn ngữ không có bộ dữ liệu mẫu lớn.Đơn giản, tự nhiên.