Giới thiệu tổng quan về dịch vụ Online Reputation Management, bài toán Sentiment Analysis trong tiếng Việt và hệ thống ePi ORM.
This is a brief introduction about Online Reputation Management, Sentiment Analysis in Vietnamese and ePi's ORM service.
2. 05/07: Bán chiếc Galaxy S2 đầu tiên.
07/08: Thread trên tinhte về lỗi hồng tâm (namanh18102007).
11/08: Vietnamnet: Sự thất vọng mang
tên Galaxy S2.
14/08: Samsung Vina phản hồi về lỗi.
16/08: Samsung Vina sửa lỗi cho namanh18102007.
2
3. Danh tiếng
• Danh tiếng
[Reputation]
• Danh tiếng trực tuyến
[Online reputation].
3
4. Bạn có cần bảo vệ danh tiếng trên mạng?
Thương hiệu
Đời tư
Bị bạn gái cũ
nói xấu trên
mạng!
Công việc
Người nổi tiếng
4
6. Thị trường ORM
• Năm 2008: ORM tăng trưởng 30% ước tính đạt giá trị £60 triệu vào cuối
năm 2008 (*).
• Ước tính: Năm 2008, $100 triệu được chi cho các dịch vụ ORM, vào năm
2011 con số này tăng hơn gấp đôi, khoảng $250 triệu (**).
• Năm 2011: Salesforce mua công ty Radian6 với giá $326 triệu (***).
* E-consultancy
** Online-Reputation-Management.us
*** techcrunch.com
6
14. Bài toán phân tích ý kiến
(*) Tìm kiếm trên 3 từ khóa
"sentiment analysis", “sentiment
classification” và "opinion mining" .
• Opinion Mining
• Sentiment Analysis Số bài báo trên Google Scholar *
4500
4000
3500
3000
2500
2000
1500
1000
500
0
2000 2002 2004 2006 2008 2010
14
15. Ý kiến
• “Máy tạo cảm giác rất chắc
Ai phát chắn và đầm tay do báng
biểu được bọc cao su chống trơn
Người viết trượt” - Canon 550D đơn
Thời
giản nhưng mạnh mẽ.
điểm Về cái gì
• Khi sử dụng trong khoảng 15
nói Ý phút, máy chỉ hơi ấm lên một
kiến Vaio dòng E chút và nhiều nhất ở vùng bên
Canon 550D
Tốt cạnh touchpad nhưng điều
này có thể chấp nhận được -
Khía Vaio dòng E phong cách, hiệu
Tốt hay
cạnh
xấu suất cao.
nào
Tản
Thiết kế
nhiệt 15
16. Bài toán phân tích ý kiến tiếng Việt
• Không thể áp dụng
hoàn toàn các nghiên
cứu tiếng Anh cho tiếng
Việt:
• Từ đa tiếng.
• Văn phạm phức
tạp, chưa thống nhất.
• Không có kho ngữ liệu
lớn.
16
18. Các vấn đề trong phân tích ý kiến tiếng Việt
1. Xác định khía cạnh.
2. Vấn đề đồng tham chiếu.
3. Cách diễn đạt ý kiến.
4. Ý kiến cho cả tài liệu.
5. Vấn đề ngôn ngữ.
18
19. Khía cạnh
• Khía cạnh là gì:
• VD: màn hình, màu sắc là khía cạnh của điện thoại…
• Tại sao phải xác định khía cạnh?
• Thống kê ý kiến trên một khía cạnh nào đó.
• Việc biểu diễn khía cạnh:
• “Chiếc điện thoại trông rất bắt mắt”.
• “Máy có thể sử dụng liên tục từ 5-6 tiếng”.
• “Máy không để vừa túi quần”.
19
20. Đồng tham chiếu
• Nếu các mẫu laptop trước đây của Acer bị chê là dày và nặng hơn so với các
hãng khác thì Aspire 3935 sẽ thay đổi quan điểm này. Máy có vỏ kim loại sáng
loáng, thân chỉ dày khoảng 2,54 cm nên tính di động rất cao.
• BlackBerry Curve 8900 là sự lai tạp giữa thiết kế của Curve 8310 và Bold 9000.
Máy sở hữu bộ khung của máy chắc chắn, kiểu dáng theo truyền thống của
hãng.
• “Được thiết kế theo phong cách DSLR nhưng Canon PowerShot SX40 HS có
zoom quang khủng 35x (…). Là bản nâng cấp từ SX30IS ra mắt năm
ngoái, phiên bản mới mặc dù hình dáng gần như không khác so với người tiền
nhiệm với (…)”.
• “Beetle 2012 lấy cảm hứng từ chiếc Beelte Ragster Concept, giới thiệu tại
triễn lãm Detroit năm 2005. "Con bọ" mới có chiều dài 4.278 mm, rộng 1.808
mm, và cao 1.486 mm. Không gian bên trong cũng tăng lên đáng kể, đạt đến
310 lít”.
20
21. Cách diễn đạt ý kiến
• Trực tiếp hoặc gián tiếp:
• “Vừa sắm được chiếc laptop này là mình liền đi khoe với tất cả bạn bè”.
• Nhiều ý kiến trong một câu:
• “Chất lượng ảnh đáng kinh ngạc và pin dùng rất lâu nhưng ống ngắm bé quá”.
• Phân biệt ý kiến với thông số kỹ thuật:
• “Chiếc máy này khá nặng”.
• “Chiếc máy này nặng khoảng 3kg”.
• Ý nghĩa của cách diễn đạt:
• Pin có thể dùng được 3 tiếng.
• Pin chỉ dùng được mỗi 3 tiếng.
• Pin dùng được những 3 tiếng.
21
22. Ý kiến chung cho cả tài liệu
• Tạo hóa đã định ra quy luật “già là phải yếu”, cứ hễ bước qua ngưỡng 50
là chức năng các bộ phận chính trong cơ thể bị suy giảm, hệ miễn dịch
cũng dần bị “xuống cấp” làm cho người cao tuổi hay mắc nhiều chứng
bệnh mà thời trẻ chưa bao giờ biết đến…
• Vinamilk Sure Prevent là sản phẩm dinh dưỡng đặc biệt dành cho người
cao tuổi có chứa Plant Sterol…
22
23. Vấn đề ngôn ngữ
• Mỉa mai:
• “Chiếc xe thật tuyệt vời, mới hai ngày đã chết máy”.
• “Công dụng tuyệt vời nhất của chiếc điện thoại này là chặn giấy”.
• Tu từ, câu nghi vấn:
• “Không biết sắp tới Canon có thành công hay không?”
• “Laptop này mà tốt thì chẳng còn cái gì dở nữa!”
23
24. Vấn đề ngôn ngữ (tiếp)
Bo ve
• Tiếng việt không dấu: ngay, me
dang om 1
thang nam
tren giuong!
Bố về ngay, mẹ
đang ốm 1 tháng
nằm trên
giường!
24
28. Sơ đồ hệ thống
Tiền xử lý
Xác định thực Phân giải đồng
Tách từ Gán nhãn từ
thể tham chiếu
Cơ sở dữ liệu
Các thuật ngữ Quan hệ giữa các thuật ngữ
Phân tích ý kiến
28
29. Giải quyết bài toán phân tích ý kiến
• Cách tiếp cận: Dựa trên luật.
• Các bước tiến hành:
• Phân tích cú pháp nông để xác
định các cụm từ có quan hệ
với nhau.
• Xác định quan hệ của các cụm
từ:
• Có phải là quan hệ ý kiến
không?
• Có liên quan tới văn cảnh
chung không?
• Dùng các thuật toán thống kê
đánh giá ý kiến chung của văn
bản.
29
30. Xây dựng bộ dữ liệu
• Xây dựng cơ sở dũ liệu cho chủ đề hẹp:
• Điện thoại di động.
• Laptop.
• …
• Cơ sở dữ liệu hiện tại:
• Từ chỉ quan điểm: 479 (không có ngữ cảnh) + 7450 (có ngữ cảnh).
• Khía cạnh: 1646.
• Sản phẩm: 14241.
• Địa danh: 3197 (của Việt Nam) + 2317 (của thế giới).
• Người: 6350.
30
34. Hướng phát triển
• Phân tích ý kiến:
• Bộ luật phát hiện có thể được bổ sung.
• Kết hợp các cách tiếp cận khác.
• Thống kê.
• Học (không giám sát, giám sát hay nửa giám sát).
• Dữ liệu:
• Thực phẩm, đồ uống.
• Người nổi tiếng.
34
ngày 5.7.2011: bán chiếc S2 đầu tiên13,5 triệu“smart phone điểm 10”ngày 7.8.2011: thread trên tinh tế yêu cầ SSVN phải đổi S2 vì lỗi hồng tâm và ám màu namanh18102007lôi ra các lỗi khác Việt hoá chưa đầy đủ chưa có bộ gõ t.Việt tích hợp11.8: thông tin đưa lên báo Sự thất vọng mang tên Galaxy SII14.8: SSVN chính thức trả lời Samsung Vina phản hồi về lỗi trên điện thoại Galaxy SII16.8: SSVN sửa lỗi cho namanh18102007 "Hài lòng về độ nhiệt tình, không hài lòng về sự phản hồi, có thể nói là quá chậm"-> cần phải nắm bắt ý kiến của khách hàng và phản hồi nhanh chóng
Danh tiếng:Là hình ảnh của bạn trong mắt người khác.Xây dựng danh tiếng mất hàng chục năm, nhưng dễ dàng bị phá hủy trong 1 giờ.Online reputation:Mọi người có thể nói bất kỳ điều gì về bạn.Thông tin liên quan tới bạn được lưu lại và dễ dàng tìm kiếm qua internet.
Ai cần?Người nổi tiếng, nhãn hiệu, sản phẩm…Người hoạt động online (forum, bán hàng…)Cá nhân thông thường: Nhà tuyển dụng, khách hàng… có thể tra thông tin của bạn trên google.
Trên thế giới ORM rất được chú trọngKhách hàng của ORM đều là các tên tuổi lớnTrích từ danh sách khách hàng của:+ viralheat+ Trendrr+ Brandtology+ JamiQ+ Synthesio+ ePi ORM
(logo hình tròn: brandtology)
Lĩnh vực còn rất mới mẻMiền Nam: Boomerang: Là sản phẩm của Click Media.Miền Bắc: ePi ORM, phát triển công nghệ dành riêng cho tiếng Việt.
ORM:Báocáo: Thốngkêtheothờigiancóbaonhiêuphảnhồi, tốt hay xấuvềmình.Theo dõi: Cảnhbáothờigianthựckhicódưluậnkhôngtốtđểcósự can thiệpkịpthời: Sửachữasailầm hay phảnhồivềnhữngthông tin sai.Phântích: Tựđộngphântíchphảnhồiđểbiếtđượclàtốt hay xấu.Tácđộng: Đưanhữngthông tin cólợilêntrênđầukếtquảtìmkiếm.
Crawler của ePi thể hiện qua trang baomoi.com
Trên thế giới:Kết quả tìm kiếm Google Scholar cho 3 từ khoá: "sentiment analysis",“sentiment classification” và"opinion mining" Năm 2000: 6 Năm 2001: 10 ... Năm 2009: 1929 Năm 2010: 3030 Năm 2011: 4022 Đầu năm 2012: 896 sự phát triển nhanh chóng của lĩnh vực này.Hội thảo chuyên đề “Sentiment Analysis Symposium” được tổ chức hàng năm tại New York kể từ năm 2010 Các nhà nghiên cứu Các nhà thực hành (practitioner) Các doanh nghiệpHội thảo: making sense of microposts (2nd), Computational Approaches to Subjectivity and Sentiment Analysis (3rd), Workshop on Issues of Sentiment Discovery and Opinion MiningViệt Nam: mới bắt đầu (ePi, BKHN, Đại học Công nghệ)
Cácthànhphầncủa ý kiến
Liệu có sử dụng được các kết quả tiếng Anh vào tiếng Việt: Có, nhưng không hoàn toàn.Tiếng Anh là từ đơn tiếng trong khi tiếng Việt là từ đa tiếng, khi tách từ độ chính xác đã bị giảm đi một phần.Văn phạm tiếng Anh đơn giản hơn tiếng Việt, được nghiên cứu từ lâu, thống nhất, độ chính xác cao.Tiếng Anh có kho ngữ liệu lớn phục vụ các nghiên cứu thống kê, học máy...Khókhăn:Các bài toán tiền xử lý:Gồm: Tách từ, gán nhãn từ loại, phân tích ngữ pháp, xác định thực thể.Độ chính xác còn thấp.Các kết quả nghiên cứu phân tán, không công bố chương trình.Nghiên cứu về tiếng Việt còn nhiều chỗ chưa thống nhất. VD: ngữ pháp tiếng Việt.
Nếu bạn nghĩ ý kiến được thể hiện đơn giản, bạn đã nhầm.
Cần xác định khía cạnh:Thống kê, biết được mặt được/chưa được để có hướng cải tiến, phát triển, tiếp thị.Còn tùy vào nhu cầu khách hàng.Biểu diễn khía cạnh:Khía cạnh không phải lúc nào cũng là danh từ hay động từ.Có thể trực tiếp hoặc gián tiếp.Phân cấp.
Xác định xem đối tượng được nói tới là gì.Có thể xác định theo cách nào:Tham lam: Chọn đối tượng gần nhất.Đối tượng được nói tới nhiều nhất.…
Không phải cứ có những từ ngữ “tiêu cực” là đánh giá tài liệu có ý kiến tiêu cực.
Dịch là: Ngay lúc này đây, cảm thấy mình bất lực, yếu đuối, thiếu bản lĩnh khi không thể lo lắng cho em như người khác, không thể ở bên cạnh để an ủi em, lo lắng cho em mỗi ngày, chỉ còn biết viết entry, tất cả niềm tin đều đặt vào những entry như thế này.
Chọn cách tiếp cận dựa trên luật:Phù hợp với ngôn ngữ không có bộ dữ liệu mẫu lớn.Đơn giản, tự nhiên.