Webmining[final]

•Download as PPTX, PDF•

1 like•642 views

Hari Hari

Education

KHAI PHÁ WEB DATA MINING ,[object Object]

KHÁI NIỆM Trích chọn ra các thành phần được quan tâm hay được đánh giá là có ích cùng các thông tin tiềm năng từ các tài nguyên hoặc các hoạt động liên quan đến World Wide Web.

WEBSITE – THỐNG KÊ http://www.pingdom.com 255 triệu – Số website tính đến thời điểm tháng 12/2010. 21.4 triệu– Số website mới của năm 2010

ĐẶC TRƯNG WEB Quá lớn để tổ chức thành kho dữ liệu Độ phức tạp là rất lớn Là một nguồn tài nguyên thông tin có độ thay đổi cao Phục vụ một cộng đồng người dùng rộng lớn và đa dạng Chỉ một phần rất nhỏ của thông tin trên web là thực sự hữu ích

THUẬN LỢI Tính «dữ liệu bán cấu trúc» Không chỉ có các trang mà còn có các liên kết Weblog entry

CÁC BÀI TOÁN ỨNG DỤNG Khai phá dữ liệu text + bổ sung các yếu tố của miền ứng dụng dữ liệu web Khai phá dữ liệu mang tính đặc thù của Web

WEB PAGE SUMMARIZATION Truy xuất các thông tin từ các văn bản có cấu trúc, văn bản siêu liên kết, hay các văn bản bán cấu trúc.  Liên quan chủ yếu tới việc khai phá bản thân nội dung các văn bản.

LĨNH VỰC ỨNG DỤNG Y tế và chăm sóc sức khoẻ Sinh học An toàn thông tin Phát triển phần mềm ...

ĐỊNH NGHĨA Là quá trình xử lý, nhằm rút ra các tri thức từ cách tổ chức và liên kết giữa các tham chiếu của các trang web. Gồm: ,[object Object]

KHAI PHÁ ĐỒ THỊ WEB Hạng trang Web: tính “độ quan trọng” của một trang Web.

KHAI PHÁ CẤU TRÚC TRANG WEB Cấu trúc trang Web Trang Web tuân thủ theo quy định của ngôn ngữ định dạng trang web (HTML,…) Trang web được tổ chức dưới dạng hình cây. Output khai phá cấu trúc là input khai phá dữ liệu Phân tích cấu trúc trang Web Tìm các mẫu cấu trúc trang Web Kết hợp với khai phá nội dung Web

ĐỊNH NGHĨA Xử lý để lấy ra các thông tin hữu ích trong hồ sơ truy cập web. Gồm: ,[object Object]

Phân tích xu hướng cá nhân,[object Object]

PHÂN TÍCH XU HƯỚNG CÁ NHÂN Định nghĩa: Phân tích các mẫu truy cập của người dùng tại mỗi thời điểm để biết xu hướng truy cập trang Web của từng đối tượng người dùng tại mỗi thời điểm khác nhau. Giới thiệu “Cá nhân hóa”: Thông tin cá nhân và tư vấn cá nhân hóa Thông tin cá nhân: CSDL quản lý; Máy khách.. Ngữ cảnh làm việc của cá nhân: vào mấy giờ user đó truy cập vào, mục hay truy cập…

Hệ thống khai phá sử dụng Webtư vấn hướng cá nhân

Similar to Webmining[final]

PACE CMO - Part 2 - Web Site & Blog & Microsite & eStoreNguyen Tung

Chuyên đề thực tập học phần Phần mềm mã nguồn mở: Website bán giày VansOnTimeVitThu

Tìm hiểu MongoDBTrung Hiếu Trần

Tong quanthietkewebLương Nguyên

Bai thuyet trinh cntt Thao An

SlideThời trang nữ Online - Bán buôn, bán lẻ quần áo Xuất khẩu

IM 2015 - Chuong 2: WebsiteThe Marketing Corner

Lecture 01 - WWW.pdfLê Thưởng

Chuong2@tkwsatonlinedottk

Các tính năng của eSoffgidaffchannel

Bitrix - nền tảng xây dựng website cao cấppioneerbni

Lecture 01ascaccacaWsacascascsacascascWW.pdfLê Thưởng

Unit 8 using the internet vnHG Rồng Con

Phân biệt SEO Onpage và SEO OffpageHuyNghim4

Kỹ năng tìm kiếm thông tin và nghiên cứu thị trườngCat Van Khoi

Buoi 1 tong quanSeo

Bao cao wesite bán giày.docxssuser11005a

Tổng quan về SEOntdthongthai1

Semantic webDuyen Do

Xu hướng Internet trong tương lai - những thống kê biết nóipioneerbni

Similar to Webmining[final] (20)

PACE CMO - Part 2 - Web Site & Blog & Microsite & eStore

Chuyên đề thực tập học phần Phần mềm mã nguồn mở: Website bán giày Vans

Tìm hiểu MongoDB

Tong quanthietkeweb

Bai thuyet trinh cntt

Slide

IM 2015 - Chuong 2: Website

Lecture 01 - WWW.pdf

Chuong2@tkw

Các tính năng của eSoff

Bitrix - nền tảng xây dựng website cao cấp

Lecture 01ascaccacaWsacascascsacascascWW.pdf

Unit 8 using the internet vn

Phân biệt SEO Onpage và SEO Offpage

Kỹ năng tìm kiếm thông tin và nghiên cứu thị trường

Buoi 1 tong quan

Bao cao wesite bán giày.docx

Tổng quan về SEO

Semantic web

Xu hướng Internet trong tương lai - những thống kê biết nói

Recently uploaded

30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection

GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...Nguyen Thanh Tu Collection

kinh tế chính trị mác lênin chương hai và hàng hoá và sxxhhdtlnnm

Danh sách sinh viên tốt nghiệp Đại học - Cao đẳng Trường Đại học Phú Yên năm ...hoangtuansinh1

30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection

1 - MÃ LỖI SỬA CHỮA BOARD MẠCH BẾP TỪ.pdfĐiện Lạnh Bách Khoa Hà Nội

GIÁO TRÌNH KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘIĐiện Lạnh Bách Khoa Hà Nội

3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘIĐiện Lạnh Bách Khoa Hà Nội

cac-cau-noi-tthcm.pdf-cac-cau-noi-tthcm-KhnhHuyn546843

sách sinh học đại cương - Textbook.pdfTrnHoa46

SLIDE - Tu van, huong dan cong tac tuyen sinh-2024 (đầy đủ chi tiết).pdfhoangtuansinh1

Kiểm tra cuối học kì 1 sinh học 12 đề tham khảohoanhv296

GNHH và KBHQ - giao nhận hàng hoá và khai báo hải quanmyvh40253

Giới thiệu Dự án Sản Phụ Khoa - Y Học Cộng ĐồngYhoccongdong.com

Các điều kiện bảo hiểm trong bảo hiểm hàng hoámyvh40253

Campbell _2011_ - Sinh học - Tế bào - Ref.pdfTrnHoa46

ĐỀ CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT CÁC TỈNH THÀNH NĂM HỌC 2020 –...Nguyen Thanh Tu Collection

1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docxTHAO316680

PHƯƠNG THỨC VẬN TẢI ĐƯỜNG SẮT TRONG VẬN TẢImyvh40253

30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection

Recently uploaded (20)

30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...

GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...

kinh tế chính trị mác lênin chương hai và hàng hoá và sxxhh

Danh sách sinh viên tốt nghiệp Đại học - Cao đẳng Trường Đại học Phú Yên năm ...

30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...

1 - MÃ LỖI SỬA CHỮA BOARD MẠCH BẾP TỪ.pdf

GIÁO TRÌNH KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI

3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI

cac-cau-noi-tthcm.pdf-cac-cau-noi-tthcm-

sách sinh học đại cương - Textbook.pdf

SLIDE - Tu van, huong dan cong tac tuyen sinh-2024 (đầy đủ chi tiết).pdf

Kiểm tra cuối học kì 1 sinh học 12 đề tham khảo

GNHH và KBHQ - giao nhận hàng hoá và khai báo hải quan

Giới thiệu Dự án Sản Phụ Khoa - Y Học Cộng Đồng

Các điều kiện bảo hiểm trong bảo hiểm hàng hoá

Campbell _2011_ - Sinh học - Tế bào - Ref.pdf

ĐỀ CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT CÁC TỈNH THÀNH NĂM HỌC 2020 –...

1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx

PHƯƠNG THỨC VẬN TẢI ĐƯỜNG SẮT TRONG VẬN TẢI

30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...

Webmining[final]

3. GIỚI THIỆU

4. KHÁI NIỆM Trích chọn ra các thành phần được quan tâm hay được đánh giá là có ích cùng các thông tin tiềm năng từ các tài nguyên hoặc các hoạt động liên quan đến World Wide Web.

5. KHAI PHÁ WEB

6. WEBSITE – THỐNG KÊ http://www.pingdom.com 255 triệu – Số website tính đến thời điểm tháng 12/2010. 21.4 triệu– Số website mới của năm 2010

7. ĐẶC TRƯNG WEB Quá lớn để tổ chức thành kho dữ liệu Độ phức tạp là rất lớn Là một nguồn tài nguyên thông tin có độ thay đổi cao Phục vụ một cộng đồng người dùng rộng lớn và đa dạng Chỉ một phần rất nhỏ của thông tin trên web là thực sự hữu ích

8. THUẬN LỢI Tính «dữ liệu bán cấu trúc» Không chỉ có các trang mà còn có các liên kết Weblog entry

9. CÁC BÀI TOÁN ỨNG DỤNG Khai phá dữ liệu text + bổ sung các yếu tố của miền ứng dụng dữ liệu web Khai phá dữ liệu mang tính đặc thù của Web

10. PHÂN LOẠI

11. KHAI PHÁ NỘI DUNG

12. WEB PAGE SUMMARIZATION Truy xuất các thông tin từ các văn bản có cấu trúc, văn bản siêu liên kết, hay các văn bản bán cấu trúc.  Liên quan chủ yếu tới việc khai phá bản thân nội dung các văn bản.

13. SEARCH ENGINE RESULT SUMMARIZATION

14. QUÁ TRÌNH KHAI PHÁ TEXT

15. LĨNH VỰC ỨNG DỤNG Y tế và chăm sóc sức khoẻ Sinh học An toàn thông tin Phát triển phần mềm ...

16. KHAI PHÁ CẤU TRÚC

17.

18.

19. VÍ DỤ

20. KHAI PHÁ ĐỒ THỊ WEB Hạng trang Web: tính “độ quan trọng” của một trang Web.

21. KHAI PHÁ ĐỒ THỊ WEB

22. KHAI PHÁ CẤU TRÚC TRANG WEB Cấu trúc trang Web Trang Web tuân thủ theo quy định của ngôn ngữ định dạng trang web (HTML,…) Trang web được tổ chức dưới dạng hình cây. Output khai phá cấu trúc là input khai phá dữ liệu Phân tích cấu trúc trang Web Tìm các mẫu cấu trúc trang Web Kết hợp với khai phá nội dung Web

23. SITE MAP

24. KHAI PHÁ SỬ DỤNG WEB

25.

26.

27. VÍ DỤ:

28. VÍ DỤ

29. PHÂN TÍCH XU HƯỚNG CÁ NHÂN Định nghĩa: Phân tích các mẫu truy cập của người dùng tại mỗi thời điểm để biết xu hướng truy cập trang Web của từng đối tượng người dùng tại mỗi thời điểm khác nhau. Giới thiệu “Cá nhân hóa”: Thông tin cá nhân và tư vấn cá nhân hóa Thông tin cá nhân: CSDL quản lý; Máy khách.. Ngữ cảnh làm việc của cá nhân: vào mấy giờ user đó truy cập vào, mục hay truy cập…

30. Hệ thống khai phá sử dụng Webtư vấn hướng cá nhân

31. END THANKS FOR LISTENING!

Editor's Notes

Là sự kết hợp giữa khai phá text và công nghệ web.- Khai phá dữ liệu: phát hiện tri thức trong CSDL(quá trình nhận ra những mẫu có giá trị, mới, hữu ích tiềm năng và được hiểu trong dữ liệu)
Pingdom.com là một website uy tín chuyên cung cấp các dịch vụ quản lý và theo dõi lưu lượng truy cập cho các website trên toàn thế giới.
- Các CSDL truyền thống có kích thước không lớn lắm, thường được lưu trữ tập trungWeb có kích thước rất lớn, tới hàng T, thay đổi liên tục, phân tán khắp thế giới.1/2005, có hơn 11,5 tỷ trang web được đánh chỉ số, Google đã lưu hơn 4 tỷ trang Web với dung lượng hàng trăm T(trung bình 5-10KB  55TB)  không thể xây dựng kho lưu trữ tích hợpdữ liệu thường không đồng nhất: nhiều ngôn ngữ(nội dung, lập trình), nhiều định dạng, từ vựng. Nhưng không được sắp xếp theo một tiêu chuẩn nàoCác thông tin trong web được cập nhật liên tục. Ví dụ: tin tức, thị trường chứng khoán, quảng cáo,...Phục vụ cho lượng người đa dạng, mức độ quan tâm khác nhau99% thông tin của web là vô ích với 99% người dùng web
cấu trúc theo quy định của ngôn ngữ định dạng
1: phân lớp, phân cụm, phân đoạn kết hợp với các siêu liên kết2: dự báo khai thác yếu tố thời gian liên quan đến thời điểm xuất hiện trang web  dự báo nội dung, cấu trúc, hình thức xuất hiện trong thời gian tới; dự báo nhu cầu, đánh giá khách hàng,…
Phần lớn tri thức web được chứa trong nội dung văn bảnVăn bản không phải toàn bộ nội dung web, mà còn hình ảnh, âm thanh, video,…
Quá trình này thường sử dụng các thông tin như tiêu đề trang, URL, content-type, các liên kết trong trang web... để tiến hành phân lớp và đưa ra tập con các kết quả tốt nhất cho người dùng.
Y tế: hoạt động khám và điều trị  cung cấp kinh nghiệm chuyên môn, phát triển chuyên môn, tiềm ẩn các thông tin liên quan bệnh – thuốc – bệnh nhânTin- sinh học: gen, di truyềnAn toàn thông tin: mail, tin tức,...  đưa ra các kết nối giữa con người, nhóm, ứng xử, thị hiếuPhần mềm: phát hiện phần mềm nhái, thu gọn tối ưu hoá
Khi nói đến khai phá cấu trúc web là chúng ta phải tưởng tượng , hình dung nó dưới dạng đồ thị. Đỉnh là trang web và cạnh là các liên kết . Ví dụ : blog , mạng xã hội ….email cũng là một dạng của đồ thị web.
Khai phá đồ thị Web là bài toán cơ bản nhất và cũng điển hình nhất trong khai phá cấu trúc Web.
Đồ thị nhận thấy rất đơn giản trong cuộc sống đó là các quan hệ xã hội. Còn trong web thì cũng tương tự như vậy. Mỗi trang Web là 1 đỉnh, các cạnh của nó là các link trỏ tới nó hoặc nó trỏ tới trang khác.Ngoài ra còn có thêm 1 số ví dụ về đồ thị áp dụng trong internet như: email, blog , facebok..
Trang A liên kết tới B Ok có hướng.Hạng trang Web, là một bài toán kinh điển, hạng này được sử dụng trong nhiều tình huống khác nhau: Những trang có rank cao thì sẽ được dẫn dắt đi trước trong tìm kiếm của Google. Theo số liệu nghiên cứu thì, khi 1 trang web có nhiều trang link tới nó thì đó là trang web quan trọng. Rank sẽ được tính dược theo các liên kết này.
Phân lớp Web dựa theo liên kết Khai thác thông tin liên kết cho phân lớp WebPhân cụm Web dựa theo liên kết Tìm ra sự xuất hiện tự nhiên các lớp con: dữ liệu là liên kếtPhân tích kiểu liên kết Dự báo về sự tồn tại của liên kết Dự báo mục đích của liên kết Phân tích độ mạnh liên kết Độ mạnh của cung và đỉnh (hạng trang)Phân tích số lượng liên kết Dự báo số lượng liên kết giữa các đối tượng.
Có những trang sẽ đưa sitemap này lên….
Tập người dùng có thể koi là đối tượng phục vụ của bài toán phân tích mẫu truy cập WebThông tin truy cập sẽ được Web Server log ghi nhận lại.
Không chỉ dừng lại ở các thống kê như thế này mà còn thống kê người dùng, địa điểm, nơi ở , vùng miền để có những chiến lược nhất định

Webmining[final]

Recommended

Recommended

More Related Content

Similar to Webmining[final]

Similar to Webmining[final] (20)

Recently uploaded

Recently uploaded (20)

Webmining[final]

Editor's Notes