SlideShare a Scribd company logo
1 of 31
KHAI PHÁ WEB DATA MINING ,[object Object]
Phan Sơn Hải,[object Object]
GIỚI THIỆU
KHÁI NIỆM Trích chọn ra các thành phần được quan tâm hay được đánh giá là có ích cùng các thông tin tiềm năng từ các tài nguyên hoặc các hoạt động liên quan đến World Wide Web.
KHAI PHÁ WEB
WEBSITE – THỐNG KÊ http://www.pingdom.com 255 triệu – Số website tính đến thời điểm tháng 12/2010. 21.4 triệu– Số website mới của năm 2010
ĐẶC TRƯNG WEB Quá lớn để tổ chức thành kho dữ liệu Độ phức tạp là rất lớn Là một nguồn tài nguyên thông tin có độ thay đổi cao Phục vụ một cộng đồng người dùng rộng lớn và đa dạng Chỉ một phần rất nhỏ của thông tin trên web là thực sự hữu ích
THUẬN LỢI Tính «dữ liệu bán cấu trúc» Không chỉ có các trang mà còn có các liên kết Weblog entry
CÁC BÀI TOÁN ỨNG DỤNG Khai phá dữ liệu text + bổ sung các yếu tố của miền ứng dụng dữ liệu web Khai phá dữ liệu mang tính đặc thù của Web
PHÂN LOẠI
KHAI PHÁ NỘI DUNG
WEB PAGE SUMMARIZATION Truy xuất các thông tin từ các văn bản có cấu trúc, văn bản siêu liên kết, hay các văn bản bán cấu trúc.   Liên quan chủ yếu tới việc khai phá bản thân nội dung các văn bản.
SEARCH ENGINE RESULT SUMMARIZATION
QUÁ TRÌNH KHAI PHÁ TEXT
LĨNH VỰC ỨNG DỤNG Y tế và chăm sóc sức khoẻ Sinh học An toàn thông tin Phát triển phần mềm ...
KHAI PHÁ CẤU TRÚC
ĐỊNH NGHĨA Là quá trình xử lý, nhằm rút ra các tri thức từ cách tổ chức và liên kết giữa các tham chiếu của các trang web. Gồm:  ,[object Object]
Khai phá cấu trúc Web,[object Object]
VÍ DỤ
KHAI PHÁ ĐỒ THỊ WEB Hạng trang Web: tính “độ quan trọng” của một trang Web.
KHAI PHÁ ĐỒ THỊ WEB
KHAI PHÁ CẤU TRÚC TRANG WEB Cấu trúc trang Web Trang Web tuân thủ theo quy định của ngôn ngữ định dạng trang web (HTML,…) Trang web được tổ chức dưới dạng hình cây. Output khai phá cấu trúc là input khai phá dữ liệu Phân tích cấu trúc trang Web Tìm các mẫu cấu trúc trang Web Kết hợp với khai phá nội dung Web
SITE MAP
KHAI PHÁ SỬ DỤNG WEB
ĐỊNH NGHĨA Xử lý để lấy ra các thông tin hữu ích trong hồ sơ truy cập web. Gồm: ,[object Object]
Phân tích xu hướng cá nhân,[object Object]
VÍ DỤ:
VÍ DỤ
PHÂN TÍCH XU HƯỚNG CÁ NHÂN Định nghĩa: Phân tích các mẫu truy cập của người dùng tại mỗi thời  điểm để biết xu  hướng truy cập trang Web của từng đối tượng người dùng tại mỗi thời điểm khác nhau. Giới thiệu “Cá nhân hóa”: Thông tin cá nhân và tư vấn cá nhân hóa Thông tin cá nhân: CSDL quản lý; Máy khách.. Ngữ cảnh làm việc của cá nhân: vào mấy giờ user đó truy cập vào, mục hay truy cập…
Hệ thống khai phá sử dụng Webtư vấn hướng cá nhân
END THANKS FOR LISTENING!

More Related Content

Similar to Webmining[final]

PACE CMO - Part 2 - Web Site & Blog & Microsite & eStore
PACE CMO - Part 2 - Web Site & Blog & Microsite & eStorePACE CMO - Part 2 - Web Site & Blog & Microsite & eStore
PACE CMO - Part 2 - Web Site & Blog & Microsite & eStoreNguyen Tung
 
Chuyên đề thực tập học phần Phần mềm mã nguồn mở: Website bán giày Vans
Chuyên đề thực tập học phần Phần mềm mã nguồn mở: Website bán giày VansChuyên đề thực tập học phần Phần mềm mã nguồn mở: Website bán giày Vans
Chuyên đề thực tập học phần Phần mềm mã nguồn mở: Website bán giày VansOnTimeVitThu
 
Bai thuyet trinh cntt
Bai thuyet trinh cntt Bai thuyet trinh cntt
Bai thuyet trinh cntt Thao An
 
Lecture 01 - WWW.pdf
Lecture 01 - WWW.pdfLecture 01 - WWW.pdf
Lecture 01 - WWW.pdfLê Thưởng
 
Các tính năng của eSoff
Các tính năng của eSoffCác tính năng của eSoff
Các tính năng của eSoffgidaffchannel
 
Bitrix - nền tảng xây dựng website cao cấp
Bitrix - nền tảng xây dựng website cao cấpBitrix - nền tảng xây dựng website cao cấp
Bitrix - nền tảng xây dựng website cao cấppioneerbni
 
Lecture 01ascaccacaWsacascascsacascascWW.pdf
Lecture 01ascaccacaWsacascascsacascascWW.pdfLecture 01ascaccacaWsacascascsacascascWW.pdf
Lecture 01ascaccacaWsacascascsacascascWW.pdfLê Thưởng
 
Unit 8 using the internet vn
Unit 8 using the internet vnUnit 8 using the internet vn
Unit 8 using the internet vnHG Rồng Con
 
Phân biệt SEO Onpage và SEO Offpage
Phân biệt SEO Onpage và SEO OffpagePhân biệt SEO Onpage và SEO Offpage
Phân biệt SEO Onpage và SEO OffpageHuyNghim4
 
Kỹ năng tìm kiếm thông tin và nghiên cứu thị trường
Kỹ năng tìm kiếm thông tin và nghiên cứu thị trườngKỹ năng tìm kiếm thông tin và nghiên cứu thị trường
Kỹ năng tìm kiếm thông tin và nghiên cứu thị trườngCat Van Khoi
 
Buoi 1 tong quan
Buoi 1   tong quanBuoi 1   tong quan
Buoi 1 tong quanSeo
 
Bao cao wesite bán giày.docx
Bao cao wesite bán giày.docxBao cao wesite bán giày.docx
Bao cao wesite bán giày.docxssuser11005a
 
Tổng quan về SEO
Tổng quan về SEOTổng quan về SEO
Tổng quan về SEOntdthongthai1
 
Semantic web
Semantic webSemantic web
Semantic webDuyen Do
 
Xu hướng Internet trong tương lai - những thống kê biết nói
Xu hướng Internet trong tương lai - những thống kê biết nóiXu hướng Internet trong tương lai - những thống kê biết nói
Xu hướng Internet trong tương lai - những thống kê biết nóipioneerbni
 

Similar to Webmining[final] (20)

PACE CMO - Part 2 - Web Site & Blog & Microsite & eStore
PACE CMO - Part 2 - Web Site & Blog & Microsite & eStorePACE CMO - Part 2 - Web Site & Blog & Microsite & eStore
PACE CMO - Part 2 - Web Site & Blog & Microsite & eStore
 
Chuyên đề thực tập học phần Phần mềm mã nguồn mở: Website bán giày Vans
Chuyên đề thực tập học phần Phần mềm mã nguồn mở: Website bán giày VansChuyên đề thực tập học phần Phần mềm mã nguồn mở: Website bán giày Vans
Chuyên đề thực tập học phần Phần mềm mã nguồn mở: Website bán giày Vans
 
Tìm hiểu MongoDB
Tìm hiểu MongoDBTìm hiểu MongoDB
Tìm hiểu MongoDB
 
Tong quanthietkeweb
Tong quanthietkewebTong quanthietkeweb
Tong quanthietkeweb
 
Bai thuyet trinh cntt
Bai thuyet trinh cntt Bai thuyet trinh cntt
Bai thuyet trinh cntt
 
Slide
SlideSlide
Slide
 
IM 2015 - Chuong 2: Website
IM 2015 - Chuong 2: WebsiteIM 2015 - Chuong 2: Website
IM 2015 - Chuong 2: Website
 
Lecture 01 - WWW.pdf
Lecture 01 - WWW.pdfLecture 01 - WWW.pdf
Lecture 01 - WWW.pdf
 
Chuong2@tkw
Chuong2@tkwChuong2@tkw
Chuong2@tkw
 
Các tính năng của eSoff
Các tính năng của eSoffCác tính năng của eSoff
Các tính năng của eSoff
 
Bitrix - nền tảng xây dựng website cao cấp
Bitrix - nền tảng xây dựng website cao cấpBitrix - nền tảng xây dựng website cao cấp
Bitrix - nền tảng xây dựng website cao cấp
 
Lecture 01ascaccacaWsacascascsacascascWW.pdf
Lecture 01ascaccacaWsacascascsacascascWW.pdfLecture 01ascaccacaWsacascascsacascascWW.pdf
Lecture 01ascaccacaWsacascascsacascascWW.pdf
 
Unit 8 using the internet vn
Unit 8 using the internet vnUnit 8 using the internet vn
Unit 8 using the internet vn
 
Phân biệt SEO Onpage và SEO Offpage
Phân biệt SEO Onpage và SEO OffpagePhân biệt SEO Onpage và SEO Offpage
Phân biệt SEO Onpage và SEO Offpage
 
Kỹ năng tìm kiếm thông tin và nghiên cứu thị trường
Kỹ năng tìm kiếm thông tin và nghiên cứu thị trườngKỹ năng tìm kiếm thông tin và nghiên cứu thị trường
Kỹ năng tìm kiếm thông tin và nghiên cứu thị trường
 
Buoi 1 tong quan
Buoi 1   tong quanBuoi 1   tong quan
Buoi 1 tong quan
 
Bao cao wesite bán giày.docx
Bao cao wesite bán giày.docxBao cao wesite bán giày.docx
Bao cao wesite bán giày.docx
 
Tổng quan về SEO
Tổng quan về SEOTổng quan về SEO
Tổng quan về SEO
 
Semantic web
Semantic webSemantic web
Semantic web
 
Xu hướng Internet trong tương lai - những thống kê biết nói
Xu hướng Internet trong tương lai - những thống kê biết nóiXu hướng Internet trong tương lai - những thống kê biết nói
Xu hướng Internet trong tương lai - những thống kê biết nói
 

Recently uploaded

30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...Nguyen Thanh Tu Collection
 
kinh tế chính trị mác lênin chương hai và hàng hoá và sxxhh
kinh tế chính trị mác lênin chương hai và hàng hoá và sxxhhkinh tế chính trị mác lênin chương hai và hàng hoá và sxxhh
kinh tế chính trị mác lênin chương hai và hàng hoá và sxxhhdtlnnm
 
Danh sách sinh viên tốt nghiệp Đại học - Cao đẳng Trường Đại học Phú Yên năm ...
Danh sách sinh viên tốt nghiệp Đại học - Cao đẳng Trường Đại học Phú Yên năm ...Danh sách sinh viên tốt nghiệp Đại học - Cao đẳng Trường Đại học Phú Yên năm ...
Danh sách sinh viên tốt nghiệp Đại học - Cao đẳng Trường Đại học Phú Yên năm ...hoangtuansinh1
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
GIÁO TRÌNH KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
GIÁO TRÌNH  KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘIGIÁO TRÌNH  KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
GIÁO TRÌNH KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘIĐiện Lạnh Bách Khoa Hà Nội
 
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘIĐiện Lạnh Bách Khoa Hà Nội
 
cac-cau-noi-tthcm.pdf-cac-cau-noi-tthcm-
cac-cau-noi-tthcm.pdf-cac-cau-noi-tthcm-cac-cau-noi-tthcm.pdf-cac-cau-noi-tthcm-
cac-cau-noi-tthcm.pdf-cac-cau-noi-tthcm-KhnhHuyn546843
 
sách sinh học đại cương - Textbook.pdf
sách sinh học đại cương   -   Textbook.pdfsách sinh học đại cương   -   Textbook.pdf
sách sinh học đại cương - Textbook.pdfTrnHoa46
 
SLIDE - Tu van, huong dan cong tac tuyen sinh-2024 (đầy đủ chi tiết).pdf
SLIDE - Tu van, huong dan cong tac tuyen sinh-2024 (đầy đủ chi tiết).pdfSLIDE - Tu van, huong dan cong tac tuyen sinh-2024 (đầy đủ chi tiết).pdf
SLIDE - Tu van, huong dan cong tac tuyen sinh-2024 (đầy đủ chi tiết).pdfhoangtuansinh1
 
Kiểm tra cuối học kì 1 sinh học 12 đề tham khảo
Kiểm tra cuối học kì 1 sinh học 12 đề tham khảoKiểm tra cuối học kì 1 sinh học 12 đề tham khảo
Kiểm tra cuối học kì 1 sinh học 12 đề tham khảohoanhv296
 
GNHH và KBHQ - giao nhận hàng hoá và khai báo hải quan
GNHH và KBHQ - giao nhận hàng hoá và khai báo hải quanGNHH và KBHQ - giao nhận hàng hoá và khai báo hải quan
GNHH và KBHQ - giao nhận hàng hoá và khai báo hải quanmyvh40253
 
Giới thiệu Dự án Sản Phụ Khoa - Y Học Cộng Đồng
Giới thiệu Dự án Sản Phụ Khoa - Y Học Cộng ĐồngGiới thiệu Dự án Sản Phụ Khoa - Y Học Cộng Đồng
Giới thiệu Dự án Sản Phụ Khoa - Y Học Cộng ĐồngYhoccongdong.com
 
Các điều kiện bảo hiểm trong bảo hiểm hàng hoá
Các điều kiện bảo hiểm trong bảo hiểm hàng hoáCác điều kiện bảo hiểm trong bảo hiểm hàng hoá
Các điều kiện bảo hiểm trong bảo hiểm hàng hoámyvh40253
 
Campbell _2011_ - Sinh học - Tế bào - Ref.pdf
Campbell _2011_ - Sinh học - Tế bào - Ref.pdfCampbell _2011_ - Sinh học - Tế bào - Ref.pdf
Campbell _2011_ - Sinh học - Tế bào - Ref.pdfTrnHoa46
 
ĐỀ CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT CÁC TỈNH THÀNH NĂM HỌC 2020 –...
ĐỀ CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT CÁC TỈNH THÀNH NĂM HỌC 2020 –...ĐỀ CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT CÁC TỈNH THÀNH NĂM HỌC 2020 –...
ĐỀ CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT CÁC TỈNH THÀNH NĂM HỌC 2020 –...Nguyen Thanh Tu Collection
 
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docxTHAO316680
 
PHƯƠNG THỨC VẬN TẢI ĐƯỜNG SẮT TRONG VẬN TẢI
PHƯƠNG THỨC VẬN TẢI ĐƯỜNG SẮT TRONG VẬN TẢIPHƯƠNG THỨC VẬN TẢI ĐƯỜNG SẮT TRONG VẬN TẢI
PHƯƠNG THỨC VẬN TẢI ĐƯỜNG SẮT TRONG VẬN TẢImyvh40253
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 

Recently uploaded (20)

30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...
 
kinh tế chính trị mác lênin chương hai và hàng hoá và sxxhh
kinh tế chính trị mác lênin chương hai và hàng hoá và sxxhhkinh tế chính trị mác lênin chương hai và hàng hoá và sxxhh
kinh tế chính trị mác lênin chương hai và hàng hoá và sxxhh
 
Danh sách sinh viên tốt nghiệp Đại học - Cao đẳng Trường Đại học Phú Yên năm ...
Danh sách sinh viên tốt nghiệp Đại học - Cao đẳng Trường Đại học Phú Yên năm ...Danh sách sinh viên tốt nghiệp Đại học - Cao đẳng Trường Đại học Phú Yên năm ...
Danh sách sinh viên tốt nghiệp Đại học - Cao đẳng Trường Đại học Phú Yên năm ...
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
1 - MÃ LỖI SỬA CHỮA BOARD MẠCH BẾP TỪ.pdf
1 - MÃ LỖI SỬA CHỮA BOARD MẠCH BẾP TỪ.pdf1 - MÃ LỖI SỬA CHỮA BOARD MẠCH BẾP TỪ.pdf
1 - MÃ LỖI SỬA CHỮA BOARD MẠCH BẾP TỪ.pdf
 
GIÁO TRÌNH KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
GIÁO TRÌNH  KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘIGIÁO TRÌNH  KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
GIÁO TRÌNH KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
 
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
 
cac-cau-noi-tthcm.pdf-cac-cau-noi-tthcm-
cac-cau-noi-tthcm.pdf-cac-cau-noi-tthcm-cac-cau-noi-tthcm.pdf-cac-cau-noi-tthcm-
cac-cau-noi-tthcm.pdf-cac-cau-noi-tthcm-
 
sách sinh học đại cương - Textbook.pdf
sách sinh học đại cương   -   Textbook.pdfsách sinh học đại cương   -   Textbook.pdf
sách sinh học đại cương - Textbook.pdf
 
SLIDE - Tu van, huong dan cong tac tuyen sinh-2024 (đầy đủ chi tiết).pdf
SLIDE - Tu van, huong dan cong tac tuyen sinh-2024 (đầy đủ chi tiết).pdfSLIDE - Tu van, huong dan cong tac tuyen sinh-2024 (đầy đủ chi tiết).pdf
SLIDE - Tu van, huong dan cong tac tuyen sinh-2024 (đầy đủ chi tiết).pdf
 
Kiểm tra cuối học kì 1 sinh học 12 đề tham khảo
Kiểm tra cuối học kì 1 sinh học 12 đề tham khảoKiểm tra cuối học kì 1 sinh học 12 đề tham khảo
Kiểm tra cuối học kì 1 sinh học 12 đề tham khảo
 
GNHH và KBHQ - giao nhận hàng hoá và khai báo hải quan
GNHH và KBHQ - giao nhận hàng hoá và khai báo hải quanGNHH và KBHQ - giao nhận hàng hoá và khai báo hải quan
GNHH và KBHQ - giao nhận hàng hoá và khai báo hải quan
 
Giới thiệu Dự án Sản Phụ Khoa - Y Học Cộng Đồng
Giới thiệu Dự án Sản Phụ Khoa - Y Học Cộng ĐồngGiới thiệu Dự án Sản Phụ Khoa - Y Học Cộng Đồng
Giới thiệu Dự án Sản Phụ Khoa - Y Học Cộng Đồng
 
Các điều kiện bảo hiểm trong bảo hiểm hàng hoá
Các điều kiện bảo hiểm trong bảo hiểm hàng hoáCác điều kiện bảo hiểm trong bảo hiểm hàng hoá
Các điều kiện bảo hiểm trong bảo hiểm hàng hoá
 
Campbell _2011_ - Sinh học - Tế bào - Ref.pdf
Campbell _2011_ - Sinh học - Tế bào - Ref.pdfCampbell _2011_ - Sinh học - Tế bào - Ref.pdf
Campbell _2011_ - Sinh học - Tế bào - Ref.pdf
 
ĐỀ CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT CÁC TỈNH THÀNH NĂM HỌC 2020 –...
ĐỀ CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT CÁC TỈNH THÀNH NĂM HỌC 2020 –...ĐỀ CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT CÁC TỈNH THÀNH NĂM HỌC 2020 –...
ĐỀ CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT CÁC TỈNH THÀNH NĂM HỌC 2020 –...
 
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx
 
PHƯƠNG THỨC VẬN TẢI ĐƯỜNG SẮT TRONG VẬN TẢI
PHƯƠNG THỨC VẬN TẢI ĐƯỜNG SẮT TRONG VẬN TẢIPHƯƠNG THỨC VẬN TẢI ĐƯỜNG SẮT TRONG VẬN TẢI
PHƯƠNG THỨC VẬN TẢI ĐƯỜNG SẮT TRONG VẬN TẢI
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 

Webmining[final]

  • 1.
  • 2.
  • 4. KHÁI NIỆM Trích chọn ra các thành phần được quan tâm hay được đánh giá là có ích cùng các thông tin tiềm năng từ các tài nguyên hoặc các hoạt động liên quan đến World Wide Web.
  • 6. WEBSITE – THỐNG KÊ http://www.pingdom.com 255 triệu – Số website tính đến thời điểm tháng 12/2010. 21.4 triệu– Số website mới của năm 2010
  • 7. ĐẶC TRƯNG WEB Quá lớn để tổ chức thành kho dữ liệu Độ phức tạp là rất lớn Là một nguồn tài nguyên thông tin có độ thay đổi cao Phục vụ một cộng đồng người dùng rộng lớn và đa dạng Chỉ một phần rất nhỏ của thông tin trên web là thực sự hữu ích
  • 8. THUẬN LỢI Tính «dữ liệu bán cấu trúc» Không chỉ có các trang mà còn có các liên kết Weblog entry
  • 9. CÁC BÀI TOÁN ỨNG DỤNG Khai phá dữ liệu text + bổ sung các yếu tố của miền ứng dụng dữ liệu web Khai phá dữ liệu mang tính đặc thù của Web
  • 12. WEB PAGE SUMMARIZATION Truy xuất các thông tin từ các văn bản có cấu trúc, văn bản siêu liên kết, hay các văn bản bán cấu trúc.  Liên quan chủ yếu tới việc khai phá bản thân nội dung các văn bản.
  • 13. SEARCH ENGINE RESULT SUMMARIZATION
  • 14. QUÁ TRÌNH KHAI PHÁ TEXT
  • 15. LĨNH VỰC ỨNG DỤNG Y tế và chăm sóc sức khoẻ Sinh học An toàn thông tin Phát triển phần mềm ...
  • 17.
  • 18.
  • 20. KHAI PHÁ ĐỒ THỊ WEB Hạng trang Web: tính “độ quan trọng” của một trang Web.
  • 21. KHAI PHÁ ĐỒ THỊ WEB
  • 22. KHAI PHÁ CẤU TRÚC TRANG WEB Cấu trúc trang Web Trang Web tuân thủ theo quy định của ngôn ngữ định dạng trang web (HTML,…) Trang web được tổ chức dưới dạng hình cây. Output khai phá cấu trúc là input khai phá dữ liệu Phân tích cấu trúc trang Web Tìm các mẫu cấu trúc trang Web Kết hợp với khai phá nội dung Web
  • 24. KHAI PHÁ SỬ DỤNG WEB
  • 25.
  • 26.
  • 29. PHÂN TÍCH XU HƯỚNG CÁ NHÂN Định nghĩa: Phân tích các mẫu truy cập của người dùng tại mỗi thời điểm để biết xu hướng truy cập trang Web của từng đối tượng người dùng tại mỗi thời điểm khác nhau. Giới thiệu “Cá nhân hóa”: Thông tin cá nhân và tư vấn cá nhân hóa Thông tin cá nhân: CSDL quản lý; Máy khách.. Ngữ cảnh làm việc của cá nhân: vào mấy giờ user đó truy cập vào, mục hay truy cập…
  • 30. Hệ thống khai phá sử dụng Webtư vấn hướng cá nhân
  • 31. END THANKS FOR LISTENING!

Editor's Notes

  1. Là sự kết hợp giữa khai phá text và công nghệ web.- Khai phá dữ liệu: phát hiện tri thức trong CSDL(quá trình nhận ra những mẫu có giá trị, mới, hữu ích tiềm năng và được hiểu trong dữ liệu)
  2. Pingdom.com là một website uy tín chuyên cung cấp các dịch vụ quản lý và theo dõi lưu lượng truy cập cho các website trên toàn thế giới.
  3. - Các CSDL truyền thống có kích thước không lớn lắm, thường được lưu trữ tập trungWeb có kích thước rất lớn, tới hàng T, thay đổi liên tục, phân tán khắp thế giới.1/2005, có hơn 11,5 tỷ trang web được đánh chỉ số, Google đã lưu hơn 4 tỷ trang Web với dung lượng hàng trăm T(trung bình 5-10KB  55TB)  không thể xây dựng kho lưu trữ tích hợpdữ liệu thường không đồng nhất: nhiều ngôn ngữ(nội dung, lập trình), nhiều định dạng, từ vựng. Nhưng không được sắp xếp theo một tiêu chuẩn nàoCác thông tin trong web được cập nhật liên tục. Ví dụ: tin tức, thị trường chứng khoán, quảng cáo,...Phục vụ cho lượng người đa dạng, mức độ quan tâm khác nhau99% thông tin của web là vô ích với 99% người dùng web
  4. cấu trúc theo quy định của ngôn ngữ định dạng
  5. 1: phân lớp, phân cụm, phân đoạn kết hợp với các siêu liên kết2: dự báo khai thác yếu tố thời gian liên quan đến thời điểm xuất hiện trang web  dự báo nội dung, cấu trúc, hình thức xuất hiện trong thời gian tới; dự báo nhu cầu, đánh giá khách hàng,…
  6. Phần lớn tri thức web được chứa trong nội dung văn bảnVăn bản không phải toàn bộ nội dung web, mà còn hình ảnh, âm thanh, video,…
  7. Quá trình này thường sử dụng các thông tin như tiêu đề trang, URL, content-type, các liên kết trong trang web... để tiến hành phân lớp và đưa ra tập con các kết quả tốt nhất cho người dùng.
  8. Y tế: hoạt động khám và điều trị  cung cấp kinh nghiệm chuyên môn, phát triển chuyên môn, tiềm ẩn các thông tin liên quan bệnh – thuốc – bệnh nhânTin- sinh học: gen, di truyềnAn toàn thông tin: mail, tin tức,...  đưa ra các kết nối giữa con người, nhóm, ứng xử, thị hiếuPhần mềm: phát hiện phần mềm nhái, thu gọn tối ưu hoá
  9. Khi nói đến khai phá cấu trúc web là chúng ta phải tưởng tượng , hình dung nó dưới dạng đồ thị. Đỉnh là trang web và cạnh là các liên kết . Ví dụ : blog , mạng xã hội ….email cũng là một dạng của đồ thị web.
  10. Khai phá đồ thị Web là bài toán cơ bản nhất và cũng điển hình nhất trong khai phá cấu trúc Web.
  11. Đồ thị nhận thấy rất đơn giản trong cuộc sống đó là các quan hệ xã hội. Còn trong web thì cũng tương tự như vậy. Mỗi trang Web là 1 đỉnh, các cạnh của nó là các link trỏ tới nó hoặc nó trỏ tới trang khác.Ngoài ra còn có thêm 1 số ví dụ về đồ thị áp dụng trong internet như: email, blog , facebok..
  12. Trang A liên kết tới B Ok có hướng.Hạng trang Web, là một bài toán kinh điển, hạng này được sử dụng trong nhiều tình huống khác nhau: Những trang có rank cao thì sẽ được dẫn dắt đi trước trong tìm kiếm của Google. Theo số liệu nghiên cứu thì, khi 1 trang web có nhiều trang link tới nó thì đó là trang web quan trọng. Rank sẽ được tính dược theo các liên kết này.
  13. Phân lớp Web dựa theo liên kết Khai thác thông tin liên kết cho phân lớp WebPhân cụm Web dựa theo liên kết Tìm ra sự xuất hiện tự nhiên các lớp con: dữ liệu là liên kếtPhân tích kiểu liên kết Dự báo về sự tồn tại của liên kết Dự báo mục đích của liên kết Phân tích độ mạnh liên kết Độ mạnh của cung và đỉnh (hạng trang)Phân tích số lượng liên kết Dự báo số lượng liên kết giữa các đối tượng.
  14. Có những trang sẽ đưa sitemap này lên….
  15. Tập người dùng có thể koi là đối tượng phục vụ của bài toán phân tích mẫu truy cập WebThông tin truy cập sẽ được Web Server log ghi nhận lại.
  16. Không chỉ dừng lại ở các thống kê như thế này mà còn thống kê người dùng, địa điểm, nơi ở , vùng miền để có những chiến lược nhất định