4. KHÁI NIỆM Trích chọn ra các thành phần được quan tâm hay được đánh giá là có ích cùng các thông tin tiềm năng từ các tài nguyên hoặc các hoạt động liên quan đến World Wide Web.
6. WEBSITE – THỐNG KÊ http://www.pingdom.com 255 triệu – Số website tính đến thời điểm tháng 12/2010. 21.4 triệu– Số website mới của năm 2010
7. ĐẶC TRƯNG WEB Quá lớn để tổ chức thành kho dữ liệu Độ phức tạp là rất lớn Là một nguồn tài nguyên thông tin có độ thay đổi cao Phục vụ một cộng đồng người dùng rộng lớn và đa dạng Chỉ một phần rất nhỏ của thông tin trên web là thực sự hữu ích
8. THUẬN LỢI Tính «dữ liệu bán cấu trúc» Không chỉ có các trang mà còn có các liên kết Weblog entry
9. CÁC BÀI TOÁN ỨNG DỤNG Khai phá dữ liệu text + bổ sung các yếu tố của miền ứng dụng dữ liệu web Khai phá dữ liệu mang tính đặc thù của Web
12. WEB PAGE SUMMARIZATION Truy xuất các thông tin từ các văn bản có cấu trúc, văn bản siêu liên kết, hay các văn bản bán cấu trúc. Liên quan chủ yếu tới việc khai phá bản thân nội dung các văn bản.
22. KHAI PHÁ CẤU TRÚC TRANG WEB Cấu trúc trang Web Trang Web tuân thủ theo quy định của ngôn ngữ định dạng trang web (HTML,…) Trang web được tổ chức dưới dạng hình cây. Output khai phá cấu trúc là input khai phá dữ liệu Phân tích cấu trúc trang Web Tìm các mẫu cấu trúc trang Web Kết hợp với khai phá nội dung Web
29. PHÂN TÍCH XU HƯỚNG CÁ NHÂN Định nghĩa: Phân tích các mẫu truy cập của người dùng tại mỗi thời điểm để biết xu hướng truy cập trang Web của từng đối tượng người dùng tại mỗi thời điểm khác nhau. Giới thiệu “Cá nhân hóa”: Thông tin cá nhân và tư vấn cá nhân hóa Thông tin cá nhân: CSDL quản lý; Máy khách.. Ngữ cảnh làm việc của cá nhân: vào mấy giờ user đó truy cập vào, mục hay truy cập…
Là sự kết hợp giữa khai phá text và công nghệ web.- Khai phá dữ liệu: phát hiện tri thức trong CSDL(quá trình nhận ra những mẫu có giá trị, mới, hữu ích tiềm năng và được hiểu trong dữ liệu)
Pingdom.com là một website uy tín chuyên cung cấp các dịch vụ quản lý và theo dõi lưu lượng truy cập cho các website trên toàn thế giới.
- Các CSDL truyền thống có kích thước không lớn lắm, thường được lưu trữ tập trungWeb có kích thước rất lớn, tới hàng T, thay đổi liên tục, phân tán khắp thế giới.1/2005, có hơn 11,5 tỷ trang web được đánh chỉ số, Google đã lưu hơn 4 tỷ trang Web với dung lượng hàng trăm T(trung bình 5-10KB 55TB) không thể xây dựng kho lưu trữ tích hợpdữ liệu thường không đồng nhất: nhiều ngôn ngữ(nội dung, lập trình), nhiều định dạng, từ vựng. Nhưng không được sắp xếp theo một tiêu chuẩn nàoCác thông tin trong web được cập nhật liên tục. Ví dụ: tin tức, thị trường chứng khoán, quảng cáo,...Phục vụ cho lượng người đa dạng, mức độ quan tâm khác nhau99% thông tin của web là vô ích với 99% người dùng web
cấu trúc theo quy định của ngôn ngữ định dạng
1: phân lớp, phân cụm, phân đoạn kết hợp với các siêu liên kết2: dự báo khai thác yếu tố thời gian liên quan đến thời điểm xuất hiện trang web dự báo nội dung, cấu trúc, hình thức xuất hiện trong thời gian tới; dự báo nhu cầu, đánh giá khách hàng,…
Phần lớn tri thức web được chứa trong nội dung văn bảnVăn bản không phải toàn bộ nội dung web, mà còn hình ảnh, âm thanh, video,…
Quá trình này thường sử dụng các thông tin như tiêu đề trang, URL, content-type, các liên kết trong trang web... để tiến hành phân lớp và đưa ra tập con các kết quả tốt nhất cho người dùng.
Y tế: hoạt động khám và điều trị cung cấp kinh nghiệm chuyên môn, phát triển chuyên môn, tiềm ẩn các thông tin liên quan bệnh – thuốc – bệnh nhânTin- sinh học: gen, di truyềnAn toàn thông tin: mail, tin tức,... đưa ra các kết nối giữa con người, nhóm, ứng xử, thị hiếuPhần mềm: phát hiện phần mềm nhái, thu gọn tối ưu hoá
Khi nói đến khai phá cấu trúc web là chúng ta phải tưởng tượng , hình dung nó dưới dạng đồ thị. Đỉnh là trang web và cạnh là các liên kết . Ví dụ : blog , mạng xã hội ….email cũng là một dạng của đồ thị web.
Khai phá đồ thị Web là bài toán cơ bản nhất và cũng điển hình nhất trong khai phá cấu trúc Web.
Đồ thị nhận thấy rất đơn giản trong cuộc sống đó là các quan hệ xã hội. Còn trong web thì cũng tương tự như vậy. Mỗi trang Web là 1 đỉnh, các cạnh của nó là các link trỏ tới nó hoặc nó trỏ tới trang khác.Ngoài ra còn có thêm 1 số ví dụ về đồ thị áp dụng trong internet như: email, blog , facebok..
Trang A liên kết tới B Ok có hướng.Hạng trang Web, là một bài toán kinh điển, hạng này được sử dụng trong nhiều tình huống khác nhau: Những trang có rank cao thì sẽ được dẫn dắt đi trước trong tìm kiếm của Google. Theo số liệu nghiên cứu thì, khi 1 trang web có nhiều trang link tới nó thì đó là trang web quan trọng. Rank sẽ được tính dược theo các liên kết này.
Phân lớp Web dựa theo liên kết Khai thác thông tin liên kết cho phân lớp WebPhân cụm Web dựa theo liên kết Tìm ra sự xuất hiện tự nhiên các lớp con: dữ liệu là liên kếtPhân tích kiểu liên kết Dự báo về sự tồn tại của liên kết Dự báo mục đích của liên kết Phân tích độ mạnh liên kết Độ mạnh của cung và đỉnh (hạng trang)Phân tích số lượng liên kết Dự báo số lượng liên kết giữa các đối tượng.
Có những trang sẽ đưa sitemap này lên….
Tập người dùng có thể koi là đối tượng phục vụ của bài toán phân tích mẫu truy cập WebThông tin truy cập sẽ được Web Server log ghi nhận lại.
Không chỉ dừng lại ở các thống kê như thế này mà còn thống kê người dùng, địa điểm, nơi ở , vùng miền để có những chiến lược nhất định