Tác giả: Hà Quang Thụy

Năm XB: 2009

NXB: Giáo dục Việt Nam

Ngày nay, World Wide Web đã trở thành một kho tài nguyên dữ liệu khổng lồ về mọi lĩnh vực; kho tài nguyên dữ liệu này đang không ngừng tăng trưởng với tốc độ cao. Kho tài nguyên dữ liệu web tiềm ẩn nhiều thông tin quý giá đối với hoạt động của cộng đồng nói chung và từng cá thể nói riêng. Các hệ thống khai phá dữ liệu Web đã trở thành các công cụ làm cho tài nguyên Web “kho trời chung vô tận của riêng mình” thực sự phát huy hiệu quả tới cộng đồng và tới mỗi cá thể trong cộng đồng. Phù hợp với sự phát triển của Web, hoạt động nghiên cứu và triển khai về khai phá dữ liệu Web không ngừng được tăng trưởng.

Từ năm 2006, “Khai phá dữ liệu Web” đã là môn học trong chương trình đào đạo ngành Công nghệ thông tin (CNTT) và Hệ thống thông tin (HTTT) tại Khoa Công nghệ Thông tin Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội. Giáo trình này được tập hợp và hoàn thiện từ nội dung các bài giảng trong thời gian vừa qua, nhằm cung cấp một tài liệu hoàn chỉnh phục vụ hoạt động giảng dạy và học tập môn học này tại Khoa CNTT, Trường ĐHCN ở bậc đại học và sau đại học. Các nội dung trong giáo trình không chỉ đáp ứng yêu cầu đào tạo về lĩnh vực khoa học và công nghệ liên quan mà còn cung cấp một số kiến thức và kỹ năng mở rộng, chuyên sâu phục vụ nhu cầu nghiên cứu và phát triển lĩnh vực khai phá dữ liệu Web không chỉ tại Trường ĐHCN mà còn ở các cơ sở đào tạo và nghiên cứu khác trong nước.

Giáo trình gồm 10 chương:

Chương 1: Một số nội dung cơ bản về khai phá dữ liệu cung cấp các kiến thức cơ bản nhất về lĩnh vực khai phá dữ liệu và phát hiện tri thức trong các CSDL, nhằm giúp độc giả nắm bắt được bản chất của các khái niệm cơ bản trong khai phá dữ liệu, phân biệt các khái niệm này với một số khái niệm liên quan và một số bài toán cơ bản nhất và xu hướng phát triển của khai phá dữ liệu, phát hiện tri thức trong các CSDL.

Chương 2: Tổng quan về khai phá Web cung cấp các kiến thức cơ bản nhất về khai phá Text và khai phá Web, nhằm giúp độc giả nắm bắt được các nội dung cơ bản của khai phá Text và khai phá Web. Chương này cũng trình bày cơ bản về khai phá cấu trúc Web và khai phá sử dụng Web.

Chương 3: Một số kiến thức toán học cho khai phá dữ liệu Web nhằm mục tiêu cung cấp một số kiến thức nền tảng về toán học cho khai phá dữ liệu Web. Lý thuyết đồ thị và lý thuyết xác suất thâm nhập sâu rộng vào khai phá dữ liệu Web theo các góc độ mô hình, giải pháp và kỹ thuật có nguồn gốc từ bản chất tự nhiên và xã hội của Web.

Chương 4: Một số vấn đề về xử lý ngôn ngữ tiếng Việt cho khai phá văn bản cung cấp một số kiến thức nền tảng về xử lý ngôn ngữ tự nhiên nói chung và xử lý tiếng Việt nói riêng, cho phép nâng cao hiệu quả của các giải pháp khai phá Web tiếng Việt.

Chương 5: Các phương pháp biểu diễn văn bản trình bày bài toán các khuôn dạng biểu diễn dữ liệu cho các thuật toán khai phá dữ liệu.

Chương 6: Hệ thống tìm kiếm

Chương 7: Phân cụm văn bản

Chương 8: Phân lớp Web

Chương 9: Trích chọn thông tin trên Web: trình bày về bốn bài toán chủ yếu của khai phá dữ liệu Web. Các khái niệm liên quan, các mô hình biểu diễn, các thuật toán, các kỹ thuật và các phương pháp đánh giá hiệu quả được giới thiệu và phân tích.

Chương 10: Web ngữ nghĩa trình bày về Web ngữ nghĩa, thế hệ mới của Web gồm khái niệm, kiến trúc, các ngôn ngữ và quá trình tiệm cận tới Web ngữ nghĩa.

Trân trọng giới thiệu cùng bạn đọc!