Giới thiệu tổng quan về lọc thông tin, các phương pháp lọc thông tin như phương pháp lọc theo nội dung, lọc cộng tác và phương pháp lọc kết hợp. Nghiên cứu phương pháp hạn chế ảnh hưởng của vấn đề dữ liệu thưa của lọc cộng tác bằng phương pháp học đa nhiệm và phương pháp kết hợp giữa lọc cộng tác và lọc nội dung dựa trên mô hình đồ thị. Tiến hành thử nghiệm để đánh giá mức độ khả thi của các phương pháp đã đề xuất
Tính cấp thiết của luận án
Vấn đề quá tải thông tin (Information Overload) được J.Denning nêu ra lần đầu tiên vào năm 1982. Với những lý lẽ và bằng chứng thuyết phục, Denning khẳng định khả năng lựa chọn thông tin hữu ích của người dùng máy tính sẽ gặp khó khăn nghiêm trọng bởi sự gia tăng không ngừng lượng thông tin khổng lồ đến từ hàng trăm kênh truyền hình, hàng triệu băng hình, sách, báo, tạp chí, tài liệu thông qua các hệ thống giao dịch điện tử. Vấn đề Denning công bố ngay lập tức được cộng đồng các nhà khoa học máy tính nhiệt tình hưởng ứng và tập trung nghiên cứu phương pháp hạn chế ảnh hưởng của vấn đề quá tải thông tin đối với người dùng, thúc đẩy một lĩnh vực nghiên cứu mới đó là lọc thông tin.
Lọc thông tin (Information Filtering) là lĩnh vực nghiên cứu các quá trình lọc bỏ những thông tin không thích hợp và cung cấp thông tin t hích hợp đến với mỗi người dùng. Lọc thông tin được xem là phương pháp hiệu quả hạn chế tình trạng quá tải thông tin được quan tâm nhiều nhất hiện nay.
Lọc thông tin được tiếp cận theo hai xu hướng chính, đó là lọc dựa trên tri thức và lọc dựa trên dữ liệu. Trong trường hợp dựa vào tri thức, hệ thống thực hiện lọc thông tin bằng cách sử dụng tập luật xây dựng trước. Nhược điểm của phương pháp này là để có được một tập luật đủ tốt đòi hỏi chi phí nhiều thời gian và kinh nghiệm của chuyên gia; việc cập nhật các luật không thể thực hiện được tự động vì nguồn dữ liệu vào thường không có cấu trúc và luôn trong trạng thái biến động. Chính vì vậy, lọc dựa trên tri thức có xu hướng ít được sử dụng.
Đối với các hệ thống lọc dựa trên dữ liệu, các quy tắc lọc được xây dựng từ dữ liệu mà hệ thống thu thập được bằng các kỹ thuật thống kê hoặc các thuật toán học máy. Cách tiếp cận này cho phép tự động cập nhật các quy tắc lọc và không lệ thuộc vào tri thức chuyên gia. Hệ thống lọc dựa trên dữ liệu có khả năng thích nghi cao và tận dụng được nguồn dữ liệu. Chính vì vậy, cách tiếp cận này được quan tâm nghiên cứu hơn so với phương pháp dựa vào tri thức.
Hệ tư vấn (Recommender System) là hệ thống có khả năng tự động phân tích, phân loại, lựa chọn và cung cấp cho người dùng những thông tin, hàng hóa hay dịch vụ mà họ quan tâm. Hệ tư vấn được xem như một biến thể điển hình có vai trò quan trọng trong lọc thông tin. Nhiều hệ tư vấn đã được thương mại hóa và triển khai thành công, tiêu biểu là hệ tư vấn của các hãng Amazon.com, Netflix.com, Procter & Gamble.
Hệ tư vấn được xây dựng dựa trên hai kỹ thuật lọc thông tin chính: Lọc theo nội dung (Content-Based Filtering) và lọc cộng tác (Collaborative Filtering). Lọc theo nội dung khai thác những khía cạnh liên quan đến nội dung thông tin sản phẩm người dùng đã từng sử dụng hay truy nhập trong quá khứ để tạo nên tư vấn. Trái lại, lọc cộng tác khai thác những khía cạnh liên quan đến thói quen sử dụng sản phẩm của cộng đồng người dùng có cùng sở thích để tạo nên tư vấn.
Trong quá trình nghiên cứu và ứng dụng, bên cạnh những vấn đề chung của bài toán lọc thông tin thông thường, xuất hiện một số vấn đề mang tính đặc thù đối với thông tin tƣ vấn như tính thưa thớt dữ liệu huấn luyện, xử lý người dùng mới, hàng hóa mới, yêu cầu kết hợp các dạng thông tin khác nhau, làm việc với dữ liệu kích thước lớn được cập nhật thường xuyên. Mặc dù đã có nhiều nghiên cứu nhắm tới nội dung này, nhưng đây vẫn là những vấn đề nghiên cứu mở, có tính thời sự và thu hút sự qua tâm của cộng đồng nghiên cứu.
Đề tài ―Phát triển một số phương pháp lọc thông tin cho hệ tư vấn được thực hiện trong khuôn khổ luận án tiến sĩ chuyên ngành khoa học máy tính nhằm góp phần giải quyết một số vấn đề còn tồn tại của lọc thông tin cho các hệ tư vấn.
Mục tiêu của luận án
Mục tiêu của luận án là nghiên cứu áp dụng, cải tiến một số kỹ thuật học máy nhằm cải thiện độ chính xác của lọc thông tin trong các hệ tư vấn. Đặc biệt, nghiên cứu tập trung vào việc nâng cao kết quả dự đoán nhu cầu người dùng trong trường hợp dữ liệu thưa, cũng như trong trường hợp có cả dữ liệu sở thích người dùng và thông tin nội dung sản phẩm.
Các đóng góp của luận án
Đóng góp thứ nhất của luận án là đề xuất áp dụng một kỹ thuật Boosting cải tiến cho nhiều bài toán phân loại vào lọc cộng tác, bao gồm:
- Đề xuất phương pháp giải quyết bài toán lọc cộng tác bằng kỹ thuật Boosting dựa trên biểu diễn dữ liệu phù hợp cho bài toán phân loại của học máy;
- Áp dụng kỹ thuật Boosting cải tiến cho nhiều bài toán phân loại bằng phương pháp học đa nhiệm dựa trên gốc quyết định (Decision Stump) cho lọc cộng tác nhằm hạn chế ảnh hưởng của vấn đề dữ liệu thưa;
- Thử nghiệm và đánh giá kết quả phương pháp cải tiến, đặc biệt chú trọng đánh giá kết quả dự đoán trong trường hợp dữ liệu thưa của lọc cộng tác.Hầu hết các phương pháp học máy cho lọc cộng tác hiện nay đều thực hiện những nhiệm vụ học đơn lẻ (Single Task Learning) với giả thiết dữ liệu huấn luyện và dữ liệu kiểm tra được mô tả trong cùng một không gian các giá trị đặc trưng với cùng một phân bố. Khi phân bố thay đổi, tập dữ liệu huấn luyện và dữ liệu kiểm tra phải xây dựng lại. Trên thực tế, việc làm này không phải lúc nào cũng thực hiện được làm cho kết quả dự đoán các phương pháp kém tin cậy.
Mặt khác, tại mỗi thời điểm, phương pháp chỉ thực hiện một nhiệm vụ đơn lẻ, kết quả của mỗi nhiệm vụ cụ thể hoàn toàn độc lập với các nhiệm vụ khác. Chính vì vậy, phương pháp tiếp cận này sẽ gặp khó khăn khi dữ liệu huấn luyện thưa thớt. Để giải quyết vấn đề này, luận án đề xuất áp dụng phương pháp học đa nhiệm (Multi-Task Learning) cho lọc cộng tác nhằm sử dụng tập thông tin chung giữa các nhiệm vụ học đơn lẻ. Tập thông tin chung tìm được đóng vai trò chia sẻ và bổ sung thông tin vào quá trình huấn luyện cho mỗi người dùng khác nhau, góp phần nâng cao kết quả dự đoán và hạn chế được ảnh hưởng của tình trạng dữ liệu thưa trong lọc cộng tác.
Đóng góp thứ hai của luận án là đề xuất một phương pháp lọc kết hợp dựa trên mô hình đồ thị, bao gồm:
- Biểu diễn mối liên hệ giữa các đối tượng tham gia hệ thống lọc (Người dùng, sản phẩm và nội dung sản phẩm) dựa vào mô hình đồ thị;
- Xây dựng phương pháp dự đoán cho lọc cộng tác dựa trên mô hình đồ thị.
- Xây dựng phương pháp trích chọn đặc trưng nội dung sản phẩm dựa trên thói quen sử dụng sản phẩm của người dùng;
- Cá nhân hóa ảnh hưởng của các đặc trưng nội dung đối với thói quen sử dụng sản phẩm của người dùng;
- Áp dụng thuật toán lan truyền mạng trên đồ thị kết hợp để dự đoán, phân bổ các sản phẩm cho mỗi người dùng;
- Thử nghiệm và đánh giá kết quả phương pháp đề xuất.Để tận dụng lợi thế của mỗi phương pháp lọc, luận án đề xuất phương pháp kết hợp giữa lọc cộng tác và lọc nội dung dựa trên biểu diễn đồ thị các đối tượng tham gia quá trình lọc, bao gồm: người dùng, sản phẩm, đánh giá người dùng và nội dung sản phẩm.
Để tránh những hạn chế của các phương pháp lọc kết hợp trước đây (phương pháp trích chọn đặc trưng nội dung chỉ dựa vào nội dung sản phẩm), luận án đề xuất phương pháp trích chọn đặc trưng nội dung dựa vào thói quen người dùng đối với sản phẩm. Dựa trên phương pháp này, những đặc trưng nội dung được xem là quan trọng với mỗi người dùng được giữ lại để phục vụ mục tiêu dự đoán. Việc tìm ra những đặc trưng có ảnh hưởng quan trọng đến thói quen người dùng không chỉ làm giảm chi phí tính toán của phương pháp (vì số lượng các đặc trưng nội dung quan trọng đối với mỗi người dùng còn lại rất ít), mà còn loại bỏ được những đặc trưng không ảnh hưởng hoặc ảnh hưởng không tốt đến thói quen sử dụng sản phẩm của người dùng.
Phương pháp dự đoán được đưa về bài toán tìm kiếm trên đồ thị không chỉ tận dụng được các thuật toán hiệu quả trên đồ thị mà còn tận dụng được mối liên hệ gián tiếp giữa các đối tượng tham gia hệ thống.
Phương pháp lọc kết hợp đề xuất được thử nghiệm và áp dụng cho hệ thống tư vấn lựa chọn phim đã cho lại kết quả dự đoán tốt. Hệ thống cho phép xem, đánh giá, bình luận và gợi ý những phim được xem hợp với sở thích ứng với mỗi người dùng. Hệ thống gồm bốn chức năng chính: Chức năng cập nhật, phân tích thông tin người dùng và sản phẩm; chức năng học; chức năng lọc và chức năng tư vấn. Trong đó, chức năng học và lọc được thực hiện theo phương pháp lọc kết hợp đề xuất.
Bố cục của luận án
Nôị dung luận án được xây dựng thành ba chương và một phụ lục, trong đó:
Chương 1. giới thiệu tổng quan về lọc thông tin. Trình bày những nghiên cứu cơ bản của lọc thông tin, các phương pháp lọc thông tin cho hệ tƣ vấn và những vấn đề cần tiếp tục nghiên cứu của mỗi phương pháp. Trên cơ những nghiên cứu cơ bản, xác định rõ hướng nghiên cứu của đề tài. Một kết quả nghiên cứu cơ bản của đề tài được công bố trong.
Chương 2. trình bày phương pháp hạn chế ảnh hưởng của vấn đề dữ liệu thưa trong lọc cộng tác bằng phương pháp học đa nhiệm. Nội dung trình bày trong chương này được tổng hợp dựa trên kết quả nghiên cứu đã công bố.
Chương 3. trình bày phương pháp kết hợp giữa lọc cộng tác và lọc nội dung dựa trên mô hình đồ thị. Nội dung trình bày trong chương này được tổng hợp từ kết quả nghiên cứu đã công bố. Cuối cùng là một số kết luận và đề xuất các nghiên cứu tiếp theo.
Phần phụ lục. trình bày thiết kế và xây dựng ứng dụng cho phương pháp lọc kết hợp được đề xuất trong Chương 3.
Link tải tài liệu: https://tii.la/mq59iD
Lưu ý: Link tải có chứa quảng cáo được rút gọn bằng Shrinkearn.com
Mật khẩu mở tệp PDF: sharetailieu.net