Khoa học kỹ thuật phát triển, đi cùng với nó là sự phát triển không ngừng của dữ liệu về kích thước và chủng loại. Nhiệm vụ khai phá dữ liệu nói chung cũng như nghiên cứu các thuật toán phân lớp nói riêng trở nên ngày càng bức thiết và đóng vai trò trung tâm trong việc giải quyết các bài toán cụ thể. Thực tế cho thấy, chúng ta chỉ có thể tìm ra một số thuật toán phù hợp với một số loại dữ liệu cụ thể và bị giới hạn về kích thước dữ liệu. Kết quả của thuật toán phụ thuộc rất nhiều vào việc xử lý dữ liệu thô. Trong khai phá dữ liệu, phương pháp trích chọn đóng vai trò quan trọng trong tiền xử lý số liệu, đặc biệt đối với ngành tin sinh học, xử lý dữ liệu âm thanh, hình ảnh, dữ liệu mạng xã hội… Đặc điểm chung của những lĩnh vực này là kích thước rất lớn (hàng trăm, hàng trăm nghìn thuộc tính) nhưng chỉ một số ít thuộc tính có giá trị dùng để phân tích. Trích chọn thuộc tính giúp tìm ra các thuộc tính có ích, loại bỏ các thuộc tính dư thừa. Phương pháp tác động trực tiếp đến kết quả của thuật toán như tăng tốc độ xử lý, cải thiện dữ liệu, tăng hiệu xuất khai phá.
Thuật toán k-Láng giềng gần nhất (kNN) [10] là một trong những kỹ thuật cơ bản, đơn giản và trực giác nhất trong lĩnh vực phân tích thống kê. Bộ phân lớp dựa trên thuật toán kNN là một bộ học lười (lazy learner), không cần thực hiện quá trình học cho mô hình. Nó cần sử dụng tất cả các đối tượng dữ liệu trong tập tham chiếu để ra quyết định gán nhãn lớp cho một quan sát mới. Thực nghiệm cho thấy, thuật toán kNN đơn giản, nhưng thường cho kết quả khá tốt. Tuy nhiên hiệu quả của thuật toán hạn chế do nền tảng xây dựng dựa trên dữ liệu tuyến tính. Để có thể áp dụng thuật toán này vào dữ liệu phi tuyến, đã có nhiều nghiên cứu ứng dụng các kỹ thuật khác nhau để có thể biến đổi dữ liệu tuyến tính thành dữ liệu phi tuyến. Hướng tiếp cận trong luận văn này là sử dụng một phép biến đổi từ không gian ban đầu sang một không gian mới sau đó áp dụng thuật toán kNN. Việc tính toán trên không gian phi tuyến là công việc của thuật toán Hàm nhân – k Láng giềng gần nhất (Kernel – k Nearest Neighbor).
Thuật toán Di truyền (GA) là kỹ thuật tìm kiếm tối ưu ngẫu nhiên phỏng theo quá trình thích nghi tiến hóa của các quần thể sinh vật. Tư tưởng của thuật toán GA là mô phỏng sự phát triển tự nhiên, kế thừa và đấu tranh sinh tồn của sinh vật. Thực tế chỉ có những sinh vật liên tục tiến hóa để thích nghi với hoàn cảnh sẽ tồn tại và phát triển. GA xét đến toàn bộ các lời giải bằng cách, trước tiên chọn tập các lời giải sau đó loại bỏ những lời giải không thích hợp và chọn những lời giải thích hợp hơn để tiến hành lai ghép và đột biến nhằm mục đích tạo ra nhiều lời giải mới có độ thích nghi ngày càng cao. GA giúp tìm ra lời giải tối ưu hay tốt nhất trong điều kiện thời gian và không gian cho phép.
Trong luận văn này tôi đưa ra một cách tiếp cận mới, kết hợp thuật toán GA và Kernel k-NN theo mô hình Wrapper. GA giúp tìm ra các tập thuộc tính và Kernel k-NN trả về kết quả của hàm mục tiêu trong GA. Hay nói một cách khác, GA đã chọn một tập thuộc tính được coi là tốt nhất trong quần thể các thuộc tính, tập thuộc tính tốt được hiểu trong ngữ cảnh hiện tại là các thuộc tính được trích chọn giúp phân lớp tốt nhất dựa trên kết quả của hàm tính khoảng cách trong thuật toán Kernel k-NN. GA đã giúp tăng độ chính xác phân lớp nhờ việc tối ưu dữ liệu đầu vào cho thuật toán Kernel k-NN.
Nội dung của luận văn được chia thành các chương như sau:
- Chương 1: Giới thiệu Khai phá dữ liệu
- Chương 2: Cơ sở lý thuyết.
- Chương 3: Mô hình GA_Kernel k-NN và kết quả thực nghiệm. Kết luận: Tóm lược kết quả đạt được của luận văn.
Link tải tài liệu: https://tii.la/1MNHq
Lưu ý: Link tải có chứa quảng cáo được rút gọn bằng Shrinkearn.com
Mật khẩu mở tệp PDF: sharetailieu.net