Tìm hiểu phương pháp tìm thuộc tính tối ưu nhằm tăng hiệu quả phân tích trong phân tích dữ liệu lớn

Khoa học kỹ thuật phát triển, đi cùng với nó là sự phát triển không ngừng của dữ liệu về kích thước và chủng loại. Nhiệm vụ khai phá dữ liệu nói chung cũng như nghiên cứu các thuật toán phân lớp nói riêng trở nên ngày càng bức thiết và đóng vai trò trung tâm trong việc giải quyết các bài toán cụ thể. Thực tế cho thấy, chúng ta chỉ có thể tìm ra một số thuật toán phù hợp với một số loại dữ liệu cụ thể và bị giới hạn về kích thước dữ liệu. Kết quả của thuật toán phụ thuộc rất nhiều vào việc xử lý dữ liệu thô. Trong khai phá dữ liệu, phương pháp trích chọn đóng vai trò quan trọng trong tiền xử lý số liệu, đặc biệt đối với ngành tin sinh học, xử lý dữ liệu âm thanh, hình ảnh, dữ liệu mạng xã hội… Đặc điểm chung của những lĩnh vực này là kích thước rất lớn (hàng trăm, hàng trăm nghìn thuộc tính) nhưng chỉ một số ít thuộc tính có giá trị dùng để phân tích. Trích chọn thuộc tính giúp tìm ra các thuộc tính có ích, loại bỏ các thuộc tính dư thừa. Phương pháp tác động trực tiếp đến kết quả của thuật toán như tăng tốc độ xử lý, cải thiện dữ liệu, tăng hiệu xuất khai phá.

Thuật toán k-Láng giềng gần nhất (kNN) [10] là một trong những kỹ thuật cơ bản, đơn giản và trực giác nhất trong lĩnh vực phân tích thống kê. Bộ phân lớp dựa trên thuật toán kNN là một bộ học lười (lazy learner), không cần thực hiện quá trình học cho mô hình. Nó cần sử dụng tất cả các đối tượng dữ liệu trong tập tham chiếu để ra quyết định gán nhãn lớp cho một quan sát mới. Thực nghiệm cho thấy, thuật toán kNN đơn giản, nhưng thường cho kết quả khá tốt. Tuy nhiên hiệu quả của thuật toán hạn chế do nền tảng xây dựng dựa trên dữ liệu tuyến tính. Để có thể áp dụng thuật toán này vào dữ liệu phi tuyến, đã có nhiều nghiên cứu ứng dụng các kỹ thuật khác nhau để có thể biến đổi dữ liệu tuyến tính thành dữ liệu phi tuyến. Hướng tiếp cận trong luận văn này là sử dụng một phép biến đổi từ không gian ban đầu sang một không gian mới sau đó áp dụng thuật toán kNN. Việc tính toán trên không gian phi tuyến là công việc của thuật toán Hàm nhân – k Láng giềng gần nhất (Kernel – k Nearest Neighbor).

Thuật toán Di truyền (GA) là kỹ thuật tìm kiếm tối ưu ngẫu nhiên phỏng theo quá trình thích nghi tiến hóa của các quần thể sinh vật. Tư tưởng của thuật toán GA là mô phỏng sự phát triển tự nhiên, kế thừa và đấu tranh sinh tồn của sinh vật. Thực tế chỉ có những sinh vật liên tục tiến hóa để thích nghi với hoàn cảnh sẽ tồn tại và phát triển. GA xét đến toàn bộ các lời giải bằng cách, trước tiên chọn tập các lời giải sau đó loại bỏ những lời giải không thích hợp và chọn những lời giải thích hợp hơn để tiến hành lai ghép và đột biến nhằm mục đích tạo ra nhiều lời giải mới có độ thích nghi ngày càng cao. GA giúp tìm ra lời giải tối ưu hay tốt nhất trong điều kiện thời gian và không gian cho phép.

Trong luận văn này tôi đưa ra một cách tiếp cận mới, kết hợp thuật toán GA và Kernel k-NN theo mô hình Wrapper. GA giúp tìm ra các tập thuộc tính và Kernel k-NN trả về kết quả của hàm mục tiêu trong GA. Hay nói một cách khác, GA đã chọn một tập thuộc tính được coi là tốt nhất trong quần thể các thuộc tính, tập thuộc tính tốt được hiểu trong ngữ cảnh hiện tại là các thuộc tính được trích chọn giúp phân lớp tốt nhất dựa trên kết quả của hàm tính khoảng cách trong thuật toán Kernel k-NN. GA đã giúp tăng độ chính xác phân lớp nhờ việc tối ưu dữ liệu đầu vào cho thuật toán Kernel k-NN.

Nội dung của luận văn được chia thành các chương như sau:

Chương 1: Giới thiệu Khai phá dữ liệu
Chương 2: Cơ sở lý thuyết.
Chương 3: Mô hình GA_Kernel k-NN và kết quả thực nghiệm. Kết luận: Tóm lược kết quả đạt được của luận văn.

Link tải tài liệu: https://tii.la/1MNHq

Lưu ý: Link tải có chứa quảng cáo được rút gọn bằng Shrinkearn.com

Mật khẩu mở tệp PDF: sharetailieu.net

Nghiên cứu chế tạo và khảo sát tính chất vật liệu Polyme Nanocompozit trên cơ sở Polyaniline và Graphit

Nghiên cứu công nghệ chế tạo và tính chất của giả vật liệu Metamaterial

Nghiên cứu chế tạo vật liệu sắt điện BaTiO3 và tổ hợp BaTiO3/Fe3O4 có cấu trúc micro-nano bằng phương pháp thủy phân nhiệt

Tiếp cận các ứng dụng giao thức truyền thông không dây MiWi PRO

Nghiên cứu chế tạo và khảo sát tính chất vật liệu Polyme Nanocompozit trên cơ sở Polyaniline và Graphit

Nghiên cứu công nghệ chế tạo và tính chất của giả vật liệu Metamaterial

Nghiên cứu chế tạo vật liệu sắt điện BaTiO3 và tổ hợp BaTiO3/Fe3O4 có cấu trúc micro-nano bằng phương pháp thủy phân nhiệt

Tiếp cận các ứng dụng giao thức truyền thông không dây MiWi PRO

LEAVE A REPLY Cancel reply

Mới Nhất

Nghiên cứu chế tạo và khảo sát tính chất vật liệu Polyme Nanocompozit trên cơ sở Polyaniline và Graphit

Nghiên cứu công nghệ chế tạo và tính chất của giả vật liệu Metamaterial

Nghiên cứu chế tạo vật liệu sắt điện BaTiO3 và tổ hợp BaTiO3/Fe3O4 có cấu trúc micro-nano bằng phương pháp thủy phân nhiệt

Tiếp cận các ứng dụng giao thức truyền thông không dây MiWi PRO

Nâng cao độ chính xác định vị robot bằng phương pháp tổng hợp dữ liệu cảm biến lập mã quang với bộ lọc Kalman...

Cùng Chuyên Mục

Đọc Nhiều Nhất

Áp dụng OSGi trong việc xây dựng hệ thống dựa thành...

Kiến trúc hướng dịch vụ và ứng dụng điện toán đám...

Nghiên cứu tính khả kiểm thử của ứng dụng trên nền...

Kiểm thử đơn vị cho hệ thống

Phát triền phần mềm cho người học tại Đại học Quốc...

Các kỹ thuật phân cụm trong khai phá dữ liệu sử...