Tính cấp thiết
Chữ Nôm là một di sản văn hoá minh chứng cho truyền thống văn hiến lâu dài của dân tộc Việt Nam. Nghiên cứu chữ Nôm góp phần khẳng định tự hào dân tộc, khám phá những nét văn hóa, lịch sử, khoa học đặc sắc qua từng thời kỳ của dân tộc. Do đó việc phục hồi và phát triển chữ Nôm đang đƣợc xã hội ngày càng qua tâm qua nhiều hoạt động, công trình nghiên cứu ở nhiều phƣơng diện ngôn ngữ học, lịch sử, văn hóa… Song nghiên cứu chữ Nôm vẫn đang còn nhiều nhiệm vụ khó khăn, một trong đó là nhiệm vụ của công nghệ thông tin – xây dựng bộ nhận dạng ký tự quang học cho chữ Nôm hay Nôm-OCR.
Thực trạng ngày nay, số người biết chữ Nôm ngày càng ít càng làm cho những tri thức chữ Nôm ngày càng mai một. Ngược lại chúng ta lại đang sở hữu những kho tàng tri thức khổng lồ về chữ Nôm về nhiều phương diện như sách, gia phả, ấn phong… và đặc biệt là một hệ thống đồ sộ các bia đá, câu đối trong các công trình di tích, là chứng cứ sống của lịch sử, là biểu tượng của văn hóa, lịch sử Việt với thế giới. Nếu không có một sự hỗ trợ mạnh mẽ của khoa học để khai thác kho tri thức Nôm khổng lồ này, chúng ta sẽ ngày càng mù chính chữ của dân tộc mình, và dần sau sẽ trở nên tan biến. Việc xây dựng được Nôm- OCR sẽ tạo điều kiện khai thác số tri thức Nôm khổng lồ, ứng dụng vào trong tìm hiểu các công trình, bia, câu đối cổ bằng các ứng dụng tích hợp trên các thiết bị di động máy tính, hay nói cách khác chúng ta có thể làm mọi thiết bị biết giải thích chữ Nôm và từ đó góp phần ý nghĩa trong khảo cổ, khám phá văn hóa, khám phá du lịch.
Tình hình nghiên cứu
Nghiên cứu chữ Nôm đã được nhiều nhóm gần đây quan tâm cả về phương diện ngôn ngữ học và công nghệ thông tin. Một trong những thành tựu đầu tiên là việc hình thành các từ điển chữ Nôm, hình thành các kho chữ Nôm được số hóa, số hóa và giải mã nhiều tài liệu chữ Nôm như truyện Kiều của Hán Nôm Foundation. Tiếp tới, sau những nỗ lực trong thời gian dài, chữ Nôm đã được xác lập vị trí trong bộ ký tự thế giới Unicode và ISO 10646, trong đó có 5067 ký tự trùng hình với chữ Trung Quốc, 4232 chữ thuần Nôm và hiện đang đề nghị đưa vào thêm 2200. Kế tiếp bước đi đó, nhiều bộ font Nôm, bộ gõ chữ Nôm đã được xây dựng. Và một trong những bước đi tiếp của lộ trình trên là xây dựng OCR-Nôm, nhưng hiện tại vẫn chưa có kết quả nghiên cứu nào đề cập đến vấn đề trên, có thể do có những khó khăn nhất định và một trong những khó khăn thường gặp là vấn đề về dữ liệu để nghiên cứu.
Các bộ OCR tượng hình như tiếng Trung, Nhật đã được nghiên cứu nhiều và đạt được những kết quả khả quan, được ứng dụng rộng rãi trong thực tế có thể kể đến sản phẩm nguồn mở Tesseract, KanjiPad – phần mềm nhận dạng chữ viết tay Nhật Bản, Readiris Pro 11 Corporate Edition – phần mềm nhận dạng chữ Trung Quốc đạt tới độ chính xác 98%, HWPen – phần mềm nhận dạng chữ viết tay Trung Quốc tích hợp trên iPhone và đặc biệt sản phẩm thương mại ABBY… đạt độ chính xác gần như tuyệt đối với ký tự in các ngôn ngữ.
Nói tóm lại, các chủ đề liên quan đến chữ Nôm cũng như OCR đã được quan tâm và đạt nhiều thành quả cao, riêng lĩnh vực nghiên cứu kết hợp 2 yếu tố này vẫn là bài toán mở, cần những nghiên cứu mới.
Đối tượng và phạm vi nghiên cứu
Chúng tôi tập trung nghiên cứu bài toàn nhận dạng chữ Nôm nhằm xây dựng bộ phần mềm nhận dạng chuyển đổi từ ảnh của một ký tự Nôm về mã Unicode của ký tự đó tiến hành tra cứu nghĩa căn cứ trên từ điển hoặc kết hợp với các hệ thống khác.
Hệ thống OCR bao gồm nhiều thành phần nhƣ tiền xử lý, trích chọn đặc trưng, nhận dạng, hậu xử lý. Đề tài tập trung nghiên cứu bước trích chọn đặc trưng và nhận dạng theo phương pháp gốc từ với tập dữ liệu là kho mẫu NOM- DB0 chứa 495 chữ Nôm.
Mục đích và nhiệm vụ nghiên cứu
Đề tài tập trung nghiên cứu bước trích chọn đặc trưng và nhận dạng trong sơ đồ hệ thống nhận dạng chữ Nôm tổng thể do LES-Nom xây dựng, sử dụng phương pháp tách gốc từ (radical).
Những nội dung nghiên cứu
Nghiên cứu cấu trúc chữ Nôm và các thành phần của nó để từ đó đưa ra phương pháp tách chữ, lấy khung xương và tách các thành phần gốc từ trong chữ Nôm. Từ bộ dữ liệu Nom-DB0 thống kê các gốc từ và tạo cơ sở dữ liệu gốc từ RaNom-DB0. Đề xuất phương pháp nhận dạng gốc từ bằng mô hình Entropy cực đại. Trên cơ sở kết quả phân tích gốc từ đề xuất phương pháp nhận dạng chữ Nôm dựa trên gốc từ.
Kết cấu luận văn
Ngoài phần mở đầu, kết luận, phụ lục và danh mục tài liệu tham khảo, luận văn gồm 4 chương.
- Trong chương 1, chúng tôi tìm hiểu tổng quan chữ Nôm, trong đó tập trung các yếu tố liên quan đến nhận dạng trên cơ sở tách gốc từ như cấu trúc chữ Nôm, số lượng từ Nôm không có hình trong bộ chữ tượng hình khác.
- Trong chương 2, gồm những nội dung về bài toán nhận dạng chữ tượng hình nói chung và bài toán nhận dạng chữ Nôm nói riêng, các phương pháp nhận dạng chữ Nôm đã được nghiên cứu.
- Trong chương 3, chúng tôi tập trung tìm hiểu, nghiên cứu phương pháp tách gốc ký tự trong chữ tượng hình để từ đó áp dụng cho nhận dạng chữ Nôm. Để thực hiện đánh giá hiệu quả của phương pháp nhận dạng chữ Nôm dựa trên gốc từ.
- Trong chương 4, chúng tôi đã trình bày các bước tiến hành xây dựng thực nghiệm và đánh giá.
Link tải tài liệu: https://tii.la/yZIsnP
Lưu ý: Link tải có chứa quảng cáo được rút gọn bằng Shrinkearn.com
Mật khẩu mở tệp PDF: sharetailieu.net