Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt của hệ thống FSCANNER

Tính cấp thiết

Công tác lưu trữ có vai trò đặc biệt quan trọng đối với các lĩnh vực của đời sống xã hội bởi thông tin trong tài liệu lưu trữ là loại thông tin có độ tin cậy cao do nguồn gốc hình thành, do đặc trưng pháp lý của văn bản lưu trữ quy định. Ngày nay văn bản lưu trữ đang dần được số hóa – đó là nhu cầu cần thiết giúp giảm chi phí và tăng năng suất trong việc quản lý.

Thực tế tại Việt Nam có rất nhiều tổ chức và doanh nghiệp đang phải lưu trữ một lượng lớn các loại văn bản tài liệu tiếng Việt (bản cứng) do đó có nhu cầu số hóa tài liệu, tức là chuyển các tài liệu bản cứng đó vào trong máy tính để lưu trữ, tìm kiếm, chỉnh sửa khi cần.

Hiện nay chúng ta đã có các máy quét với tốc độ cao, có thể đáp ứng cho việc quét các tài liệu bản cứng thành file ảnh để lưu trữ lâu dài trên máy tính. Việc sử dụng máy quét sẽ tiết kiệm thời gian, chi phí gấp hàng trăm lần so với việc nhập bằng tay các tài liệu bản cứng vào máy tính. Tuy nhiên, nếu quét các tài liệu bản cứng thành các file ảnh để lưu trữ thì sẽ không thể chỉnh sửa các văn bản đó khi cần thiết, việc tìm kiếm từ khóa hay nội dung trong văn bản quét cũng không thể thực hiện được. Vì vậy, file ảnh thu được sau khi quét cần được nhận dạng để thu được file văn bản có thể chỉnh sửa được trên máy tính.

Khi số lượng văn bản tài liệu rất lớn cần lưu trữ một cách thông minh để phục vụ cho việc tìm kiếm nhanh, độ chính xác của việc tìm kiếm sẽ phụ thuộc nhiều vào bước nhận dạng văn bản số hóa và bước trích rút metadata. Đã có những công cụ được phát triển để giải quyết vấn đề trên và mang lại kết quả rất khả quan. Tuy nhiên, nhằm nâng cao hiệu quả của công cụ này chúng ta cần có những cải tiến tốt hơn nữa, giúp cho độ chính xác trong công việc nhận dạng, tìm kiếm là tốt và nhanh hơn. Nhóm nghiên cứu của Viện Công nghệ thông tin- Đại học Quốc gia Hà Nội đưa ra giải pháp là xây dựng hệ thống FSCANNER để số hóa văn bản tiếng Việt.

Mục tiêu của luận văn

  • Tổng quan về bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt, quy trình làm việc của hệ thống số hóa văn bản FSCANNER.
  • Tìm hiểu về các kỹ thuật nhận dạng OCR, kỹ thuật soát lỗi chính tả tiếng Việt, trích rút metadata trong số hóa văn bản tiếng Việt.
  • Nghiên cứu về các đặc trưng lưu trữ từ đó đề xuất xây dựng metadata cho văn bản được số hóa.

Nhiệm vụ nghiên cứu

Mục đích của luận văn đề cập được đến hai phần:

  • Phần lý thuyết: Trình bày tổng quan về bài toán xử lý ngôn ngữ và sơ đồ hoạt động của việc số hóa văn bản của hệ thống FSCANNER. Sau đó trình bày về các kỹ thuật nhận dạng OCR, kỹ thuật sửa lỗi chính tả tiếng Việt dựa trên mô hình n-gram; Với bài toán trích rút metadata, tìm hiểu về metadata và chuẩn Dublin Core, nghiên cứu về các đặc trưng lưu trữ từ đó đề xuất xây dựng metadata cho văn bản được số hóa.
  • Phần phát triển ứng dụng: Thực nghiệm chọn ngưỡng góc xoay và chỉ số DPI thích hợp nâng cao chất lượng nhận dạng OCR.

Phạm vi nghiên cứu

Hệ thống FSCANNER được nhóm nghiên cứu của Viện Công nghệ thông tin- Đại học Quốc Gia Hà Nội xây dựng với mục đích quản lý và tự động số hóa tài liệu. Đây thực sự là một bài toán lớn. Chính vì thế trong phạm vi của luận văn chỉ tìm hiểu về quy trình thực hiện của hệ thống, tìm hiểu về một số kỹ thuật nhận dạng OCR, kỹ thuật sửa lỗi chính tả tiếng Việt dựa trên mô hình ngôn ngữ n-gram của hệ thống, nghiên cứu về các đặc trưng lưu trữ và đề xuất xây dựng metadata cho văn bản được số hóa để phục vụ cho quá trình trích rút metadata.

Những đóng góp mới

Đề xuất chọn ngưỡng góc xoay và chỉ số DPI thích hợp đối với ảnh đầu vào để nâng cao chất lượng nhận dạng OCR. Đề xuất xây dựng metadata cho văn bản được số hóa, góp phần xác định các thuộc tính cần thiết của metadata cho việc xây dựng hệ thống FSCANNER.

Bố cục luận văn

Ngoài phần mở đầu, kết luận và danh mục tài liệu tham khảo, luận văn gồm 3 chương như sau:

  • Chương 1: Tổng quan về bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt.

Nội dung giới thiệu về bài toán xử lý ngôn ngữ tự nhiên và sơ đồ hoạt động của việc số hóa văn bản tiếng Việt của hệ thống FSCANNER.

  • Chương 2: Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt

Nội dung chương 2 gồm 3 phần: giới thiệu một số kỹ thuật nhận dạng OCR; kỹ thuật soát lỗi chính tả dựa trên mô hình ngôn ngữ n-gram; kỹ thuật trích rút metadata, trong đó đề xuất xây dựng metadata cho văn bản được số hóa.

  • Chương 3: Thực nghiệm – đánh giá:

Chạy chương trình với bộ dữ liệu thực nghiệm đưa ra để chọn ngưỡng chỉ số DPI và góc xoay thích hợp đối với ảnh quét đầu vào trước khi nhận dạng OCR, nhằm nâng cao hiệu quả nhận dạng.

Link tải tài liệu: https://tii.la/98EqGJb2nr1

Lưu ý: Link tải có chứa quảng cáo được rút gọn bằng Shrinkearn.com

Mật khẩu mở tệp PDF: sharetailieu.net

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Mới Nhất

Cùng Chuyên Mục

Đọc Nhiều Nhất