Nhận diện văn bản tiếng Việt dựa trên mô hình Transformer
Bài viết này chỉ ra một mạng nơron sâu sử dụng kiến trúc Transformer để nhận diện từ tiếng Việt, cho ra các kết quả khả quan. Hiệu quả của phương pháp này được đánh giá bằng cách hiệu chỉnh mô hình Transformer với kết quả chính xác đạt khoảng 95%. Kết quả này khá tốt so với các phương pháp trước đó. Điều này nhấn mạnh tiềm năng của các phương pháp dựa trên Transformer đối với OCR tiếng Việt.
TỔNG QUAN
Nhận diện ký tự quang học (Optical Character Recognition - OCR) là một công nghệ tự động nhận diện văn bản trong các hình ảnh tài liệu, sau đó chuyển nó thành văn bản để có thể tìm kiếm và chỉnh sửa được trên máy tính. Các phần mềm OCR có rất nhiều ứng dụng, bao gồm nhận diện biển số xe, đọc séc ngân hàng, xác minh chữ ký và giải mã CAPTCHA. Việc triển khai hệ thống OCR có thể gặp nhiều thách thức do sự khác biệt về phong cách viết, kích thước phông chữ, chất lượng tài liệu, bao gồm tài liệu viết tay, in hoặc quét. Những hệ thống này có thể đơn ngữ hoặc đa ngữ, hoạt động offline hoặc online. Các hệ thống OCR offline chấp nhận đầu vào ở dạng tài liệu đã được quét, in ấn hoặc viết tay, trong khi hệ thống OCR online xử lý và phân tích hình ảnh theo thời gian thực. Các ứng dụng offline bao gồm việc đọc địa chỉ bưu điện, kiểm tra séc và xử lý biểu mẫu, trong khi các bút kỹ thuật số hỗ trợ người khiếm thị hoặc người không biết chữ sử dụng hệ thống online.
Tiếng Việt là một ngôn ngữ Latinh với bảng chữ cái gồm 29 chữ cái và 5 dấu thanh, mỗi dấu có thể xuất hiện ở trên hoặc dưới các chữ cái, thay đổi hoàn toàn cách phát âm của từ. Sự phức tạp của các dấu thanh này cùng với việc một số dấu thanh và chữ cái có hình dáng tương tự, tạo ra thách thức lớn khi thiết kế hệ thống OCR cho tiếng Việt. Thêm vào đó, tiếng Việt cũng có những ký tự và dấu câu riêng biệt, làm tăng thêm mức độ khó cho các hệ thống OCR.
PHƯƠNG PHÁP TRANSFORMER ORC
Phương pháp nhận diện ký tự dựa trên mô hình Transformer là một giải pháp tiên tiến cho bài toán nhận dạng ký tự quang học. Trong đó, mô hình Transformer được sử dụng cho cả hai nhiệm vụ phân tích hình ảnh và sinh chuỗi ký tự. Phương pháp này tận dụng kiến trúc Transformer để thay thế các phương pháp truyền thống sử dụng mạng nơron tích chập (Convolutional Neural Network - CNN) và mạng nơron hồi quy (Recurrent Neural Network - RNN), nhằm xử lý đồng thời cả hình ảnh và ngôn ngữ.
Cấu trúc của mô hình gồm hai phần chính: bộ mã hóa (encoder) và bộ giải mã (decoder). Bộ mã hóa có nhiệm vụ xử lý và trích xuất đặc trưng từ hình ảnh văn bản, trong khi bộ giải mã sẽ dựa trên các đặc trưng này để tạo ra chuỗi từ tương ứng.
Xem toàn bộ bài báo tại đây.
Lê Bá Cường, Học viện Kỹ thuật mật mã