Development Plan:
Tesseract OCR engine has produced excellent results for Vietnamese text that has typefaces similar to the supported fonts that the language data was generated for; accuracy rate for test image is greater than 97%. For images using other fonts, however, it does not perform too well. The immediate goal is to generate more language data packs for other fonts that have been commonly used by Vietnamese publishers, companies, schools, and government offices. This could entail including support for popular VNI and TCVN3 fonts. This process is a bit complicated and time consuming but is well documented in Tesseract Wiki page and does not require programming. Once the training is completed, you can submit your data pack for specific fonts to the project owner to be included on the Download page. That way, when end users need to OCR their documents, they can decide which specific data pack to be loaded into Tesseract tessdata directory when they perform OCR task.
Another direction for the project is to integrate direct scanning support in VietOCR interface. This needs basic understanding of Twain, the standard for image acquisition devices. For Java developers, take a look at the series Acquire Images with TWAIN and SANE. For .NET programmers, check out the project .NET TWAIN Image Scanner. You can get the latest source of VietOCR from Download page or from SVN repositories. Please post all your questions in VietOCR Forum.
Update:
- More language data has been generated for legacy Vietnamese fonts, VNI and TCVN3 (ABC)
- How to install the language data for VNI and TCVN3 (ABC) fonts
- Source training data for Vietnamese (boxfiles) has been provided so that developers could use in the research and design of other language data packs for typefaces normally encountered in digitizing tasks in efforts to establish digital libraries
- jTessBoxEditor
- VietOCR localization project on Transifex
Kế hoạch phát triển:
Tesseract OCR engine đã xuất tạo kết quả xuất sắc cho văn bản Tiếng Việt có kiểu chữ tương tự với loại font được hỗ trợ mà bộ language data đã tạo cho; mức chính xác cho ảnh thí nghiệm là cao hơn 97%. Tuy nhiên, cho hình ảnh dùng loại font khác, nó không được thành công lắm. Mục tiêu cấp thời là tạo ra thêm các bộ language data cho các font khác được dùng phổ thông trong giới ấn loát, công ty, trường học, và công sở. Đây có thể có nghĩa là thêm hỗ trợ cho các font VNI và TCVN3 phổ biến. Quy trình này hơi phức tạp và tốn nhiều giờ nhưng đã được ghi chép rõ ràng trong trang Tesseract Wiki và không cần lập trình. Một khi tập huấn xong, bạn có thể gửi bộ language data cho font cụ thể tới chủ project để đăng trong trang Download. Như thế, khi người dùng cần OCR văn bản của họ, họ có thể quyết định bộ data cụ thể nào cần được nạp vào directory tessdata của Tesseract.
Một đường hướng khác là tích hợp hỗ trợ quét trực tiếp trong giao diện của VietOCR. Việc này cần kiến thức cơ bản về Twain, tiêu chuẩn cho các dụng cụ lấy hình. Cho các nhà phát triển Java, hãy coi loạt bài Acquire Images with TWAIN and SANE. Cho các lập trình viên .NET, hãy xem project .NET TWAIN Image Scanner. Bạn có thể lấy mã nguồn mới nhất của VietOCR từ trang Download hoặc từ SVN repositories hay GitHub. Xin hãy đăng tất cả thắc mắc của bạn trong Diễn đàn VietOCR.
Cập nhật:
- Thêm language data đã được tạo cho các kiểu font cũ Việt Nam, VNI và TCVN3 (ABC)
- Phương cách cài bộ language data cho font VNI & TCVN3 (ABC)
- Các training boxfiles mẫu cho Tiếng Việt đã được cung cấp để các nhà phát triển có thể sử dụng trong việc tham cứu và thiết kế các bộ language data khác cho các mặt chữ thường gặp trong các công đoạn số hóa (digitizing) trong các nỗ lực thiết lập các thư viện số.
- jTessBoxEditor
- VietOCR localization project on Transifex