Ứng dụng AI chuyển chữ Nôm sang chữ Quốc ngữ

Các giảng viên của Trường ĐH Khoa học Tự nhiên và Trường ĐH Khoa học Xã hội và Nhân văn (thuộc ĐHQG TPHCM) đang hợp tác nghiên cứu giải pháp chuyển chữ Nôm sang chữ Quốc ngữ tự động bằng trí tuệ nhân tạo (AI), nhằm phục vụ công tác nghiên cứu, học tập và đáp ứng nhu cầu thực tiễn của đời sống.

PGS.TS Đinh Điền bên sản phẩm ứng dụng AI chuyển chữ Nôm sang chữ Quốc ngữ do ông và các cộng sự nghiên cứu. Ảnh: Hà An

Nhiều tài liệu quý

Chữ Nôm được xem là hệ chữ viết đầu tiên của người Việt, do các bậc tiền nhân xây dựng trên nền tảng chữ Hán và được sử dụng trong gần 1.000 năm, từ thế kỷ X đến thế kỷ XIX. Trong suốt 10 thế kỷ tồn tại, nhiều công trình thuộc các lĩnh vực như lịch sử, văn học, y học, nông nghiệp, địa lý… đã được biên soạn bằng chữ Nôm và còn lưu giữ đến ngày nay.

Tuy nhiên, theo nhóm nghiên cứu, phần lớn tài liệu chữ Nôm vẫn chưa được chuyển tự sang chữ Quốc ngữ sử dụng bảng chữ cái Latinh. Trong khi đó, số người có khả năng đọc hiểu chữ Nôm hiện rất ít, gây khó khăn cho việc tiếp cận và khai thác kho tàng tri thức, văn hóa, tư liệu lịch sử mà cha ông để lại.

Trước thực tế này, nhóm chuyên gia Trường Đại học Khoa học Tự nhiên đã triển khai nhiệm vụ khoa học - công nghệ “Xây dựng hệ thống chuyển tự động văn bản chữ Nôm sang chữ Quốc ngữ”, với mục tiêu cốt lõi là phát triển hệ thống có khả năng chuyển tự chữ Nôm sang chữ Quốc ngữ tự động.

Theo PGS.TS Đinh Điền - Giám đốc Trung tâm Ngôn ngữ học tính toán (Trường Đại học Khoa học Tự nhiên), việc chuyển tự chữ Nôm sang chữ Quốc ngữ là bài toán phức tạp do hai hệ chữ thuộc hai loại hình khác nhau. Chữ Nôm thuộc loại chữ ghi ý (ideographic), trong khi chữ Quốc ngữ là chữ ghi âm vị (phonemic). Một chữ Nôm có thể được chuyển sang nhiều cách viết Quốc ngữ khác nhau, tùy thuộc vào tri thức văn hóa, lịch sử, địa lý, tiếng Việt cổ, phương ngữ hay thuật ngữ chuyên ngành.

Nói cách khác, việc lựa chọn từ ngữ Quốc ngữ phù hợp cho bản dịch đòi hỏi quá trình suy đoán dựa trên nhiều tri thức cả trong và ngoài ngôn ngữ. Tuy vậy, với sự phát triển mạnh mẽ của AI và các công nghệ học máy (machine learning) hiện đại, bài toán chuyển tự tự động, hay chuyển tự máy (machine transliteration), đã có thể thực hiện, dù chưa đạt độ chính xác tuyệt đối.

Bên cạnh đó, theo nhóm nghiên cứu, cùng với sự phát triển của xã hội, các văn bản chữ Nôm ngày càng mai một do được ghi chép từ hàng trăm năm trước trên chất liệu giấy kém bền, dễ hư hỏng. “Trong các văn bản chữ Nôm chứa đựng nhiều thông tin quý, nhưng người dân muốn tiếp cận phải tìm đến các nhà nghiên cứu Hán Nôm để phiên dịch, mà việc này không hề đơn giản”, PGS.TS Đinh Điền cho biết.

Nhóm nghiên cứu cũng nhận định, việc xây dựng công cụ chuyển tự chữ Nôm sang tiếng Việt sẽ góp phần giải mã nhiều tư liệu quý, trong đó có các bài thuốc dân gian thuộc lĩnh vực y học cổ truyền đang lưu truyền trong cộng đồng.

Mô hình AI tự động dịch văn bản chữ Nôm sang chữ Quốc ngữ. Ảnh: NVCC

Độ chính xác cao

Để thực hiện đề tài, nhóm đã thu thập nguồn dữ liệu Hán Nôm - chữ Quốc ngữ từ các viện nghiên cứu, thư viện, website và các nhà khoa học, với tổng khối lượng hơn 13 triệu dữ liệu. Dữ liệu này được xử lý bằng sự kết hợp giữa hai mô hình học máy gồm dịch thống kê (SMT) và dịch dựa trên mạng nơron (NMT).

Theo PGS.TS Đinh Điền, mô hình NMT có ưu thế trong dịch ngôn ngữ tự nhiên, trong khi SMT lại cho kết quả tốt hơn đối với chữ Nôm. Tùy từng trường hợp, nhóm nghiên cứu kết hợp hai mô hình nhằm đạt hiệu quả tối ưu. Hệ thống được xây dựng dưới dạng website với độ chính xác khác nhau tùy lĩnh vực: Văn bản về lịch sử, văn học, xã hội đạt độ chính xác trên 90%; văn bản y học dân tộc và tài liệu chuyên ngành đạt khoảng 70%; riêng tác phẩm Truyện Kiều có thể được chuyển tự với độ chính xác lên tới 99%.

Để nâng cao tính tiện dụng, nhóm đang phát triển công nghệ cho phép chuyển tự chữ Nôm từ ảnh chụp. Khi người dùng cung cấp hình ảnh chứa chữ Nôm, hệ thống AI sẽ nhận diện, chuyển đổi thành văn bản và dịch sang tiếng Việt. Tuy nhiên, với các văn bản cũ bị mờ hoặc thiếu nét, khả năng sai sót vẫn có thể xảy ra. Nhóm nghiên cứu đang tiếp tục hoàn thiện giải pháp dự đoán ký tự dựa trên nét chữ và ngữ cảnh toàn văn bản nhằm tăng độ chính xác đối với các ký tự khó nhận diện.

“Độ chính xác của mô hình phụ thuộc rất lớn vào quy mô dữ liệu”, PGS.TS Đinh Điền cho biết. Qua thử nghiệm với một số ảnh chụp văn bản chất lượng thấp, mô hình vẫn đạt độ chính xác khoảng 95%. Chức năng chuyển tự từ ảnh đang trong giai đoạn thử nghiệm và dự kiến được tích hợp trên website trong thời gian tới.

Theo nhóm nghiên cứu, đây là dự án phi lợi nhuận nhằm cung cấp công cụ chuyển tự chuẩn xác cho cộng đồng. Người dùng có thể đóng góp nguồn tư liệu chữ Nôm để làm phong phú kho dữ liệu, giúp hệ thống ngày càng thông minh và chính xác hơn.

Ý tưởng xây dựng mô hình chuyển tự này đã được PGS.TS Đinh Điền ấp ủ từ hơn 20 năm trước. Tuy nhiên, vào thời điểm đó, nguồn dữ liệu còn hạn chế và công nghệ học máy chưa phát triển.

Chỉ đến khi nhóm tập hợp được các nguồn dữ liệu trong và ngoài nước về ngôn ngữ Hán Nôm, đồng thời có sự hỗ trợ của các công cụ trí tuệ nhân tạo hiện đại, dự án mới chính thức được triển khai. Hiện nay, nhóm đã phát triển các ứng dụng di động chạy trên điện thoại thông minh, cho phép người dùng chụp ảnh và chuyển tự chữ Nôm sang chữ Quốc ngữ trực tiếp.

Theo đánh giá của giới chuyên môn, nghiên cứu mở ra hướng tiếp cận mới với nhiều tiềm năng trong chuyển ngữ tài liệu chữ Nôm, phục vụ nhu cầu tra cứu và khai thác kho tàng di sản trong các lĩnh vực văn hóa, văn học, y học dân tộc, lịch sử, địa lý, nông nghiệp; đồng thời góp phần bảo tồn và phát huy giá trị văn hóa truyền thống của dân tộc.

TS Hồ Minh Quang - giảng viên Khoa Đông phương học, Trường Đại học Khoa học Xã hội và Nhân văn (Đại học Quốc gia TPHCM), đánh giá nghiên cứu có ý nghĩa quan trọng trong việc gìn giữ di sản ngôn ngữ Hán - Nôm.

Trước đây, việc đọc hiểu chữ Nôm chủ yếu giới hạn trong phạm vi các nhà nghiên cứu chuyên ngành. Sản phẩm của nhóm có thể hỗ trợ người dùng nhận diện và tra cứu thông tin sang chữ Quốc ngữ thuận tiện hơn. Ông cũng nhấn mạnh sự cần thiết của việc cộng đồng đóng góp dữ liệu để hệ thống ngày càng hoàn thiện, nâng cao độ chính xác khi chuyển tự.

Nguồn:giaoducthoidai.vn Copy link