Xây dựng AI đáng tin cậy là con đường cho các mô hình ngôn ngữ lớn tại Việt Nam
Bảo Bình
09/12/2025
Trong bối cảnh cuộc đua trí tuệ nhân tạo toàn cầu ngày càng nóng, Việt Nam đang trở thành một thị trường được các “ông lớn” công nghệ đặc biệt chú ý...
Những mô hình AI hàng đầu thế giới như ChatGPT, Gemini hay Claude đều nhanh chóng bổ sung hỗ trợ tiếng Việt, cho thấy sức hấp dẫn của thị trường hơn 100 triệu dân và nhu cầu số hóa tăng mạnh. Tuy vậy, chính sự quan tâm này cũng đặt ra bài toán mới: Việt Nam cần làm gì để không chỉ trở thành người dùng, mà còn là chủ thể sáng tạo và cạnh tranh trong kỷ nguyên AI?
KHẢ NĂNG HIỂU SÂU NGÔN NGỮ VÀ VĂN HÓA VIỆT CỦA CHATGPT HAY GEMINI VẪN “CÒN NHIỀU HẠN CHẾ”
Theo ông Lưu Anh Tuấn, Phó Giáo sư tại Đại học Công nghệ Nanyang, Singapore, mặc dù các mô hình AI lớn như ChatGPT hay Gemini đã hỗ trợ tiếng Việt, song khả năng hiểu sâu về ngôn ngữ và văn hóa Việt vẫn “còn nhiều hạn chế”.
“Việt Nam sở hữu nhiều đặc thù ngôn ngữ và văn hóa khiến các mô hình AI “đóng” của nước ngoài khó xử lý chính xác”, PGS Lưu Anh Tuấn nói. Ông cũng là Giám đốc điều hành Trung tâm Nghiên cứu Trí tuệ nhân tạo tại Trường Đại học VinUni.
Ông cho biết tiếng Việt có sự đa dạng lớn về phương ngữ và giọng vùng miền – từ Bắc, Trung, Nam đến các biến thể địa phương. Bên cạnh đó, hệ thống xưng hô, phong tục và các biểu đạt văn hóa lại mang nhiều tầng nghĩa xã hội (từ các cách xưng hô như cô, dì, chú, bác…), đòi hỏi AI phải có khả năng hiểu ngữ cảnh sâu.
“Kho dữ liệu về lịch sử và văn hóa Việt Nam vốn rất hạn chế trong các bộ dữ liệu huấn luyện của Big Tech, khiến mô hình trả lời tốt các câu hỏi phổ quát nhưng lại lúng túng trước những vấn đề mang tính bản địa”, PGS Tuấn nói.
Ông cho rằng để xây dựng các mô hình AI phục vụ người Việt thực sự hiệu quả, việc thu thập và phát triển dữ liệu đặc trưng – từ phương ngữ, vùng miền đến lịch sử và văn hóa – là yếu tố quyết định chất lượng và khả năng ứng dụng của hệ thống.
Theo PGS Lưu Anh Tuấn, hiện nay, Việt Nam đang ở một thời điểm đặc biệt thú vị trong hành trình phát triển AI. Việt Nam đã có Chiến lược quốc gia về AI đến năm 2030 với tầm nhìn vươn lên dẫn đầu khu vực Đông Nam Á. Cùng với đó là tốc độ chuyển đổi số rất nhanh trong nhiều lĩnh vực trọng yếu như giáo dục, tài chính, pháp lý và hành chính công.
Việt Nam cũng đang triển khai các sáng kiến LLM trong nước như PhoGPT, ViGPT, VinaLLaMA, vi-Mistral-X…, cho thấy sự chuyển dịch mạnh mẽ từ việc chỉ là “người dùng AI” sang trở thành “người tạo ra AI”.
“Những điều đó có được là nhờ nhiều lợi thế nội tại”, ông Tuấn nói. “Việt Nam có dân số trẻ, nền tảng khoa học – công nghệ ngày càng mạnh, và đặc biệt là sự đầu tư lớn từ Chính phủ cũng như từ khu vực công nghiệp. Tất cả tạo nên cơ hội rất đặc biệt để Việt Nam có thể xây dựng nền tảng AI đáng tin cậy ngay từ đầu”.
XÂY DỰNG AI ĐÁNG TIN CẬY LÀ CON ĐƯỜNG CHO CÁC MÔ HÌNH NGÔN NGỮ LỚN TẠI VIỆT NAM
Đáng chú ý, theo ông Lưu Anh Tuấn, “AI đáng tin cậy” rất quan trọng. “AI ngày càng ảnh hưởng sâu rộng đến các quyết định trong mọi lĩnh vực của đời sống, từ doanh nghiệp đến khu vực công.
Trong bối cảnh thông tin sai lệch lan truyền rất nhanh trên mạng xã hội, các hệ thống AI nếu không được xây dựng đúng cách hoàn toàn có thể khuếch đại hoặc tái sản sinh sai lệch đó. Khi đó niềm tin của người dùng vào AI sẽ suy giảm nhanh chóng”, ông nói và nhấn mạnh “muốn AI được chấp nhận rộng rãi thì nó phải chính xác, nhất quán, tương thích với thực tế và đáng tin”.
AI triển khai tại Việt Nam phải phù hợp với văn hóa và các giá trị của người Việt.
Các mô hình ngôn ngữ lớn (LLM) dù đạt nhiều thành tựu nhưng vẫn tồn tại rủi ro: có thể tạo ra thông tin sai lệch, phản ánh thiên lệch từ dữ liệu không cân bằng, làm lộ dữ liệu nhạy cảm khi cơ chế bảo vệ dữ liệu chưa hoàn thiện, và thiếu cơ chế quy trách nhiệm rõ ràng khi xảy ra sự cố.
Gần đây, Việt Nam chứng kiến sự gia tăng mạnh của các vụ lừa đảo sử dụng giọng nói và văn bản do AI tạo ra. Điều đó cho thấy yêu cầu về “niềm tin số” là vô cùng cấp thiết.
Thậm chí, không chỉ các mô hình AI thế giới, mà ngay cả khi triển khai AI tại Việt Nam, nhiều thách thức đặc thù về ngôn ngữ cũng đang đặt ra. Đó là thách thức về các phương ngữ lớn cùng các biến thể giọng nói, từ vựng khác nhau; các đặc trưng ngôn ngữ liên quan đến đại từ nhân xưng, thứ bậc xã hội, ngữ cảnh giao tiếp.
Tuy vậy, đây cũng chính là cơ hội cho AI Việt Nam, khi các mô hình nước ngoài khó có thể hiểu chính xác những đặc thù này.
Việt Nam cũng có một lợi thế “đi sau” đặc biệt, nên có thể bắt đầu với “tờ giấy trắng”, không bị ràng buộc bởi những di sản dữ liệu cũ như nhiều quốc gia khác. Điều này cho phép Việt Nam thiết kế hệ thống AI theo hướng sạch, minh bạch và phù hợp văn hóa ngay từ đầu, đồng thời tiếp thu các chuẩn mực quốc tế mới nhất để rút ngắn khoảng cách phát triển.
5 LỘ TRÌNH PHÁT TRIỂN AI ĐÁNG TIN CẬY TẠI VIỆT NAM
Theo PGS Lưu Anh Tuấn, hệ thống Trustworthy AI là sự kết hợp của năm trụ cột: an toàn, bảo mật, công bằng, minh bạch, và phù hợp văn hóa – xã hội Việt Nam. Những giá trị như tính nhân văn, tinh thần cộng đồng và trách nhiệm xã hội phải được tích hợp trực tiếp vào thiết kế AI. Ông cũng đề xuất lộ trình hiện thực hóa mục tiêu phát triển AI đáng tin cậy.
Thứ nhất, chủ động xây dựng các bộ dữ liệu tiếng Việt chất lượng cao, sạch và đa dạng. Dữ liệu phải đại diện cho nhiều lĩnh vực như pháp luật, y tế, tài chính, lịch sử, giáo dục, đồng thời bao quát đầy đủ các giọng vùng miền và tiếng nói của cộng đồng thiểu số.
Việt Nam cũng cần cơ chế cấp phép và thu thập dữ liệu minh bạch, loại bỏ thông tin sai lệch ngay từ đầu vào, ưu tiên sử dụng các nguồn có độ tin cậy cao như văn bản luật, tin tức kiểm chứng và dữ liệu chuyên gia.
Thứ hai, phát triển các mô hình AI minh bạch, mã nguồn mở để cơ quan quản lý, giới nghiên cứu và doanh nghiệp có thể kiểm tra, đánh giá, tái tạo và đóng góp cải thiện. Cách làm này giúp tăng khả năng tự chủ công nghệ và giảm phụ thuộc vào mô hình nước ngoài.
Việc công bố mô hình cần đi kèm hướng dẫn phát hành an toàn và cơ chế chứng nhận để bảo đảm mô hình được kiểm định trước khi sử dụng rộng rãi.
Thứ ba, xây dựng bộ tiêu chuẩn và khung đánh giá quốc gia cho AI, gồm các bài kiểm tra về an toàn, khả năng suy luận, tri thức lịch sử – xã hội Việt Nam, cũng như mức độ thiên lệch và các yếu tố liên quan đến đặc thù văn hóa. Đây sẽ là nền tảng đảm bảo mô hình AI hoạt động phù hợp với bối cảnh Việt Nam.
Thứ tư, tăng cường độ tin cậy của mô hình bằng cách ứng dụng kiến trúc RAG – hệ thống truy xuất và tham chiếu tài liệu thực. RAG cho phép AI trả lời dựa trên nguồn đã kiểm chứng, hạn chế hiện tượng “tự bịa”, đồng thời nâng cao tính minh bạch và độ chính xác.
Thứ năm, xây dựng khung quản trị AI cấp quốc gia với quy định rõ cho từng lĩnh vực, cơ chế giám sát việc triển khai mô hình và chỉ yêu cầu giám sát của con người trong các lĩnh vực nhạy cảm như y tế, giáo dục và hành chính công. Song song, cần nâng cao nhận thức của người dân về khả năng, hạn chế và rủi ro của AI. Việc phát triển AI đáng tin cậy phải là nỗ lực chung của Nhà nước, doanh nghiệp, giới học thuật và toàn xã hội.
PGS Lưu Anh Tuấn nhận định mục tiêu đưa Việt Nam trở thành điểm sáng AI của khu vực vào năm 2030 là hoàn toàn khả thi, nếu tận dụng đúng những lợi thế sẵn có. Ông cho biết Việt Nam sở hữu quy mô dân số hơn 100 triệu người và nguồn nhân lực chất lượng cao, thường đạt thành tích tốt tại các kỳ thi học thuật quốc tế. Đây là nền tảng quan trọng để phát triển AI trong dài hạn.
Theo ông, để hiện thực hóa mục tiêu, Việt Nam cần có chính sách hỗ trợ đúng trọng tâm, bao gồm đầu tư mạnh cho giáo dục, nghiên cứu, hạ tầng dữ liệu và môi trường khởi nghiệp. Quan trọng hơn, phải xây dựng chiến lược rõ ràng, tránh dàn trải nguồn lực và thúc đẩy sự tham gia của cả khu vực công lẫn tư.
“Nếu làm tốt, Việt Nam hoàn toàn có thể vươn lên nhóm dẫn đầu vào năm 2030”, PGS Lưu Anh Tuấn nhận định.
Trong làn sóng chuyển đổi số mạnh mẽ, nghề phân tích dữ liệu (data analyst) được xem là một trong những công việc “khát” nhân lực. Tuy nhiên, phía sau sức hút đó là không ít áp lực và rào cản…
Đây là lần đầu tiên tại Việt Nam trình diễn trực tiếp hệ thống phân phối khóa lượng tử sử dụng giao thức BB84 trên hệ thực nghiệm, đánh dấu khả năng đưa công nghệ lượng tử vào ứng dụng thực tế trong lĩnh vực bảo mật thông tin...
Từ một sự cố an ninh mạng, hậu quả có thể dẫn đến việc doanh nghiệp phải đóng cửa. Và hiện nay, không ít doanh nghiệp vẫn cho rằng mình “quá nhỏ”, không phải mục tiêu của tấn công mạng…
Khối doanh nghiệp vừa và nhỏ thường được xem là “mắt xích yếu” trong hệ thống phòng thủ an ninh mạng do hạn chế về nguồn lực tài chính, nhân sự chuyên sâu và nhận thức...
Nền tảng sẽ cung cấp khả năng cảnh báo sớm tình trạng xâm nhập mặn trước từ 1 đến 5 ngày, giúp nông dân chủ động điều chỉnh lịch thời vụ, giảm thiểu tối đa thiệt hại kinh tế do thiên tai gây ra...
Lạm dụng các công cụ AI mà thiếu đi tư duy thiết kế bao trùm và sự thấu cảm thực tế sẽ tạo ra những sản phẩm đầy định kiến, xa rời người dùng…
Việt Nam không thể mãi dừng chân ở vai trò "người mua" hay lắp ráp sản phẩm. Doanh nghiệp Việt cần từng bước làm chủ công nghệ lõi, xây dựng nền kinh tế tự chủ nhưng vẫn duy trì hội nhập hiệu quả…
Khi dữ liệu không được hiểu đúng, quản trị đúng và sử dụng thống nhất, mọi nỗ lực công nghệ có thể trở nên kém hiệu quả, thậm chí phản tác dụng…
Khác với các công cụ tự động hóa thông thường, nhân viên số là những thực thể có định danh, có trách nhiệm và vận hành độc lập trong chuỗi giá trị...
Sandbox, thay vì tạo ra môi trường thử nghiệm linh hoạt, đang bị “neo” vào một hệ thống pháp lý thiếu đồng bộ, khiến hiệu quả bị hạn chế…