“Khủng hoảng” dữ liệu trong đào tạo AI và lời giải từ dữ liệu tổng hợp

Hoàng An

16/01/2025

Khi AI tiếp tục chuyển đổi các ngành công nghiệp trên toàn cầu, việc giải quyết khủng hoảng chất lượng dữ liệu là điều tối quan trọng…Dữ liệu tổng hợp mang đến một giải pháp đầy triển vọng trong việc giải “bài toán” thiếu dữ liệu trong đào tạo AI…

Dữ liệu đóng vai trò tối quan trọng trong quyết định chất lượng đầu ra của các mô hình AI

Các nghiên cứu dự đoán rằng dữ liệu do con người tạo ra và được công khai để đào tạo các mô hình AI có thể cạn kiệt trong vòng từ hai đến tám năm tới, buộc chúng ta phải phụ thuộc vào "dữ liệu tổng hợp" (thông tin được sản xuất nhân tạo bởi thuật toán) khiến cho tính chính xác và độ tin cậy của AI có thể bị ảnh hưởng…

Theo Tiến sĩ James Kang, giảng viên cấp cao về Khoa học máy tính tại Đại học RMIT Việt Nam, huấn luyện AI và khả năng suy luận của chúng đóng vai trò cốt yếu trong việc tạo ra dự đoán và kết quả đầu ra. “Dùng dữ liệu thiên lệch hoặc không đầy đủ sẽ ảnh hưởng đến đầu ra. Ví dụ, nếu AI được đào tạo nhận diện khuôn mặt chỉ dựa trên dữ liệu của một nhóm sắc tộc, nó có thể đưa ra các dự đoán kém chính xác hơn khi xử lý khuôn mặt thuộc các sắc tộc khác”, TS.Kang cho biết.

DỮ LIỆU KHÔNG NHẤT QUÁN KHIẾN AI NHẦM LẪN

Dữ liệu không chính xác, không nhất quán hoặc lỗi thời còn có thể khiến AI nhầm lẫn và giảm hiệu suất xử lý. Việc gắn dữ liệu không đúng cách cũng ảnh hưởng đến chất lượng vì liên quan trực tiếp đến tính chính xác và nhất quán của quá trình huấn luyện AI. “Khi huấn luyện AI bằng các hình ảnh của táo, dứa và cam, nhưng dứa bị gắn nhãn nhầm thành táo, AI sẽ bị nhầm lẫn và nhận diện cả táo lẫn dứa là cùng một loại. Do đó, việc gắn nhãn chính xác ngay từ đầu là rất quan trọng và đóng vai trò then chốt trong việc đảm bảo huấn luyện ra mô hình AI đáng tin cậy và hiệu quả”, TS.Kang nêu ví dụ.

Khảo sát từ Forbes Advisor cho thấy 64% doanh nghiệp tin rằng AI sẽ giúp tăng năng suất, nhưng điều đó còn phụ thuộc vào chất lượng dữ liệu được dùng để huấn luyện AI.

NHỮNG MẶT ĐƯỢC VÀ MẤT KHI DÙNG DỮ LIỆU TỔNG HỢP

Trong khi dữ liệu thực chủ yếu được thu thập từ các nguồn như phỏng vấn, khảo sát, thí nghiệm, quan sát và khai thác dữ liệu, thì dữ liệu tổng hợp được tạo ra nhân tạo bởi các thuật toán. Bằng cách sử dụng mô phỏng máy tính và dự đoán thay vì dữ liệu thực, dữ liệu tổng hợp được thiết kế để tái hiện các mô hình hoặc đặc tính thống kê của dữ liệu thực, nhằm tiết kiệm chi phí – ví dụ, giảm tới 60% chi phí kiểm tra và rút ngắn đến 30% chu kỳ phát triển.

Theo TS.Kang, dữ liệu tổng hợp có thể được tạo ra nhanh chóng, trong khi dữ liệu thực thường tốn kém và mất nhiều thời gian để thu thập cũng như gắn nhãn khi sử dụng làm đầu vào cho những hệ thống AI. Các công ty công nghệ thường chọn dữ liệu tổng hợp trong trường hợp gặp rào cản về quyền riêng tư hoặc các vấn đề đạo đức liên quan đến việc thu thập dữ liệu, chẳng hạn như thông tin cá nhân người dùng hoặc dữ liệu y tế nhạy cảm.

Dữ liệu tổng hợp cũng rất hữu ích trong việc giảm thiểu hoặc loại bỏ một số thiên lệch, vì dữ liệu thực tế đôi khi cũng mang theo các thiên lệch này. Khi dữ liệu thực khan hiếm hoặc khó tiếp cận, việc bổ sung dữ liệu tổng hợp vào các tập dữ liệu hiện có có thể giúp cung cấp một bộ mẫu huấn luyện đa dạng hơn. “Do đó, có rất nhiều tình huống mà các nhà nghiên cứu và công ty công nghệ sử dụng dữ liệu tổng hợp để vượt qua các hạn chế và thách thức của dữ liệu thực”, TS.Kang chia sẻ.

Trong lĩnh vực y tế, các nhà nghiên cứu thường đối mặt với thách thức về quyền truy cập vào dữ liệu bệnh nhân đa dạng và toàn diện do các quy định bảo mật. Ví dụ, Watson Health của IBM đã tận dụng dữ liệu tổng hợp để khắc phục những hạn chế này. Bằng cách tạo ra các tập dữ liệu tổng hợp mô phỏng hồ sơ bệnh nhân thực, họ đã xây dựng được một bộ dữ liệu đào tạo đa dạng và toàn diện cho các mô hình AI của mình. “Điều này giúp giảm thiểu các thiên lệch, chẳng hạn như về giới tính, độ tuổi và sắc tộc, vốn thường thấy trong dữ liệu thực tế”, TS.Kang cho biết.

CẦN CÓ HỆ THỐNG XÁC THỰC DỮ LIỆU CHẶT CHẼ

TS.Kang cho biết, một vấn đề cốt lõi khi sử dụng dữ liệu tổng hợp trong các mô hình AI là mức độ không chắc chắn liên quan đến tính hợp lệ và chất lượng thông tin. Người dùng gặp khó khăn trong việc đánh giá mức độ tin cậy của dữ liệu do AI tạo ra, vì vẫn chưa có hệ thống đánh giá chất lượng hoặc "chấm điểm" nào được chấp nhận rộng rãi và chuẩn hóa. Do đó, việc triển khai một hệ thống xác thực dữ liệu chặt chẽ là điều cần thiết để đảm bảo độ chính xác và tin cậy của dữ liệu dùng trong huấn luyện.

Để phân biệt giữa dữ liệu thực và dữ liệu tổng hợp, AI có thể theo dõi siêu dữ liệu và nguồn gốc của dữ liệu được sử dụng để xác định nơi xuất phát và chất lượng hoặc mức độ đáng tin cậy của dữ liệu. Khi cần, có thể có sự can thiệp của con người vào quá trình chuẩn bị và huấn luyện AI để đảm bảo duy trì chất lượng dữ liệu được tạo ra.

“Việc thay thế một phần dữ liệu thực để tạo dữ liệu tổng hợp một phần có thể là một giải pháp nhằm bảo vệ quyền riêng tư cá nhân – chẳng hạn như dùng định danh giả cho tên người dùng hoặc ngày sinh – mà không cần tổng hợp toàn bộ dữ liệu. Sử dụng kết hợp dữ liệu thực và dữ liệu tổng hợp theo cách được quản lý cẩn trọng như vậy có thể tăng hiệu suất AI bằng cách duy trì quyền riêng tư và vừa giảm thiểu các thiên lệch”, TS. Kang cho biết.

TS. Kang cho rằng, khi AI tiếp tục chuyển đổi các ngành công nghiệp trên toàn cầu, việc giải quyết khủng hoảng chất lượng dữ liệu là điều tối quan trọng. Dữ liệu tổng hợp mang đến một giải pháp đầy triển vọng, nhưng cần được sử dụng cẩn thận để giảm thiểu rủi ro về tính chính xác độ tin cậy.

“Để đảm bảo sự phát triển bền vững của AI tại Việt Nam, việc hợp tác giữa chính phủ, doanh nghiệp, các ngành nghề và các trường đại học nhằm nâng cao chất lượng dữ liệu đào tạo, bao gồm cả dữ liệu huấn luyện, là điều thiết yếu. Chỉ khi cùng nhau hành động, chúng ta mới có thể vượt qua tình trạng thiếu hụt dữ liệu, nâng cao tính chính xác và độ tin cậy của các mô hình AI, thúc đẩy đổi mới và phát triển trong lĩnh vực này”, TS.Kang nhấn mạnh.

Từ khóa:

Dòng sự kiện:

Kiến trúc dữ liệu quốc gia

Theo chuyên gia, khi niềm tin dữ liệu chưa được thiết lập, AI hay kinh tế số cũng khó có thể phát triển ở quy mô lớn.

Giải bài toán niềm tin dữ liệu để phát triển kinh tế số, kinh tế AI Việt Nam

Chỉ khi được bảo đảm bằng kiến trúc công nghệ, các tiêu chuẩn kỹ thuật và khung thể chế phù hợp, dữ liệu mới có thể lưu chuyển an toàn, tạo giá trị kinh tế và trở thành nền tảng cho sự phát triển của kinh tế số và kinh tế AI...

15:38 08/07/2026

Ban hành Danh mục chip chuyên dụng là một bước quan trọng, để chính sách phát huy hiệu quả lâu dài cần được triển khai đồng bộ với các thành phần khác của hệ sinh thái bán dẫn. Ảnh minh họa

Phát triển chip Việt: Cần cơ chế hỗ trợ theo từng giai đoạn trưởng thành

Bộ Khoa học và Công nghệ đang lấy ý kiến đối với Dự thảo Quyết định của Thủ tướng Chính phủ ban hành Danh mục chip chuyên dụng trong một số ngành, lĩnh vực nhà nước ưu tiên đặt hàng…

16:33 07/07/2026

Theo Báo cáo của Fortinet, khu vực châu Á Thái Bình Dương là khu vực hàng đầu sử dụng AI trong an ninh mạng.

Fortinet bổ nhiệm mới vị trí Phó Chủ tịch Cấp cao khu vực Châu Á - Thái Bình Dương

Fortinet vừa công bố bổ nhiệm ông Luca Simonelli giữ chức Phó Chủ tịch Cấp cao khu vực Châu Á - Thái Bình Dương (APAC), phụ trách điều hành hoạt động kinh doanh của hãng trên một trong những thị trường an ninh mạng tăng trưởng nhanh nhất thế giới...

22:33 06/07/2026

Sau ba năm triển khai, dự án đã ghi nhận nhiều kết quả tích cực, trong đó hơn 25.000 phụ nữ được hỗ trợ nâng cao năng lực kinh doanh và chuyển đổi số

Hỗ trợ phụ nữ, doanh nghiệp nhỏ, siêu nhỏ chuyển đổi số, ứng dụng AI

Từ thương mại điện tử, thanh toán số đến trí tuệ nhân tạo (AI), công nghệ đang mở ra cơ hội mới cho hàng triệu hộ kinh doanh và doanh nghiệp siêu nhỏ tại Việt Nam…

19:42 03/07/2026

Hội thảo khoa học quốc tế với chủ đề "AI – Hiểu để đồng hành” do Đại học Deakin (Australia) tổ chức ngày 2/7

Giáo dục đại học chuyển mình trước làn sóng AI

Sự phổ biến của AI đang buộc các trường đại học phải thay đổi cách đào tạo và đánh giá người học...

21:46 02/07/2026

Khả năng biến dữ liệu thành hành động sẽ là lợi thế cạnh tranh lớn của doanh nghiệp

Giá trị của doanh nghiệp sẽ ngày càng được quyết định bởi chất lượng dữ liệu mà doanh nghiệp sở hữu và khả năng biến dữ liệu thành hành động thực tiễn…

11:42 02/07/2026

Những lựa chọn nhỏ khi thiết kế ứng dụng có thể ảnh hưởng đến hành vi tức thì lẫn thị hiếu sau này của người dùng. (Hình: Pexels)

Hành vi "nói không" trên môi trường số định hình gu của người tiêu dùng

Nhiều người tin rằng thị hiếu là thứ có sẵn để định hướng cho các lựa chọn. Tuy nhiên, một nghiên cứu chứng minh điều ngược lại: Chính những quyết định "nói không", lọc bỏ hay xóa dữ liệu hằng ngày trên môi trường số mới là tác nhân mạnh mẽ nhất kiến tạo nên "gu" của người tiêu dùng.

16:03 30/06/2026

Các quỹ đầu tư ngày càng chú trọng tới khả năng quản trị rủi ro khí hậu, dấu chân carbon và chiến lược giảm phát thải của doanh nghiệp. Ảnh minh họa

AI đang trở thành công cụ chiến lược trong cuộc chiến chống biến đổi khí hậu

Khả năng xử lý khối lượng dữ liệu khổng lồ giúp AI có thể theo dõi lượng phát thải carbon, dự báo nguy cơ thiên tai, đánh giá mức độ tổn thương của chuỗi cung ứng cũng như xây dựng các kịch bản ứng phó trong tương lai...

11:56 30/06/2026

Sau hơn 5 năm phát triển, VSBF đã trở thành không gian đối thoại đa phương về các xu hướng quản trị, chuyển đổi xanh và đổi mới công nghệ trong khu vực.

VSBF 2026: Việt Nam - Singapore tìm động lực tăng trưởng mới từ AI và kinh tế xanh

Theo Đại sứ Singapore tại Việt Nam, Diễn đàn VSBF góp phần quan trọng xây dựng và mở rộng mạng lưới kết nối cộng đồng doanh nghiệp hai nước, tăng cường quan hệ kinh tế song phương và tạo nền tảng cho các cơ hội hợp tác mới...

19:22 26/06/2026

Tọa đàm “Ứng dụng sáng kiến giải pháp hữu ích trong phát triển doanh nghiệp khoa học công nghệ”

Nâng cao năng lực cạnh tranh và thương mại hóa công nghệ cho doanh nghiệp Việt

Kết hợp với doanh nghiệp và nhà đầu tư để giải quyết bài toán thực tế, các dự án công nghệ sẽ sớm có đầu ra rõ ràng và xác định được nhóm người dùng cụ thể. Chỉ khi sản phẩm được sử dụng và nhận phản hồi thị trường, nhà đầu tư mới có cơ sở để tiếp tục rót vốn và mở rộng quy mô…

22:30 25/06/2026