image Thứ Tư, 29/04/2026

Giải pháp của Big Tech khi cạn kiệt dữ liệu đào tạo các mô hình AI

Nguyễn Hà

11/04/2024

Chia sẻ

OpenAI, Meta, Google và các công ty Big Tech khác đào tạo các mô hình AI bằng cách sử dụng dữ liệu trực tuyến. Tuy nhiên, các mô hình AI học nhanh đến mức tất cả dữ liệu đó có thể cạn kiệt vào năm 2026…

Big Tech đang lùng sục trên Internet các nguồn dữ liệu mới để đào tạo các mô hình AI của mình.
Big Tech đang lùng sục trên Internet các nguồn dữ liệu mới để đào tạo các mô hình AI của mình.

Khi nhắc đến các mô hình ngôn ngữ lớn, những hệ thống AI càng được đào tạo bằng nhiều dữ liệu hơn thì chúng sẽ càng mạnh hơn. Tuy  nhiên, cuộc chạy đua vũ trang AI ngày càng nóng lên, những gã khổng lồ công nghệ như Meta, Google và OpenAI phải đối mặt với một vấn đề rằng nguồn dữ liệu để đào tạo mô hình của họ đang dần khan hiếm.

Nhiều hệ thống AI hàng đầu đã được đào tạo bằng nguồn cung cấp dữ liệu trực tuyến khổng lồ. Trong nhiều năm qua, các trang như Wikipedia và Reddit dường như là nguồn dữ liệu vô tận. Nhưng khi AI tiến bộ, các công ty công nghệ cần tìm kiếm nhiều kho lưu trữ hơn. Chẳng hạn, Google và Meta sở hữu hàng tỷ người dùng thực hiện truy vấn tìm kiếm và bài đăng trên mạng xã hội mỗi ngày. Phần lớn các Big Tech đều bị hạn chế bởi luật quyền riêng tư trong việc sử dụng nội dung có sẵn trên Internet cho AI.

Chia sẻ với tờ New York Times, Sy Damle, luật sư đại diện cho Andreessen Horowitz, một công ty đầu tư mạo hiểm ở Thung lũng Silicon: “Cách thực tế duy nhất để những công cụ này tồn tại là chúng được đào tạo về lượng dữ liệu khổng lồ mà không cần phải cấp phép cho dữ liệu đó”.

Theo báo cáo của  Epoch – một viện nghiên cứu AI, đến năm 2026, tất cả dữ liệu chất lượng cao có thể cạn kiệt. Vì vậy, các công ty công nghệ lớn đang tìm kiếm các nguồn dữ liệu mới để duy trì hoạt động liên tục cho hệ thống của họ. Dưới đây là một số lựa chọn sáng tạo nhất mà các công ty công nghệ đang xem xét.

GOOGLE ĐÃ CÂN NHẮC KHAI THÁC DỮ LIỆU TRONG GOOGLE TÀI LIỆU, TRANG TÍNH VÀ GOOGLE SLIDE

Năm ngoái, bộ phận pháp lý của Google đã mở rộng các điều khoản dịch vụ để công ty có thể sử dụng dữ liệu người tiêu dùng. Các nhân viên được thông báo rằng Google muốn sử dụng nội dung công khai có sẵn của mọi người trong Google Docs, Google Sheets và các ứng dụng liên quan cho một loạt sản phẩm AI.

Vào thời điểm đó, chính sách quyền riêng tư của Google cho biết công ty chỉ có thể sử dụng thông tin công khai để “giúp đào tạo các mô hình ngôn ngữ của Google và xây dựng các tính năng như Google Dịch”. Nhóm bảo mật đã đưa ra các điều khoản mới để Google có thể khai thác dữ liệu cho các mô hình AI và xây dựng các sản phẩm, tính năng như Google Translate, Bard và Cloud AI.

Mặc dù Google cập nhật chính sách quyền riêng tư của mình vào tháng 7/2023 nhưng công ty cho biết họ không mở rộng loại dữ liệu mà họ sử dụng để đào tạo các mô hình AI.

Matt Bryant, phát ngôn viên của Google, chia sẻ với tờ NYtimes rằng những thay đổi về chính sách quyền riêng tư đã được thực hiện và Google không sử dụng thông tin từ Google Docs hoặc các ứng dụng liên quan để đào tạo các mô hình ngôn ngữ “mà không có sự cho phép rõ ràng” từ người dùng.

META ĐỔ TIỀN VÀO NHÀ XUẤT BẢN SIMON & SCHUSTER

Mark Zuckerberg, giám đốc điều hành của Meta, đã đầu tư vào AI trong nhiều năm, nhưng ông đột nhiên nhận thấy mình bị tụt lại phía sau khi OpenAI phát hành ChatGPT vào năm 2022. Ngay lập tức để bắt kịp và vượt qua ChatGPT, ông đã gọi điện cho các giám đốc điều hành và kỹ sư suốt đêm để thúc đẩy họ phát triển một chatbot đối thủ.

Tuy nhiên, nguồn cung cấp dữ liệu có thể sử dụng của Meta ngày càng cạn kiệt khiến các giám đốc điều hành lo ngại đến mức họ gặp nhau gần như hàng ngày vào tháng 3 và tháng 4/2023 để suy nghĩ về các giải pháp thay thế. Mặc dù Meta vận hành các mạng xã hội khổng lồ nhưng lại không có nhiều bài đăng của người dùng để sử dụng. Họ cho biết nhiều người dùng Facebook đã xóa các bài đăng trước đó và nền tảng này không phải là nơi mọi người viết nội dung kiểu tiểu luận.

Các nhà quản lý, luật sư và kỹ sư tại Meta đã thảo luận về việc mua nhà xuất bản Simon & Schuster để mua các tác phẩm dài. Nhà xuất bản nổi tiếng này đã từng làm việc với các tác giả như Stephen King và Jennifer Weiner và được công ty cổ phần tư nhân KKR mua lại với giá 1,62 tỷ USD vào năm ngoái.

Trụ sở chính của Simon & Schuster tại Thành phố New York  
Trụ sở chính của Simon & Schuster tại Thành phố New York  

Những người tham dự khác đề xuất một lựa chọn thân thiện với ngân sách hơn là trả 10 đô la một cuốn sách để có được toàn bộ quyền cấp phép cho các tựa sách mới.

Họ cũng bàn bạc về việc thu thập dữ liệu có bản quyền từ khắp nơi trên internet, ngay cả khi điều đó đồng nghĩa với việc phải đối mặt với các vụ kiện. Họ cho biết việc đàm phán giấy phép với các nhà xuất bản, nghệ sĩ, nhạc sĩ và ngành tin tức sẽ mất quá nhiều thời gian.

TẠO DỮ LIỆU TỔNG HỢP

Dữ liệu tổng hợp là dữ liệu được tạo ra bởi hệ thống AI và OpenAI đã coi đó là một lựa chọn cho các mô hình của mình. Theo Times, Giám đốc điều hành OpenAI - Sam Altman đã có kế hoạch giải quyết tình trạng thiếu dữ liệu sắp xảy ra bằng cách đào tạo AI trên văn bản do AI tạo ra - hay còn gọi là dữ liệu tổng hợp.

Ông Altman và những người khác đã lập luận rằng vì một mô hình AI có thể tạo ra văn bản giống con người nên các hệ thống có thể tạo ra dữ liệu bổ sung để phát triển các phiên bản tốt hơn của chính chúng. Điều này sẽ giúp các nhà phát triển xây dựng công nghệ ngày càng mạnh mẽ và giảm sự phụ thuộc vào dữ liệu có bản quyền.

Các nhà nghiên cứu AI đã khám phá dữ liệu tổng hợp trong nhiều năm. Jeff Clune, cựu nhà nghiên cứu OpenAI, hiện đang giảng dạy khoa học máy tính tại Đại học British Columbia, cho biết: “Dữ liệu mà các hệ thống này cần giống như một con đường xuyên rừng. Nếu họ chỉ huấn luyện dựa trên dữ liệu tổng hợp, họ có thể bị lạc trong rừng”.

Để giải quyết điều này, OpenAI và những người khác đang nghiên cứu cách hai mô hình AI khác nhau có thể phối hợp với nhau để tạo ra dữ liệu tổng hợp hữu ích và đáng tin cậy hơn. Một hệ thống tạo ra dữ liệu, trong khi hệ thống thứ hai đánh giá thông tin để phân biệt thông tin tốt và xấu. 

WHISPER, CÔNG CỤ NHẬN DẠNG GIỌNG NÓI GIÚP DỊCH VIDEO YOUTUBE

Vào tháng 5, Sam Altman, giám đốc điều hành của OpenAI, thừa nhận rằng các công ty AI sẽ sử dụng hết tất cả dữ liệu khả thi trên internet. OpenAI đang rất cần thêm dữ liệu để phát triển mô hình AI thế hệ tiếp theo, vì vậy các nhân viên đã thảo luận về việc sao chép podcast, sách nói và video trên YouTube

OpenAI đã xây dựng Whisper, một công cụ nhận dạng giọng nói có thể dịch các video và podcast trên YouTube. Mô hình ngôn ngữ lớn mới nhất, GPT-4 đã được đào tạo trên hơn một triệu giờ video YouTube do Whisper phiên âm.

Whisper, công cụ nhận dạng giọng nói do OpenAI phát hành  
Whisper, công cụ nhận dạng giọng nói do OpenAI phát hành  

Tuy nhiên, trước đó YouTube đã cấm người dùng không sử dụng video của họ cho các ứng dụng độc lập và cấm truy cập video của họ bằng “bất kỳ phương tiện tự động nào (chẳng hạn như rô-bốt, hoặc trình thu thập dữ liệu)”. Một số nhân viên của Google biết rằng OpenAI đã thu thập dữ liệu từ các video trên YouTube, nhưng họ không ngăn cấm OpenAI vì Google cũng đã sử dụng bản ghi video YouTube để đào tạo các mô hình AI của mình.

PHOTOBUCKET: KHO ẢNH TỪ MYSPACE VÀ FRIENDSTER

Photobucket từng là trang web lưu trữ hình ảnh hàng đầu thế giới và chiếm gần một nửa thị trường ảnh trực tuyến ở Mỹ, theo Reuters. Một phần là do ứng dụng lưu trữ ảnh cho các trang truyền thông xã hội đầu tiên như Myspace và Friendster. Reuters đưa tin, cơ sở dữ liệu hình ảnh của Photobucket hiện có thể sớm được cấp phép cho các công ty công nghệ để đào tạo hệ thống AI.


Atlassian ra mắt Service Collection tại Việt Nam, giải pháp Agentic AI hàng đầu về quản lý dịch vụ

Atlassian, tập đoàn công nghệ dẫn đầu toàn cầu về phần mềm cộng tác, vừa chính thức ra mắt bộ giải pháp Atlassian Service Collection tại thị trường Việt Nam...

15:05 28/04/2026
Y tế Việt Nam trước cơ hội bứt phá với Agentic AI

Nếu tận dụng tốt trí tuệ nhân tạo và Agentic AI, Việt Nam không chỉ tiếp cận nhanh mà còn có thể tham gia vào chuỗi giá trị toàn cầu, thậm chí xuất khẩu công nghệ và thuốc…

08:37 25/04/2026
Mở rộng hợp tác Việt - Hàn trong lĩnh vực AI, bán dẫn và chuỗi cung ứng

Hợp tác Việt Nam - Hàn Quốc ngày càng đi vào chiều sâu, không chỉ ở thương mại và đầu tư mà còn mở rộng sang khoa học công nghệ, đổi mới sáng tạo, chuyển đổi số và chuỗi cung ứng…

22:22 23/04/2026
Phủ sóng 5G Việt Nam đạt gần 92%, nhà mạng đối mặt bài toán tối ưu hóa lợi nhuận

Đến cuối tháng 3/2026, tỷ lệ phủ sóng 5G đạt 91,9% dân số, với hơn 22,4 triệu thuê bao. Trong giai đoạn tới, yêu cầu đặt ra sẽ là khai thác hiệu quả các khoản đầu tư hạ tầng…

22:22 23/04/2026
“Cửa sáng” của Việt Nam trong cuộc đua bán dẫn toàn cầu

Trước làn sóng dịch chuyển chuỗi cung ứng công nghệ cao, các chuyên gia đầu ngành khẳng định Việt Nam hoàn toàn có khả năng tạo dấu ấn trong lĩnh vực bán dẫn và vật liệu mới…

14:06 23/04/2026
Logistics trong kỷ nguyên AI và robot: Từ kho bãi đến “nhà máy không ánh đèn”

AI, robot tự hành và mô hình "nhà máy không ánh đèn" (Dark Factory) không còn là khái niệm xa vời với ngành logistics mà đang hiện diện ngay tại Việt Nam…

14:05 23/04/2026
Vì sao 90% doanh nghiệp "có AI" nhưng chưa tạo ra giá trị?

Năm 2026, nhiều doanh nghiệp đã chuyển từ thử nghiệm sang triển khai trí tuệ nhân tạo (AI) trong thực tế. Tuy nhiên, khoảng cách giữa “ứng dụng AI” và “tạo ra tác động kinh doanh” vẫn còn lớn…

19:47 22/04/2026
Việt Nam là trung tâm quan trọng về phát triển khoa học và phòng thí nghiệm tại Đông Nam Á

Việt Nam được đánh giá không chỉ là một thị trường tăng trưởng nhanh, mà còn là một quốc gia có năng lực khoa học ngày càng phát triển và tầm ảnh hưởng trong khu vực...

19:47 22/04/2026
Agentic AI & Hệ Gene: Bước ngoặt cho y học chính xác

The Wise Talk số 18 với chủ đề “Agentic AI & Hệ Gene: Bước ngoặt cho y học chính xác” được phát sóng trên trang chủ của VnEconomy vào 14:00 ngày 22/04/2026.

13:58 22/04/2026
Phát triển trung tâm dữ liệu AI: Việt Nam khó thắng nếu chạy theo cuộc đua quy mô lớn

Việt Nam chưa phải là một trong nhóm các quốc gia có hệ thống trung tâm dữ liệu AI lớn nhất thế giới. Tiến sĩ Lê Quang Đạm cho rằng nếu chạy theo quy mô, chúng ta sẽ phải cạnh tranh trực tiếp với những thị trường có lợi thế vượt trội về vốn, công nghệ và năng lượng…

17:37 21/04/2026