Giải pháp của Big Tech khi cạn kiệt dữ liệu đào tạo các mô hình AI

Nguyễn Hà

11/04/2024

OpenAI, Meta, Google và các công ty Big Tech khác đào tạo các mô hình AI bằng cách sử dụng dữ liệu trực tuyến. Tuy nhiên, các mô hình AI học nhanh đến mức tất cả dữ liệu đó có thể cạn kiệt vào năm 2026…

Big Tech đang lùng sục trên Internet các nguồn dữ liệu mới để đào tạo các mô hình AI của mình.

Khi nhắc đến các mô hình ngôn ngữ lớn, những hệ thống AI càng được đào tạo bằng nhiều dữ liệu hơn thì chúng sẽ càng mạnh hơn. Tuy nhiên, cuộc chạy đua vũ trang AI ngày càng nóng lên, những gã khổng lồ công nghệ như Meta, Google và OpenAI phải đối mặt với một vấn đề rằng nguồn dữ liệu để đào tạo mô hình của họ đang dần khan hiếm.

Nhiều hệ thống AI hàng đầu đã được đào tạo bằng nguồn cung cấp dữ liệu trực tuyến khổng lồ. Trong nhiều năm qua, các trang như Wikipedia và Reddit dường như là nguồn dữ liệu vô tận. Nhưng khi AI tiến bộ, các công ty công nghệ cần tìm kiếm nhiều kho lưu trữ hơn. Chẳng hạn, Google và Meta sở hữu hàng tỷ người dùng thực hiện truy vấn tìm kiếm và bài đăng trên mạng xã hội mỗi ngày. Phần lớn các Big Tech đều bị hạn chế bởi luật quyền riêng tư trong việc sử dụng nội dung có sẵn trên Internet cho AI.

Chia sẻ với tờ New York Times, Sy Damle, luật sư đại diện cho Andreessen Horowitz, một công ty đầu tư mạo hiểm ở Thung lũng Silicon: “Cách thực tế duy nhất để những công cụ này tồn tại là chúng được đào tạo về lượng dữ liệu khổng lồ mà không cần phải cấp phép cho dữ liệu đó”.

Theo báo cáo của Epoch – một viện nghiên cứu AI, đến năm 2026, tất cả dữ liệu chất lượng cao có thể cạn kiệt. Vì vậy, các công ty công nghệ lớn đang tìm kiếm các nguồn dữ liệu mới để duy trì hoạt động liên tục cho hệ thống của họ. Dưới đây là một số lựa chọn sáng tạo nhất mà các công ty công nghệ đang xem xét.

GOOGLE ĐÃ CÂN NHẮC KHAI THÁC DỮ LIỆU TRONG GOOGLE TÀI LIỆU, TRANG TÍNH VÀ GOOGLE SLIDE

Năm ngoái, bộ phận pháp lý của Google đã mở rộng các điều khoản dịch vụ để công ty có thể sử dụng dữ liệu người tiêu dùng. Các nhân viên được thông báo rằng Google muốn sử dụng nội dung công khai có sẵn của mọi người trong Google Docs, Google Sheets và các ứng dụng liên quan cho một loạt sản phẩm AI.

Vào thời điểm đó, chính sách quyền riêng tư của Google cho biết công ty chỉ có thể sử dụng thông tin công khai để “giúp đào tạo các mô hình ngôn ngữ của Google và xây dựng các tính năng như Google Dịch”. Nhóm bảo mật đã đưa ra các điều khoản mới để Google có thể khai thác dữ liệu cho các mô hình AI và xây dựng các sản phẩm, tính năng như Google Translate, Bard và Cloud AI.

Mặc dù Google cập nhật chính sách quyền riêng tư của mình vào tháng 7/2023 nhưng công ty cho biết họ không mở rộng loại dữ liệu mà họ sử dụng để đào tạo các mô hình AI.

Matt Bryant, phát ngôn viên của Google, chia sẻ với tờ NYtimes rằng những thay đổi về chính sách quyền riêng tư đã được thực hiện và Google không sử dụng thông tin từ Google Docs hoặc các ứng dụng liên quan để đào tạo các mô hình ngôn ngữ “mà không có sự cho phép rõ ràng” từ người dùng.

META ĐỔ TIỀN VÀO NHÀ XUẤT BẢN SIMON & SCHUSTER

Mark Zuckerberg, giám đốc điều hành của Meta, đã đầu tư vào AI trong nhiều năm, nhưng ông đột nhiên nhận thấy mình bị tụt lại phía sau khi OpenAI phát hành ChatGPT vào năm 2022. Ngay lập tức để bắt kịp và vượt qua ChatGPT, ông đã gọi điện cho các giám đốc điều hành và kỹ sư suốt đêm để thúc đẩy họ phát triển một chatbot đối thủ.

Tuy nhiên, nguồn cung cấp dữ liệu có thể sử dụng của Meta ngày càng cạn kiệt khiến các giám đốc điều hành lo ngại đến mức họ gặp nhau gần như hàng ngày vào tháng 3 và tháng 4/2023 để suy nghĩ về các giải pháp thay thế. Mặc dù Meta vận hành các mạng xã hội khổng lồ nhưng lại không có nhiều bài đăng của người dùng để sử dụng. Họ cho biết nhiều người dùng Facebook đã xóa các bài đăng trước đó và nền tảng này không phải là nơi mọi người viết nội dung kiểu tiểu luận.

Các nhà quản lý, luật sư và kỹ sư tại Meta đã thảo luận về việc mua nhà xuất bản Simon & Schuster để mua các tác phẩm dài. Nhà xuất bản nổi tiếng này đã từng làm việc với các tác giả như Stephen King và Jennifer Weiner và được công ty cổ phần tư nhân KKR mua lại với giá 1,62 tỷ USD vào năm ngoái.

Trụ sở chính của Simon & Schuster tại Thành phố New York

Những người tham dự khác đề xuất một lựa chọn thân thiện với ngân sách hơn là trả 10 đô la một cuốn sách để có được toàn bộ quyền cấp phép cho các tựa sách mới.

Họ cũng bàn bạc về việc thu thập dữ liệu có bản quyền từ khắp nơi trên internet, ngay cả khi điều đó đồng nghĩa với việc phải đối mặt với các vụ kiện. Họ cho biết việc đàm phán giấy phép với các nhà xuất bản, nghệ sĩ, nhạc sĩ và ngành tin tức sẽ mất quá nhiều thời gian.

TẠO DỮ LIỆU TỔNG HỢP

Dữ liệu tổng hợp là dữ liệu được tạo ra bởi hệ thống AI và OpenAI đã coi đó là một lựa chọn cho các mô hình của mình. Theo Times, Giám đốc điều hành OpenAI - Sam Altman đã có kế hoạch giải quyết tình trạng thiếu dữ liệu sắp xảy ra bằng cách đào tạo AI trên văn bản do AI tạo ra - hay còn gọi là dữ liệu tổng hợp.

Ông Altman và những người khác đã lập luận rằng vì một mô hình AI có thể tạo ra văn bản giống con người nên các hệ thống có thể tạo ra dữ liệu bổ sung để phát triển các phiên bản tốt hơn của chính chúng. Điều này sẽ giúp các nhà phát triển xây dựng công nghệ ngày càng mạnh mẽ và giảm sự phụ thuộc vào dữ liệu có bản quyền.

Các nhà nghiên cứu AI đã khám phá dữ liệu tổng hợp trong nhiều năm. Jeff Clune, cựu nhà nghiên cứu OpenAI, hiện đang giảng dạy khoa học máy tính tại Đại học British Columbia, cho biết: “Dữ liệu mà các hệ thống này cần giống như một con đường xuyên rừng. Nếu họ chỉ huấn luyện dựa trên dữ liệu tổng hợp, họ có thể bị lạc trong rừng”.

Để giải quyết điều này, OpenAI và những người khác đang nghiên cứu cách hai mô hình AI khác nhau có thể phối hợp với nhau để tạo ra dữ liệu tổng hợp hữu ích và đáng tin cậy hơn. Một hệ thống tạo ra dữ liệu, trong khi hệ thống thứ hai đánh giá thông tin để phân biệt thông tin tốt và xấu.

WHISPER, CÔNG CỤ NHẬN DẠNG GIỌNG NÓI GIÚP DỊCH VIDEO YOUTUBE

Vào tháng 5, Sam Altman, giám đốc điều hành của OpenAI, thừa nhận rằng các công ty AI sẽ sử dụng hết tất cả dữ liệu khả thi trên internet. OpenAI đang rất cần thêm dữ liệu để phát triển mô hình AI thế hệ tiếp theo, vì vậy các nhân viên đã thảo luận về việc sao chép podcast, sách nói và video trên YouTube

OpenAI đã xây dựng Whisper, một công cụ nhận dạng giọng nói có thể dịch các video và podcast trên YouTube. Mô hình ngôn ngữ lớn mới nhất, GPT-4 đã được đào tạo trên hơn một triệu giờ video YouTube do Whisper phiên âm.

Whisper, công cụ nhận dạng giọng nói do OpenAI phát hành

Tuy nhiên, trước đó YouTube đã cấm người dùng không sử dụng video của họ cho các ứng dụng độc lập và cấm truy cập video của họ bằng “bất kỳ phương tiện tự động nào (chẳng hạn như rô-bốt, hoặc trình thu thập dữ liệu)”. Một số nhân viên của Google biết rằng OpenAI đã thu thập dữ liệu từ các video trên YouTube, nhưng họ không ngăn cấm OpenAI vì Google cũng đã sử dụng bản ghi video YouTube để đào tạo các mô hình AI của mình.

PHOTOBUCKET: KHO ẢNH TỪ MYSPACE VÀ FRIENDSTER

Photobucket từng là trang web lưu trữ hình ảnh hàng đầu thế giới và chiếm gần một nửa thị trường ảnh trực tuyến ở Mỹ, theo Reuters. Một phần là do ứng dụng lưu trữ ảnh cho các trang truyền thông xã hội đầu tiên như Myspace và Friendster. Reuters đưa tin, cơ sở dữ liệu hình ảnh của Photobucket hiện có thể sớm được cấp phép cho các công ty công nghệ để đào tạo hệ thống AI.

Dòng sự kiện:

Kiến trúc dữ liệu quốc gia

Phiên thảo luận nằm trong khuôn khổ Diễn đàn Đổi mới Tài chính Thế giới WFIS 2026 diễn ra ngày 19-20/5

Qua thời đua công nghệ, ngân hàng bước vào "cuộc chiến" làm chủ dữ liệu thông minh

Khoảng cách giữa các ngân hàng trong tương lai sẽ không được quyết định bởi công nghệ họ mua, mà bởi cách họ sử dụng dữ liệu để thay đổi vận hành, ra quyết định và tạo ra giá trị thực tế...

20:56 20/05/2026

Các chuyên gia chia sẻ tại phiên thảo luận về chuyển đổi số trong lĩnh vực dịch vụ tài chính, điều gì sẽ đến sau kỷ nguyên "Digital First”

Sau mobile banking, ngân hàng Việt đang bước vào cuộc “đại tu” ngân hàng lõi

Sau hơn một thập kỷ dồn lực cho mobile banking và số hóa giao diện khách hàng, ngành ngân hàng Việt Nam đang bước vào một chu kỳ chuyển đổi mới: tái thiết hệ thống lõi…

20:48 19/05/2026

ACCELERATE là sự kiện thường niên được Fortinet tổ chức trên phạm vi toàn cầu, ở các thị trường lớn và trọng điểm.

Doanh nghiệp đang bị "quá tải" bởi chính các công cụ bảo mật

Tình trạng công cụ bảo mật rời rạc và khối lượng cảnh báo quá lớn đang khiến hoạt động an ninh mạng của doanh nghiệp trở nên khó kiểm soát hơn bao giờ hết...

20:48 19/05/2026

Chương trình đã đặt ra mục tiêu từ đầu là đồng hành và giúp 12 startup trở nên “investable và marketable”.

“Cánh cửa mới” để startup Việt Nam vươn ra toàn cầu

Quan hệ đối tác chiến lược toàn diện giữa Việt Nam và Nhật Bản đang ngày càng đi vào thực chất, đổi mới sáng tạo mở đã trở thành cầu nối quan trọng giúp các doanh nghiệp Việt Nam tiếp cận nguồn lực công nghệ và tiêu chuẩn quốc tế…

10:19 18/05/2026

Sự kiện Demo Day mang đến một không gian triển lãm kết nối, trực tiếp trải nghiệm giải pháp của các startup, đồng kiến tạo Việt Nam - Nhật Bản thông qua các câu chuyện thực tế.

Startup Việt hợp tác với các doanh nghiệp Nhật Bản, ứng dụng AI, IoT giải quyết thách thức xã hội và môi trường

Các Biên bản ghi nhớ (MoU) và hợp đồng giữa startup Việt Nam với các đối tác Nhật Bản đã được ký kết, thiết lập quan hệ hợp tác xuyên biên giới thực chất tại sự kiện Demo Day 2026…

17:57 17/05/2026

Chương trình “Thiếu niên nói 2026: Đồng kiến tạo giải pháp an toàn số và sức khỏe số”

Bảo vệ trẻ em trên không gian mạng: Không thể chỉ dừng ở cảnh báo nguy cơ

Khảo sát sơ bộ cho thấy khoảng 9/10 thiếu niên đã được học hoặc tiếp cận nội dung về an toàn mạng, nhưng đồng thời cũng có tới 9/10 em phản ánh đã trực tiếp hoặc gián tiếp đối mặt với các rủi ro trên môi trường số…

17:57 17/05/2026

Hội thảo quốc tế lần thứ II với chủ đề: “Bảo vệ dữ liệu cá nhân trong môi trường số từ khía cạnh pháp lý”

Đề xuất bổ sung tội danh cản trở bảo vệ dữ liệu cá nhân

Theo các chuyên gia, nhiều hành vi nguy hiểm hiện chưa được quy định đầy đủ trong Bộ luật Hình sự, đặc biệt là hành vi “cản trở hoạt động bảo vệ dữ liệu cá nhân”...

23:26 15/05/2026

Hội thảo Quốc tế "Điện hạt nhân quy mô nhỏ: Giải pháp chiến lược cho an ninh năng lượng Việt Nam" phát sóng trên VnEconomy vào 09:00 sáng ngày 15/05/2026.

[Trực tiếp]: Hội thảo Quốc tế “Điện hạt nhân quy mô nhỏ: Giải pháp chiến lược cho an ninh năng lượng Việt Nam”

Hội thảo quy tụ sự tham gia những chuyên gia đầu ngành và đại diện nhiều đại sứ quán và lãnh đạo doanh nghiệp quốc tế đến từ Nga và Canada, được phát sóng trên VnEconomy vào 09h00 sáng ngày 15/05/2026.

08:55 15/05/2026

Hội thảo Quốc tế "Điện hạt nhân quy mô nhỏ: Giải pháp chiến lược cho an ninh năng lượng Việt Nam"

Hội thảo Quốc tế về điện hạt nhân quy mô nhỏ bàn về an ninh năng lượng Việt Nam với sự tham gia những chuyên gia đầu ngành và đại diện nhiều doanh nghiệp quốc tế sẽ được phát sóng trên VnEconomy vào 09:00 ngày 15/05/2026.

20:08 14/05/2026

Tọa đàm Khoa học Cung ứng dịch vụ công trong mô hình chính quyền địa phương 2 cấp

Dịch vụ công chính quyền 2 cấp: Người dân vẫn phải đi “nhiều cửa” thay vì “một cửa”

Với các thủ tục hành chính do chính quyền cấp xã xử lý, nhiều người dân vẫn phải đi lại nhiều lần, tới nhiều “cửa”, gặp nhiều cán bộ mới hoàn thành thủ tục, thay vì giải quyết theo đúng tinh thần “một cửa”...

09:10 14/05/2026