10:44 11/04/2024

Giải pháp của Big Tech khi cạn kiệt dữ liệu đào tạo các mô hình AI

Nguyễn Hà

OpenAI, Meta, Google và các công ty Big Tech khác đào tạo các mô hình AI bằng cách sử dụng dữ liệu trực tuyến. Tuy nhiên, các mô hình AI học nhanh đến mức tất cả dữ liệu đó có thể cạn kiệt vào năm 2026…

Big Tech đang lùng sục trên Internet các nguồn dữ liệu mới để đào tạo các mô hình AI của mình.
Big Tech đang lùng sục trên Internet các nguồn dữ liệu mới để đào tạo các mô hình AI của mình.

Khi nhắc đến các mô hình ngôn ngữ lớn, những hệ thống AI càng được đào tạo bằng nhiều dữ liệu hơn thì chúng sẽ càng mạnh hơn. Tuy  nhiên, cuộc chạy đua vũ trang AI ngày càng nóng lên, những gã khổng lồ công nghệ như Meta, Google và OpenAI phải đối mặt với một vấn đề rằng nguồn dữ liệu để đào tạo mô hình của họ đang dần khan hiếm.

Nhiều hệ thống AI hàng đầu đã được đào tạo bằng nguồn cung cấp dữ liệu trực tuyến khổng lồ. Trong nhiều năm qua, các trang như Wikipedia và Reddit dường như là nguồn dữ liệu vô tận. Nhưng khi AI tiến bộ, các công ty công nghệ cần tìm kiếm nhiều kho lưu trữ hơn. Chẳng hạn, Google và Meta sở hữu hàng tỷ người dùng thực hiện truy vấn tìm kiếm và bài đăng trên mạng xã hội mỗi ngày. Phần lớn các Big Tech đều bị hạn chế bởi luật quyền riêng tư trong việc sử dụng nội dung có sẵn trên Internet cho AI.

Chia sẻ với tờ New York Times, Sy Damle, luật sư đại diện cho Andreessen Horowitz, một công ty đầu tư mạo hiểm ở Thung lũng Silicon: “Cách thực tế duy nhất để những công cụ này tồn tại là chúng được đào tạo về lượng dữ liệu khổng lồ mà không cần phải cấp phép cho dữ liệu đó”.

Theo báo cáo của  Epoch – một viện nghiên cứu AI, đến năm 2026, tất cả dữ liệu chất lượng cao có thể cạn kiệt. Vì vậy, các công ty công nghệ lớn đang tìm kiếm các nguồn dữ liệu mới để duy trì hoạt động liên tục cho hệ thống của họ. Dưới đây là một số lựa chọn sáng tạo nhất mà các công ty công nghệ đang xem xét.

GOOGLE ĐÃ CÂN NHẮC KHAI THÁC DỮ LIỆU TRONG GOOGLE TÀI LIỆU, TRANG TÍNH VÀ GOOGLE SLIDE

Năm ngoái, bộ phận pháp lý của Google đã mở rộng các điều khoản dịch vụ để công ty có thể sử dụng dữ liệu người tiêu dùng. Các nhân viên được thông báo rằng Google muốn sử dụng nội dung công khai có sẵn của mọi người trong Google Docs, Google Sheets và các ứng dụng liên quan cho một loạt sản phẩm AI.

Vào thời điểm đó, chính sách quyền riêng tư của Google cho biết công ty chỉ có thể sử dụng thông tin công khai để “giúp đào tạo các mô hình ngôn ngữ của Google và xây dựng các tính năng như Google Dịch”. Nhóm bảo mật đã đưa ra các điều khoản mới để Google có thể khai thác dữ liệu cho các mô hình AI và xây dựng các sản phẩm, tính năng như Google Translate, Bard và Cloud AI.

Mặc dù Google cập nhật chính sách quyền riêng tư của mình vào tháng 7/2023 nhưng công ty cho biết họ không mở rộng loại dữ liệu mà họ sử dụng để đào tạo các mô hình AI.

Matt Bryant, phát ngôn viên của Google, chia sẻ với tờ NYtimes rằng những thay đổi về chính sách quyền riêng tư đã được thực hiện và Google không sử dụng thông tin từ Google Docs hoặc các ứng dụng liên quan để đào tạo các mô hình ngôn ngữ “mà không có sự cho phép rõ ràng” từ người dùng.

META ĐỔ TIỀN VÀO NHÀ XUẤT BẢN SIMON & SCHUSTER

Mark Zuckerberg, giám đốc điều hành của Meta, đã đầu tư vào AI trong nhiều năm, nhưng ông đột nhiên nhận thấy mình bị tụt lại phía sau khi OpenAI phát hành ChatGPT vào năm 2022. Ngay lập tức để bắt kịp và vượt qua ChatGPT, ông đã gọi điện cho các giám đốc điều hành và kỹ sư suốt đêm để thúc đẩy họ phát triển một chatbot đối thủ.

Tuy nhiên, nguồn cung cấp dữ liệu có thể sử dụng của Meta ngày càng cạn kiệt khiến các giám đốc điều hành lo ngại đến mức họ gặp nhau gần như hàng ngày vào tháng 3 và tháng 4/2023 để suy nghĩ về các giải pháp thay thế. Mặc dù Meta vận hành các mạng xã hội khổng lồ nhưng lại không có nhiều bài đăng của người dùng để sử dụng. Họ cho biết nhiều người dùng Facebook đã xóa các bài đăng trước đó và nền tảng này không phải là nơi mọi người viết nội dung kiểu tiểu luận.

Các nhà quản lý, luật sư và kỹ sư tại Meta đã thảo luận về việc mua nhà xuất bản Simon & Schuster để mua các tác phẩm dài. Nhà xuất bản nổi tiếng này đã từng làm việc với các tác giả như Stephen King và Jennifer Weiner và được công ty cổ phần tư nhân KKR mua lại với giá 1,62 tỷ USD vào năm ngoái.

Trụ sở chính của Simon & Schuster tại Thành phố New York  
Trụ sở chính của Simon & Schuster tại Thành phố New York  

Những người tham dự khác đề xuất một lựa chọn thân thiện với ngân sách hơn là trả 10 đô la một cuốn sách để có được toàn bộ quyền cấp phép cho các tựa sách mới.

Họ cũng bàn bạc về việc thu thập dữ liệu có bản quyền từ khắp nơi trên internet, ngay cả khi điều đó đồng nghĩa với việc phải đối mặt với các vụ kiện. Họ cho biết việc đàm phán giấy phép với các nhà xuất bản, nghệ sĩ, nhạc sĩ và ngành tin tức sẽ mất quá nhiều thời gian.

TẠO DỮ LIỆU TỔNG HỢP

Dữ liệu tổng hợp là dữ liệu được tạo ra bởi hệ thống AI và OpenAI đã coi đó là một lựa chọn cho các mô hình của mình. Theo Times, Giám đốc điều hành OpenAI - Sam Altman đã có kế hoạch giải quyết tình trạng thiếu dữ liệu sắp xảy ra bằng cách đào tạo AI trên văn bản do AI tạo ra - hay còn gọi là dữ liệu tổng hợp.

Ông Altman và những người khác đã lập luận rằng vì một mô hình AI có thể tạo ra văn bản giống con người nên các hệ thống có thể tạo ra dữ liệu bổ sung để phát triển các phiên bản tốt hơn của chính chúng. Điều này sẽ giúp các nhà phát triển xây dựng công nghệ ngày càng mạnh mẽ và giảm sự phụ thuộc vào dữ liệu có bản quyền.

Các nhà nghiên cứu AI đã khám phá dữ liệu tổng hợp trong nhiều năm. Jeff Clune, cựu nhà nghiên cứu OpenAI, hiện đang giảng dạy khoa học máy tính tại Đại học British Columbia, cho biết: “Dữ liệu mà các hệ thống này cần giống như một con đường xuyên rừng. Nếu họ chỉ huấn luyện dựa trên dữ liệu tổng hợp, họ có thể bị lạc trong rừng”.

Để giải quyết điều này, OpenAI và những người khác đang nghiên cứu cách hai mô hình AI khác nhau có thể phối hợp với nhau để tạo ra dữ liệu tổng hợp hữu ích và đáng tin cậy hơn. Một hệ thống tạo ra dữ liệu, trong khi hệ thống thứ hai đánh giá thông tin để phân biệt thông tin tốt và xấu. 

WHISPER, CÔNG CỤ NHẬN DẠNG GIỌNG NÓI GIÚP DỊCH VIDEO YOUTUBE

Vào tháng 5, Sam Altman, giám đốc điều hành của OpenAI, thừa nhận rằng các công ty AI sẽ sử dụng hết tất cả dữ liệu khả thi trên internet. OpenAI đang rất cần thêm dữ liệu để phát triển mô hình AI thế hệ tiếp theo, vì vậy các nhân viên đã thảo luận về việc sao chép podcast, sách nói và video trên YouTube

OpenAI đã xây dựng Whisper, một công cụ nhận dạng giọng nói có thể dịch các video và podcast trên YouTube. Mô hình ngôn ngữ lớn mới nhất, GPT-4 đã được đào tạo trên hơn một triệu giờ video YouTube do Whisper phiên âm.

Whisper, công cụ nhận dạng giọng nói do OpenAI phát hành  
Whisper, công cụ nhận dạng giọng nói do OpenAI phát hành  

Tuy nhiên, trước đó YouTube đã cấm người dùng không sử dụng video của họ cho các ứng dụng độc lập và cấm truy cập video của họ bằng “bất kỳ phương tiện tự động nào (chẳng hạn như rô-bốt, hoặc trình thu thập dữ liệu)”. Một số nhân viên của Google biết rằng OpenAI đã thu thập dữ liệu từ các video trên YouTube, nhưng họ không ngăn cấm OpenAI vì Google cũng đã sử dụng bản ghi video YouTube để đào tạo các mô hình AI của mình.

PHOTOBUCKET: KHO ẢNH TỪ MYSPACE VÀ FRIENDSTER

Photobucket từng là trang web lưu trữ hình ảnh hàng đầu thế giới và chiếm gần một nửa thị trường ảnh trực tuyến ở Mỹ, theo Reuters. Một phần là do ứng dụng lưu trữ ảnh cho các trang truyền thông xã hội đầu tiên như Myspace và Friendster. Reuters đưa tin, cơ sở dữ liệu hình ảnh của Photobucket hiện có thể sớm được cấp phép cho các công ty công nghệ để đào tạo hệ thống AI.