Thế giới đang dần cạn kiệt dữ liệu để đào tạo AI

Hoàng Hà

24/07/2024

Các mô hình AI ngày càng phát triển và đang yêu cầu lượng dữ liệu lớn hơn, chất lượng cao hơn ...

Nguồn dữ liệu để đào tạo các mô hình AI đang ngày càng cạn kiệt. Ảnh minh họa

Khi các mô hình AI do các công ty công nghệ phát triển ngày càng trở nên lớn hơn, nhanh hơn và tham vọng hơn, lượng dữ liệu cần thiết để đào tạo các mô hình cũng đòi hỏi phải chất lượng cao hơn và số lượng nhiều hơn.

CUỘC KHỦNG HOẢNG DỮ LIỆU

Tuy nhiên, nguồn dữ liệu đang bắt đầu cạn kiệt, một phần vì các trang web nội dung nói chung, các trang báo chí nói riêng, đang hạn chế các công ty AI sử dụng văn bản, hình ảnh và video của họ trong việc đào tạo AI. Điều này đã tạo ra “cuộc khủng hoảng dữ liệu”, hay đúng hơn là “cuộc khủng hoảng về các thỏa thuận đồng ý sử dụng dữ liệu”, theo một nghiên cứu gần đây của Sáng kiến Nguồn gốc Dữ liệu, một nhóm do các nhà nghiên cứu tại Viện Công nghệ Massachusetts (MIT) dẫn đầu.

Nghiên cứu phát hiện rằng chỉ trong năm vừa qua đã chứng kiến “sự gia tăng nhanh chóng các trang web đồng loạt hạn chế công ty AI sử dụng dữ liệu”. Nguyên nhân được cho là do những lo ngại liên quan đến thách thức đạo đức và pháp lý khi AI “ngang nhiên sử dụng dữ liệu công cộng”.

Động thái này đã hạn chế phần lớn các trang web cho phép sử dụng dữ liệu của họ, dù với mục đích thương mại hay học thuật. Giữa tháng 4 năm 2023 và tháng 4 năm 2024, xem xét khoảng 14.000 tên miền web được sử dụng để tập hợp bộ ba tập dữ liệu lớn là C4, RefinedWeb và Dolma cho thấy 5% tổng dữ liệu và 25% dữ liệu từ các nguồn chất lượng cao nhất đã bị hạn chế,.

Các công ty AI lớn thường thu thập dữ liệu thông qua các bot tự động được gọi là web crawlers, chúng khám phá internet và ghi lại nội dung. Trong trường hợp của tập dữ liệu C4, 45% dữ liệu đã bị hạn chế thông qua các giao thức trang web ngăn chặn các web crawlers truy cập nội dung. Các hạn chế này ảnh hưởng không đồng đều đến các crawlers từ các công ty công nghệ khác nhau và thường có lợi cho “các nhà phát triển AI ít được biết đến hơn”.

Ví dụ, các crawlers của OpenAI đã bị hạn chế truy cập vào gần 26% các nguồn dữ liệu chất lượng cao, trong khi crawler của Google chỉ bị ngăn chặn khoảng 10% và Meta là khoảng 4%.

Nếu những hạn chế này vẫn chưa đủ khiến tình hình đào tạo AI gặp khó khăn, thì còn một thực tế khắc nghiệt nữa, đó là nguồn cung cấp dữ liệu công cộng để đào tạo các mô hình AI dự kiến sẽ cạn kiệt sớm.

Với tốc độ hiện tại của các công ty đang làm việc để cải thiện các mô hình AI, các nhà phát triển có thể hết dữ liệu vào khoảng từ năm 2026 đến năm 2032, theo một nghiên cứu được công bố vào tháng 6 bởi nhóm nghiên cứu Epoch AI.

CÁC CÔNG TY AI ĐANG CHI HÀNG TRIỆU ĐỂ MUA DỮ LIỆU ĐÀO TẠO

Khi các công ty công nghệ lớn cố gắng tìm đủ dữ liệu để hỗ trợ các mục tiêu AI đầy tham vọng của họ, một số công ty đang ký kết các hợp đồng với các ấn phẩm nội dung để có quyền truy cập vào kho lưu trữ của họ.

Ví dụ, OpenAI được cho là đã đề nghị trả từ 1 triệu đến 5 triệu USD cho các đối tác như vậy. Gã khổng lồ AI này đã ký kết các hợp đồng với các ấn phẩm như The Atlantic, Vox Media, The Associated Press, Financial Times, Time và News Corp để sử dụng kho lưu trữ của họ vào đào tạo các mô hình AI.

Để mở khóa dữ liệu mới, OpenAI thậm chí đã cân nhắc sử dụng Whisper, công cụ nhận diện giọng nói, để phiên âm video và âm thanh từ các trang web như YouTube - một phương pháp mà Google cũng đã thảo luận. Trong khi đó, các nhà phát triển AI khác như Meta, đang tìm cách mua lại các công ty xuất bản như Simon & Schuster để có được kho sách lớn của họ.

SỬ DỤNG DỮ LIỆU DO CHÍNH AI TẠO RA ĐỂ ĐÀO TẠO AI

Một giải pháp tiềm năng khác cho cuộc khủng hoảng dữ liệu AI là dữ liệu tổng hợp, một thuật ngữ dùng để mô tả dữ liệu được tạo ra bởi các mô hình AI thay vì con người. Sam Altman của OpenAI đã đề cập đến phương pháp này trong một cuộc phỏng vấn đầu năm nay khi ông lưu ý rằng dữ liệu từ Internet cuối cùng “sẽ hết”.

Các công ty công nghệ lớn cố gắng tìm đủ dữ liệu để hỗ trợ các mục tiêu AI đầy tham vọng của họ. Ảnh minh họa

“Miễn là có thể vượt qua thách thức dữ liệu tổng hợp, nguồn dữ liệu do chính AI tạo ra, để có những dữ liệu tổng hợp tốt, tôi nghĩ mọi thứ sẽ ổn thôi”, người đứng đầu OpenAI nói.

Tuy nhiên, một số nhà nghiên cứu AI nổi bật, tin rằng lo ngại về một cuộc khủng hoảng dữ liệu đang nổi lên là quá phóng đại. Khi phát biểu tại Hội nghị Công nghệ Bloomberg vào tháng 5, Fei-Fei Li, một nhà khoa học máy tính tại Stanford và thường được gọi là “Mẹ đỡ đầu của AI” cho rằng lo ngại về giới hạn dữ liệu là một “quan điểm rất hẹp”.

Trong khi các nguồn dữ liệu, nội dung trên internet đang bị thắt chặt bởi những hạn chế thỏa thuận, Fei-Fei Li lưu ý rằng một loạt các nguồn dữ liệu thay thế và liên quan vẫn chưa được khai thác cho AI. Ví dụ như dữ liệu trong ngành chăm sóc sức khỏe hay các ngành như giáo dục, “vì vậy không, tôi không nghĩ chúng ta đang hết dữ liệu”, bà nói.

Từ khóa:

Dòng sự kiện:

Kiến trúc dữ liệu quốc gia

Nhu cầu xây dựng hạ tầng AI vẫn tăng mạnh. Ảnh: CNBC

Nhu cầu ứng dụng trí tuệ nhân tạo tại các doanh nghiệp vẫn "không có giới hạn"

Tuy nhiên, khi chi phí vận hành các mô hình AI tiên phong vẫn ở mức cao, các doanh nghiệp bắt đầu đánh giá kỹ hơn tỷ lệ hoàn vốn của từng ứng dụng AI...

19:48 13/07/2026

Trí tuệ nhân tạo (AI) đang làm thay đổi cách đánh giá chất lượng mạng di động.

AI đặt ra “bài kiểm tra” cho mạng 5G tại châu Á - Thái Bình Dương

Nếu trước đây tốc độ tải xuống (download) và vùng phủ sóng là những tiêu chí quan trọng nhất, thì nay các ứng dụng AI đòi hỏi những chỉ số hoàn toàn khác như tốc độ tải lên (upload), độ trễ, độ ổn định của kết nối tới hạ tầng đám mây...

10:18 13/07/2026

SK Hynix dự kiến chi tới 720 tỷ USD để mở rộng năng lực sản xuất chip AI. Ảnh: CNBC

SK Hynix bước vào câu lạc bộ nghìn tỷ USD, đặt cược tương lai vào "cơn sốt bộ nhớ AI"

Kết quả kinh doanh của hãng chip Hàn Quốc SK Hynix phản ánh rõ cơn sốt AI. Giới phân tích dự báo doanh thu năm 2026 của SK Hynix có thể tiếp tục tăng hơn ba lần, lên khoảng 235 tỷ USD...

07:46 11/07/2026

Thị trường chứng khoán Mỹ đã khép lại phiên giao dịch trong sắc đỏ khi nhóm cổ phiếu AI đồng loạt giảm sâu. Ảnh: AP

Cổ phiếu AI mất đà, từ Samsung đến Intel đều chịu áp lực bán mạnh

Đà tăng mạnh của nhóm cổ phiếu trí tuệ nhân tạo (AI) đã bất ngờ đảo chiều trong phiên giao dịch ngày 8/7, kéo theo sự suy giảm của các thị trường chứng khoán lớn trên thế giới...

10:38 10/07/2026

(Từ trái sang phải) Ông Ralf Reichert, Tổng Giám đốc của Esports Foundation; Hoàng tử Faisal bin Bandar bin Sultan, thành viên Hội đồng Quản trị của Esports Foundation; và Bà Marina Ferrari, Bộ trưởng Bộ Thể thao, Thanh niên và Đời sống Cộng đồng Pháp phát biểu tại buổi họp báo khai mạc Esports World Cup 2026 tại Paris.

Khai mạc Esports World Cup 2026 tại Paris

Esports World Cup 2026 chính thức khai mạc tại Paris, đánh dấu cột mốc lịch sử đưa giải đấu thể thao điện tử lớn nhất hành tinh vươn tầm thế giới với quỹ giải thưởng kỷ lục 75 triệu USD…

10:35 10/07/2026

DeepSeek là doanh nghiệp AI Trung Quốc từng gây tiếng vang lớn đầu năm 2025 và tiếp tục giới thiệu mô hình mới vào tháng 4. Ảnh: CNBC

Doanh nghiệp Mỹ chuyển hướng sang mô hình AI Trung Quốc nhờ lợi thế chi phí

Nhờ chi phí vận hành tối ưu cùng tính năng ngày càng tiệm cận các mô hình hàng đầu tại Mỹ, các giải pháp AI từ Trung Quốc đang dần trở thành lựa chọn ưu tiên của nhiều doanh nghiệp Mỹ...

15:18 09/07/2026

Những doanh nghiệp được hưởng lợi lớn nhất từ xu hướng này là các "ông lớn" đang xây dựng hạ tầng AI tại Trung Quốc như Tencent, Alibaba và Huawei. Ảnh: Bloomberg

Doanh nghiệp Trung Quốc tăng tốc thay thế Nvidia bằng chip AI nội địa

Các doanh nghiệp Trung Quốc dự kiến sẽ dành 46% ngân sách mua chip, bộ tăng tốc AI trong 12 tháng tới cho các sản phẩm nội địa. Con số này tăng mạnh so với mức 30% hiện nay...

15:17 09/07/2026

Thị trường tiền mã hóa toàn cầu hiện có quy mô khoảng 2.000 tỷ USD, vận hành trên nền tảng blockchain với các cơ chế mã hóa được phát triển từ nhiều thập kỷ trước. Ảnh minh họa

Nguy cơ máy tính lượng tử áp sát, ngành tiền số gấp rút gia cố “lá chắn” bảo mật

Sự phát triển nhanh chóng của máy tính lượng tử đang buộc ngành công nghiệp tiền mã hóa phải chuẩn bị cho một kịch bản từng được xem là còn rất xa mới xảy ra: các thuật toán mã hóa hiện nay bị bẻ khóa, kéo theo nguy cơ hàng nghìn tỷ USD tài sản số bị đe dọa...

11:47 09/07/2026

Tổng thống Hàn Quốc Lee Jae Myung phát biểu trong cuộc họp báo về tầm nhìn phát triển ngành công nghiệp bán dẫn. Ảnh: Reuters

Hàn Quốc lập quỹ tương lai từ nguồn thu tăng thêm nhờ bùng nổ bán dẫn

Quỹ sẽ trở thành công cụ tài chính quan trọng để triển khai các dự án đầu tư quy mô lớn của quốc gia, đồng thời nâng cao sức cạnh tranh dài hạn của Hàn Quốc...

16:33 07/07/2026

Ấn Độ đang lựa chọn cách huy động dòng vốn và công nghệ quốc tế nhằm rút ngắn khoảng cách với các quốc gia dẫn đầu AI. Ảnh: CNBC

Các chính phủ đang trải thảm đỏ chào đón các “gã khổng lồ AI”

Các nhà lãnh đạo quốc gia ngày càng dành nhiều thời gian gặp gỡ CEO các tập đoàn công nghệ lớn, coi họ là những đối tác chiến lược trong quá trình xây dựng năng lực AI quốc gia...

16:27 06/07/2026