Cạn kiệt dữ liệu, sự phát triển của trí tuệ nhân tạo sẽ chậm lại
Ngành công nghiệp AI đang đứng trước ngã rẽ. Trong khi các dữ liệu trên internet đạt đến giới hạn, các hướng đi mới như dữ liệu tổng hợp và học hỏi từ thử nghiệm có thể giúp mở ra kỷ nguyên tiếp theo...
Con đường phía trước được cho là sẽ đầy thách thức, đòi hỏi sự đổi mới mang tính đột phá. Demis Hassabis, một trong những chuyên gia trí tuệ nhân tạo (AI) có tầm ảnh hưởng lớn nhất thế giới, đã đưa ra cảnh báo cho ngành công nghệ: Đừng kỳ vọng các chatbot sẽ tiếp tục cải thiện với tốc độ nhanh như những năm gần đây.
GIỚI HẠN CỦA DỮ LIỆU INTERNET VÀ SỰ CHỮNG LẠI CỦA AI
Trong nhiều năm qua, các nhà nghiên cứu AI đã dựa vào một khái niệm khá đơn giản để cải thiện hệ thống của họ: Càng cung cấp nhiều dữ liệu từ internet vào các mô hình ngôn ngữ lớn (Large Language Models - LLMs), các hệ thống AI càng hoạt động tốt hơn. Tuy nhiên, Demis Hassabis, lãnh đạo Google DeepMind, cho biết phương pháp này đang dần mất hiệu quả vì các công ty công nghệ đã sử dụng gần hết dữ liệu văn bản có sẵn trên internet.
“Cả ngành công nghiệp đang chứng kiến sự giảm dần hiệu quả,” ông Hassabis chia sẻ trong một cuộc phỏng vấn với The New York Times. Ông cũng nhận giải Nobel vì những đóng góp của mình trong lĩnh vực AI.
Không chỉ Hassabis, nhiều chuyên gia AI khác cũng đồng tình với nhận định này. New York Times cho biết phỏng vấn với 20 nhà điều hành và nhà nghiên cứu trong ngành cho thấy họ tin rằng nguồn dữ liệu văn bản kỹ thuật số trên internet đang dần cạn kiệt. Vấn đề này trở nên rõ ràng ngay cả khi hàng tỷ USD vẫn tiếp tục được rót vào nghiên cứu AI. Ví dụ, Databricks – một công ty chuyên về dữ liệu AI – gần đây thông báo rằng họ sắp hoàn thành vòng gọi vốn kỷ lục 10 tỷ USD.
Năm 2020, Jared Kaplan, một nhà vật lý lý thuyết tại Đại học Johns Hopkins, công bố một nghiên cứu cho thấy các mô hình ngôn ngữ lớn trở nên mạnh mẽ hơn khi xử lý nhiều dữ liệu hơn. “Luật Tăng Trưởng” (Scaling Laws) này cho rằng giống như con người học hỏi tốt hơn khi đọc nhiều sách, AI cũng cải thiện đáng kể khi được cung cấp lượng lớn văn bản kỹ thuật số từ internet.
Tuy nhiên, Demis Hassabis nhấn mạnh rằng “Luật Tăng Trưởng” không phải là quy luật tự nhiên bất biến. Trong khi Luật Moore (về sự tăng trưởng số lượng bóng bán dẫn trên chip) tồn tại hàng chục năm, Luật Tăng Trưởng có thể chỉ kéo dài vài năm. “Chúng ta không còn đạt được tiến bộ đáng kể như trước đây,” Hassabis nói.
HƯỚNG ĐI MỚI: DỮ LIỆU TỔNG HỢP VÀ HỌC TỪ THỬ NGHIỆM
Để vượt qua giới hạn về dữ liệu internet, các nhà nghiên cứu đang khám phá các phương pháp mới, chẳng hạn như sử dụng dữ liệu tổng hợp (synthetic data). Đây là dữ liệu được AI tự tạo ra thông qua việc học hỏi từ các bài toán hoặc chương trình máy tính. Ví dụ, bằng cách thử nghiệm và sai sót, các mô hình có thể xác định phương pháp nào dẫn đến kết quả đúng.
OpenAI gần đây đã ra mắt hệ thống mới mang tên OpenAI o1, được xây dựng dựa trên phương pháp này. Tuy nhiên, dữ liệu tổng hợp chỉ hoạt động tốt trong các lĩnh vực như toán học và lập trình – nơi có sự phân biệt rõ ràng giữa đúng và sai. Với các lĩnh vực phức tạp hơn như nhân văn, nghệ thuật hay triết học, việc áp dụng phương pháp này khó khăn hơn nhiều.
Sam Altman, Giám đốc điều hành OpenAI, cùng các chuyên gia như Dario Amodei (CEO của Anthropic) và Jensen Huang (CEO của Nvidia) vẫn lạc quan về tiềm năng của AI. Họ tin rằng các kỹ thuật mới sẽ tiếp tục thúc đẩy công nghệ này tiến xa hơn.
Tuy nhiên, Ilya Sutskever, một trong những nhà nghiên cứu hàng đầu của Google và OpenAI, cho rằng: “Chúng ta đã đạt đến đỉnh cao của dữ liệu. Không còn dữ liệu nào nữa. Chúng ta phải tận dụng những gì đang có.”
Nvidia, một trong những công ty hưởng lợi lớn nhất từ sự bùng nổ AI, vẫn tự tin về triển vọng của mình. CEO Jensen Huang khẳng định rằng mặc dù tốc độ phát triển có thể chậm lại, nhưng nhu cầu về hạ tầng AI vẫn rất lớn khi các doanh nghiệp thử nghiệm các quy trình và kỹ thuật mới.
Rachel Peterson, Phó Chủ tịch quản lý trung tâm dữ liệu của Meta, cũng thừa nhận rằng việc đánh giá liệu AI có thực sự mang lại giá trị hay không là một câu hỏi lớn: “Liệu điều này có thực sự đáng giá không? Đó là một câu hỏi mà mọi người đều đang vật lộn khi hàng tỷ USD được đổ vào lĩnh vực này”.