Các “ông lớn” AI đang chạy đua phát triển mô hình thế giới, hướng tới siêu trí tuệ
Hoàng Hà
30/09/2025
Khi mô hình ngôn ngữ lớn chững lại, “mô hình thế giới” lên ngôi…

Cuộc đua trong ngành trí tuệ nhân tạo (AI) đang bước sang một giai đoạn mới. Những tên tuổi hàng đầu như Google DeepMind, Meta và Nvidia đã đồng loạt chuyển hướng sang phát triển “mô hình thế giới” (world model) – hệ thống được kỳ vọng có khả năng hiểu, mô phỏng và dự đoán thế giới vật lý. Đây được coi là chìa khóa để tiến tới siêu trí tuệ nhân tạo (artificial superintelligence).
Khác với các mô hình ngôn ngữ lớn (LLM) vốn dựa trên văn bản và dữ liệu trực tuyến, mô hình thế giới được huấn luyện bằng video, dữ liệu từ robot và môi trường mô phỏng. Chúng không chỉ “đọc hiểu” mà còn có thể hình dung, lập kế hoạch và hành động trong không gian vật lý – điều mà LLM khó đạt tới.
Theo Financial Times, sự chuyển hướng này diễn ra trong bối cảnh những bước nhảy vọt về hiệu suất giữa các LLM mới đã bắt đầu chậm lại, bất chấp hàng trăm tỷ USD đổ vào nghiên cứu. OpenAI, Google hay xAI của Elon Musk vẫn đều đặn tung ra phiên bản mới, nhưng khoảng cách giữa các thế hệ đã không còn quá ấn tượng như vài năm trước. Điều này làm dấy lên câu hỏi: phải chăng LLM đang tiến đến một trần tăng trưởng tự nhiên?
Rev Lebaredian, Phó Chủ tịch phụ trách Omniverse và công nghệ mô phỏng tại Nvidia, đánh giá tiềm năng của mô hình thế giới là khổng lồ. Ông cho rằng nếu AI có thể thực sự hiểu và vận hành trong thế giới thực, cơ hội thị trường có thể đạt tới 100 nghìn tỷ USD – xấp xỉ quy mô của toàn bộ nền kinh tế toàn cầu. “Nếu ta tạo ra một nền tảng trí tuệ biết quan sát, suy nghĩ và hành động trong thực tại, nó có thể thay đổi căn bản mọi ngành công nghiệp”, ông nói.
GOOGLE, META, NVIDIA TĂNG TỐC THÍ NGHIỆM
Trong vài tháng qua, các tập đoàn lớn đã lần lượt công bố thành tựu mới về mô hình thế giới. Google DeepMind giới thiệu Genie 3, một mô hình video đặc biệt có khả năng tạo nội dung theo từng khung hình và ghi nhớ tương tác trước đó. Đây là bước tiến so với cách tiếp cận cũ vốn dựng toàn bộ video cùng lúc. Theo Shlomi Fruchter, đồng trưởng nhóm Genie 3, cách tiếp cận mới giúp tạo môi trường mô phỏng sát thực tế, nơi AI có thể học hỏi mà không phải trả giá cho sai lầm trong thế giới thật.
Meta lại chọn hướng đi mô phỏng quá trình trẻ em học hỏi bằng quan sát thụ động. Mô hình V-JEPA, được nhóm FAIR (Facebook AI Research) phát triển dưới sự dẫn dắt của Yann LeCun – một trong những “cha đẻ AI hiện đại” – được huấn luyện trực tiếp từ video thô và đã bắt đầu thử nghiệm trên robot. LeCun nhiều lần cảnh báo rằng LLM sẽ không bao giờ đạt khả năng suy luận và lập kế hoạch giống con người, và chỉ có mô hình thế giới mới đủ tiềm năng.
Dù vậy, Meta không bỏ rơi cuộc đua LLM. CEO Mark Zuckerberg gần đây đã mạnh tay chiêu mộ nhân tài, đặc biệt là Alexandr Wang, nhà sáng lập Scale AI, để phụ trách toàn bộ mảng AI. Việc LeCun nay phải báo cáo trực tiếp cho Wang cho thấy Zuckerberg muốn cân bằng giữa nghiên cứu dài hạn (world model) và lợi ích ngắn hạn từ LLM thương mại.
Ngoài các tập đoàn lớn, giới startup cũng sôi động không kém. World Labs, công ty do giáo sư Fei-Fei Li (người tiên phong trong AI thị giác máy tính) sáng lập, đang phát triển mô hình có thể dựng môi trường 3D giống game chỉ từ một bức ảnh duy nhất. Startup Runway, vốn đã có hợp đồng với các hãng phim Hollywood như Lionsgate, tung ra sản phẩm ứng dụng mô hình thế giới để tạo bối cảnh game, nhân vật và cốt truyện cá nhân hóa theo thời gian thực. CEO Cristóbal Valenzuela của Runway nhấn mạnh: “Các phương pháp video truyền thống chỉ tạo chuyển động giả lập trên khung hình, còn mô hình thế giới thực sự hiểu vật lý của cảnh quay.”
DỮ LIỆU KHỔNG LỒ VÀ TƯƠNG LAI CỦA “AI VẬT LÝ”
Thách thức lớn nhất của mô hình thế giới là dữ liệu và tính toán. Các hệ thống này cần một lượng dữ liệu vật lý khổng lồ – từ bản đồ, môi trường, chuyển động – để huấn luyện. Niantic, công ty nổi tiếng với Pokémon Go, đã có lợi thế lớn khi xây dựng bản đồ 10 triệu địa điểm toàn cầu. Trong suốt 9 năm vận hành, hàng chục triệu người chơi đã quét và cung cấp dữ liệu về không gian công cộng, góp phần tạo ra một kho dữ liệu độc nhất vô nhị. Sau khi bán Pokémon Go cho Scopely, Niantic đổi tên thành Niantic Spatial và tiếp tục sử dụng lượng dữ liệu khổng lồ này để huấn luyện mô hình thế giới.
Song song, Nvidia tận dụng kinh nghiệm nhiều năm trong lĩnh vực game và mô phỏng để phát triển nền tảng Omniverse. Đây là công cụ cho phép xây dựng và vận hành các mô hình thế giới, từ robot công nghiệp cho tới hệ thống giao thông thông minh. CEO Jensen Huang tin rằng “AI vật lý” – những hệ thống AI có thể hiểu và hành động trong môi trường thực – sẽ là động lực tăng trưởng lớn tiếp theo của Nvidia, nối tiếp thành công của GPU trong kỷ nguyên LLM.
Dù tiềm năng là khổng lồ, con đường tới AI cấp độ con người (human-level AI) vẫn đầy thách thức. Yann LeCun dự đoán thế hệ AI đủ khả năng lập kế hoạch và suy luận như con người có thể cần thêm 10 năm nữa để thành hình. Tuy nhiên, ngay cả trước khi đạt được mốc này, mô hình thế giới đã có thể tạo ra giá trị thực tiễn khổng lồ: từ tự động hóa nhà máy, chăm sóc sức khỏe, xe tự lái cho tới giải trí, giáo dục.
Theo nhận định của nhiều chuyên gia, mô hình thế giới có thể làm với lĩnh vực sản xuất, y tế và dịch vụ điều mà máy tính từng làm với công việc trí óc: khuếch đại năng suất lên gấp nhiều lần, thay đổi cấu trúc nền kinh tế toàn cầu. Hay nói cách khác, nếu LLM là công cụ xử lý ngôn ngữ, thì world model chính là “giác quan và bộ não” giúp AI bước ra khỏi thế giới số và hòa nhập vào thế giới thực.
Khám phá hệ thống AI mới từ MIT giúp giảm thời gian phân đoạn hình ảnh y khoa, nâng cao hiệu quả nghiên cứu lâm sàng.
Khám phá Trung tâm điều hành thông minh IOC tại Phú Quốc, biểu tượng đô thị thông minh tiên phong của Việt Nam, phục vụ APEC 2027.
Khám phá cách AI nguồn mở đang thay đổi bản đồ đổi mới toàn cầu, mở ra cơ hội cho châu Á - Thái Bình Dương.
Khám phá rủi ro và bất bình đẳng trong ứng dụng AI trong y tế, cùng với tiềm năng cải thiện hiệu quả khám chữa bệnh.
Năm 2025 có thể ghi nhận mức đầu tư mạo hiểm thấp nhất vào biotech. Tìm hiểu nguyên nhân và xu hướng hiện tại.
Khám phá AIsphere, startup Trung Quốc đang tạo nên làn sóng mới trong ngành video AI với sản phẩm PixVerse.
Khám phá kính thông minh Meta Ray-Ban Display với công nghệ AI tiên tiến, giúp bạn tương tác dễ dàng hơn với thế giới xung quanh.
Khám phá cách AI đang cách mạng hóa quá trình phát triển thuốc mới, giúp tăng tốc độ và hiệu quả trong nghiên cứu dược phẩm.
Khám phá cách AI đang thay đổi trải nghiệm người dùng trên smartphone và laptop, từ nhiếp ảnh đến làm việc hiệu quả.