" />
Là một trong những phương pháp cốt lõi trong trí tuệ nhân tạo vật lý, các mô hình thế giới đã thu hút sự chú ý trong các ngành công nghệ. Gartner đã liệt kê trí tuệ nhân tạo vật lý (physical AI) là một trong 10 xu hướng công nghệ chiến lược hàng đầu năm 2026, nhờ khả năng tương tác với thế giới thực và các ứng dụng tiêu biểu nhất trong ngành công nghiệp xe tự lái và robot.
Không giống như các mô hình ngôn ngữ lớn, thiếu khả năng mô phỏng và dự đoán trực tiếp môi trường vật lý, các mô hình thế giới học hỏi các biểu diễn từ dữ liệu cảm biến và dự báo các động lực như chuyển động, lực và mối quan hệ không gian.
Ví dụ, khi một chiếc xe gặp phải một sự bất thường tiềm tàng phía trước, mô hình thế giới liên tục tạo ra nhiều dự đoán khả năng cho giây tiếp theo như liệu có nên phanh, chuyển làn hay thực hiện các biện pháp phòng ngừa khác, ông Gao cho biết.
"Chính khả năng mô phỏng dự đoán này cho phép các hệ thống tự lái đưa ra các quyết định đáng tin cậy hơn, giống con người hơn”, ông nói thêm rằng nhiều hệ thống hỗ trợ lái xe tiên tiến hiện đang lưu hành trên đường đã áp dụng phương pháp mô hình thế giới.
Theo một báo cáo của Frost & Sullivan về lĩnh vực mô hình thế giới của Trung Quốc, hơn 80% thuật toán lái xe tự động hiện nay sử dụng mô hình thế giới để huấn luyện bổ trợ. Bằng cách tự động tạo ra hình ảnh và dữ liệu video được gắn nhãn, và tạo ra các kịch bản đa phương thức, xuyên thời gian mà không cần thiết kế thủ công phức tạp, các mô hình thế giới có thể giảm chi phí gần 50% và cải thiện hiệu quả khoảng 70%.
Trong bối cảnh đó, các nhà sản xuất ô tô Trung Quốc đang đẩy nhanh việc phát triển và triển khai các mô hình thế giới trong xe.
Vào tháng 9, hệ thống Qiankun ADS 4.0 của Huawei bắt đầu xuất hiện trong các phương tiện của hãng. Được hỗ trợ bởi kiến trúc WEWA do chính công ty phát triển, hệ thống này bao gồm một công cụ thế giới dựa trên đám mây để huấn luyện dữ liệu quy mô lớn và tạo kịch bản, cùng với kiến trúc hành vi thế giới của xe để suy luận môi trường theo thời gian thực và đưa ra quyết định giống con người.
Nio cũng công bố kế hoạch giới thiệu Nio World Model (NWM) 2.0 trên nhiều nền tảng từ cuối năm nay đến quý đầu tiên của năm sau. Phiên bản đầu tiên của NWM, được triển khai từ tháng 5, có thể mô phỏng 216 kịch bản tiềm năng trong vòng 100 mili giây, chọn đường đi tối ưu thông qua lọc thuật toán và mô phỏng khả năng suy luận không gian-thời gian của con người với khả năng dự đoán giống như bản năng.
Khi việc ứng dụng nhanh chóng các mô hình thế giới trong lái xe tự động đòi hỏi những tiến bộ hơn nữa trong các công nghệ liên quan, các gã khổng lồ công nghệ toàn cầu như Nvidia, Google và Tesla cũng đang đẩy mạnh nỗ lực trong lĩnh vực mới đầy hứa hẹn này.
Vào tháng 1 vừa qua, Nvidia đã giới thiệu Cosmos, một nền tảng mô hình thế giới tạo sinh có thể tạo ra lượng lớn dữ liệu thực tế, dựa trên vật lý để huấn luyện và đánh giá các phương tiện tự hành, robot và các hệ thống AI vật lý khác.
Tiếp theo đó là Google DeepMind, hãng đã ra mắt Genie 3 vào tháng 8 - một mô hình thế giới thế hệ mới cho phép tương tác thời gian thực lần đầu tiên. Với một lời nhắc bằng văn bản, Genie 3 có thể tạo ra các thế giới động có thể điều hướng ở tốc độ 24 khung hình mỗi giây, duy trì tính nhất quán của cảnh trong vài phút ở độ phân giải 720p.
"Việc ứng dụng các mô hình thế giới trong lái xe tự động sẽ giải quyết nhiều nút thắt hiện tại”, Wei Dong, một kỹ sư tại phòng thí nghiệm công nghệ vi điện tử của Đại học Công nghệ Tây An, cho biết. "Ví dụ, các mô hình thế giới có thể tạo ra các video cảnh lái xe thực tế được sử dụng để huấn luyện robot và phương tiện tự hành, cho phép các nhà phát triển tiến hành huấn luyện và thử nghiệm trong môi trường ảo”.
Ngoài việc tạo ra môi trường huấn luyện ảo cho robot và xe tự lái, Wei cho hay các video thực tế được tạo ra từ mô hình thế giới tiết kiệm chi phí hơn nhiều so với phương pháp thu thập dữ liệu truyền thống, đồng thời cho phép xử lý dữ liệu theo vòng lặp khép kín, cải thiện hiệu quả và độ chính xác, đồng thời đẩy nhanh quá trình lặp lại và tối ưu hóa hệ thống.
"Với các mô hình thế giới, các hệ thống đầu cuối có được sự bảo vệ đáng tin cậy hơn và tiềm năng cải tiến lớn hơn”, Wei nhấn mạnh.