Cuộc chạy đua với AI quy mô lớn
Ví dụ điển hình là mô hình AI trên xe sắp tới của Xpeng Motors sẽ có ít nhất bảy tỷ tham số. Li Auto dự kiến sẽ đạt được quy mô tương tự khi bắt đầu lắp đặt chip tự phát triển vào năm tới.
Mô hình AI trên xe của Xpeng được chắt lọc từ mô hình nền tảng đám mây nội bộ, một thiết kế nhằm giải quyết các hạn chế về tính toán, bộ nhớ và băng thông của chip xe, vốn ngăn cản việc triển khai các mô hình quy mô đầy đủ.
Vào nửa cuối năm 2024, Xpeng bắt đầu chuyển đổi sang các mô hình đám mây quy mô lớn. Công ty đang phát triển một mô hình xe tự hành siêu lớn với ít nhất 72 tỷ tham số, dự kiến ra mắt chính thức vào tháng tới.
Trong một buổi chia sẻ công nghệ vào tháng 4, Xpeng tiết lộ rằng mô hình đám mây của họ được xây dựng trên một nền tảng mô hình ngôn ngữ lớn được đào tạo dựa trên dữ liệu lái xe đa phương thức mở rộng. Mô hình này được cho là có khả năng diễn giải thông tin hình ảnh, lập luận và tạo ra các hành động lái xe.
Sau khi hoàn tất quá trình đào tạo trên đám mây, Xpeng dự định sử dụng phương pháp “chưng cất kiến thức” để nén mô hình, bảo toàn các tính năng chính đồng thời tạo ra một phiên bản nhỏ hơn có thể hoạt động trên xe. Quy trình này, cũng được DeepSeek sử dụng, giúp giảm kích thước mô hình mà không làm giảm đáng kể hiệu suất.
Được thiết kế đặc biệt cho AI và khối lượng công việc mô hình lớn từ đầu đến cuối, nó cung cấp sức mạnh tính toán khoảng 700 TOPS (Tera Operations Per Second, là một đơn vị đo lường biểu thị số lượng phép tính hàng nghìn tỷ mà một chip AI có thể thực hiện mỗi giây), tương đương với chip Thor mới nhất của Nvidia, có thể xử lý các mô hình với tối đa 30 tỷ tham số.
Đầu tháng 8, Xpeng đã tổ chức một cuộc họp nội bộ do CEO He Xiaopeng chủ trì, tập trung toàn bộ nguồn lực AI vào nhóm mô hình nền tảng để hỗ trợ triển khai mô hình trên xe với bảy tỷ thông số.
Li Auto cũng đã đẩy mạnh các nỗ lực AI của mình. Trong cuộc gọi báo cáo thu nhập quý 2, CEO Li Xiang cho biết mô hình lớn trên xe hiện tại của công ty có hơn bốn tỷ thông số, tăng gấp mười lần so với phiên bản đầu cuối trước đó.
Khi chip do Li Auto tự phát triển được tung ra vào năm tới, mô hình tầm nhìn-ngôn ngữ-hành động (VLA) của họ cũng sẽ đạt khoảng bảy tỷ thông số.
Ban đầu, Li Auto đã triển khai một mô hình tầm nhìn-ngôn ngữ (VLM) nhỏ hơn và chậm hơn trên các phương tiện của mình. Vào tháng 10 năm 2023, công ty đã ra mắt một hệ thống hỗ trợ lái xe kết hợp kiến trúc đầu cuối và VLM. Mô hình đầu cuối đóng vai trò là hệ thống nhanh, trong khi VLM hoạt động như một hệ thống phụ trợ chậm hơn, mỗi hệ thống chạy trên các chip Orin X riêng biệt.
Trong thiết lập này, hệ thống đầu cuối hoạt động như "bộ não" chính của người lái, trong khi VLM cung cấp đầu vào thứ cấp, ngăn mô hình lớn hơn hoạt động hết công suất.
Hiện Li Auto đang chuyển trọng tâm sang khuôn khổ VLA, ban đầu được giới thiệu bởi DeepMind và hiện đang được áp dụng rộng rãi trong trí tuệ nhân tạo. Kiến trúc VLA tích hợp thị giác, ngôn ngữ và lý luận hành động để mô phỏng nhận thức của con người, cho phép nhận thức, hiểu biết và thực hiện nhiệm vụ. Cách tiếp cận này đang được các nhà sản xuất ô tô, bao gồm Li Auto và Xpeng, ưa chuộng.
Để đẩy nhanh việc triển khai mô hình VLA vào năm tới, Li Auto đã tái cấu trúc nội bộ. Vào tháng 5, Xia Zhongpu, người đứng đầu chương trình hỗ trợ lái xe đầu cuối của công ty này đã rời đi. Vào tháng 9, Li Auto đã tái cấu trúc đội ngũ phát triển xe tự hành thành 11 bộ phận nhỏ theo một cấu trúc phẳng hơn để tăng tốc độ phát triển mô hình.
Ngoài Xpeng và Li Auto, kiến trúc WEWA của Huawei sử dụng một công cụ thế giới dựa trên đám mây để đào tạo mô hình thế giới bên trong xe, trong khi Nio cũng đang triển khai các mô hình thế giới lớn trên xe của mình.
Tesla, thường được coi là công ty dẫn đầu ngành về hỗ trợ lái xe, đã đạt được năng lực robotaxi khu vực nhờ công nghệ toàn diện thay vì các mô hình lớn. Các nhà cung cấp như Horizon Robotics và Momenta cũng đã mang lại hiệu suất mạnh mẽ thông qua các phương pháp toàn diện tương tự.
Trong khi đó, một số nhà sản xuất ô tô tích cực quảng bá chiến lược AI của họ đã bị bắt kịp hoặc thậm chí vượt qua về hiệu suất hỗ trợ lái xe trong thực tế. Điều này cho thấy kích thước mô hình không phải là yếu tố quyết định duy nhất.
Các hệ thống toàn diện có hiệu quả trong việc học hỏi từ hành vi lái xe của con người, trong khi các mô hình lớn hơn có thể mang lại lợi thế trong việc suy luận và ra quyết định. Tuy nhiên, cốt lõi của hỗ trợ lái xe vẫn là nhận thức không gian, trong khi lợi ích của suy luận mô hình lớn vẫn còn hạn chế. Các nhà sản xuất ô tô vẫn đang tinh chỉnh các hệ thống đầu cuối, việc xây dựng các mô hình ngày càng lớn hơn có thể chuyển hướng tài nguyên tính toán sang lý luận ngôn ngữ thay vì nhận thức, có khả năng làm giảm trải nghiệm lái xe tổng thể.
Tham vọng vượt ngoài ngành ô tô
Trong một buổi phát trực tiếp của công ty vào tháng 12 năm ngoái, CEO Li đã mô tả Li Auto là một công ty AI vẫn sản xuất ô tô nhưng coi xe cộ là "rô-bốt không gian", áp dụng tầm nhìn AI rộng hơn của mình vào lĩnh vực di động.
Xpeng cũng có tham vọng tương tự. Công ty có kế hoạch sử dụng chip Turing không chỉ trong xe cộ mà còn trong robot và ô tô bay, mở rộng khả năng lái xe tự động sang các hệ thống thông minh khác.
Tiếp thị là một yếu tố khác. Sau sự chú ý toàn cầu của ChatGPT, "mô hình lớn" đã trở thành một thuật ngữ thông dụng mạnh mẽ trong ngành, giống như "đầu cuối" đã thu hút được sự chú ý sau khi Tesla ra mắt động cơ V12 tại Bắc Mỹ. Đối với một số nhà sản xuất ô tô, việc nhấn mạnh sự phát triển của các mô hình lớn vừa là một tuyên bố công nghệ vừa là một cách để thu hút sự chú ý của công chúng.
Tuy nhiên, bất kể động lực nào, việc cải thiện hiệu suất hỗ trợ lái xe thực tế vẫn nên là ưu tiên hàng đầu của ngành. Với những nhóm lệch khỏi trọng tâm này có nguy cơ đánh mất tầm nhìn về những gì thực sự quan trọng đối với cả tài xế và hành khách.