Giới kỹ sư AI mắc kẹt khi công nghệ lái xe thông minh toàn diện đang nổi lên
Tác động
Với sự ra đời của công nghệ mô hình lớn toàn diện (E2E), những kỹ sư AI cho rằng tác động ban đầu sẽ không phải đối với người lái xe, mà là đối với các kỹ sư.
Thực tế, nhiều kỹ sư lái xe thông minh đã nói rằng, để theo kịp công nghệ mới, họ nghiên cứu các bài báo mới nhất của ngành và tham gia các khóa học trong giờ làm thêm, một số thậm chí còn xem lại sách giáo khoa sau đại học.
Sự xuất hiện của các mô hình lớn E2E đã tạo nên một sự bùng nổ công nghệ trong ngành lái xe thông minh trong năm nay. Vào tháng 1, Tesla đã mở rộng việc triển khai phiên bản thử nghiệm V12 của gói phần mềm Tự lái hoàn toàn (FSD), cung cấp cho người dùng tiêu chuẩn. Phiên bản này sử dụng mạng nơ-ron E2E và nhiều người dùng đã báo cáo rằng hiệu suất của nó rất ấn tượng, giống con người hơn so với các phiên bản trước.
Giám đốc điều hành Tesla Elon Musk đã mô tả E2E là khả năng đưa ra lệnh lái xe chỉ dựa trên đầu vào hình ảnh. Mặc dù những người trong ngành nói họ không tin giải pháp E2E của Tesla là cực đoan và kỳ diệu như những gì nó nghe có vẻ, nhưng nó vẫn là một đề xuất hấp dẫn. Các công ty Trung Quốc ngày càng tin rằng với sự thúc đẩy của các mô hình lớn, sức mạnh tính toán khổng lồ và dữ liệu khổng lồ, các hệ thống chạy bằng trí tuệ nhân tạo sẽ có thể lái xe như con người.
Nhận thấy xu hướng mới nổi này, các công ty ô tô và công ty lái xe thông minh của Trung Quốc đã bắt đầu hành động. Các công ty hàng đầu như Huawei, Xpeng Motors, Nio, Li Auto và BYD đã đầu tư đáng kể nhân lực và nguồn lực để thúc đẩy các giải pháp E2E. Li Auto và Nio thậm chí đã thành lập các phòng ban chuyên trách để đẩy nhanh quá trình triển khai.
Cuộc cạnh tranh giành nhân tài hàng đầu cũng đang ngày càng trở nên gay gắt. Khi Xiaomi Auto ra mắt chiếc xe đầu tiên, họ đã tuyển dụng Wang Naiyan, cựu giám đốc công nghệ của TuSimple Trung Quốc, để bắt kịp. Một người trong ngành cho biết Huawei thậm chí còn tận dụng các bằng sáng chế liên quan để neo giữ nhân tài cho mục đích tuyển dụng có mục tiêu.
Tuy nhiên, mặt trái của vấn đề này là E2E phụ thuộc rất nhiều vào các phương pháp dựa trên dữ liệu thay vì nhân lực thuần túy. Đội ngũ khoảng 300 người của Tesla được coi là hình mẫu trong số những công ty hàng đầu. Ngược lại, các đội lái xe thông minh của các công ty hàng đầu Trung Quốc hiện có gần một nghìn nhân viên. BYD, công ty đang tiến bộ nhanh chóng trong lĩnh vực lái xe thông minh, tự hào có một đội ngũ phần mềm gồm 3.000 người, Huawei cũng không hề kém cạnh. Trong thời kỳ thuận lợi, các kỹ sư thường có thể mong đợi mức lương hàng năm là 1 triệu nhân dân tệ.
Nhiều kỹ sư tin rằng nếu hiệu quả của các giải pháp E2E được xác nhận thêm, khả năng sẽ xảy ra tình trạng sa thải. "200–300 người sẽ là đủ", một cựu thành viên cốt cán của đội lái xe thông minh của một hãng sản xuất ô tô mới thành lập đã nói một cách chắc chắn. Ngay cả những sinh viên mới tốt nghiệp có nền tảng kiến thức về học sâu cũng có thể có lợi thế hơn một số kỹ sư tham gia các dự án E2E.
Các nhà “săn đầu người” cũng cảm thấy ngành này đang thiếu hụt nhân tài: các nhóm lái xe thông minh của các công ty ô tô không còn mở thêm vị trí mới nữa và cần phải tinh gọn đội ngũ nhân sự. Một nhà “săn đầu người” đã báo cáo rằng họ đang chuyển hướng để tuyển dụng nhân tài cho các công ty phát triển robot.
Sự thay đổi chóng mặt của công nghệ
Một kỹ sư lái xe thông minh, có bút danh Tian Wei, đã nói rằng, so với các mô-đun nhận thức và dự đoán, các kỹ sư làm việc trên các mô-đun lập kế hoạch và kiểm soát sẽ bị ảnh hưởng nhiều hơn theo quỹ đạo hiện tại. Điều này là do các giải pháp E2E khác biệt đáng kể so với các giải pháp thay thế truyền thống. Các giải pháp truyền thống được chia thành nhiều mô-đun như nhận thức, định vị, lập bản đồ, dự đoán và lập kế hoạch và kiểm soát, với các chức năng chủ yếu được điều khiển bởi mã của kỹ sư. Các bộ phận nhận thức, lập kế hoạch và kiểm soát thường chiếm phần lớn trong nhóm.
Đặc điểm của giải pháp E2E là chuyển trọng tâm từ mã do kỹ sư điều khiển sang các phương pháp do dữ liệu điều khiển. Lý tưởng nhất là hệ thống nhập hình ảnh và trực tiếp xuất lệnh điều khiển phương tiện, với các bước trung gian được hoàn thành bởi mạng nơ-ron.
Quan sát tiến trình của các công ty hàng đầu Trung Quốc, sau khi giới thiệu giải pháp E2E, nhiều mô-đun của giải pháp truyền thống đang được tích hợp vào hai mạng lớn thông qua chuyển đổi mạng nơ-ron, chủ yếu nhắm vào các thành phần nhận thức và dự đoán của các mô hình lớn. Bước tiếp theo trong giải pháp là tích hợp nhận thức, dự đoán, ra quyết định và lập kế hoạch, mà ngành gọi là "một mô hình".
Lộ trình kỹ thuật mới này cũng mang đến một hồ sơ tài năng mới cho các nhóm lái xe thông minh của các công ty ô tô.
Một người trong ngành chia sẻ rằng số lượng người cần thiết cho các nhóm mô hình lớn E2E đã giảm, nhưng ngưỡng tài năng đã trở nên cao hơn. Các mô hình lớn đòi hỏi các nhóm có nền tảng học sâu mạnh mẽ. Trong quá trình phát triển, cần có những tài năng về cơ sở hạ tầng rất mạnh, có hiểu biết sâu sắc về các mô-đun nhận thức, lập kế hoạch và kiểm soát, hiểu biết về khả năng hỗ trợ của các nền tảng điện toán chip khác nhau và nhiều khuôn khổ suy luận AI khác nhau.
Tuy nhiên, chỉ một phần nhỏ nhân viên chịu trách nhiệm xây dựng và đào tạo mô hình. Có lẽ 90% nhóm đang cung cấp dữ liệu cho E2E, cũng như hỗ trợ chuỗi công cụ vòng kín dữ liệu. Bản thân nhóm làm việc trên mô hình lớn rất tinh gọn. Đây là lý do tại sao các công ty công nghệ AI tiên phong như OpenAI, chỉ với 200–300 người, có thể ra mắt một mô hình ngôn ngữ lớn như ChatGPT, thay đổi bối cảnh AI toàn cầu.
Đối với các kỹ sư, tác động của công nghệ E2E là khác nhau. Một chuyên gia trong ngành nhận định, trong hai mô-đun chính là nhận thức và kiểm soát lập kế hoạch, thành phần nhận thức ban đầu dựa vào công nghệ học sâu. Mặc dù lộ trình phát hiện trực quan đã chuyển từ mạng nơ-ron tích chập (CNN) trước đây sang chế độ xem toàn cảnh dựa trên Transformer (BEV), nhưng tác động đối với các kỹ sư không đáng kể.
Nhưng đối với các kỹ sư lập kế hoạch và kiểm soát, việc tham gia nhóm mô hình lớn E2E gần giống như việc chuyển hướng. Các kỹ sư lập kế hoạch và kiểm soát truyền thống chủ yếu có một số chuyên môn: dự đoán đường đi, tối ưu hóa đường đi, xử lý hậu quy tắc và điều khiển phương tiện. Đây là những chuyên ngành khá chia nhỏ và thường không liên quan. Ngoại trừ mô-đun dự đoán đường đi, các kỹ sư chuyên về các lĩnh vực khác thường không có nền tảng học sâu.
Nếu các kỹ sư lập kế hoạch và kiểm soát muốn chuyển sang phát triển các mô hình lớn E2E, một hướng là đào tạo mô hình, nhưng điều này đòi hỏi nền tảng học sâu rất vững chắc. Có thể những sinh viên mới tốt nghiệp học sâu sẽ hiểu rõ hơn về các mô hình hơn bạn".
Thứ hai, đó là khai thác và xử lý dữ liệu để cung cấp các cải tiến cho các mô hình lớn E2E. Nhưng khi cơ sở hạ tầng chuỗi công cụ được xây dựng và cấu trúc mô hình ổn định, có thể không cần đến con người nữa. Cuối cùng, đó là xử lý hậu mô hình. Đầu ra của các mô hình lớn E2E vẫn có thể không đáng tin cậy và sẽ cần một số ít kỹ sư để viết các quy tắc để xử lý.
Sự lo lắng của các kỹ sư cũng bắt nguồn từ điều này. Một mặt, bản thân mô hình lớn E2E không cần quá nhiều người. Mặt khác, mọi người đều muốn thực hiện E2E, nhưng hoạt động sản xuất của công ty vẫn cần người để vận hành.
Thay đổi hoặc bị loại
Một nhà phát triển lái xe thông minh giấu tên đã bày tỏ sự hối tiếc vì đã bỏ lỡ cơ hội tham gia nhóm dự án E2E do các cam kết sản xuất hiện tại của công ty. Tuy nhiên, người này đang mâu thuẫn, ngay cả khi anh tham gia nhóm E2E, sẽ không ở vị trí cốt lõi. Việc tiếp tục vai trò hiện tại cho phép anh tích lũy được nhiều kinh nghiệm, điều này vẫn có thể liên quan đến các công ty ô tô truyền thống trong vài năm nữa.
Tủi ro là khi các giải pháp E2E trở nên phổ biến, chuyên môn tích lũy của người này có thể trở nên lỗi thời. "Có lẽ tôi sẽ phải rời khỏi ngành lái xe thông minh", người này than thở.
Thực tế không chỉ các kỹ sư mà các công ty cũng rất lo lắng khi hợp tác với một nhà sản xuất ô tô về các giải pháp sản xuất xe thông minh nhưng cũng có một nhóm nội bộ đang phát triển các giải pháp E2E. Với hàng nghìn giờ dữ liệu video, có thể đào tạo bản demo E2E. Tuy nhiên, công ty chỉ có thể tạo ra bản demo chứng minh tính khả thi, còn lâu mới đạt được sản xuất hàng loạt.
Sự khác biệt về công nghệ mới này trước tiên sẽ thể hiện ở việc phân bổ nguồn lực. Musk nhấn mạnh tầm quan trọng của dữ liệu đối với E2E, ông tuyên bố, "đào tạo với một triệu trường hợp video thì hầu như không đủ. Hai triệu thì tốt hơn một chút, ba triệu sẽ khiến bạn phải thốt lên 'wow', và mười triệu sẽ là điều không thể tin được". Ngoài ra, Musk đã mua một lượng lớn card đồ họa Nvidia để đào tạo, tuyên bố rằng đến cuối năm, sức mạnh tính toán đào tạo AI của Tesla sẽ tương đương với 90.000 GPU Nvidia H100.
Đối với các công ty lái xe thông minh vẫn đang vật lộn để có lãi, ngưỡng này khá cao. Nếu không hợp tác với các công ty ô tô, việc thu thập đủ dữ liệu đào tạo độc lập là rất khó khăn. Hơn nữa, chip đào tạo đám mây rất khan hiếm ở Trung Quốc và nhiều công ty ô tô đang mua chúng với giá cao. Các dự án sản xuất và tài chính vẫn chưa rõ ràng, khiến việc đầu tư vào các giải pháp E2E dài hạn trở nên khó khăn.
Mặc dù công nghệ mới vẫn chưa hoàn toàn xuất hiện ở Trung Quốc, nhưng tác động của nó đối với cấu trúc nhân tài và hệ sinh thái của ngành công nghiệp lái xe thông minh đã bắt đầu xuất hiện. Những công ty hàng đầu vẫn sẽ nỗ lực để tham gia vào xu hướng này, báo hiệu một kỷ nguyên mà những gã khổng lồ sẽ làm chủ dữ liệu, chip và nguồn nhân tài.