Khái niệm mới "chưng cất AI" khiến nhiều gã khổng lồ công nghệ lo lắng
Sơn Trần
08/02/2025
Việc một công ty AI ra đời, sử dụng kỹ thuật nhằm "chưng cất" kiến thức của một số mô hình AI đi trước đang gây nhiều lo ngại…
Ngành công nghệ và thị trường chứng khoán hiện nay đang cố gắng lý giải cách một công ty nhỏ bé của Trung Quốc, ít được biết đến, lại có thể phát triển ra chatbot trí tuệ nhân tạo (AI) với chi phí thấp hơn rất nhiều các tập đoàn khác trên thế giới, theo Kr Asia.
Mô hình AI mới được phát triển bởi DeepSeek, công ty khởi nghiệp công nghệ mới được thành lập cách đây một năm. Dù tuổi đời ngắn, sức mạnh của DeepSeek có thể sánh ngang hoặc thậm chí vượt trội so với những mô hình AI nổi tiếng như ChatGPT của OpenAI, Gemini của Google, CoPilot của Microsoft hay Llama của Meta.
PHƯƠNG PHÁP “CHƯNG CẤT”
Một trong những giả thuyết được giới chuyên gia trong ngành nhận định đây là phương pháp chưng cất (distillation), một kỹ thuật huấn luyện AI sử dụng mô hình "mẹ" lớn hơn để huấn luyện mô hình "con" nhỏ hơn nhưng có khả năng hoạt động nhanh hơn.
DeepSeek tuyên bố đạt được mức độ hiệu suất tương đương với mô hình o1 của OpenAI với chi phí chỉ bằng một phần nhỏ thông qua “thiết kế tối ưu hóa thuật toán, khung và phần cứng”.
Sự kiện này dẫn đến đợt bán tháo mạnh mẽ trên thị trường chứng khoán công nghệ khi các nhà đầu tư bắt đầu phân vân về việc liệu phương pháp tiết kiệm chi phí của công ty Trung Quốc có phải là dấu hiệu cho thấy cuộc đua đầu tư AI và sự thống trị của các ông lớn công nghệ Hoa Kỳ sắp kết thúc.
Một số người trong ngành nghi ngờ rằng công ty có thể đã lợi dụng thành tựu của OpenAI. Sự nghi ngờ ngày càng tăng khi Bloomberg đưa tin rằng Microsoft và OpenAI tiến hành điều tra liệu DeepSeek có thu thập dữ liệu từ OpenAI bất hợp pháp để huấn luyện mô hình hay không. Hôm 28/1, OpenAI xác nhận với Financial Times rằng họ thấy dấu hiệu của việc chưng cất, mặc dù không công bố chi tiết bằng chứng.
Microsoft và DeepSeek chưa phản hồi yêu cầu bình luận.
Chưng cất thực tế không phải là kỹ thuật mới và không quá gây tranh cãi. Minitron của Nvidia và Falcon 3, phát triển bởi Viện Sáng tạo Công nghệ UAE, đều sử dụng phương pháp này, dùng mô hình ngôn ngữ lớn (LLM) của riêng họ làm mô hình "mẹ". Phương pháp này trở nên phổ biến từ năm 2024 trong bối cảnh nhu cầu sử dụng LLM trong doanh nghiệp ngày càng lớn.
Tuy nhiên, mô hình LLM lớn lại “khó xử lý và bạn sẽ cần số lượng đơn vị xử lý đồ họa (GPU) khổng lồ để triển khai”, kỹ sư tại một công ty AI ở Nhật Bản cho biết.
GPU là lý do chính khiến hệ thống AI trở nên đắt đỏ. Ví dụ, chip H100 đặc trưng của Nvidia có giá từ 30.000 đến 35.000 USD mỗi chiếc. Kỹ thuật chưng cất giúp giảm đáng kể thời gian và chi phí phát triển, đồng thời tạo ra mô hình có khả năng vận hành nhanh hơn so với đối thủ.
NĂNG LỰC THỰC SỰ CỦA DEEPSEEK?
“Vậy liệu DeepSeek cùng mô hình chi phí thấp có phụ thuộc nhiều vào phương pháp chưng cất hơn là đổi mới sáng tạo hay không?” ông Kirk Boodry, nhà phân tích tại Astris Advisory Japan, cho biết với Nikkei Asia. “Điều này đang được bàn luận khá nhiều. Mọi người đều tự hỏi: ‘Tôi không biết bao nhiêu phần trong số này thực sự tiên tiến’”.
Ông Kazuhiro Sugiyama, Giám đốc Tư vấn tại Omdia, tỏ ra hoài nghi về khả năng DeepSeek có thể thay đổi mạnh mẽ hệ sinh thái AI hiện tại. Ông cho rằng tác động của công ty này là “tạm thời và hạn chế”, hơn nữa ông chỉ ra rằng mặc dù chatbot của công ty Trung Quốc cho thấy những dấu hiệu đổi mới ấn tượng, nhưng ngành công nghiệp vẫn cần kiểm chứng thêm dưới góc độ bền vững.
Các nhà phân tích cũng đặt câu hỏi liệu chatbot DeepSeek có thực sự được phát triển với chỉ một phần ngân sách so với đối thủ phương Tây hay không.
“Khi mọi người nói về những con số gây chú ý của DeepSeek, như vài tháng phát triển hay chi tiêu 6 triệu USD, họ đang nói đến một mô hình rất cụ thể”, ông Boodry từ Astris chia sẻ. “Các con số mà mọi người nhắc đến có lẽ là quá thấp”.
Công ty Trung Quốc này đã công bố bài báo vào tháng 12 năm 2024, trong đó ghi nhận chi phí cho mô hình V3 của họ là 5,6 triệu USD. Tuy nhiên, con số này không bao gồm chi phí liên quan đến nghiên cứu và thử nghiệm trước đó. Trong khi, chi phí huấn luyện cho GPT-4 của OpenAI được ước tính vượt quá 100 triệu USD.
Ông Sugiyama dự đoán sẽ có nhiều công ty gia nhập cuộc đua phát triển mô hình ngôn ngữ lớn (LLM), nhưng vị trí thị trường của các ông lớn như OpenAI sẽ không thay đổi. Ông nhận định các mô hình AI sẽ dần "phân cực".
Một số công ty lớn như Microsoft và Google tiếp tục đầu tư vào mô hình lớn, mạnh mẽ hơn để sử dụng trong các dịch vụ của họ, trong khi những doanh nghiệp nhỏ hơn sẽ phát triển mô hình nhỏ hơn, rẻ hơn và hiệu quả hơn, phù hợp với thị trường cụ thể.
THÀNH TỰU ĐÁNG GHI NHẬN
Mặc dù có sự phóng đại nhưng giới chuyên gia không nghi ngờ về việc DeepSeek đã đạt được điều gì đó xứng đáng được công nhận.
Ngay cả khi công ty sử dụng phương pháp chưng cất, điều đó vẫn không đủ để phát triển thành mô hình hoàn chỉnh. “Công ty cần có kiến thức chuyên môn để sử dụng GPU một cách hiệu quả và cần tìm ra cách thực hiện huấn luyện phức tạp”, chẳng hạn như kết hợp nhiều mô hình khác nhau để đưa ra câu trả lời tốt hơn, một kỹ sư giấu tên cho hay.
Một kỹ sư AI khác nói rằng anh “không ngạc nhiên” khi một công ty như DeepSeek xuất hiện đột ngột. “Bởi xu hướng hiện nay là giảm kích thước mô hình AI… Theo thời gian, sẽ có nhiều cách để đạt mục tiêu này”.
Những kỹ năng robot được học rất đa dạng: dọn dẹp nhà cửa, massage, sắp xếp hàng hóa trên kệ siêu thị, sửa chữa kim loại hay làm việc trên dây chuyền công nghiệp…
Thông qua thỏa thuận này, ADI và Empower hỗ trợ định hình kiến trúc cung cấp điện năng cho AI cũng như các ứng dụng đòi hỏi năng lực tính toán cao.
Giải thưởng Khoa học Công nghệ toàn cầu VinFuture vừa khép lại vòng đề cử mùa giải 2026 với 1.819 hồ sơ đến từ khắp thế giới, đồng thời ghi nhận mạng lưới hơn 17.000 đối tác đề cử đến từ 117 quốc gia và vùng lãnh thổ...
Cuộc thi hướng đến mục tiêu tìm kiếm và hỗ trợ các sáng kiến công nghệ có khả năng ứng dụng thực tiễn để giải quyết những thách thức môi trường cấp bách tại châu Á, đồng thời thúc đẩy tinh thần đổi mới sáng tạo và hợp tác liên ngành trong thế hệ trẻ...
Trung Quốc tham vọng biến hạ tầng trí tuệ nhân tạo (AI) thành một loại tiện ích công cộng tương tự điện, nước hay viễn thông...
CIVAMS.FACE-FAS, giải pháp chống giả mạo khuôn mặt do CMC ATI phát triển, vượt qua bài đánh giá iBeta Level 1 theo tiêu chuẩn ISO/IEC 30107-3, tiếp tục ghi dấu năng lực AI “Make in Vietnam” trên các bảng xếp hạng quốc tế.
CMC hợp nhất năng lực tư vấn vào CMC TS, bổ nhiệm ông Nguyễn Hải Sơn làm Quyền Tổng Giám đốc, đồng thời đưa AI-X trở thành trục tăng trưởng chính trong chiến lược giai đoạn 2026-2030...
Trung tâm sẽ góp phần củng cố mạng lưới R&D toàn cầu của Qualcomm Technologies thông qua việc tận dụng nguồn nhân lực công nghệ đang trên đà phát triển nhanh chóng tại Việt Nam, đồng thời thúc đẩy các mối quan hệ hợp tác chặt chẽ hơn tại địa phương...
Nghiên cứu mới tại khu vực châu Á - Thái Bình Dương nhấn mạnh vai trò thiết yếu của các công cụ định tuyến theo thời gian thực, cảnh báo an toàn và hướng dẫn bằng giọng nói trong việc hỗ trợ người tham gia giao thông bằng xe hai bánh tại Việt Nam.
Việc kiến tạo hệ sinh thái hạ tầng năng lượng xanh dùng chung đánh dấu bước ngoặt chiến lược nhằm hóa giải "nút thắt" về trạm sạc và đổi pin, tạo động lực thực tế để thúc đẩy lộ trình điện hóa giao thông tại Việt Nam…