image Thứ Sáu, 03/10/2025

DeepSeek ra mắt mô hình AI thế hệ tiếp theo

Bảo Ngọc

03/10/2025

Chia sẻ

DeepSeek vừa công bố vào đầu tuần phiên bản thử nghiệm mô hình thế hệ tiếp theo của DeepSeek-V3.1-Terminus…

DeepSeek ra mắt mô hình AI mới - DeepSeek-V3.2-Exp.
DeepSeek ra mắt mô hình AI mới - DeepSeek-V3.2-Exp.

Startup Trung Quốc DeepSeek cho biết mô hình thử nghiệm mới hứa hẹn sẽ tăng hiệu suất, giúp AI xử lý khối lượng thông tin lớn với chi phí rẻ hơn nhiều. Tuy nhiên, vẫn còn nhiều câu hỏi về mức độ hiệu quả và an toàn của kiến trúc này, theo CNBC.

Trước đó, DeepSeek từng gây chấn động Thung lũng Silicon vào năm ngoái khi bất ngờ tung ra mô hình đầu tiên R1, minh chứng rõ về khả năng huấn luyện mô hình ngôn ngữ lớn (LLM) nhanh chóng trên những con chip ít mạnh mẽ và với ít tài nguyên hơn.

Theo bài đăng trên diễn đàn AI Hugging Face, công ty vừa phát hành DeepSeek-V3.2-Exp, phiên bản thử nghiệm kế tiếp của V3.1-Terminus, nhằm tiếp tục theo đuổi mục tiêu tối ưu hiệu quả trong hệ thống AI.

“DeepSeek V3.2 vẫn tập trung vào hiệu suất, giảm chi phí và chia sẻ mã nguồn mở”, Bà Adina Yakefu, phụ trách cộng đồng Trung Quốc tại Hugging Face, chia sẻ với CNBC. “Điểm cải tiến lớn nhất là tính năng mới DSA (DeepSeek Sparse Attention), giúp AI xử lý tốt hơn văn bản dài và hội thoại phức tạp. Mô hình cũng giảm một nửa chi phí vận hành so với phiên bản trước”.

“Điều này rất quan trọng vì mô hình vừa nhanh hơn vừa tiết kiệm chi phí mà hiệu năng không giảm đáng kể”, ông Nick Patience, Phó Chủ tịch phụ trách mảng AI tại The Futurum Group, nhận xét. “Khi đó, AI mạnh mẽ sẽ dễ tiếp cận hơn với nhà phát triển, nhà nghiên cứu và cả doanh nghiệp nhỏ, mở đường cho nhiều ứng dụng sáng tạo”.

ƯU VÀ NHƯỢC ĐIỂM CỦA “SPARSE ATTENTION”

Sparse Attention là mô hình AI đưa ra quyết định dựa trên dữ liệu huấn luyện và thông tin mới, chẳng hạn như lời truy vấn. Ví dụ, một hãng hàng không muốn tìm lộ trình tốt nhất từ A đến B. Trong nhiều lựa chọn, không phải tất cả đều khả thi. Nếu loại bỏ những tuyến không phù hợp, hãng sẽ tiết kiệm được rất nhiều thời gian, nhiên liệu và chi phí. Sparse Attention cũng hoạt động tương tự như vậy: chỉ xử lý dữ liệu được cho là quan trọng, thay vì “cày” toàn bộ dữ liệu như các mô hình trước.

“Nói đơn giản là cắt bỏ những gì bạn nghĩ rằng không quan trọng”, bà Ekaterina Almasque, đồng sáng lập kiêm Giám đốc quỹ đầu tư BlankPage Capital, giải thích.

Sparse Attention giúp tăng hiệu suất và mở rộng quy mô AI nhưng cần ít tài nguyên hơn. Tuy nhiên, lo ngại đặt ra là tính năng có thể làm giảm độ tin cậy, bởi không rõ AI loại bỏ dữ liệu theo cơ chế nào và có bỏ sót thông tin quan trọng hay không.

“Thực tế mô hình đã mất đi nhiều sắc thái”, bà Almasque, người từng sớm đầu tư vào Dataiku, Darktrace và Graphcore, thẳng thắn bày tỏ. “Câu hỏi lớn là: liệu chúng có loại bỏ đúng dữ liệu ‘không quan trọng’ hay lại loại nhầm thông tin cốt lõi, khiến kết quả trở nên kém chính xác?”

Vị Giám đốc cũng nhấn mạnh điều này có thể gây rủi ro cho an toàn AI và tính bao trùm, đồng thời cảnh báo đây có thể không phải là mô hình “tối ưu hay an toàn nhất” so với các kiến trúc truyền thống.

LỢI THẾ VÀ THÁCH THỨC CỦA DEEPSEEK

DeepSeek khẳng định mô hình thử nghiệm hoạt động ngang ngửa với V3.1-Terminus. Bất chấp lo ngại “bong bóng AI”, lĩnh vực vẫn đang là trung tâm của cuộc cạnh tranh địa chính trị Mỹ – Trung.

Bà Yakefu cho biết mô hình của DeepSeek có thể “vận hành ngay lập tức” trên chip AI sản xuất tại Trung Quốc như Ascend hay Cambricon, nghĩa là có thể chạy trực tiếp trên phần cứng nội địa mà không cần cài đặt thêm.

Công ty công khai mã lập trình cũng như công cụ để sử dụng mô hình, cho phép tất cả nhà phát triển học hỏi và cải tiến thêm.

Tuy nhiên, bà Almasque cho rằng điều này khiến công nghệ khó giữ lợi thế cạnh tranh. “Phương pháp không quá mới mẻ”, vị chuyên gia nói, lưu ý rằng ngành AI đã bàn về mô hình sparse từ năm 2015. Do mã nguồn mở nên DeepSeek không thể đăng ký bản quyền. Vì vậy, lợi thế của hãng phải nằm ở cách xác định dữ liệu nào cần giữ lại trong tính năng Spare Attention.

Theo bài đăng trên Hugging Face, DeepSeek thừa nhận V3.2-Exp chỉ là bước trung gian hướng tới kiến trúc thế hệ mới.

Như ông Patience nhận định: “Đây chính là giá trị mà DeepSeek mang lại: hiệu quả đang trở nên quan trọng ngang với sức mạnh thô”.

Bà Yakefu bổ sung: “DeepSeek đang đi đường dài nhằm giữ cộng đồng gắn bó với sự phát triển của hãng. Người dùng sẽ luôn chọn giải pháp rẻ, đáng tin cậy và hiệu quả”.


NVIDIA cam kết đầu tư 100 tỷ USD vào OpenAI, triển khai hạ tầng AI thế hệ mới công suất 10 gigawatt

NVIDIA cam kết đầu tư 100 tỷ USD vào OpenAI, xây dựng hạ tầng AI công suất 10 gigawatt. Khám phá cú nhảy vọt trong công nghệ AI!

17:24 23/09/2025
Xây dựng "chủ quyền AI": Các quốc gia vẫn lệ thuộc vào công nghệ Mỹ và Trung Quốc

Khám phá tham vọng 'AI có chủ quyền' và thực trạng lệ thuộc vào công nghệ Mỹ, Trung Quốc trong cuộc đua AI toàn cầu.

17:24 23/09/2025
“Ông lớn” công nghệ Trung Quốc ồ ạt huy động vốn để bứt phá cuộc đua AI

Các ông lớn công nghệ Trung Quốc đang đổ hàng tỷ USD vào AI để cạnh tranh toàn cầu. Khám phá xu hướng đầu tư này ngay!

10:04 23/09/2025
Bên trong trung tâm dữ liệu AI tiên tiến nhất thế giới

Khám phá trung tâm dữ liệu AI 3,3 tỷ USD của Microsoft tại Wisconsin, với công nghệ tiên tiến và giải pháp bền vững.

10:04 23/09/2025
Sức hấp dẫn của các startup AI Việt Nam với nhà đầu tư nước ngoài

Khám phá tiềm năng của startup AI Việt Nam trong thu hút đầu tư quốc tế và triển khai thực tế.

15:55 22/09/2025
Thành phố dẫn đầu Trung Quốc trong cuộc đua phát triển AI

Khám phá lý do Hangzhou trở thành trung tâm AI hàng đầu Trung Quốc với các công ty khởi nghiệp sáng tạo và chính sách hỗ trợ mạnh mẽ.

06:00 20/09/2025
Kết nối AI Việt Nam vào mạng lưới AI toàn cầu

Khám phá sự chuyển mình của Việt Nam trong lĩnh vực AI, từ chính sách đến hạ tầng và nguồn nhân lực, mở ra cơ hội toàn cầu.

20:00 19/09/2025