DeepSeek ra mắt mô hình AI thế hệ tiếp theo
Bảo Ngọc
03/10/2025
DeepSeek vừa công bố vào đầu tuần phiên bản thử nghiệm mô hình thế hệ tiếp theo của DeepSeek-V3.1-Terminus…
Startup Trung Quốc DeepSeek cho biết mô hình thử nghiệm mới hứa hẹn sẽ tăng hiệu suất, giúp AI xử lý khối lượng thông tin lớn với chi phí rẻ hơn nhiều. Tuy nhiên, vẫn còn nhiều câu hỏi về mức độ hiệu quả và an toàn của kiến trúc này, theo CNBC.
Trước đó, DeepSeek từng gây chấn động Thung lũng Silicon vào năm ngoái khi bất ngờ tung ra mô hình đầu tiên R1, minh chứng rõ về khả năng huấn luyện mô hình ngôn ngữ lớn (LLM) nhanh chóng trên những con chip ít mạnh mẽ và với ít tài nguyên hơn.
Theo bài đăng trên diễn đàn AI Hugging Face, công ty vừa phát hành DeepSeek-V3.2-Exp, phiên bản thử nghiệm kế tiếp của V3.1-Terminus, nhằm tiếp tục theo đuổi mục tiêu tối ưu hiệu quả trong hệ thống AI.
“DeepSeek V3.2 vẫn tập trung vào hiệu suất, giảm chi phí và chia sẻ mã nguồn mở”, Bà Adina Yakefu, phụ trách cộng đồng Trung Quốc tại Hugging Face, chia sẻ với CNBC. “Điểm cải tiến lớn nhất là tính năng mới DSA (DeepSeek Sparse Attention), giúp AI xử lý tốt hơn văn bản dài và hội thoại phức tạp. Mô hình cũng giảm một nửa chi phí vận hành so với phiên bản trước”.
“Điều này rất quan trọng vì mô hình vừa nhanh hơn vừa tiết kiệm chi phí mà hiệu năng không giảm đáng kể”, ông Nick Patience, Phó Chủ tịch phụ trách mảng AI tại The Futurum Group, nhận xét. “Khi đó, AI mạnh mẽ sẽ dễ tiếp cận hơn với nhà phát triển, nhà nghiên cứu và cả doanh nghiệp nhỏ, mở đường cho nhiều ứng dụng sáng tạo”.
ƯU VÀ NHƯỢC ĐIỂM CỦA “SPARSE ATTENTION”
Sparse Attention là mô hình AI đưa ra quyết định dựa trên dữ liệu huấn luyện và thông tin mới, chẳng hạn như lời truy vấn. Ví dụ, một hãng hàng không muốn tìm lộ trình tốt nhất từ A đến B. Trong nhiều lựa chọn, không phải tất cả đều khả thi. Nếu loại bỏ những tuyến không phù hợp, hãng sẽ tiết kiệm được rất nhiều thời gian, nhiên liệu và chi phí. Sparse Attention cũng hoạt động tương tự như vậy: chỉ xử lý dữ liệu được cho là quan trọng, thay vì “cày” toàn bộ dữ liệu như các mô hình trước.
“Nói đơn giản là cắt bỏ những gì bạn nghĩ rằng không quan trọng”, bà Ekaterina Almasque, đồng sáng lập kiêm Giám đốc quỹ đầu tư BlankPage Capital, giải thích.
Sparse Attention giúp tăng hiệu suất và mở rộng quy mô AI nhưng cần ít tài nguyên hơn. Tuy nhiên, lo ngại đặt ra là tính năng có thể làm giảm độ tin cậy, bởi không rõ AI loại bỏ dữ liệu theo cơ chế nào và có bỏ sót thông tin quan trọng hay không.
“Thực tế mô hình đã mất đi nhiều sắc thái”, bà Almasque, người từng sớm đầu tư vào Dataiku, Darktrace và Graphcore, thẳng thắn bày tỏ. “Câu hỏi lớn là: liệu chúng có loại bỏ đúng dữ liệu ‘không quan trọng’ hay lại loại nhầm thông tin cốt lõi, khiến kết quả trở nên kém chính xác?”
Vị Giám đốc cũng nhấn mạnh điều này có thể gây rủi ro cho an toàn AI và tính bao trùm, đồng thời cảnh báo đây có thể không phải là mô hình “tối ưu hay an toàn nhất” so với các kiến trúc truyền thống.
LỢI THẾ VÀ THÁCH THỨC CỦA DEEPSEEK
DeepSeek khẳng định mô hình thử nghiệm hoạt động ngang ngửa với V3.1-Terminus. Bất chấp lo ngại “bong bóng AI”, lĩnh vực vẫn đang là trung tâm của cuộc cạnh tranh địa chính trị Mỹ – Trung.
Bà Yakefu cho biết mô hình của DeepSeek có thể “vận hành ngay lập tức” trên chip AI sản xuất tại Trung Quốc như Ascend hay Cambricon, nghĩa là có thể chạy trực tiếp trên phần cứng nội địa mà không cần cài đặt thêm.
Công ty công khai mã lập trình cũng như công cụ để sử dụng mô hình, cho phép tất cả nhà phát triển học hỏi và cải tiến thêm.
Tuy nhiên, bà Almasque cho rằng điều này khiến công nghệ khó giữ lợi thế cạnh tranh. “Phương pháp không quá mới mẻ”, vị chuyên gia nói, lưu ý rằng ngành AI đã bàn về mô hình sparse từ năm 2015. Do mã nguồn mở nên DeepSeek không thể đăng ký bản quyền. Vì vậy, lợi thế của hãng phải nằm ở cách xác định dữ liệu nào cần giữ lại trong tính năng Spare Attention.
Theo bài đăng trên Hugging Face, DeepSeek thừa nhận V3.2-Exp chỉ là bước trung gian hướng tới kiến trúc thế hệ mới.
Như ông Patience nhận định: “Đây chính là giá trị mà DeepSeek mang lại: hiệu quả đang trở nên quan trọng ngang với sức mạnh thô”.
Bà Yakefu bổ sung: “DeepSeek đang đi đường dài nhằm giữ cộng đồng gắn bó với sự phát triển của hãng. Người dùng sẽ luôn chọn giải pháp rẻ, đáng tin cậy và hiệu quả”.
Khám phá cuộc cạnh tranh giữa Alibaba, ByteDance và Baidu trong lĩnh vực AI đám mây tại Trung Quốc và ai đang dẫn đầu.
Microsoft cam kết xây dựng AI đáng tin cậy, ngăn chặn nội dung người lớn, giúp trẻ em sử dụng công nghệ an toàn.
Làn sóng AI thúc đẩy GDP nhưng hàng triệu doanh nghiệp nhỏ vẫn chật vật với chi phí và thuế tăng cao.
Khám phá 8 chi phí ẩn khi triển khai AI trong y tế, từ chuẩn bị dữ liệu đến rủi ro an ninh.
Khám phá cách giảm thiểu 'workslop' từ AI để nâng cao năng suất làm việc và tinh thần đội ngũ.
Khám phá các sản phẩm AI mới từ Anthropic và Adobe, bao gồm Claude Code và AI Foundry. Cập nhật ngay hôm nay!
Khám phá cách bác sĩ có thể chuẩn bị cho việc ứng dụng AI, giúp giảm áp lực và nâng cao chất lượng chăm sóc bệnh nhân.
Oracle và AMD mở rộng hợp tác, mang đến siêu cụm AI mạnh mẽ giúp khách hàng tối ưu hóa khả năng trí tuệ nhân tạo.
Eric Schmidt cảnh báo về nguy cơ tấn công AI tại Hội nghị Sifted Summit. Tìm hiểu chi tiết về mối nguy hiểm này ngay!
Khám phá sự hợp tác giữa SoftBank và Oracle trong việc cung cấp dịch vụ AI và điện toán đám mây tại Nhật Bản, thúc đẩy đổi mới sáng tạo.