Mô hình mới của DeepSeek - "Cơn ác mộng thành hiện thực" của OpenAI?
Mai Anh
31/03/2025
Những thay đổi về công nghệ lẫn giấy phép trong mô hình mới nhất của DeepSeek không chỉ gia tăng áp lực lên các đối thủ mà còn gửi đi thông điệp mạnh mẽ về tương lai của AI...
DeepSeek, công ty khởi nghiệp AI của Trung Quốc – cái tên được chú ý không chỉ bởi giới công nghệ mà là toàn thế giới kể từ đầu năm nay – mới đây đã tung ra mô hình mới có tên DeepSeek-V3-0324 trên nền tảng Hugging Face.
Không rầm rộ ra mắt nhưng sự xuất hiện này lại là nguồn cơn chấn động trong ngành công nghệ trí tuệ nhân tạo bởi những thay đổi vượt bậc, theo tác giả Michael Nuñez trên trang Venturebeat.
TẨM NGẨM TẦM NGẦM CÓ THỂ ĐẤM CHẾT VOI?
Không hề có bài viết nghiên cứu, blog hay chiến dịch quảng bá rầm rộ nào đi kèm khi mô hình DeepSeek mới xuất hiện. Thứ đính kèm chỉ đơn giản là một tệp README trống và một số thông tin của mô hình. Cách tiếp cận này hoàn toàn trái ngược với các công ty AI phương Tây – nơi những sản phẩm mới thường được “hâm nóng” hàng tháng trời trước khi chính thức ra mắt.
Những người thử nghiệm sớm cho biết, DeepSeek-V3-0324 có sự cải tiến vượt trội so với phiên bản trước. Nhà nghiên cứu AI Xeophon tuyên bố trên X.com: “Đã thử nghiệm DeepSeek V3 trên hệ thống của tôi và thấy một bước nhảy vọt ở tất cả chỉ số trong mọi bài test. Đây hiện là mô hình phi lập luận tốt nhất, vượt qua Sonnet 3.5”.
Nếu tuyên bố này được xác nhận bởi các bài kiểm tra rộng hơn, DeepSeek-V3-0324 có thể vươn lên vị trí dẫn đầu so với Claude Sonnet 3.5 của Anthropic — một trong những hệ thống AI thương mại uy tín nhất hiện nay. Và khác với Sonnet – vốn yêu cầu đăng ký trả phí, mô hình DeepSeek-V3-0324 lại được cung cấp miễn phí để bất kỳ ai cũng có thể tải xuống và sử dụng.
DeepSeek-V3-0324 sử dụng kiến trúc *mixture-of-experts* (MoE), một cách tiếp cận hoàn toàn mới trong vận hành mô hình ngôn ngữ lớn. Thay vì kích hoạt toàn bộ tham số như các mô hình truyền thống, DeepSeek chỉ sử dụng khoảng 37 tỷ trong tổng số 685 tỷ tham số cho từng nhiệm vụ cụ thể.
Cơ chế kích hoạt chọn lọc này tạo ra bước ngoặt trong hiệu suất mô hình. Bằng cách chỉ sử dụng những tham số phù hợp với từng tác vụ, mô hình mới của DeepSeek có thể đạt hiệu suất ngang bằng với các mô hình lớn hơn nhiều nhưng lại giảm đáng kể nhu cầu tính toán.
Mô hình này còn tích hợp hai công nghệ đột phá là Multi-Head Latent Attention (MLA) và Multi-Token Prediction (MTP). Trong khi MLA giúp mô hình duy trì ngữ cảnh tốt hơn khi xử lý các đoạn văn bản dài, còn MTP cho phép tạo ra nhiều token trong mỗi bước thay vì từng token một như thông thường. Sự kết hợp này giúp tăng tốc độ đầu ra lên gần 80%.
TRUNG QUỐC THÁCH THỨC MÔ HÌNH ĐÓNG CỦA MỸ
Chiến lược ra mắt của DeepSeek phản ánh sự khác biệt cơ bản trong triết lý kinh doanh AI giữa các công ty Trung Quốc và phương Tây. Trong khi những tên tuổi lớn của Mỹ như OpenAI và Anthropic bảo vệ các mô hình thông qua yêu cầu trả phí, các công ty AI Trung Quốc lại đang áp dụng các giấy phép nguồn mở rộng rãi hơn.
Cách tiếp cận này đang nhanh chóng thay đổi hệ sinh thái AI của Trung Quốc. Các mô hình tiên tiến được cung cấp miễn phí sẽ tạo ra hiệu ứng lan tỏa mạnh mẽ, cho phép các startup, nhà nghiên cứu và lập trình viên tận dụng công nghệ AI mà không cần khoản đầu tư vốn khổng lồ. Điều này đã thúc đẩy sự phát triển của AI tại Trung Quốc với tốc độ khiến nhiều nhà quan sát tại phương Tây phải ngạc nhiên.
Chiến lược này cũng phản ánh thực tế thị trường tại Trung Quốc. Với sự cạnh tranh từ nhiều đối thủ mạnh sở hữu nguồn tài chính dồi dào, việc giữ mô hình dưới dạng độc quyền trở nên khó khăn khi các đối thủ khác cung cấp công nghệ tương tự miễn phí. Mô hình nguồn mở tạo ra giá trị theo những cách khác, chẳng hạn như xây dựng hệ sinh thái, cung cấp dịch vụ API (giao diện lập trình ứng dụng) hoặc phát triển giải pháp doanh nghiệp dựa trên các mô hình nền tảng miễn phí.
Ngay cả các tập đoàn công nghệ lớn của Trung Quốc cũng nhận ra sự thay đổi này. Baidu đã công bố kế hoạch mở mã nguồn dòng mô hình Ernie 4.5 vào tháng 6, trong khi Alibaba và Tencent cũng đã ra mắt các mô hình AI nguồn mở với khả năng chuyên biệt. Điều này hoàn toàn trái ngược với chiến lược tập trung vào API mà các công ty phương Tây đang áp dụng.
Hơn nữa, cách tiếp cận nguồn mở cũng giúp các công ty AI Trung Quốc giải quyết những thách thức riêng của họ. Khi bị hạn chế trong việc tiếp cận các chip Nvidia tiên tiến, các doanh nghiệp này buộc phải tối ưu hóa và nâng cao hiệu suất để đạt được sức cạnh tranh với nguồn tài nguyên tính toán hạn chế hơn. Chính nhu cầu đổi mới này giờ đây đang trở thành một lợi thế cạnh tranh tiềm năng.
Nhà phát triển công cụ Simon Willison lưu ý trong một bài viết trên blog rằng, phiên bản 4-bit của DeepSeek chỉ chiếm 352GB dung lượng lưu trữ, khiến mô hình này có thể chạy được trên các thiết bị cao cấp dành cho người tiêu dùng, như Mac Studio với chip M3 Ultra.
Đây có thể là một bước chuyển đổi quan trọng trong cách triển khai AI. Trong khi các hạ tầng AI truyền thống thường dựa vào nhiều GPU (bộ xử lý đồ họa) của Nvidia tiêu thụ hàng kilowatt điện năng, Mac Studio chỉ tiêu thụ dưới 200 watt khi chạy các suy luận. Sự chênh lệch về hiệu suất này có thể buộc ngành AI phải suy nghĩ lại về những giả định liên quan đến yêu cầu hạ tầng cho các mô hình hàng đầu.
TÁI ĐỊNH HÌNH BỨC TRANH AI TOÀN CẦU
Thời điểm xuất hiện và đặc điểm của DeepSeek-V3-0324 cho thấy nhiều khả năng đây sẽ là nền tảng cho DeepSeek-R2, một mô hình tập trung vào nâng cao khả năng lập luận dự kiến được ra mắt trong vòng hai tháng tới. Đây là chiến lược quen thuộc của DeepSeek, khi các mô hình nền tảng thường xuất hiện vài tuần trước các phiên bản chuyên sâu về lập luận.
Tác động của một mô hình lập luận nguồn mở tiên tiến là không thể xem nhẹ. Các mô hình hiện tại như o1 của OpenAI hay R1 của DeepSeek đang đại diện cho đỉnh cao AI, thể hiện khả năng giải quyết vấn đề chưa từng có trong các lĩnh vực từ toán học đến lập trình. Nếu được cung cấp miễn phí, công nghệ này sẽ giúp mở rộng quyền tiếp cận với AI vốn đang bị giới hạn bởi những tổ chức có ngân sách lớn.
Nếu tiếp tục con đường của R1, DeepSeek-R2 có thể trở thành đối thủ trực tiếp của GPT-5 – mô hình chủ lực tiếp theo của OpenAI dự kiến ra mắt trong vài tháng tới. Sự đối lập giữa cách tiếp cận khép kín của OpenAI với tối ưu tài nguyên của DeepSeek thể hiện hai tầm nhìn khác nhau về tương lai của AI.
Chiến lược phát triển và phân phối AI của DeepSeek không chỉ là một thành tựu kỹ thuật mà còn phản ánh một triết lý hoàn toàn khác về cách công nghệ tiên tiến nên lan tỏa trong xã hội.
Bằng cách cung cấp AI tiên tiến với giấy phép nguồn mở rộng rãi, DeepSeek đang thúc đẩy một làn sóng đổi mới theo cấp số nhân – điều mà các mô hình khép kín khó có thể đạt được.
Triết lý này đang thu hẹp khoảng cách AI giữa Trung Quốc và Mỹ nhanh chóng. Chỉ vài tháng trước, hầu hết các chuyên gia ước tính Trung Quốc vẫn đi sau Mỹ khoảng 1 – 2 năm về khả năng AI. Nhưng hiện tại, khoảng cách đó đã rút ngắn đáng kể, có thể chỉ còn 3 – 6 tháng, thậm chí một số lĩnh vực đang tiến tới ngang bằng hoặc vượt trội.
Các mô hình AI mã nguồn mở có thể vượt qua các hệ thống khép kín nhờ tính phổ biến và có được sự đổi mới từ hàng nghìn nhà phát triển.
Điều này không chỉ đặt ra câu hỏi về giới hạn trong cạnh tranh thị trường mà còn về quyền tiếp cận công nghệ. Các công ty AI phương Tây ngày càng bị chỉ trích vì tập trung năng lực tiên tiến vào tay một số tập đoàn lớn và những cá nhân sở hữu nguồn lực dồi dào. Trong khi đó, cách tiếp cận của DeepSeek lại đưa những khả năng phát triển này tới tay nhiều người, từ đó có thể đẩy nhanh tốc độ ứng dụng AI trên toàn cầu.
Khi DeepSeek-V3-0324 bắt đầu xuất hiện trong các phòng nghiên cứu và trên máy tính của các nhà phát triển khắp thế giới, cuộc đua không còn chỉ là về việc ai xây dựng AI mạnh nhất, mà là ai có thể giúp nhiều người nhất xây dựng với AI.
Và trong cuộc đua này, một bản phát hành âm thầm như của DeepSeek lại đang gửi đi thông điệp mạnh mẽ về tương lai của trí tuệ nhân tạo. Công ty nào chia sẻ công nghệ của mình một cách tự do nhất có thể sẽ là công ty có ảnh hưởng lớn nhất đến cách AI định hình thế giới.
Dòng sự kiện:
Trí tuệ nhân tạo -AINhững kỹ năng robot được học rất đa dạng: dọn dẹp nhà cửa, massage, sắp xếp hàng hóa trên kệ siêu thị, sửa chữa kim loại hay làm việc trên dây chuyền công nghiệp…
Thông qua thỏa thuận này, ADI và Empower hỗ trợ định hình kiến trúc cung cấp điện năng cho AI cũng như các ứng dụng đòi hỏi năng lực tính toán cao.
Giải thưởng Khoa học Công nghệ toàn cầu VinFuture vừa khép lại vòng đề cử mùa giải 2026 với 1.819 hồ sơ đến từ khắp thế giới, đồng thời ghi nhận mạng lưới hơn 17.000 đối tác đề cử đến từ 117 quốc gia và vùng lãnh thổ...
Cuộc thi hướng đến mục tiêu tìm kiếm và hỗ trợ các sáng kiến công nghệ có khả năng ứng dụng thực tiễn để giải quyết những thách thức môi trường cấp bách tại châu Á, đồng thời thúc đẩy tinh thần đổi mới sáng tạo và hợp tác liên ngành trong thế hệ trẻ...
Trung Quốc tham vọng biến hạ tầng trí tuệ nhân tạo (AI) thành một loại tiện ích công cộng tương tự điện, nước hay viễn thông...
CIVAMS.FACE-FAS, giải pháp chống giả mạo khuôn mặt do CMC ATI phát triển, vượt qua bài đánh giá iBeta Level 1 theo tiêu chuẩn ISO/IEC 30107-3, tiếp tục ghi dấu năng lực AI “Make in Vietnam” trên các bảng xếp hạng quốc tế.
CMC hợp nhất năng lực tư vấn vào CMC TS, bổ nhiệm ông Nguyễn Hải Sơn làm Quyền Tổng Giám đốc, đồng thời đưa AI-X trở thành trục tăng trưởng chính trong chiến lược giai đoạn 2026-2030...
Trung tâm sẽ góp phần củng cố mạng lưới R&D toàn cầu của Qualcomm Technologies thông qua việc tận dụng nguồn nhân lực công nghệ đang trên đà phát triển nhanh chóng tại Việt Nam, đồng thời thúc đẩy các mối quan hệ hợp tác chặt chẽ hơn tại địa phương...
Nghiên cứu mới tại khu vực châu Á - Thái Bình Dương nhấn mạnh vai trò thiết yếu của các công cụ định tuyến theo thời gian thực, cảnh báo an toàn và hướng dẫn bằng giọng nói trong việc hỗ trợ người tham gia giao thông bằng xe hai bánh tại Việt Nam.
Việc kiến tạo hệ sinh thái hạ tầng năng lượng xanh dùng chung đánh dấu bước ngoặt chiến lược nhằm hóa giải "nút thắt" về trạm sạc và đổi pin, tạo động lực thực tế để thúc đẩy lộ trình điện hóa giao thông tại Việt Nam…