image Thứ Hai, 23/03/2026

Mô hình mới của DeepSeek - "Cơn ác mộng thành hiện thực" của OpenAI?

Mai Anh

31/03/2025

Chia sẻ

Những thay đổi về công nghệ lẫn giấy phép trong mô hình mới nhất của DeepSeek không chỉ gia tăng áp lực lên các đối thủ mà còn gửi đi thông điệp mạnh mẽ về tương lai của AI...

Khoảng cách AI giữa Trung Quốc và Mỹ đang được thu hẹp nhanh chóng. Nguồn ảnh: Venturebeat
Khoảng cách AI giữa Trung Quốc và Mỹ đang được thu hẹp nhanh chóng. Nguồn ảnh: Venturebeat

DeepSeek, công ty khởi nghiệp AI của Trung Quốc – cái tên được chú ý không chỉ bởi giới công nghệ mà là toàn thế giới kể từ đầu năm nay – mới đây đã tung ra mô hình mới có tên DeepSeek-V3-0324 trên nền tảng Hugging Face.

Không rầm rộ ra mắt nhưng sự xuất hiện này lại là nguồn cơn chấn động trong ngành công nghệ trí tuệ nhân tạo bởi những thay đổi vượt bậc, theo tác giả Michael Nuñez trên trang Venturebeat. 

TẨM NGẨM TẦM NGẦM CÓ THỂ ĐẤM CHẾT VOI?

Không hề có bài viết nghiên cứu, blog hay chiến dịch quảng bá rầm rộ nào đi kèm khi mô hình DeepSeek mới xuất hiện. Thứ đính kèm chỉ đơn giản là một tệp README trống và một số thông tin của mô hình. Cách tiếp cận này hoàn toàn trái ngược với các công ty AI phương Tây – nơi những sản phẩm mới thường được “hâm nóng” hàng tháng trời trước khi chính thức ra mắt.

Những người thử nghiệm sớm cho biết, DeepSeek-V3-0324 có sự cải tiến vượt trội so với phiên bản trước. Nhà nghiên cứu AI Xeophon tuyên bố trên X.com: “Đã thử nghiệm DeepSeek V3 trên hệ thống của tôi và thấy một bước nhảy vọt ở tất cả chỉ số trong mọi bài test. Đây hiện là mô hình phi lập luận tốt nhất, vượt qua Sonnet 3.5”.

Nếu tuyên bố này được xác nhận bởi các bài kiểm tra rộng hơn, DeepSeek-V3-0324 có thể vươn lên vị trí dẫn đầu so với Claude Sonnet 3.5 của Anthropic — một trong những hệ thống AI thương mại uy tín nhất hiện nay. Và khác với Sonnet – vốn yêu cầu đăng ký trả phí, mô hình DeepSeek-V3-0324 lại được cung cấp miễn phí để bất kỳ ai cũng có thể tải xuống và sử dụng.

Kết quả kiểm tra mô hình DeepSeek-V3-0324 thực hiện bởi nhà nghiên cứu AI Xeophon trên nền tảng X. 
Kết quả kiểm tra mô hình DeepSeek-V3-0324 thực hiện bởi nhà nghiên cứu AI Xeophon trên nền tảng X. 

DeepSeek-V3-0324 sử dụng kiến trúc *mixture-of-experts* (MoE), một cách tiếp cận hoàn toàn mới trong vận hành mô hình ngôn ngữ lớn. Thay vì kích hoạt toàn bộ tham số như các mô hình truyền thống, DeepSeek chỉ sử dụng khoảng 37 tỷ trong tổng số 685 tỷ tham số cho từng nhiệm vụ cụ thể. 

Cơ chế kích hoạt chọn lọc này tạo ra bước ngoặt trong hiệu suất mô hình. Bằng cách chỉ sử dụng những tham số phù hợp với từng tác vụ, mô hình mới của DeepSeek có thể đạt hiệu suất ngang bằng với các mô hình lớn hơn nhiều nhưng lại giảm đáng kể nhu cầu tính toán. 

Mô hình này còn tích hợp hai công nghệ đột phá là Multi-Head Latent Attention (MLA) và Multi-Token Prediction (MTP). Trong khi MLA giúp mô hình duy trì ngữ cảnh tốt hơn khi xử lý các đoạn văn bản dài, còn MTP cho phép tạo ra nhiều token trong mỗi bước thay vì từng token một như thông thường. Sự kết hợp này giúp tăng tốc độ đầu ra lên gần 80%. 

TRUNG QUỐC THÁCH THỨC MÔ HÌNH ĐÓNG CỦA MỸ

Chiến lược ra mắt của DeepSeek phản ánh sự khác biệt cơ bản trong triết lý kinh doanh AI giữa các công ty Trung Quốc và phương Tây. Trong khi những tên tuổi lớn của Mỹ như OpenAI và Anthropic bảo vệ các mô hình thông qua yêu cầu trả phí, các công ty AI Trung Quốc lại đang áp dụng các giấy phép nguồn mở rộng rãi hơn.

Cách tiếp cận này đang nhanh chóng thay đổi hệ sinh thái AI của Trung Quốc. Các mô hình tiên tiến được cung cấp miễn phí sẽ tạo ra hiệu ứng lan tỏa mạnh mẽ, cho phép các startup, nhà nghiên cứu và lập trình viên tận dụng công nghệ AI mà không cần khoản đầu tư vốn khổng lồ. Điều này đã thúc đẩy sự phát triển của AI tại Trung Quốc với tốc độ khiến nhiều nhà quan sát tại phương Tây phải ngạc nhiên. 

Chiến lược này cũng phản ánh thực tế thị trường tại Trung Quốc. Với sự cạnh tranh từ nhiều đối thủ mạnh sở hữu nguồn tài chính dồi dào, việc giữ mô hình dưới dạng độc quyền trở nên khó khăn khi các đối thủ khác cung cấp công nghệ tương tự miễn phí. Mô hình nguồn mở tạo ra giá trị theo những cách khác, chẳng hạn như xây dựng hệ sinh thái, cung cấp dịch vụ API (giao diện lập trình ứng dụng) hoặc phát triển giải pháp doanh nghiệp dựa trên các mô hình nền tảng miễn phí.

Ngay cả các tập đoàn công nghệ lớn của Trung Quốc cũng nhận ra sự thay đổi này. Baidu đã công bố kế hoạch mở mã nguồn dòng mô hình Ernie 4.5 vào tháng 6, trong khi Alibaba và Tencent cũng đã ra mắt các mô hình AI nguồn mở với khả năng chuyên biệt. Điều này hoàn toàn trái ngược với chiến lược tập trung vào API mà các công ty phương Tây đang áp dụng. 

Hơn nữa, cách tiếp cận nguồn mở cũng giúp các công ty AI Trung Quốc giải quyết những thách thức riêng của họ. Khi bị hạn chế trong việc tiếp cận các chip Nvidia tiên tiến, các doanh nghiệp này buộc phải tối ưu hóa và nâng cao hiệu suất để đạt được sức cạnh tranh với nguồn tài nguyên tính toán hạn chế hơn. Chính nhu cầu đổi mới này giờ đây đang trở thành một lợi thế cạnh tranh tiềm năng.

AI mã nguồn mở đã thúc đẩy sự phát triển của AI tại Trung Quốc với tốc độ đáng ngạc nhiên. Nguồn ảnh: Euronews
AI mã nguồn mở đã thúc đẩy sự phát triển của AI tại Trung Quốc với tốc độ đáng ngạc nhiên. Nguồn ảnh: Euronews

Nhà phát triển công cụ Simon Willison lưu ý trong một bài viết trên blog rằng, phiên bản 4-bit của DeepSeek chỉ chiếm 352GB dung lượng lưu trữ, khiến mô hình này có thể chạy được trên các thiết bị cao cấp dành cho người tiêu dùng, như Mac Studio với chip M3 Ultra.

Đây có thể là một bước chuyển đổi quan trọng trong cách triển khai AI. Trong khi các hạ tầng AI truyền thống thường dựa vào nhiều GPU (bộ xử lý đồ họa) của Nvidia tiêu thụ hàng kilowatt điện năng, Mac Studio chỉ tiêu thụ dưới 200 watt khi chạy các suy luận. Sự chênh lệch về hiệu suất này có thể buộc ngành AI phải suy nghĩ lại về những giả định liên quan đến yêu cầu hạ tầng cho các mô hình hàng đầu.

TÁI ĐỊNH HÌNH BỨC TRANH AI TOÀN CẦU

Thời điểm xuất hiện và đặc điểm của DeepSeek-V3-0324 cho thấy nhiều khả năng đây sẽ là nền tảng cho DeepSeek-R2, một mô hình tập trung vào nâng cao khả năng lập luận dự kiến được ra mắt trong vòng hai tháng tới. Đây là chiến lược quen thuộc của DeepSeek, khi các mô hình nền tảng thường xuất hiện vài tuần trước các phiên bản chuyên sâu về lập luận.

Tác động của một mô hình lập luận nguồn mở tiên tiến là không thể xem nhẹ. Các mô hình hiện tại như o1 của OpenAI hay R1 của DeepSeek đang đại diện cho đỉnh cao AI, thể hiện khả năng giải quyết vấn đề chưa từng có trong các lĩnh vực từ toán học đến lập trình. Nếu được cung cấp miễn phí, công nghệ này sẽ giúp mở rộng quyền tiếp cận với AI vốn đang bị giới hạn bởi những tổ chức có ngân sách lớn.

Tác động của một mô hình lập luận nguồn mở tiên tiến là không thể xem nhẹ. Ảnh: Bloomberg
Tác động của một mô hình lập luận nguồn mở tiên tiến là không thể xem nhẹ. Ảnh: Bloomberg

Nếu tiếp tục con đường của R1, DeepSeek-R2 có thể trở thành đối thủ trực tiếp của GPT-5 – mô hình chủ lực tiếp theo của OpenAI dự kiến ra mắt trong vài tháng tới. Sự đối lập giữa cách tiếp cận khép kín của OpenAI với tối ưu tài nguyên của DeepSeek thể hiện hai tầm nhìn khác nhau về tương lai của AI.

Chiến lược phát triển và phân phối AI của DeepSeek không chỉ là một thành tựu kỹ thuật mà còn phản ánh một triết lý hoàn toàn khác về cách công nghệ tiên tiến nên lan tỏa trong xã hội.

Bằng cách cung cấp AI tiên tiến với giấy phép nguồn mở rộng rãi, DeepSeek đang thúc đẩy một làn sóng đổi mới theo cấp số nhân – điều mà các mô hình khép kín khó có thể đạt được.

Triết lý này đang thu hẹp khoảng cách AI giữa Trung Quốc và Mỹ nhanh chóng. Chỉ vài tháng trước, hầu hết các chuyên gia ước tính Trung Quốc vẫn đi sau Mỹ khoảng 1 – 2 năm về khả năng AI. Nhưng hiện tại, khoảng cách đó đã rút ngắn đáng kể, có thể chỉ còn 3 – 6 tháng, thậm chí một số lĩnh vực đang tiến tới ngang bằng hoặc vượt trội.

Các mô hình AI mã nguồn mở có thể vượt qua các hệ thống khép kín nhờ tính phổ biến và có được sự đổi mới từ hàng nghìn nhà phát triển.

Điều này không chỉ đặt ra câu hỏi về giới hạn trong cạnh tranh thị trường mà còn về quyền tiếp cận công nghệ. Các công ty AI phương Tây ngày càng bị chỉ trích vì tập trung năng lực tiên tiến vào tay một số tập đoàn lớn và những cá nhân sở hữu nguồn lực dồi dào. Trong khi đó, cách tiếp cận của DeepSeek lại đưa những khả năng phát triển này tới tay nhiều người, từ đó có thể đẩy nhanh tốc độ ứng dụng AI trên toàn cầu.

Khi DeepSeek-V3-0324 bắt đầu xuất hiện trong các phòng nghiên cứu và trên máy tính của các nhà phát triển khắp thế giới, cuộc đua không còn chỉ là về việc ai xây dựng AI mạnh nhất, mà là ai có thể giúp nhiều người nhất xây dựng với AI.

Và trong cuộc đua này, một bản phát hành âm thầm như của DeepSeek lại đang gửi đi thông điệp mạnh mẽ về tương lai của trí tuệ nhân tạo. Công ty nào chia sẻ công nghệ của mình một cách tự do nhất có thể sẽ là công ty có ảnh hưởng lớn nhất đến cách AI định hình thế giới.


Australia công bố nguyên mẫu pin lượng tử đầu tiên: Bước tiến lớn hướng tới sạc siêu nhanh

Các nhà khoa học Australia vừa phát triển nguyên mẫu pin lượng tử đầu tiên trên thế giới, mở ra loạt ứng dụng đột phá, giúp xe điện sạc pin nhanh hơn cả thời gian đổ xăng vào xe chạy xăng...

10:41 22/03/2026
Bất động sản Việt Nam 2026: Khi Quản trị dữ liệu và ESG trở thành "hệ điều hành" mới

Trong bối cảnh thị trường bất động sản đang chuyển mình mạnh mẽ, việc tối ưu hóa dữ liệu công trình và các tiêu chuẩn bền vững (ESG) không còn là những khái niệm xa xỉ mà đã trở thành động lực tăng trưởng cốt lõi...

18:46 19/03/2026
Robot Trung Quốc tăng tốc với OpenClaw

Trung Quốc đang chứng kiến sự hội tụ nhanh chóng giữa trí tuệ nhân tạo và robot, khi các tác tử AI như OpenClaw được đưa vào thế giới vật lý…

16:29 19/03/2026
Thị trường kính AI "cất cánh": Lượng hàng xuất xưởng tăng trưởng kỷ lục 322%

Sự gia tăng mạnh mẽ của kính AI được thúc đẩy bởi thị trường Trung Quốc, nơi hàng loạt sản phẩm mới ra mắt...

09:17 18/03/2026
Trung Quốc lần đầu phê duyệt thiết bị cấy ghép giao diện não – máy tính

Trung Quốc vừa ghi dấu mốc quan trọng trong lĩnh vực công nghệ thần kinh khi lần đầu tiên cấp phép thương mại thiết bị cấy ghép giao diện não – máy tính (BCI) nhằm giúp bệnh nhân chấn thương tủy sống phục hồi chức năng vận động bàn tay...

15:51 16/03/2026
Meta ra mắt hàng loạt chip AI riêng

Phó Chủ tịch Kỹ thuật Yee Jiun Song cho biết các chip này giúp Meta đa dạng hóa nguồn cung silicon và phần nào giảm tác động từ biến động giá…

14:03 14/03/2026
Nhật Bản muốn chiếm 1/3 thị phần bán dẫn toàn cầu

Nhật Bản đặt mục tiêu đạt hơn 250 tỷ USD doanh thu chip sản xuất trong nước vào năm 2040…

12:03 14/03/2026
Khám phá các tác nhân AI bên trong Microsoft 365 Copilot

Microsoft đang thử nghiệm Copilot Cowork – bước tiến mới của AI văn phòng, cho phép hệ thống không chỉ hỗ trợ viết nội dung mà còn tự thực hiện công việc trong phần mềm. Nếu thành công, AI có thể trở thành “đồng nghiệp số” thực sự trong môi trường doanh nghiệp…

11:58 14/03/2026
"UAV bầy đàn": Giải pháp ứng dụng AI, chữa cháy tại các hẻm nhỏ ở thành phố lớn

CT UAV, thành viên của CT Group, đã phát triển một giải pháp "UAV chữa cháy bầy đàn" đầu tiên tại Việt Nam dùng AI để điều khiển phi đội UAV tiếp cận nhanh, xử lý các đám cháy ở sâu trong ngõ nhỏ, hẻm sâu...

11:48 14/03/2026
Bên trong các phòng thí nghiệm AI chuyên huấn luyện robot hình người của Trung Quốc

Trung Quốc đang xây dựng hàng loạt trung tâm thu thập dữ liệu và “nông trại huấn luyện” robot nhằm tạo ra bộ dữ liệu khổng lồ để phát triển robot hình người…

13:48 13/03/2026