Mô hình mới của DeepSeek - "Cơn ác mộng thành hiện thực" của OpenAI?

Mai Anh

31/03/2025

Những thay đổi về công nghệ lẫn giấy phép trong mô hình mới nhất của DeepSeek không chỉ gia tăng áp lực lên các đối thủ mà còn gửi đi thông điệp mạnh mẽ về tương lai của AI...

Khoảng cách AI giữa Trung Quốc và Mỹ đang được thu hẹp nhanh chóng. Nguồn ảnh: Venturebeat

DeepSeek, công ty khởi nghiệp AI của Trung Quốc – cái tên được chú ý không chỉ bởi giới công nghệ mà là toàn thế giới kể từ đầu năm nay – mới đây đã tung ra mô hình mới có tên DeepSeek-V3-0324 trên nền tảng Hugging Face.

Không rầm rộ ra mắt nhưng sự xuất hiện này lại là nguồn cơn chấn động trong ngành công nghệ trí tuệ nhân tạo bởi những thay đổi vượt bậc, theo tác giả Michael Nuñez trên trang Venturebeat.

TẨM NGẨM TẦM NGẦM CÓ THỂ ĐẤM CHẾT VOI?

Không hề có bài viết nghiên cứu, blog hay chiến dịch quảng bá rầm rộ nào đi kèm khi mô hình DeepSeek mới xuất hiện. Thứ đính kèm chỉ đơn giản là một tệp README trống và một số thông tin của mô hình. Cách tiếp cận này hoàn toàn trái ngược với các công ty AI phương Tây – nơi những sản phẩm mới thường được “hâm nóng” hàng tháng trời trước khi chính thức ra mắt.

Những người thử nghiệm sớm cho biết, DeepSeek-V3-0324 có sự cải tiến vượt trội so với phiên bản trước. Nhà nghiên cứu AI Xeophon tuyên bố trên X.com: “Đã thử nghiệm DeepSeek V3 trên hệ thống của tôi và thấy một bước nhảy vọt ở tất cả chỉ số trong mọi bài test. Đây hiện là mô hình phi lập luận tốt nhất, vượt qua Sonnet 3.5”.

Nếu tuyên bố này được xác nhận bởi các bài kiểm tra rộng hơn, DeepSeek-V3-0324 có thể vươn lên vị trí dẫn đầu so với Claude Sonnet 3.5 của Anthropic — một trong những hệ thống AI thương mại uy tín nhất hiện nay. Và khác với Sonnet – vốn yêu cầu đăng ký trả phí, mô hình DeepSeek-V3-0324 lại được cung cấp miễn phí để bất kỳ ai cũng có thể tải xuống và sử dụng.

Kết quả kiểm tra mô hình DeepSeek-V3-0324 thực hiện bởi nhà nghiên cứu AI Xeophon trên nền tảng X.

DeepSeek-V3-0324 sử dụng kiến trúc *mixture-of-experts* (MoE), một cách tiếp cận hoàn toàn mới trong vận hành mô hình ngôn ngữ lớn. Thay vì kích hoạt toàn bộ tham số như các mô hình truyền thống, DeepSeek chỉ sử dụng khoảng 37 tỷ trong tổng số 685 tỷ tham số cho từng nhiệm vụ cụ thể.

Cơ chế kích hoạt chọn lọc này tạo ra bước ngoặt trong hiệu suất mô hình. Bằng cách chỉ sử dụng những tham số phù hợp với từng tác vụ, mô hình mới của DeepSeek có thể đạt hiệu suất ngang bằng với các mô hình lớn hơn nhiều nhưng lại giảm đáng kể nhu cầu tính toán.

Mô hình này còn tích hợp hai công nghệ đột phá là Multi-Head Latent Attention (MLA) và Multi-Token Prediction (MTP). Trong khi MLA giúp mô hình duy trì ngữ cảnh tốt hơn khi xử lý các đoạn văn bản dài, còn MTP cho phép tạo ra nhiều token trong mỗi bước thay vì từng token một như thông thường. Sự kết hợp này giúp tăng tốc độ đầu ra lên gần 80%.

TRUNG QUỐC THÁCH THỨC MÔ HÌNH ĐÓNG CỦA MỸ

Chiến lược ra mắt của DeepSeek phản ánh sự khác biệt cơ bản trong triết lý kinh doanh AI giữa các công ty Trung Quốc và phương Tây. Trong khi những tên tuổi lớn của Mỹ như OpenAI và Anthropic bảo vệ các mô hình thông qua yêu cầu trả phí, các công ty AI Trung Quốc lại đang áp dụng các giấy phép nguồn mở rộng rãi hơn.

Cách tiếp cận này đang nhanh chóng thay đổi hệ sinh thái AI của Trung Quốc. Các mô hình tiên tiến được cung cấp miễn phí sẽ tạo ra hiệu ứng lan tỏa mạnh mẽ, cho phép các startup, nhà nghiên cứu và lập trình viên tận dụng công nghệ AI mà không cần khoản đầu tư vốn khổng lồ. Điều này đã thúc đẩy sự phát triển của AI tại Trung Quốc với tốc độ khiến nhiều nhà quan sát tại phương Tây phải ngạc nhiên.

Chiến lược này cũng phản ánh thực tế thị trường tại Trung Quốc. Với sự cạnh tranh từ nhiều đối thủ mạnh sở hữu nguồn tài chính dồi dào, việc giữ mô hình dưới dạng độc quyền trở nên khó khăn khi các đối thủ khác cung cấp công nghệ tương tự miễn phí. Mô hình nguồn mở tạo ra giá trị theo những cách khác, chẳng hạn như xây dựng hệ sinh thái, cung cấp dịch vụ API (giao diện lập trình ứng dụng) hoặc phát triển giải pháp doanh nghiệp dựa trên các mô hình nền tảng miễn phí.

Ngay cả các tập đoàn công nghệ lớn của Trung Quốc cũng nhận ra sự thay đổi này. Baidu đã công bố kế hoạch mở mã nguồn dòng mô hình Ernie 4.5 vào tháng 6, trong khi Alibaba và Tencent cũng đã ra mắt các mô hình AI nguồn mở với khả năng chuyên biệt. Điều này hoàn toàn trái ngược với chiến lược tập trung vào API mà các công ty phương Tây đang áp dụng.

Hơn nữa, cách tiếp cận nguồn mở cũng giúp các công ty AI Trung Quốc giải quyết những thách thức riêng của họ. Khi bị hạn chế trong việc tiếp cận các chip Nvidia tiên tiến, các doanh nghiệp này buộc phải tối ưu hóa và nâng cao hiệu suất để đạt được sức cạnh tranh với nguồn tài nguyên tính toán hạn chế hơn. Chính nhu cầu đổi mới này giờ đây đang trở thành một lợi thế cạnh tranh tiềm năng.

AI mã nguồn mở đã thúc đẩy sự phát triển của AI tại Trung Quốc với tốc độ đáng ngạc nhiên. Nguồn ảnh: Euronews

Nhà phát triển công cụ Simon Willison lưu ý trong một bài viết trên blog rằng, phiên bản 4-bit của DeepSeek chỉ chiếm 352GB dung lượng lưu trữ, khiến mô hình này có thể chạy được trên các thiết bị cao cấp dành cho người tiêu dùng, như Mac Studio với chip M3 Ultra.

Đây có thể là một bước chuyển đổi quan trọng trong cách triển khai AI. Trong khi các hạ tầng AI truyền thống thường dựa vào nhiều GPU (bộ xử lý đồ họa) của Nvidia tiêu thụ hàng kilowatt điện năng, Mac Studio chỉ tiêu thụ dưới 200 watt khi chạy các suy luận. Sự chênh lệch về hiệu suất này có thể buộc ngành AI phải suy nghĩ lại về những giả định liên quan đến yêu cầu hạ tầng cho các mô hình hàng đầu.

TÁI ĐỊNH HÌNH BỨC TRANH AI TOÀN CẦU

Thời điểm xuất hiện và đặc điểm của DeepSeek-V3-0324 cho thấy nhiều khả năng đây sẽ là nền tảng cho DeepSeek-R2, một mô hình tập trung vào nâng cao khả năng lập luận dự kiến được ra mắt trong vòng hai tháng tới. Đây là chiến lược quen thuộc của DeepSeek, khi các mô hình nền tảng thường xuất hiện vài tuần trước các phiên bản chuyên sâu về lập luận.

Tác động của một mô hình lập luận nguồn mở tiên tiến là không thể xem nhẹ. Các mô hình hiện tại như o1 của OpenAI hay R1 của DeepSeek đang đại diện cho đỉnh cao AI, thể hiện khả năng giải quyết vấn đề chưa từng có trong các lĩnh vực từ toán học đến lập trình. Nếu được cung cấp miễn phí, công nghệ này sẽ giúp mở rộng quyền tiếp cận với AI vốn đang bị giới hạn bởi những tổ chức có ngân sách lớn.

Tác động của một mô hình lập luận nguồn mở tiên tiến là không thể xem nhẹ. Ảnh: Bloomberg

Nếu tiếp tục con đường của R1, DeepSeek-R2 có thể trở thành đối thủ trực tiếp của GPT-5 – mô hình chủ lực tiếp theo của OpenAI dự kiến ra mắt trong vài tháng tới. Sự đối lập giữa cách tiếp cận khép kín của OpenAI với tối ưu tài nguyên của DeepSeek thể hiện hai tầm nhìn khác nhau về tương lai của AI.

Chiến lược phát triển và phân phối AI của DeepSeek không chỉ là một thành tựu kỹ thuật mà còn phản ánh một triết lý hoàn toàn khác về cách công nghệ tiên tiến nên lan tỏa trong xã hội.

Bằng cách cung cấp AI tiên tiến với giấy phép nguồn mở rộng rãi, DeepSeek đang thúc đẩy một làn sóng đổi mới theo cấp số nhân – điều mà các mô hình khép kín khó có thể đạt được.

Triết lý này đang thu hẹp khoảng cách AI giữa Trung Quốc và Mỹ nhanh chóng. Chỉ vài tháng trước, hầu hết các chuyên gia ước tính Trung Quốc vẫn đi sau Mỹ khoảng 1 – 2 năm về khả năng AI. Nhưng hiện tại, khoảng cách đó đã rút ngắn đáng kể, có thể chỉ còn 3 – 6 tháng, thậm chí một số lĩnh vực đang tiến tới ngang bằng hoặc vượt trội.

Các mô hình AI mã nguồn mở có thể vượt qua các hệ thống khép kín nhờ tính phổ biến và có được sự đổi mới từ hàng nghìn nhà phát triển.

Điều này không chỉ đặt ra câu hỏi về giới hạn trong cạnh tranh thị trường mà còn về quyền tiếp cận công nghệ. Các công ty AI phương Tây ngày càng bị chỉ trích vì tập trung năng lực tiên tiến vào tay một số tập đoàn lớn và những cá nhân sở hữu nguồn lực dồi dào. Trong khi đó, cách tiếp cận của DeepSeek lại đưa những khả năng phát triển này tới tay nhiều người, từ đó có thể đẩy nhanh tốc độ ứng dụng AI trên toàn cầu.

Khi DeepSeek-V3-0324 bắt đầu xuất hiện trong các phòng nghiên cứu và trên máy tính của các nhà phát triển khắp thế giới, cuộc đua không còn chỉ là về việc ai xây dựng AI mạnh nhất, mà là ai có thể giúp nhiều người nhất xây dựng với AI.

Và trong cuộc đua này, một bản phát hành âm thầm như của DeepSeek lại đang gửi đi thông điệp mạnh mẽ về tương lai của trí tuệ nhân tạo. Công ty nào chia sẻ công nghệ của mình một cách tự do nhất có thể sẽ là công ty có ảnh hưởng lớn nhất đến cách AI định hình thế giới.

Từ khóa:

Dòng sự kiện:

Trí tuệ nhân tạo -AI

Toàn cảnh Đại hội đồng cổ đông thường niên năm 2026 của Tập đoàn Công nghệ CMC.

CMC đặt mục tiêu doanh thu hơn 11.400 tỷ đồng trong năm 2026

CMC báo lãi trước thuế 612 tỷ đồng năm tài chính 2025, tương đương 111% kế hoạch và đặt mục tiêu doanh thu hơn 11.400 tỷ đồng trong năm 2026.

16:27 31/07/2026

Ý tưởng đưa trung tâm dữ liệu lên quỹ đạo đang dần được xem là một hướng đi khả thi, mở ra mô hình hạ tầng số hoàn toàn mới cho nền kinh tế AI. Ảnh: Getty Images

Trung tâm dữ liệu AI trong không gian sẽ như thế nào?

Một khi trung tâm dữ liệu đã đi vào hoạt động trên quỹ đạo, việc đưa con người lên bảo trì sẽ rất tốn kém và không thực tế. Vì vậy, robot và AI sẽ là đội kỹ thuật viên ngoài quỹ đạo…

15:46 29/07/2026

Bộ Năng lượng Hoa Kỳ phê duyệt thỏa thuận an toàn hạt nhân của Natura Resources, thúc đẩy dự án lò phản ứng muối nóng chảy nhiên liệu lỏng đầu tiên của Hoa Kỳ. Ảnh: Modern Mechanics

Lò phản ứng muối nóng chảy đạt mốc pháp lý quan trọng, mở đường cho thế hệ điện hạt nhân mới

Theo Bộ Năng lượng Mỹ, lò phản ứng muối nóng chảy được thiết kế để sử dụng ít nhiên liệu hơn và tạo ra lượng chất thải phóng xạ có thời gian tồn tại ngắn hơn so với nhiều loại lò phản ứng hiện nay...

22:30 28/07/2026

Lễ kỷ niệm năm nay diễn ra đúng vào dịp Acer tròn 50 năm hình thành và phát triển trong lĩnh vực công nghệ.

Acer kỷ niệm 10 năm Acer Day với thông điệp “shift the game”

Acer chính thức công bố Acer Day lần thứ 10, sự kiện thường niên sẽ diễn ra vào tháng 8 tới. Nhân dấu mốc 10 năm của chương trình, Acer giới thiệu “SHIFT THE GAME” là chủ đề xuyên suốt của năm nay trên toàn khu vực châu Á - Thái Bình Dương...

09:38 28/07/2026

Các trung tâm dữ liệu trên thế giới tiêu thụ khoảng 485 TWh điện trong năm 2025. Ảnh: Ourworldindata

AI đang tiêu thụ bao nhiêu điện năng?

Khoảng 2/3 điện năng được sử dụng cho các trung tâm dữ liệu truyền thống, trong khi các trung tâm dữ liệu chuyên phục vụ AI chiếm khoảng 1/3. AI hiện chỉ tiêu thụ khoảng 0,5% lượng điện của thế giới. Nhưng vấn đề lại nằm ở chỗ khác…

18:46 24/07/2026

Ông Jun Seki, giám đốc chiến lược xe điện của Foxconn. Ảnh: Nikkei

AI mở ra con đường mới cho các nhà sản xuất châu Á

Khi cuộc đua về giá, pin và thiết kế giữa các nhà sản xuất xe điện dần đi đến trạng thái bão hòa, trí tuệ nhân tạo (AI) đang nổi lên như yếu tố có thể tạo ra bước ngoặt mới cho ngành công nghiệp chế tạo châu Á…

13:45 23/07/2026

Lãnh đạo và đại diện 29 quốc gia dự lễ ký Hiệp định thành lập Tổ chức Hợp tác AI thế giới (World AI Cooperation Organization - WAICO). Ảnh: Xinhua.

Tổ chức Hợp tác Trí tuệ nhân tạo thế giới được thành lập, kỳ vọng thúc đẩy quản trị AI toàn cầu

Tổ chức Hợp tác Trí tuệ nhân tạo thế giới (WAICO) hướng tới mục tiêu thúc đẩy hợp tác quốc tế và quản trị toàn cầu về trí tuệ nhân tạo (AI), bảo đảm AI mang lại lợi ích, an toàn và công bằng...

10:54 21/07/2026

Trung Quốc vừa hoàn thành ca phẫu thuật thương mại đầu tiên trên thế giới sử dụng thiết bị giao diện não - máy tính. Ảnh: Getty Images

Trung Quốc hoàn thành ca cấy ghép giao diện não-máy tính thương mại đầu tiên trên thế giới

Trung Quốc vừa ghi dấu một cột mốc mới trong lĩnh vực giao diện não - máy tính (Brain-Computer Interface - BCI) khi thực hiện thành công ca phẫu thuật thương mại đầu tiên trên thế giới sử dụng một thiết bị BCI xâm lấn đã được cơ quan quản lý cấp phép lưu hành…

22:11 19/07/2026

AI đang mở ra một cuộc cạnh tranh mới. Ảnh: Forbes

AI chuyển sang cuộc đua mới: Lớn nhất không còn là “tốt nhất”

Thay vì chỉ chạy đua xây dựng những mô hình ngày càng lớn và đắt đỏ, các doanh nghiệp hiện quan tâm nhiều hơn đến các mô hình thông minh và hiệu quả nhất…

16:39 16/07/2026

StepFun, startup được Tencent hậu thuẫn, đã giới thiệu mẫu StepX Neo. Ảnh: SCMP

Startup Trung Quốc ra smartphone AI đầu tiên trên thế giới

Trong khi Apple và OpenAI vướng vào cuộc chiến pháp lý liên quan đến phần cứng AI, startup StepFun của Trung Quốc đã giới thiệu mẫu smartphone được xây dựng hoàn toàn xoay quanh các AI agent, thay vì chỉ bổ sung các tính năng AI lên nền tảng di động truyền thống…

16:39 16/07/2026