10:19 31/03/2025

Mô hình mới của DeepSeek - "Cơn ác mộng thành hiện thực" của OpenAI?

Mai Anh

Những thay đổi về công nghệ lẫn giấy phép trong mô hình mới nhất của DeepSeek không chỉ gia tăng áp lực lên các đối thủ mà còn gửi đi thông điệp mạnh mẽ về tương lai của AI...

Khoảng cách AI giữa Trung Quốc và Mỹ đang được thu hẹp nhanh chóng. Nguồn ảnh: Venturebeat
Khoảng cách AI giữa Trung Quốc và Mỹ đang được thu hẹp nhanh chóng. Nguồn ảnh: Venturebeat

DeepSeek, công ty khởi nghiệp AI của Trung Quốc – cái tên được chú ý không chỉ bởi giới công nghệ mà là toàn thế giới kể từ đầu năm nay – mới đây đã tung ra mô hình mới có tên DeepSeek-V3-0324 trên nền tảng Hugging Face.

Không rầm rộ ra mắt nhưng sự xuất hiện này lại là nguồn cơn chấn động trong ngành công nghệ trí tuệ nhân tạo bởi những thay đổi vượt bậc, theo tác giả Michael Nuñez trên trang Venturebeat. 

TẨM NGẨM TẦM NGẦM CÓ THỂ ĐẤM CHẾT VOI?

Không hề có bài viết nghiên cứu, blog hay chiến dịch quảng bá rầm rộ nào đi kèm khi mô hình DeepSeek mới xuất hiện. Thứ đính kèm chỉ đơn giản là một tệp README trống và một số thông tin của mô hình. Cách tiếp cận này hoàn toàn trái ngược với các công ty AI phương Tây – nơi những sản phẩm mới thường được “hâm nóng” hàng tháng trời trước khi chính thức ra mắt.

Những người thử nghiệm sớm cho biết, DeepSeek-V3-0324 có sự cải tiến vượt trội so với phiên bản trước. Nhà nghiên cứu AI Xeophon tuyên bố trên X.com: “Đã thử nghiệm DeepSeek V3 trên hệ thống của tôi và thấy một bước nhảy vọt ở tất cả chỉ số trong mọi bài test. Đây hiện là mô hình phi lập luận tốt nhất, vượt qua Sonnet 3.5”.

Nếu tuyên bố này được xác nhận bởi các bài kiểm tra rộng hơn, DeepSeek-V3-0324 có thể vươn lên vị trí dẫn đầu so với Claude Sonnet 3.5 của Anthropic — một trong những hệ thống AI thương mại uy tín nhất hiện nay. Và khác với Sonnet – vốn yêu cầu đăng ký trả phí, mô hình DeepSeek-V3-0324 lại được cung cấp miễn phí để bất kỳ ai cũng có thể tải xuống và sử dụng.

Kết quả kiểm tra mô hình DeepSeek-V3-0324 thực hiện bởi nhà nghiên cứu AI Xeophon trên nền tảng X. 
Kết quả kiểm tra mô hình DeepSeek-V3-0324 thực hiện bởi nhà nghiên cứu AI Xeophon trên nền tảng X. 

DeepSeek-V3-0324 sử dụng kiến trúc *mixture-of-experts* (MoE), một cách tiếp cận hoàn toàn mới trong vận hành mô hình ngôn ngữ lớn. Thay vì kích hoạt toàn bộ tham số như các mô hình truyền thống, DeepSeek chỉ sử dụng khoảng 37 tỷ trong tổng số 685 tỷ tham số cho từng nhiệm vụ cụ thể. 

Cơ chế kích hoạt chọn lọc này tạo ra bước ngoặt trong hiệu suất mô hình. Bằng cách chỉ sử dụng những tham số phù hợp với từng tác vụ, mô hình mới của DeepSeek có thể đạt hiệu suất ngang bằng với các mô hình lớn hơn nhiều nhưng lại giảm đáng kể nhu cầu tính toán. 

Mô hình này còn tích hợp hai công nghệ đột phá là Multi-Head Latent Attention (MLA) và Multi-Token Prediction (MTP). Trong khi MLA giúp mô hình duy trì ngữ cảnh tốt hơn khi xử lý các đoạn văn bản dài, còn MTP cho phép tạo ra nhiều token trong mỗi bước thay vì từng token một như thông thường. Sự kết hợp này giúp tăng tốc độ đầu ra lên gần 80%. 

TRUNG QUỐC THÁCH THỨC MÔ HÌNH ĐÓNG CỦA MỸ

Chiến lược ra mắt của DeepSeek phản ánh sự khác biệt cơ bản trong triết lý kinh doanh AI giữa các công ty Trung Quốc và phương Tây. Trong khi những tên tuổi lớn của Mỹ như OpenAI và Anthropic bảo vệ các mô hình thông qua yêu cầu trả phí, các công ty AI Trung Quốc lại đang áp dụng các giấy phép nguồn mở rộng rãi hơn.

Cách tiếp cận này đang nhanh chóng thay đổi hệ sinh thái AI của Trung Quốc. Các mô hình tiên tiến được cung cấp miễn phí sẽ tạo ra hiệu ứng lan tỏa mạnh mẽ, cho phép các startup, nhà nghiên cứu và lập trình viên tận dụng công nghệ AI mà không cần khoản đầu tư vốn khổng lồ. Điều này đã thúc đẩy sự phát triển của AI tại Trung Quốc với tốc độ khiến nhiều nhà quan sát tại phương Tây phải ngạc nhiên. 

Chiến lược này cũng phản ánh thực tế thị trường tại Trung Quốc. Với sự cạnh tranh từ nhiều đối thủ mạnh sở hữu nguồn tài chính dồi dào, việc giữ mô hình dưới dạng độc quyền trở nên khó khăn khi các đối thủ khác cung cấp công nghệ tương tự miễn phí. Mô hình nguồn mở tạo ra giá trị theo những cách khác, chẳng hạn như xây dựng hệ sinh thái, cung cấp dịch vụ API (giao diện lập trình ứng dụng) hoặc phát triển giải pháp doanh nghiệp dựa trên các mô hình nền tảng miễn phí.

Ngay cả các tập đoàn công nghệ lớn của Trung Quốc cũng nhận ra sự thay đổi này. Baidu đã công bố kế hoạch mở mã nguồn dòng mô hình Ernie 4.5 vào tháng 6, trong khi Alibaba và Tencent cũng đã ra mắt các mô hình AI nguồn mở với khả năng chuyên biệt. Điều này hoàn toàn trái ngược với chiến lược tập trung vào API mà các công ty phương Tây đang áp dụng. 

Hơn nữa, cách tiếp cận nguồn mở cũng giúp các công ty AI Trung Quốc giải quyết những thách thức riêng của họ. Khi bị hạn chế trong việc tiếp cận các chip Nvidia tiên tiến, các doanh nghiệp này buộc phải tối ưu hóa và nâng cao hiệu suất để đạt được sức cạnh tranh với nguồn tài nguyên tính toán hạn chế hơn. Chính nhu cầu đổi mới này giờ đây đang trở thành một lợi thế cạnh tranh tiềm năng.

AI mã nguồn mở đã thúc đẩy sự phát triển của AI tại Trung Quốc với tốc độ đáng ngạc nhiên. Nguồn ảnh: Euronews
AI mã nguồn mở đã thúc đẩy sự phát triển của AI tại Trung Quốc với tốc độ đáng ngạc nhiên. Nguồn ảnh: Euronews

Nhà phát triển công cụ Simon Willison lưu ý trong một bài viết trên blog rằng, phiên bản 4-bit của DeepSeek chỉ chiếm 352GB dung lượng lưu trữ, khiến mô hình này có thể chạy được trên các thiết bị cao cấp dành cho người tiêu dùng, như Mac Studio với chip M3 Ultra.

Đây có thể là một bước chuyển đổi quan trọng trong cách triển khai AI. Trong khi các hạ tầng AI truyền thống thường dựa vào nhiều GPU (bộ xử lý đồ họa) của Nvidia tiêu thụ hàng kilowatt điện năng, Mac Studio chỉ tiêu thụ dưới 200 watt khi chạy các suy luận. Sự chênh lệch về hiệu suất này có thể buộc ngành AI phải suy nghĩ lại về những giả định liên quan đến yêu cầu hạ tầng cho các mô hình hàng đầu.

TÁI ĐỊNH HÌNH BỨC TRANH AI TOÀN CẦU

Thời điểm xuất hiện và đặc điểm của DeepSeek-V3-0324 cho thấy nhiều khả năng đây sẽ là nền tảng cho DeepSeek-R2, một mô hình tập trung vào nâng cao khả năng lập luận dự kiến được ra mắt trong vòng hai tháng tới. Đây là chiến lược quen thuộc của DeepSeek, khi các mô hình nền tảng thường xuất hiện vài tuần trước các phiên bản chuyên sâu về lập luận.

Tác động của một mô hình lập luận nguồn mở tiên tiến là không thể xem nhẹ. Các mô hình hiện tại như o1 của OpenAI hay R1 của DeepSeek đang đại diện cho đỉnh cao AI, thể hiện khả năng giải quyết vấn đề chưa từng có trong các lĩnh vực từ toán học đến lập trình. Nếu được cung cấp miễn phí, công nghệ này sẽ giúp mở rộng quyền tiếp cận với AI vốn đang bị giới hạn bởi những tổ chức có ngân sách lớn.

Tác động của một mô hình lập luận nguồn mở tiên tiến là không thể xem nhẹ. Ảnh: Bloomberg
Tác động của một mô hình lập luận nguồn mở tiên tiến là không thể xem nhẹ. Ảnh: Bloomberg

Nếu tiếp tục con đường của R1, DeepSeek-R2 có thể trở thành đối thủ trực tiếp của GPT-5 – mô hình chủ lực tiếp theo của OpenAI dự kiến ra mắt trong vài tháng tới. Sự đối lập giữa cách tiếp cận khép kín của OpenAI với tối ưu tài nguyên của DeepSeek thể hiện hai tầm nhìn khác nhau về tương lai của AI.

Chiến lược phát triển và phân phối AI của DeepSeek không chỉ là một thành tựu kỹ thuật mà còn phản ánh một triết lý hoàn toàn khác về cách công nghệ tiên tiến nên lan tỏa trong xã hội.

Bằng cách cung cấp AI tiên tiến với giấy phép nguồn mở rộng rãi, DeepSeek đang thúc đẩy một làn sóng đổi mới theo cấp số nhân – điều mà các mô hình khép kín khó có thể đạt được.

Triết lý này đang thu hẹp khoảng cách AI giữa Trung Quốc và Mỹ nhanh chóng. Chỉ vài tháng trước, hầu hết các chuyên gia ước tính Trung Quốc vẫn đi sau Mỹ khoảng 1 – 2 năm về khả năng AI. Nhưng hiện tại, khoảng cách đó đã rút ngắn đáng kể, có thể chỉ còn 3 – 6 tháng, thậm chí một số lĩnh vực đang tiến tới ngang bằng hoặc vượt trội.

Các mô hình AI mã nguồn mở có thể vượt qua các hệ thống khép kín nhờ tính phổ biến và có được sự đổi mới từ hàng nghìn nhà phát triển.

Điều này không chỉ đặt ra câu hỏi về giới hạn trong cạnh tranh thị trường mà còn về quyền tiếp cận công nghệ. Các công ty AI phương Tây ngày càng bị chỉ trích vì tập trung năng lực tiên tiến vào tay một số tập đoàn lớn và những cá nhân sở hữu nguồn lực dồi dào. Trong khi đó, cách tiếp cận của DeepSeek lại đưa những khả năng phát triển này tới tay nhiều người, từ đó có thể đẩy nhanh tốc độ ứng dụng AI trên toàn cầu.

Khi DeepSeek-V3-0324 bắt đầu xuất hiện trong các phòng nghiên cứu và trên máy tính của các nhà phát triển khắp thế giới, cuộc đua không còn chỉ là về việc ai xây dựng AI mạnh nhất, mà là ai có thể giúp nhiều người nhất xây dựng với AI.

Và trong cuộc đua này, một bản phát hành âm thầm như của DeepSeek lại đang gửi đi thông điệp mạnh mẽ về tương lai của trí tuệ nhân tạo. Công ty nào chia sẻ công nghệ của mình một cách tự do nhất có thể sẽ là công ty có ảnh hưởng lớn nhất đến cách AI định hình thế giới.