Phát hiện mới cho thấy mô hình AI DeepSeek "không phải chỉ tốn 6 triệu USD"

Thanh Minh
Chia sẻ

Không có phép màu nào ở đây. Thực tế, thành công của DeepSeek là kết quả từ các khoản đầu tư chiến lược “hàng tỷ USD”, những đột phá kỹ thuật và một lực lượng lao động giàu sức cạnh tranh…

DeepSeek đã phải bỏ ra 1,6 tỷ USD chi phí phần cứng và có đội ngũ gồm 50.000 GPU Nvidia Hopper.
DeepSeek đã phải bỏ ra 1,6 tỷ USD chi phí phần cứng và có đội ngũ gồm 50.000 GPU Nvidia Hopper.

Công ty khởi nghiệp Trung Quốc DeepSeek gần đây đã trở thành tâm điểm chú ý trong thế giới công nghệ nhờ khả năng sử dụng tài nguyên tính toán thấp đáng kinh ngạc cho mô hình AI tiên tiến có tên là R1, một mô hình được cho là có khả năng cạnh tranh với o1 của Open AI. Mặc dù “giỏi tương đương” o1, startup Trung Quốc tuyên bố DeepSeek chỉ tốn 6 triệu USD và 2.048 GPU để đào tạo. 

DEEKSEEK ĐÃ CHI ÍT NHẤT 1,6 TỶ USD VÀ DÙNG 50.000 GPU NVIDIA

Tuy nhiên, công ty phân tích chuyên ngành SemiAnalysis vừa báo cáo rằng startup đứng sau DeepSeek đã phải bỏ ra 1,6 tỷ USD chi phí phần cứng và có đội ngũ gồm 50.000 GPU Nvidia Hopper. Đây là phát hiện khiến mọi người “ngã ngửa” khi từng thán phục DeepSeek đã tái tạo đào tạo và suy luận AI với mức đầu tư thấp hơn đáng kể so với các công ty dẫn đầu ngành AI.

Báo cáo tuyên bố rằng DeepSeek vận hành một cơ sở hạ tầng điện toán rộng lớn với khoảng 50.000 GPU Hopper. Theo SemiAnalysis, con số này bao gồm 10.000 H800 và 10.000 H100, với các đơn vị mua thêm H20. Các tài nguyên này được phân phối trên nhiều địa điểm và phục vụ các mục đích như đào tạo AI, nghiên cứu và lập mô hình tài chính. Tổng vốn đầu tư của công ty vào máy chủ là khoảng 1,6 tỷ USD, với ước tính 944 triệu USD chi cho chi phí vận hành.

DeepSeek đã thu hút sự chú ý của thế giới AI khi công bố các yêu cầu phần cứng “rất nhỏ” của mô hình AI DeepSeek-V3 Mixture-of-Experts (MoE) của mình, thấp hơn rất nhiều so với các mô hình có trụ sở tại Hoa Kỳ. Sau đó, DeepSeek đã làm rung chuyển thế giới công nghệ cao với mô hình AI R1 cạnh tranh với AI mở. Tuy nhiên, công ty tình báo thị trường uy tín SemiAnalysis đã tiết lộ những phát hiện của mình cho thấy công ty có khoản đầu tư phần cứng trị giá khoảng 1,6 tỷ USD.

Trong thực tế, DeepSeek có nguồn gốc từ High-Flyer, một quỹ đầu tư của Trung Quốc đã áp dụng AI từ sớm và đầu tư mạnh vào GPU. Vào năm 2023, High-Flyer đã ra mắt DeepSeek như một liên doanh riêng biệt chỉ tập trung vào AI. Không giống như nhiều đối thủ cạnh tranh, DeepSeek vẫn tự cấp vốn, mang lại cho công ty sự linh hoạt và tốc độ trong việc ra quyết định. Mặc dù tuyên bố rằng đây là một nhánh nhỏ, công ty đã đầu tư hơn 500 triệu USD vào công nghệ của mình, theo SemiAnalysis.

Như vậy, tuyên bố cho rằng DeepSeek chỉ tốn 6 triệu USD để đào tạo mô hình AI mới nhất đã thu hút nhiều sự chú ý. Tuy nhiên, con số này chỉ phản ánh chi phí cho thời gian sử dụng GPU trong giai đoạn đào tạo ban đầu, không bao gồm các khoản chi phí quan trọng khác như nghiên cứu, tinh chỉnh mô hình, xử lý dữ liệu hay duy trì cơ sở hạ tầng.

Trên thực tế, DeepSeek đã đầu tư hơn 500 triệu USD vào phát triển AI kể từ khi thành lập. Theo SemiAnalysis, khác với các tập đoàn lớn bị cản trở bởi bộ máy quan liêu, cấu trúc gọn nhẹ của DeepSeek giúp công ty thúc đẩy đổi mới nhanh chóng và hiệu quả hơn trong lĩnh vực AI.

Điểm nổi bật của DeepSeek là khả năng tự vận hành trung tâm dữ liệu, thay vì phụ thuộc vào các nhà cung cấp đám mây như nhiều công ty khởi nghiệp AI khác. Nhờ sự độc lập này, DeepSeek có thể kiểm soát hoàn toàn quá trình thử nghiệm và tối ưu hóa mô hình AI. Điều này cũng giúp công ty tiến hành các cải tiến nhanh hơn mà không bị chậm trễ do các hạn chế bên ngoài, mang lại hiệu quả cao hơn so với nhiều công ty trong ngành.

DEEPSEEK TUYỂN DỤNG: GENZ, CHUYÊN GIA VĂN HỌC VÀ TRẢ LƯƠNG CAO HƠN CẢ SILICON VALLEY

Điều đáng chú ý khác nữa về DeepSeek là cách tiếp cận tuyển dụng khác biệt so với nhiều công ty Trung Quốc khác. Thay vì săn đón nhân tài từ Đài Loan hay Hoa Kỳ, DeepSeek tập trung tuyển dụng từ chính Trung Quốc đại lục. Công ty ưu tiên tìm kiếm các ứng viên có kỹ năng và khả năng giải quyết vấn đề hơn là chỉ dựa vào chứng chỉ chính thức.

DeepSeek có chiến lược tuyển dụng nhân sự khác biệt
DeepSeek có chiến lược tuyển dụng nhân sự khác biệt

Các trường đại học hàng đầu như Đại học Bắc Kinh và Đại học Chiết Giang là mục tiêu chính của hoạt động tuyển dụng, với mức lương cạnh tranh. Theo SemiAnalysis, một số nhà nghiên cứu AI tại DeepSeek kiếm được hơn 1,3 triệu USD, cao hơn mức lương tại nhiều công ty AI hàng đầu khác ở Trung Quốc như Moonshot.

Đặc biệt, về chiến lược tuyển dụng, không giống như các đối thủ cạnh tranh, nhà sáng lập DeepSeek 40 tuổi đang hướng đến thế hệ Z và các chuyên ngành nhân văn để dẫn đầu AI mang tính cách mạng của mình. Theo đó, kinh nghiệm làm việc không phải là yếu tố hàng đầu trong danh sách của ông khi cân nhắc các ứng viên DeepSeek.

"Nếu đang theo đuổi các mục tiêu ngắn hạn, thì việc tìm những người có kinh nghiệm là điều đúng đắn", CEO Liang cho biết trong một cuộc phỏng vấn năm 2023 với hãng truyền thông Trung Quốc 36Kr. "Nhưng nếu nhìn vào dài hạn, kinh nghiệm không quá quan trọng. Các kỹ năng cơ bản, sự sáng tạo và đam mê quan trọng hơn nhiều".

Ông nhấn mạnh rằng đã việc một người từng làm một công việc tương tự trước đây không có nghĩa là họ có thể làm công việc này, đồng thời nói thêm rằng những người lao động trẻ tuổi thiếu kinh nghiệm sáng tạo hơn những chuyên gia AI dày dạn kinh nghiệm, những người có thể bị sa lầy vào kiến ​​thức của chính họ.

"Khi làm một việc gì đó, những người có kinh nghiệm sẽ làm theo một cách nào đó. Nhưng những người thiếu kinh nghiệm sẽ liên tục khám phá và suy nghĩ nghiêm túc về cách thực hiện, rồi tìm ra giải pháp phù hợp với tình hình thực tế hiện tại".

CEO của DeepSeek cũng tuyển dụng những người có xuất thân không theo truyền thống, đặc biệt là những người ham đọc sách. Ông Liang đã công khai về việc đưa những người đam mê văn học vào nhóm kỹ sư để giúp tinh chỉnh các mô hình AI của công ty. “Mỗi người đều có hành trình riêng và mang theo những ý tưởng riêng, vì vậy không cần phải thúc ép họ”, ông nói.

Sự hội tụ của nhiều nhân tài đã giúp DeepSeek đi đầu trong việc phát triển các sáng kiến tiên tiến như Multi-Head Latent Attention (MLA), một công nghệ yêu cầu nhiều tháng phát triển và sử dụng lượng lớn GPU. Theo SemiAnalysis, công ty tập trung vào hiệu quả và cải tiến thuật toán thay vì mở rộng quy mô bằng cách gia tăng sức mạnh phần cứng. Cách tiếp cận này không chỉ định hình lại kỳ vọng về phát triển mô hình AI mà còn có thể làm giảm nhu cầu đối với GPU cao cấp, tạo ra tác động tiềm tàng đến các công ty như Nvidia.

Sự vươn lên của DeepSeek cho thấy cách một công ty AI độc lập và được tài trợ tốt có thể thách thức các tập đoàn hàng đầu trong ngành. Tuy nhiên, những lời ca ngợi công khai đôi khi có phần cường điệu. Thực tế phức tạp hơn: theo SemiAnalysis, thành công của DeepSeek là kết quả từ các khoản đầu tư chiến lược hàng tỷ USD, đột phá kỹ thuật và một lực lượng lao động giàu sức cạnh tranh.

Không có phép màu nào ở đây - như Elon Musk từng nhấn mạnh khoảng một năm trước: để cạnh tranh trong lĩnh vực AI, các công ty cần chi hàng tỷ USD mỗi năm, con số mà DeepSeek được cho là đã đạt đến.

Khởi nghiệp

Hồ sơ Startup

Citigo là công ty công nghệ cung cấp những giải pháp đơn giản với chi phí tiết kiệm, giúp khách hàng nâng cao hiệu quả kinh doanh. Citigo hướng tới tầm nhìn trở thành công ty cung cấp giải pháp công nghệ cho doanh nghiệp phổ biến tại Đông Nam Á
ESBT là công ty hoạt động trọng lĩnh vực công nghệ thông tin, chúng tôi xây dựng những sản phẩm phần mềm cho cộng đồng và cung cấp dịch vụ phát triển phần mềm cho các doanh nghiệp
Lozi là một trong những ứng dụng thương mại điện tử được yêu thích nhất tại Việt Nam, kết nối hàng triệu người mua và người bán nhằm phục vụ nhu cầu mua bán trực tuyến ngày càng cao. Không chỉ là một cầu nối thương mại điện tử đáng tin cậy, Lozi còn cung cấp dịch vụ giao hàng nhanh chóng và tiện lợi chỉ trong 1 giờ, đem đến cho khách hàng những trải nghiệm mua sắm trực tuyến hiệu quả và tối ưu
Bắt nguồn từ mong muốn mang chất lượng dạy Tiếng Anh tại Trường Quốc tế đến với mọi học sinh Việt Nam, để các bạn nhỏ dù không có điều kiện kinh tế theo học tại các Trường Quốc Tế hay Trung Tâm đắt tiền vẫn có thể sử dụng Tiếng Anh tốt như người bản ngữ. Đây chính là hành trang chuẩn bị cho các em tương lai vươn ra thế giới. Chính vì lý do trên, đội ngũ sáng lập đã bắt tay vào xây dựng sản phẩm đầu tiên có tên “Chương trình học Tiếng Anh Online EDUPIA”.
Công ty TNHH SA-ACH định vị về lĩnh vững trồng rừng, phát triển gồm 3 loại cây và bốn tầng cây trên một hecta đất nhằm tạo hệ sinh thái bền vững, và nâng cao thu nhập cho bà con