Phát hiện mới cho thấy mô hình AI DeepSeek "không phải chỉ tốn 6 triệu USD"
Thanh Minh, Huyền Thương, Hoàng
04/02/2025
Không có phép màu nào ở đây. Thực tế, thành công của DeepSeek là kết quả từ các khoản đầu tư chiến lược “hàng tỷ USD”, những đột phá kỹ thuật và một lực lượng lao động giàu sức cạnh tranh…
Công ty khởi nghiệp Trung Quốc DeepSeek gần đây đã trở thành tâm điểm chú ý trong thế giới công nghệ nhờ khả năng sử dụng tài nguyên tính toán thấp đáng kinh ngạc cho mô hình AI tiên tiến có tên là R1, một mô hình được cho là có khả năng cạnh tranh với o1 của Open AI. Mặc dù “giỏi tương đương” o1, startup Trung Quốc tuyên bố DeepSeek chỉ tốn 6 triệu USD và 2.048 GPU để đào tạo.
DEEKSEEK ĐÃ CHI ÍT NHẤT 1,6 TỶ USD VÀ DÙNG 50.000 GPU NVIDIA
Tuy nhiên, công ty phân tích chuyên ngành SemiAnalysis vừa báo cáo rằng startup đứng sau DeepSeek đã phải bỏ ra 1,6 tỷ USD chi phí phần cứng và có đội ngũ gồm 50.000 GPU Nvidia Hopper. Đây là phát hiện khiến mọi người “ngã ngửa” khi từng thán phục DeepSeek đã tái tạo đào tạo và suy luận AI với mức đầu tư thấp hơn đáng kể so với các công ty dẫn đầu ngành AI.
Báo cáo tuyên bố rằng DeepSeek vận hành một cơ sở hạ tầng điện toán rộng lớn với khoảng 50.000 GPU Hopper. Theo SemiAnalysis, con số này bao gồm 10.000 H800 và 10.000 H100, với các đơn vị mua thêm H20. Các tài nguyên này được phân phối trên nhiều địa điểm và phục vụ các mục đích như đào tạo AI, nghiên cứu và lập mô hình tài chính. Tổng vốn đầu tư của công ty vào máy chủ là khoảng 1,6 tỷ USD, với ước tính 944 triệu USD chi cho chi phí vận hành.
DeepSeek đã thu hút sự chú ý của thế giới AI khi công bố các yêu cầu phần cứng “rất nhỏ” của mô hình AI DeepSeek-V3 Mixture-of-Experts (MoE) của mình, thấp hơn rất nhiều so với các mô hình có trụ sở tại Hoa Kỳ. Sau đó, DeepSeek đã làm rung chuyển thế giới công nghệ cao với mô hình AI R1 cạnh tranh với AI mở. Tuy nhiên, công ty tình báo thị trường uy tín SemiAnalysis đã tiết lộ những phát hiện của mình cho thấy công ty có khoản đầu tư phần cứng trị giá khoảng 1,6 tỷ USD.
Trong thực tế, DeepSeek có nguồn gốc từ High-Flyer, một quỹ đầu tư của Trung Quốc đã áp dụng AI từ sớm và đầu tư mạnh vào GPU. Vào năm 2023, High-Flyer đã ra mắt DeepSeek như một liên doanh riêng biệt chỉ tập trung vào AI. Không giống như nhiều đối thủ cạnh tranh, DeepSeek vẫn tự cấp vốn, mang lại cho công ty sự linh hoạt và tốc độ trong việc ra quyết định. Mặc dù tuyên bố rằng đây là một nhánh nhỏ, công ty đã đầu tư hơn 500 triệu USD vào công nghệ của mình, theo SemiAnalysis.
Như vậy, tuyên bố cho rằng DeepSeek chỉ tốn 6 triệu USD để đào tạo mô hình AI mới nhất đã thu hút nhiều sự chú ý. Tuy nhiên, con số này chỉ phản ánh chi phí cho thời gian sử dụng GPU trong giai đoạn đào tạo ban đầu, không bao gồm các khoản chi phí quan trọng khác như nghiên cứu, tinh chỉnh mô hình, xử lý dữ liệu hay duy trì cơ sở hạ tầng.
Trên thực tế, DeepSeek đã đầu tư hơn 500 triệu USD vào phát triển AI kể từ khi thành lập. Theo SemiAnalysis, khác với các tập đoàn lớn bị cản trở bởi bộ máy quan liêu, cấu trúc gọn nhẹ của DeepSeek giúp công ty thúc đẩy đổi mới nhanh chóng và hiệu quả hơn trong lĩnh vực AI.
Điểm nổi bật của DeepSeek là khả năng tự vận hành trung tâm dữ liệu, thay vì phụ thuộc vào các nhà cung cấp đám mây như nhiều công ty khởi nghiệp AI khác. Nhờ sự độc lập này, DeepSeek có thể kiểm soát hoàn toàn quá trình thử nghiệm và tối ưu hóa mô hình AI. Điều này cũng giúp công ty tiến hành các cải tiến nhanh hơn mà không bị chậm trễ do các hạn chế bên ngoài, mang lại hiệu quả cao hơn so với nhiều công ty trong ngành.
DEEPSEEK TUYỂN DỤNG: GENZ, CHUYÊN GIA VĂN HỌC VÀ TRẢ LƯƠNG CAO HƠN CẢ SILICON VALLEY
Điều đáng chú ý khác nữa về DeepSeek là cách tiếp cận tuyển dụng khác biệt so với nhiều công ty Trung Quốc khác. Thay vì săn đón nhân tài từ Đài Loan hay Hoa Kỳ, DeepSeek tập trung tuyển dụng từ chính Trung Quốc đại lục. Công ty ưu tiên tìm kiếm các ứng viên có kỹ năng và khả năng giải quyết vấn đề hơn là chỉ dựa vào chứng chỉ chính thức.
Các trường đại học hàng đầu như Đại học Bắc Kinh và Đại học Chiết Giang là mục tiêu chính của hoạt động tuyển dụng, với mức lương cạnh tranh. Theo SemiAnalysis, một số nhà nghiên cứu AI tại DeepSeek kiếm được hơn 1,3 triệu USD, cao hơn mức lương tại nhiều công ty AI hàng đầu khác ở Trung Quốc như Moonshot.
Đặc biệt, về chiến lược tuyển dụng, không giống như các đối thủ cạnh tranh, nhà sáng lập DeepSeek 40 tuổi đang hướng đến thế hệ Z và các chuyên ngành nhân văn để dẫn đầu AI mang tính cách mạng của mình. Theo đó, kinh nghiệm làm việc không phải là yếu tố hàng đầu trong danh sách của ông khi cân nhắc các ứng viên DeepSeek.
"Nếu đang theo đuổi các mục tiêu ngắn hạn, thì việc tìm những người có kinh nghiệm là điều đúng đắn", CEO Liang cho biết trong một cuộc phỏng vấn năm 2023 với hãng truyền thông Trung Quốc 36Kr. "Nhưng nếu nhìn vào dài hạn, kinh nghiệm không quá quan trọng. Các kỹ năng cơ bản, sự sáng tạo và đam mê quan trọng hơn nhiều".
Ông nhấn mạnh rằng đã việc một người từng làm một công việc tương tự trước đây không có nghĩa là họ có thể làm công việc này, đồng thời nói thêm rằng những người lao động trẻ tuổi thiếu kinh nghiệm sáng tạo hơn những chuyên gia AI dày dạn kinh nghiệm, những người có thể bị sa lầy vào kiến thức của chính họ.
"Khi làm một việc gì đó, những người có kinh nghiệm sẽ làm theo một cách nào đó. Nhưng những người thiếu kinh nghiệm sẽ liên tục khám phá và suy nghĩ nghiêm túc về cách thực hiện, rồi tìm ra giải pháp phù hợp với tình hình thực tế hiện tại".
CEO của DeepSeek cũng tuyển dụng những người có xuất thân không theo truyền thống, đặc biệt là những người ham đọc sách. Ông Liang đã công khai về việc đưa những người đam mê văn học vào nhóm kỹ sư để giúp tinh chỉnh các mô hình AI của công ty. “Mỗi người đều có hành trình riêng và mang theo những ý tưởng riêng, vì vậy không cần phải thúc ép họ”, ông nói.
Sự hội tụ của nhiều nhân tài đã giúp DeepSeek đi đầu trong việc phát triển các sáng kiến tiên tiến như Multi-Head Latent Attention (MLA), một công nghệ yêu cầu nhiều tháng phát triển và sử dụng lượng lớn GPU. Theo SemiAnalysis, công ty tập trung vào hiệu quả và cải tiến thuật toán thay vì mở rộng quy mô bằng cách gia tăng sức mạnh phần cứng. Cách tiếp cận này không chỉ định hình lại kỳ vọng về phát triển mô hình AI mà còn có thể làm giảm nhu cầu đối với GPU cao cấp, tạo ra tác động tiềm tàng đến các công ty như Nvidia.
Sự vươn lên của DeepSeek cho thấy cách một công ty AI độc lập và được tài trợ tốt có thể thách thức các tập đoàn hàng đầu trong ngành. Tuy nhiên, những lời ca ngợi công khai đôi khi có phần cường điệu. Thực tế phức tạp hơn: theo SemiAnalysis, thành công của DeepSeek là kết quả từ các khoản đầu tư chiến lược hàng tỷ USD, đột phá kỹ thuật và một lực lượng lao động giàu sức cạnh tranh.
Không có phép màu nào ở đây - như Elon Musk từng nhấn mạnh khoảng một năm trước: để cạnh tranh trong lĩnh vực AI, các công ty cần chi hàng tỷ USD mỗi năm, con số mà DeepSeek được cho là đã đạt đến.
Ngành công nghiệp tiền mã hóa toàn cầu đang bước vào một cuộc chạy đua mới nhằm đối phó với nguy cơ từ máy tính lượng tử, công nghệ được cho là có thể phá vỡ lớp bảo mật cốt lõi đang bảo vệ các blockchain và tài sản số như bitcoin...
Nguồn của cải khổng lồ được tạo ra từ trí tuệ nhân tạo (AI) phải mang lại lợi ích cho toàn xã hội, thay vì chỉ tập trung vào một nhóm doanh nghiệp công nghệ lớn…
Lĩnh vực tài chính phi tập trung – hiện có quy mô khoảng 130 tỷ USD – đang trở thành mục tiêu đặc biệt hấp dẫn đối với các nhóm tội phạm mạng...
Không chỉ hàng hóa công nghệ tăng mạnh, các dịch vụ viễn thông, máy tính và công nghệ thông tin cũng tăng, nhờ nhu cầu ngày càng lớn đối với các mô hình AI của Trung Quốc trên thị trường quốc tế...
Trung Quốc đang đẩy mạnh yêu cầu sử dụng năng lượng xanh đối với các trung tâm dữ liệu trí tuệ nhân tạo (AI). Nhu cầu điện phục vụ làn sóng AI ngày càng tạo sức ép lớn lên hệ thống điện quốc gia và mục tiêu giảm phát thải carbon của Bắc Kinh...
TikTok vừa công bố kế hoạch đầu tư 25 tỷ USD vào các dự án hạ tầng dữ liệu tại Thái Lan, đánh dấu khoản đầu tư lớn nhất từ trước đến nay của nền tảng video ngắn này tại Đông Nam Á...
Thứ từng là lợi thế lớn nhất của ngành phần mềm Ấn Độ – nguồn nhân lực đông đảo và giá rẻ – có nguy cơ trở thành điểm yếu trong kỷ nguyên AI...
Điểm đáng chú ý là mức định giá của DeepSeek đã tăng mạnh chỉ trong thời gian ngắn. Khi bắt đầu quá trình gọi vốn cách đây vài tuần, startup này được định giá khoảng 20 tỷ USD…
Đây là lần đầu tiên trong lịch sử hãng điện tử lớn nhất Hàn Quốc đạt được cột mốc này, đồng thời trở thành công ty châu Á thứ hai làm được điều đó, sau Taiwan Semiconductor Manufacturing Co...
Theo thống kê, trong số 64 nhà máy mới dự kiến đi vào hoạt động tại châu Á đến năm 2029, chỉ có 6 cơ sở đặt tại Đông Nam Á, phần lớn còn lại tập trung ở Trung Quốc và Đài Loan (Trung Quốc)…