Các nhà nghiên cứu công bố huấn luyện thành công mô hình AI chỉ với chưa đến 50 USD

Thanh Minh, Huyền Thương, Hoàng

07/02/2025

Con số 50 USD khá ấn tượng, vì việc huấn luyện các mô hình AI tiên tiến thường tốn hàng nghìn đến hàng trăm nghìn USD chi phí điện toán do yêu cầu về tài nguyên máy tính cực lớn...

Mô hình s1 cũng đặt ra những câu hỏi nghiêm túc về việc AI đang dần trở thành hàng hóa phổ thông (commoditization). Ảnh minh họa

Theo Techcrunch, các nhà nghiên cứu AI tại Đại học Stanford và Đại học Washington vừa công bố một nghiên cứu, tiết lộ rằng họ đã huấn luyện thành công một mô hình AI "lý luận" chỉ với chưa đầy 50 USD tiền điện toán đám mây.

Tuy nhiên, cần hiểu rõ số tiền 50 USD, đây chính là tiền điện toán đám mây, nghĩa là chi phí mà nhóm nghiên cứu đã chi trả cho dịch vụ điện toán đám mây để huấn luyện mô hình AI.

HUẤN LUYỆN MÔ HÌNH AI THƯỜNG TỐN HÀNG NGHÌN ĐẾN HÀNG TRĂM NGHÌN USD CHI PHÍ ĐIỆN TOÁN

Điện toán đám mây (cloud computing) là dịch vụ cho phép thuê tài nguyên máy tính (như CPU, GPU, bộ nhớ và lưu trữ) từ các nhà cung cấp như Amazon Web Services (AWS), Google Cloud, Microsoft Azure, hoặc Oracle Cloud. Trong trường hợp này, nhóm nghiên cứu chỉ tốn chưa đến 50 USD để sử dụng các tài nguyên này cho việc huấn luyện mô hình AI s1.

Con số 50 USD khá ấn tượng, vì việc huấn luyện các mô hình AI tiên tiến thường tốn hàng nghìn đến hàng trăm nghìn USD chi phí điện toán do yêu cầu về tài nguyên máy tính cực lớn.

“Mô hình lý luận 50 USD” này có tên là s1, cho thấy hiệu suất tương đương với các mô hình lý luận tiên tiến như o1 của OpenAI và R1 của DeepSeek khi kiểm tra khả năng toán học và lập trình. Mô hình s1 cùng với dữ liệu và mã nguồn để huấn luyện đã được công khai trên GitHub.

Nhóm nghiên cứu cho biết họ bắt đầu từ một mô hình AI có sẵn, sau đó tinh chỉnh bằng phương pháp distillation (chưng cất) — một quy trình giúp trích xuất khả năng "lý luận" từ một mô hình AI khác thông qua việc huấn luyện dựa trên các câu trả lời của mô hình đó.

Cụ thể, s1 được "chưng cất" (distilled) từ một trong các mô hình lý luận của Google có tên Gemini 2.0 Flash Thinking Experimental. Phương pháp "chưng cất" này cũng từng được các nhà nghiên cứu tại Đại học Berkeley sử dụng để tạo ra một mô hình lý luận AI với chi phí khoảng 450 USD vào tháng trước.

AI ĐANG DẦN TRỞ THÀNH HÀNG HÓA PHỔ THÔNG?

Việc các nhà nghiên cứu có thể tạo ra mô hình AI tiên tiến mà không cần hàng triệu đô la đầu tư khiến nhiều người cảm thấy phấn khích vì cơ hội đổi mới trong lĩnh vực AI đang được mở rộng. Tuy nhiên, mô hình s1 cũng đặt ra những câu hỏi nghiêm túc về việc AI đang dần trở thành hàng hóa phổ thông (commoditization).

Liệu còn “hàng rào bảo vệ” nào cho các công ty lớn khi chỉ với số tiền nhỏ, người ta đã có thể tạo ra mô hình có chất lượng tương đương mô hình trị giá hàng triệu đô la?

Không có gì ngạc nhiên khi các phòng thí nghiệm AI lớn tỏ ra không hài lòng. OpenAI thậm chí đã cáo buộc DeepSeek thu thập dữ liệu trái phép từ API của mình để phục vụ cho việc chưng cất mô hình.

DeepSeek từng gây sốc vì chi phí phát triển quá thấp so với OpenAI dù sau đó đã có những nghi vấn về mức chi phí này

Nói về s1, nhóm nghiên cứu đứng sau mô hình s1 đã tìm cách đơn giản nhất để đạt được hiệu suất lý luận mạnh mẽ và khả năng “test-time scaling” — tức cho phép mô hình AI suy nghĩ nhiều hơn trước khi đưa ra câu trả lời. Đây là một trong những đột phá của mô hình o1 của OpenAI, mà DeepSeek cùng nhiều phòng thí nghiệm AI khác đã cố gắng tái tạo bằng nhiều phương pháp khác nhau.

Bài nghiên cứu về s1 cho thấy các mô hình lý luận có thể được "chưng cất" (distilled) chỉ với một tập dữ liệu tương đối nhỏ bằng quy trình có tên supervised fine-tuning (SFT). Đây là phương pháp huấn luyện mà mô hình AI được hướng dẫn rõ ràng để bắt chước các hành vi nhất định dựa trên dữ liệu huấn luyện.

So với phương pháp học tăng cường quy mô lớn (reinforcement learning) mà DeepSeek sử dụng để phát triển mô hình R1 cạnh tranh với o1 của OpenAI, SFT thường tiết kiệm chi phí hơn.

Google hiện cho phép truy cập miễn phí vào mô hình Gemini 2.0 Flash Thinking Experimental thông qua nền tảng Google AI Studio, nhưng có giới hạn sử dụng mỗi ngày.

Tuy nhiên, điều khoản của Google cấm việc đảo ngược kỹ thuật (reverse-engineering) mô hình của họ để phát triển các dịch vụ cạnh tranh với AI của công ty. Hiện Google chưa có bình luận chính thức về vấn đề này.

Mô hình s1 được phát triển dựa trên một mô hình AI nhỏ gọn có sẵn từ phòng thí nghiệm AI Qwen thuộc Alibaba. Mô hình này được cung cấp miễn phí để tải về.

Nhóm nghiên cứu đã tạo ra một tập dữ liệu chỉ gồm 1.000 câu hỏi được lựa chọn kỹ lưỡng, đi kèm với câu trả lời và quy trình "suy nghĩ" phía sau mỗi câu trả lời từ mô hình Gemini 2.0 Flash Thinking Experimental của Google.

Quá trình huấn luyện s1 chỉ mất chưa đầy 30 phút với 16 GPU Nvidia H100. Theo Niklas Muennighoff, một nhà nghiên cứu tại Stanford tham gia dự án, chi phí thuê máy tính cần thiết hiện chỉ khoảng 20 USD.

Một "mẹo" thú vị được nhóm nghiên cứu sử dụng để giúp s1 kiểm tra lại kết quả và kéo dài thời gian suy nghĩ là thêm từ “wait” (chờ) vào quá trình lý luận. Theo bài nghiên cứu, điều này giúp mô hình đưa ra câu trả lời chính xác hơn.

Vào năm 2025, Meta, Google và Microsoft dự kiến sẽ đầu tư hàng trăm tỷ USD vào cơ sở hạ tầng AI, trong đó một phần được dùng để huấn luyện các mô hình AI thế hệ mới.

Mức đầu tư khổng lồ này vẫn được xem là cần thiết để thúc đẩy sự đổi mới trong lĩnh vực AI. Phương pháp distillation (chưng cất) đã chứng minh là cách hiệu quả và tiết kiệm để tái tạo khả năng của các mô hình AI hiện có. Tuy nhiên, phương pháp này không giúp tạo ra các mô hình AI hoàn toàn mới với hiệu suất vượt trội so với những gì đang có trên thị trường.

Từ khóa:

WAIC năm nay, diễn ra từ ngày 17-20/7 tại Thượng Hải, được xem là một trong những sự kiện AI lớn nhất châu Á. Ảnh: SCMP

Trung Quốc phô diễn sức mạnh AI, hé lộ điện thoại AI Agent đầu tiên thế giới

Hội nghị Trí tuệ nhân tạo Thế giới (World Artificial Intelligence Conference - WAIC) 2026 sẽ trở thành sân khấu để Trung Quốc trình làng hàng loạt công nghệ AI thế hệ mới, từ hạ tầng tính toán quy mô lớn đến các thiết bị AI dành cho người dùng cuối…

11:49 09/07/2026

Trung Quốc đang nổi lên như một trong những động lực tăng trưởng quan trọng nhất của ngành robotaxi. Ảnh: SCMP

Thị trường robotaxi toàn cầu có thể đạt 1.000 tỷ USD vào năm 2040

Dự kiến chi phí linh kiện cho mỗi chiếc xe taxi tự lái sản xuất tại Trung Quốc sẽ giảm xuống còn từ 35.000 đến 40.000 đô la Mỹ vào năm 2027…

16:33 07/07/2026

Đại sứ quán Đan Mạch tại Việt Nam và Bảo hiểm Xã hội (BHXH) Việt Nam vừa ký kết Biên bản ghi nhớ (MoU) giai đoạn 2026–2028

Đan Mạch và Việt Nam thúc đẩy y tế số, nâng cao chất lượng chăm sóc sức khỏe

Hợp tác giữa Đại sứ quán Đan Mạch và Bảo hiểm Xã hội Việt Nam bước vào giai đoạn hợp tác mới 2026–2028 với trọng tâm là phát triển y tế số, ứng dụng dữ liệu y tế và kinh tế y tế trong hoạch định chính sách…

16:33 07/07/2026

Nhu cầu về các giải pháp an ninh mạng đang tăng mạnh, đặc biệt khi các quy định về an ninh thông tin và bảo vệ dữ liệu ngày càng chặt chẽ

Doanh nghiệp Việt trước thách thức kép về an ninh mạng từ bên ngoài và trong nội bộ

Trong bối cảnh nền kinh tế số tại Việt Nam phát triển với tốc độ chóng mặt, khối lượng dữ liệu được tạo ra tăng lên vượt bậc, khiến dữ liệu trở thành tài sản giá trị nhưng cũng dễ bị thất thoát và lạm dụng hơn bao giờ hết.

16:33 07/07/2026

Theo bảng xếp hạng TOP500 công bố tháng 6/2026, siêu máy tính LineShine của Trung Quốc đạt hiệu năng 2,198 exaflop trên bài kiểm tra HPL. Ảnh: Reuters

Trung Quốc vượt Mỹ trên bảng xếp hạng TOP500 siêu máy tính nhanh nhất thế giới

Sau ba năm đứng ngoài bảng xếp hạng TOP500, Trung Quốc đã trở lại đầy ấn tượng khi siêu máy tính LineShine vươn lên vị trí số một thế giới trong bảng xếp hạng tháng 6/2026...

16:29 06/07/2026

V-Bench là bộ công cụ đánh giá năng lực của các mô hình ngôn ngữ lớn (LLM) dành cho tiếng Việt

VinUni ra mắt bộ công cụ đánh giá năng lực AI dành cho tiếng Việt

Bộ công cụ có khả năng đánh giá toàn diện năng lực tiếng Việt của các mô hình AI, qua đó cung cấp hệ tham chiếu khách quan, độc lập, làm cơ sở cho việc lựa chọn và ứng dụng AI trong thực tiễn...

16:28 06/07/2026

Các ý tưởng tham gia cuộc thi cho thấy xu hướng ngày càng rõ nét của thanh niên trong việc ứng dụng công nghệ để giải quyết các vấn đề xã hội.

Người trẻ Việt dùng công nghệ số, AI giải bài toán môi trường, giao thông đô thị

Nhiều bạn trẻ Việt Nam đang lựa chọn công nghệ số như một công cụ để giải quyết những bài toán của đời sống đô thị...

16:27 06/07/2026

Apple dự kiến tung ra ít nhất 5 mẫu iPhone mới trong giai đoạn từ nửa cuối năm nay đến nửa đầu năm 2027. Ảnh: CNBC

Apple có thể ra mắt 5 mẫu iPhone mới đến năm 2027

Apple đang chuẩn bị cho một chu kỳ sản phẩm mới với tham vọng mở rộng mạnh mẽ thị phần trên thị trường điện thoại thông minh toàn cầu...

19:43 03/07/2026

Nhà máy của Vertiv dự kiến sẽ đi vào vận hành toàn bộ vào năm 2027, góp phần đáp ứng nhu cầu về hạ tầng AI và điện toán mật độ cao ngày càng lớn khắp châu Á

AI thúc đẩy đầu tư vào chuỗi cung ứng hạ tầng trung tâm dữ liệu tại Đông Nam Á

Châu Á tiếp tục là một trong những khu vực có tốc độ tăng trưởng nhanh nhất thế giới về đầu tư AI và hạ tầng kỹ thuật số...

21:47 02/07/2026

Một trong những thách thức lớn nhất của ngành robot tự động hiện nay là sự thiếu hụt dữ liệu đào tạo trong môi trường thực tế. Ảnh: Business Insider

Startup Mỹ xây “trường học” cho robot hình người

Sau nhiều năm tồn tại dưới dạng các màn trình diễn công nghệ trong phòng thí nghiệm, robot hình người đang dần bước vào giai đoạn thử nghiệm thương mại trên quy mô thực tế...

11:43 02/07/2026