DeepSeek và các mô hình mã nguồn mở đang thay đổi AI như thế nào?
Mai Anh
11/09/2025
Sự xuất hiện của DeepSeek và các mô hình có chi phí rẻ hơn dấy lên một cuộc đua mới không chỉ về hiệu suất giữa các mô hình AI…
Hồi đầu tháng 8 vừa qua, OpenAI thông báo phát hành hai mô hình ngôn ngữ tiên tiến có trọng số mở, lần đầu tiên kể từ khi triển khai GPT-2 vào năm 2019. Hai mô hình này, được gọi là gpt-oss-120b và gpt-oss-20b, chỉ có định dạng văn bản và được thiết kế để phục vụ các lựa chọn chi phí thấp hơn mà các nhà phát triển, nhà nghiên cứu và doanh nghiệp có thể dễ dàng tùy chỉnh.
“Nhìn thấy một hệ sinh thái phát triển thật thú vị, và chúng tôi rất vui khi được đóng góp vào hệ sinh thái đó, thúc đẩy ranh giới và xem điều gì sẽ xảy ra tiếp theo”, Chủ tịch OpenAI – ông Greg Brockman phát biểu trong cuộc họp báo công bố.
Một mô hình trí tuệ nhân tạo được xem là trọng số mở nếu các tham số, hoặc các yếu tố cải thiện kết quả đầu ra và dự đoán trong quá trình đào tạo, được công khai.
Các công ty công nghệ và giới học thuật từ lâu đã tranh luận về rủi ro và lợi ích khi xây dựng phần mềm mã nguồn mở. Nhưng làn sóng bùng nổ quanh trí tuệ nhân tạo tạo sinh đã mang lại ý nghĩa mới cho cuộc tranh luận này.
Làn sóng ấy được kích hoạt mạnh mẽ khi DeepSeek – một doanh nghiệp khởi nghiệp non trẻ của Trung Quốc và một số công ty khác tại thị trường này đã tung ra hàng loạt mô hình mã nguồn mở giá rẻ, cạnh tranh với phần mềm của các nhà phát triển AI hàng đầu Mỹ.
Để giành lại thị phần và người dùng, các ông lớn công nghệ của Mỹ cũng không thể nằm ngoài cuộc chơi, buộc phải tìm cách tung ra các mô hình có chi phí rẻ hơn, đơn cử như OpenAI. Chính quyền của Tổng thống Mỹ Donald Trump cũng kêu gọi nhiều công ty công nghệ Mỹ làm điều tương tự.
MÃ NGUỒN MỞ LÀ GÌ?
Thuật ngữ mã nguồn mở đề cập đến phần mềm có mã nguồn được công khai miễn phí để bất kỳ ai cũng có thể sử dụng hoặc chỉnh sửa. Theo Sáng kiến Mã nguồn mở (OSI), một tổ chức phi lợi nhuận có trụ sở tại California chuyên vận động cho lợi ích của cách làm này, để đáp ứng đủ các điều kiện được coi là mã nguồn mở, phần mềm phải tuân thủ những điều khoản cụ thể về phân phối và truy cập.
Đối với một mô hình AI được coi là thực sự mở, OSI cho rằng, các nhà phát triển phải cung cấp thông tin chi tiết về dữ liệu được dùng để huấn luyện, đồng thời, cho phép mọi người nghiên cứu, sử dụng và chỉnh sửa hệ thống cho bất kỳ mục đích nào.
Ngược lại, mã nguồn đóng đề cập đến phần mềm và mô hình được kiểm soát bởi nhà phát triển, không thể chỉnh sửa, và ít minh bạch hơn về nền tảng kỹ thuật.
Hiện nay, nhiều công ty công nghệ quảng bá phần mềm AI là mã nguồn mở nhưng thực tế không phải doanh nghiệp nào cũng đáp ứng đầy đủ định nghĩa của thuật ngữ này.
Đơn cử, Meta Platforms, OpenAI của Mỹ, Mistral – một doanh nghiệp khởi nghiệp của Pháp hay DeepSeek đều đã phát hành các mô hình AI được giới thiệu là mã nguồn mở.
Tuy nhiên, các mô hình này chủ yếu ở dạng “open-weight”. Điều này có nghĩa rằng ngoài việc cung cấp mô hình và có thể cả một phần mã nguồn, các công ty còn công bố “trọng số” – tức những giá trị số học mà mô hình thu nhận và được điều chỉnh trong quá trình huấn luyện, giúp các nhà phát triển tùy biến tốt hơn. Tuy nhiên, các doanh nghiệp lại không tiết lộ chi tiết về dữ liệu thực tế đã được sử dụng để huấn luyện.
Ví dụ, Meta từng cung cấp trọng số và một phần mã nguồn cho dòng mô hình AI Llama, nhưng không cung cấp thông tin chi tiết về dữ liệu huấn luyện. Meta cũng từng bị OSI chỉ trích vì các điều khoản cấp phép có kèm theo một số hạn chế về mục đích thương mại.
Tương tự, hồi tháng 1, DeepSeek thông báo phát hành hệ thống R1 dưới dạng mô hình mã nguồn mở, nhưng lại không công bố mã nguồn hay dữ liệu huấn luyện. Điều đó dẫn đến nhiều nghi vấn về việc công ty này thực sự sử dụng dữ liệu gì để xây dựng mô hình.
OpenAI, dù trong tên gọi có chữ “open” – nghĩa là mở, nhưng lại không công khai hầu hết mô hình. Tuy nhiên, ngay sau khi DeepSeek gây tiếng vang, Giám đốc điều hành OpenAI – ông Sam Altman thừa nhận rằng, nhà sản xuất ChatGPT cần phải “tìm ra một chiến lược mã nguồn mở khác”. Ông nói thêm: “Cá nhân tôi nghĩ rằng chúng tôi đã đứng nhầm phía của lịch sử trong vấn đề này”.
LỢI ÍCH CỦA MÃ NGUỒN MỞ
Theo Bloomberg, những người ủng hộ phần mềm mã nguồn mở thường nhấn mạnh vào mức chi phí rẻ hơn cho người dùng bởi không phải trả phí cấp phép như hệ thống đóng.
Mức giá sử dụng thấp hơn sẽ mở đường cho ứng dụng AI rộng rãi hơn, đồng thời khuyến khích đổi mới sáng tạo.
Những người ủng hộ cũng cho rằng, cách tiếp cận này giúp tăng tính minh bạch và trách nhiệm giải trình của các nhà phát triển hệ thống AI khi người khác có thể hiểu rõ hơn cách mô hình vận hành.
Trong khi đó, các hệ thống đóng lại tiềm ẩn rủi ro tạo ra một thị trường AI bị thống trị bởi một số ít công ty quyền lực. Ông Aaron Levie, Giám đốc điều hành Công ty lưu trữ đám mây Box Inc., phân tích: “Trong thế giới AI đắt đỏ và độc quyền, các nhà cung cấp AI có thể sẽ giữ toàn bộ lợi ích kinh tế cho riêng mình và về cơ bản là loại bỏ cơ hội của các nhà phát triển và hệ sinh thái”.
Với những công ty như Meta, mã nguồn mở mang đến thêm lợi ích: mức độ phổ biến. Khi cho phép các nhà phát triển khác tự do truy cập và xây dựng trên nền tảng phần mềm mã nguồn mở của mình, Meta đã mở rộng được tầm ảnh hưởng trong toàn bộ hệ sinh thái AI.
Ở chiều ngược lại, những người chỉ trích phần mềm mã nguồn mở lập luận rằng mô hình này kém an toàn hơn.
Trong trường hợp của AI, một số ý kiến ở Mỹ lo ngại rằng việc sử dụng các mô hình từ đối thủ như Trung Quốc sẽ đe dọa an ninh quốc gia, ảnh hưởng đến sự an toàn của công dân. Ví dụ, các mô hình thu thập lượng lớn dữ liệu người dùng có thể bị khai thác cho mục đích giám sát.
Ngoài ra, cũng có lo ngại rằng các công ty Mỹ tung ra mô hình AI với nhiều mức độ mở khác nhau có thể vô tình trao cho các quốc gia đối thủ cơ hội tận dụng để vượt mặt Mỹ về công nghệ.
VÌ SAO DEEPSEEK CHỌN HƯỚNG ĐI MỞ?
Bằng việc áp dụng cách tiếp cận cởi mở hơn (dù có một số giới hạn), DeepSeek có thể đã làm dịu đi những lo ngại của người dùng toàn cầu về việc Trung Quốc kiểm soát quá chặt chẽ công nghệ.
Doanh nghiệp này cũng có khả năng mở rộng tầm ảnh hưởng của chatbot tại thị trường phương Tây bằng cách giúp các nhà phát triển khác dễ dàng điều chỉnh công nghệ nền tảng để đáp ứng nhu cầu của họ.
Nói cách khác, theo các tác giả trên Bloomberg, DeepSeek trên thực tế đã đi theo đúng công thức mà Meta sử dụng để chiếm lĩnh nhiều hơn hệ sinh thái AI – điều mà dường như CEO Meta Mark Zuckerberg không bỏ qua.
“Đây là một cuộc cạnh tranh địa chính trị khổng lồ, và Trung Quốc đang lao vào với tốc độ cực nhanh”, ông Zuckerberg từng nói trong một cuộc phỏng vấn trên The Joe Rogan Experience. “Nếu có một mô hình mã nguồn mở mà mọi người đều sử dụng, mô hình đó nên đến từ nước Mỹ”.
Giống như một số mô hình mới nhất từ các nhà phát triển Mỹ hàng đầu, bao gồm OpenAI và Google, R1 của DeepSeek được thiết kế để mô phỏng cách con người suy nghĩ, dành thời gian xử lý trước khi đưa ra câu trả lời cho câu hỏi của người dùng.
Tuy nhiên, phiên bản của DeepSeek được xây dựng trên nền tảng V3 mới được phát hành gần đây lại cho thấy hiệu suất khác biệt.
Nhóm phát triển đã có cách làm sáng tạo. Trong khi đối thủ sử dụng số lượng lớn chip máy tính hiệu năng cao để xây dựng các mô hình AI tương tự, nhóm của DeepSeek dường như đã tìm ra cách tận dụng hiệu quả lượng chip ít hơn và kém tiên tiến hơn mà họ có thể tiếp cận do lệnh kiểm soát xuất khẩu của Mỹ đối với các loại chip tối tân nhất.
Họ cũng tận dụng mạnh mẽ kỹ thuật được gọi là “học tăng cường” (reinforcement learning), trong đó hệ thống được “thưởng” cho câu trả lời đúng và “phạt” cho câu trả lời sai.
Theo Bloomberg, tại Mỹ, một số lãnh đạo công nghệ và chính sách đã thừa nhận những tiến bộ này, đồng thời đặt ra câu hỏi liệu công ty Trung Quốc có xây dựng chatbot dựa trên công nghệ phương Tây hay không, qua đó né tránh một phần chi phí khổng lồ trong việc phát triển các mô hình ngôn ngữ lớn – nền tảng của chatbot.
Công ty tư vấn hàng đầu thế giới Bain & Company đánh giá, hiệu suất của DeepSeek dựa trên một loạt các cải tiến kỹ thuật, giúp giảm đáng kể chi phí suy luận đồng thời cải thiện chi phí đào tạo. Kiến trúc hỗn hợp chuyên gia (MoE) của DeepSeek chỉ kích hoạt 37 tỷ trong số 671 tỷ tham số để xử lý mỗi token, giảm thiểu chi phí tính toán mà không làm giảm hiệu suất.
Công ty này cũng đã tối ưu hóa các kỹ thuật, cho phép chuyển giao khả năng suy luận từ các mô hình lớn hơn sang các mô hình nhỏ hơn. Bằng cách sử dụng học tăng cường, DeepSeek nâng cao hiệu suất mà không cần tinh chỉnh có giám sát mở rộng.
Dòng sự kiện:
Trí tuệ nhân tạo -AIMột trong những xu hướng đáng lo ngại nhất hiện nay là sự xuất hiện của các bộ công cụ lừa đảo (phishing kits) được tạo ra bằng AI cùng với các nội dung deepfake có độ chân thực rất cao...
Ngày càng nhiều nhà sản xuất Trung Quốc tận dụng TikTok Shop để tiếp cận khách hàng toàn cầu, xây dựng thương hiệu riêng và phát triển sản phẩm dựa trên phản hồi thị trường theo thời gian thực...
Nhu cầu mạnh mẽ đối với các thiết bị AI và chất bán dẫn là động lực chính giúp vốn hóa của TSMC tăng gấp đôi trong vòng một năm...
Thay vì cạnh tranh trực diện với OpenAI, Google hay Anthropic bằng việc xây dựng các mô hình lớn nhất thế giới, Apple tận dụng công nghệ từ những đối tác hàng đầu như Google và Nvidia...
Liên minh châu Âu (EU) vừa công bố gói chính sách toàn diện nhằm tăng cường năng lực công nghệ nội khối, hướng tới mục tiêu xây dựng “chủ quyền công nghệ” trong các lĩnh vực chiến lược như bán dẫn, trí tuệ nhân tạo (AI), điện toán đám mây và phần mềm nguồn mở...
Đằng sau những con số đầu tư khổng lồ là hàng loạt nút thắt về điện năng, hạ tầng và thủ tục khiến tiến độ xây dựng các trung tâm dữ liệu trên khắp nước Mỹ đang bị chậm đáng kể…
Theo giới quan sát, động thái mới cho thấy Washington đang ngày càng thận trọng trước nguy cơ các doanh nghiệp Trung Quốc tiếp cận năng lực tính toán AI tiên tiến thông qua mạng lưới công ty con và đối tác hoạt động tại nước ngoài...
Anthropic, công ty đứng sau chatbot Claude, đã chính thức nộp hồ sơ phát hành cổ phiếu lần đầu ra công chúng (IPO), mở đường cho một trong những thương vụ niêm yết được chờ đợi nhất trên Phố Wall…
Ba nhà sản xuất chip nhớ lớn nhất thế giới gồm Micron Technology, Samsung Electronics và SK Hynix hiện sở hữu tổng vốn hóa thị trường vượt mốc 1.000 tỷ USD...
Sự trỗi dậy mạnh mẽ của các lĩnh vực trí tuệ nhân tạo (AI), xe điện, robot và sản xuất thông minh tại Trung Quốc đang tạo ra một loại hình du lịch hoàn toàn mới: du lịch công nghệ...