Cha đẻ DeepSeek hé lộ phương pháp huấn luyện AI giảm phụ thuộc vào GPU

Hạ Chi

14/01/2026, 16:27

Nhóm nghiên cứu đã thử nghiệm kỹ thuật Engram trên một mô hình 27 tỷ tham số. Kết quả cho thấy mô hình hoạt dộng tốt hơn trong các nhiệm vụ suy luận phức tạp, đòi hỏi cường độ tính toán cao...

Ảnh minh hoạ.

Liang Wenfeng, nhà sáng lập công ty khởi nghiệp trí tuệ nhân tạo DeepSeek của Trung Quốc, cùng nhóm nghiên cứu đến từ Đại học Bắc Kinh, mới đây đã đề xuất một phương pháp huấn luyện mô hình AI mới.

Nhóm tác giả cho rằng kỹ thuật này sẽ giúp “mở rộng tham số" để xây dựng các mô hình AI mạnh mẽ hơn, thông qua tối ưu bộ nhớ của bộ xử lý đồ họa (GPU), trong bối cảnh năng lực tính toán của Trung Quốc vẫn còn hạn chế so với các tập đoàn công nghệ hàng đầu của Mỹ.

Theo đó, bài báo nghiên cứu này vừa được công bố hôm qua, giới thiệu kỹ thuật “bộ nhớ có điều kiện” mang tên "Engram". Mục tiêu của Engram là giải quyết hạn chế đồng thời tối ưu dung lượng của bộ nhớ băng thông cao (HBM) trên GPU để tăng cường mở rộng quy mô các mô hình AI.

Bằng cách đưa các chuỗi dữ liệu vào bộ nhớ tĩnh, mô hình có thể truy xuất thông tin nhanh hơn, giảm gánh nặng tính toán. Nhờ đó, GPU được giải phóng khỏi các tác vụ ghi nhớ đơn giản để tập trung vào những bài toán phức tạp hơn, đồng thời hạn chế sự phụ thuộc vào các loại bộ nhớ băng thông cao (HBM) vốn đắt đỏ và khan hiếm.

HBM lâu nay luôn là một trong những điểm yếu lớn nhất của Trung Quốc khi so sánh về phần cứng AI với Mỹ. Ray Wang, nhà phân tích tại SemiAnalysis, nhận định rằng ChangXin Memory Technologies (CXMT), doanh nghiệp bộ nhớ hàng đầu của Trung Quốc, vẫn chậm hơn vài năm so với các hãng dẫn đầu thế giới như Samsung Electronics, SK Hynix của Hàn Quốc hay Micron Technology của Mỹ, dù đã có những bước tiến đều đặn trong thời gian gần đây.

Trong bối cảnh đó, nhóm nghiên cứu DeepSeek và Đại học Bắc Kinh cho rằng giải pháp nằm ở việc tách riêng vai trò của tính toán và bộ nhớ. Với Engram, mô hình có thể trực tiếp tra cứu thông tin nền, thay vì phải liên tục tính toán lại từ đầu.

Không chỉ giải quyết bài toán bộ nhớ, kỹ thuật này còn được cho là giúp mô hình xử lý tốt hơn đầu vào có dung lượng lớn. Đây hiện là một trong những thách thức lớn nhất để biến chatbot AI thành các trợ lý thông minh có thể vận hành hiệu quả trong đời sống và sản xuất thực tế.

Nhóm nghiên cứu đã thử nghiệm Engram trên một mô hình có quy mô 27 tỷ tham số. Kết quả cho thấy hiệu suất của mô hình được cải thiện thêm vài phần trăm khi đánh giá trên các bộ tiêu chuẩn của ngành. Quan trọng hơn, mô hình cũng hoạt động tốt hơn trong các nhiệm vụ suy luận phức tạp, đòi hỏi cường độ tính toán cao.

Engram được kỳ vọng sẽ tiềm năng tương tự kỹ thuật "Mixture-of-Experts technique" mà DeepSeek phát triển trước đây – cho phép mở rộng quy mô mô hình mà không làm tăng chi phí tính toán. Sau đó, kỹ thuật này đã được nhiều doanh nghiệp AI Trung Quốc nhanh chóng học hỏi.

Hiện nay, những mô hình AI lớn nhất trong ngành đã đạt quy mô lên tới hàng nghìn tỷ tham số, khiến bài toán bộ nhớ và hiệu quả xử lý ngày càng trở nên cấp bách.

Bình luận về nghiên cứu này, kỹ sư nghiên cứu tại nền tảng mã nguồn mở Hugging Face Elie Bakouch đánh giá cao việc nhóm tác giả đã kiểm chứng kỹ thuật mới trên phần cứng thực tế, cả trong giai đoạn huấn luyện lẫn suy luận.

Bài báo có tổng cộng 14 đồng tác giả, trong đó đáng chú ý có Huishuai Zhang, từng là nghiên cứu viên tại Microsoft Research Asia nay là trợ lý giáo sư khoa học máy tính tại Đại học Bắc Kinh. Tác giả chính là Cheng Xin, nghiên cứu sinh Đại học Bắc Kinh, người trước đây từng tham gia phát triển các mô hình V3 và R1 của DeepSeek.

DeepSeek cung cấp sức mạnh AI cho vũ khí quân sự Trung Quốc

08:29, 29/10/2025

DeepSeek bị nghi ngờ “đi tắt” mua chip Nvidia qua Singapore

06:50, 20/02/2025

Thành công của DeepSeek minh chứng khả năng nuôi dưỡng tài năng của Trung Quốc

14:08, 18/02/2025

Từ khóa:

Đọc thêm

Công an TP. Hồ Chí Minh ra mắt Trung tâm Tác chiến An ninh mạng

Trung tâm Tác chiến an ninh mạng được tổ chức theo mô hình giám sát và phản ứng an ninh mạng tập trung, ứng dụng nhiều nền tảng công nghệ hiện đại cho phép theo dõi hệ thống mạng, hệ thống thông tin phục vụ bầu cử đại biểu Quốc hội khóa XVI theo thời gian thực…

9/11 nhà sáng lập đã rời OpenAI

OpenAI, nhà phát triển ChatGPT, đang cho thấy những rạn nứt nội bộ nghiêm trọng, hàng loạt nhà nghiên cứu và lãnh đạo chủ chốt, trong đó có cả các đồng sáng lập, mới đây đã lần lượt rời công ty...

Foxconn rót thêm 39 triệu USD vào Việt Nam

Tính đến cuối tháng 2, vốn điều lệ của Công ty TNHH Precision Technology Component Fulian là 381,4 triệu USD...

Cùng mức giá, iPhone 17E có gì mới so với iPhone 16E?

Kích thước máy, hệ thống camera giữa hai thế hệ gần như không thay đổi, tuy nhiên, con chip, dung lượng của dòng iPhone E đời mới nhất đã được nâng cấp đáng kể so với thế hệ cũ...

Ông Trần Hồng Thái chính thức làm Chủ tịch Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Phó Chủ tịch Thường trực Viện Hàn lâm Khoa học và Công nghệ Việt Nam Trần Hồng Thái vừa chính thức được bổ nhiệm giữ chức Chủ tịch Viện Hàn lâm Khoa học và Công nghệ Việt Nam...

Đảng Cộng sản Việt Nam - Đại hội XIV

Với phương châm Đoàn kết - Dân chủ - Kỷ cương - Đột phá - Phát triển, Đại hội đại biểu toàn quốc lần thứ XIV của Đảng xác định tư duy, tầm nhìn, những quyết sách chiến lược để chúng ta vững bước tiến mạnh trong kỷ nguyên mới, thực hiện thắng lợi các mục tiêu phát triển đất nước đến năm 2030 khi Đảng ta tròn 100 năm thành lập (1930 - 2030); hiện thực hoá tầm nhìn phát triển đến năm 2045, kỷ niệm 100 năm thành lập nước Cộng hoà xã hội chủ nghĩa Việt Nam (1945 - 2045).

Bài viết mới nhất

Tổng Bí thư Tô Lâm: Phát huy trí tuệ tập thể, sớm đưa tinh thần Đại hội XIV vào cuộc sống

Bầu cử đại biểu Quốc hội khóa XVI và đại biểu HĐND các cấp nhiệm kỳ 2026-2031

Tổng số đơn vị bầu cử đại biểu Quốc hội khóa XVI trong cả nước là 182. Số đơn vị bầu cử, danh sách các đơn vị bầu cử và số lượng đại biểu Quốc hội được bầu ở mỗi đơn vị bầu cử của các tỉnh, thành phố được ấn định...

Bài viết mới nhất

Nghệ An chủ động ứng dụng mạnh mẽ chuyển đổi số phục vụ công tác bầu cử

Giá vàng trong nước và thế giới

VnEconomy cập nhật giá vàng trong nước & thế giới hôm nay: SJC, 9999, giá vàng USD/oz, biến động giá vàng tăng, giảm - phân tích, dự báo & dữ liệu lịch sử.

Bài viết mới nhất

Giá vàng “thoát hiểm” nhờ đồng USD giảm, SPDR Gold Trust vẫn bán ròng

VnEconomy Interactive

Interactive là một sản phẩm báo chí mới của VnEconomy vừa được ra mắt bạn đọc từ đầu tháng 3/2023 đã gây ấn tượng mạnh với độc giả bởi sự mới lạ, độc đáo. Đây cũng là sản phẩm độc quyền chỉ có trên VnEconomy.

Bài viết mới nhất

[Interactive]: Toàn cảnh kinh tế Việt Nam tháng 2/2026

Trợ lý thông tin kinh tế Askonomy - Asko Platform

Trong kỷ nguyên trí tuệ nhân tạo, đặc biệt là generative AI, phát triển mạnh mẽ, Tạp chí Kinh tế Việt Nam/VnEconomy đã tiên phong ứng dụng công nghê để mang đến trải nghiệm thông tin đột phá với chatbot AI Askonomy...