image Thứ Sáu, 13/03/2026

"Mô hình khen thưởng" của DeepSeek giúp AI thực sự hiểu con người

Sơn Trần

15/04/2025

Chia sẻ

DeepSeek đang phát triển hệ thống phản hồi AI mới, giúp trí tuệ nhân tạo hiểu người dùng hơn…

DeepSeek đang thay đổi cách AI học hỏi sở thích từ con người.
DeepSeek đang thay đổi cách AI học hỏi sở thích từ con người.

Công ty trí tuệ nhân tạo DeepSeek (Trung Quốc) vừa giới thiệu một phương pháp mới cho hệ thống phản hồi AI, có thể thay đổi cách AI học hỏi từ sở thích con người, theo Tech Wire Asia.

Hợp tác với nhóm nghiên cứu từ Đại học Thanh Hoa, đổi mới của DeepSeek nhằm giải quyết một trong những thách thức lớn nhất trong phát triển AI: dạy máy móc hiểu được con người thật sự muốn gì. 

Bước đột phá này được trình bày trong nghiên cứu mang tên “Inference-Time Scaling for Generalist Reward Modeling”, giới thiệu một kỹ thuật giúp AI phản hồi chính xác và hiệu quả hơn - bước tiến kép trong lĩnh vực AI, nơi hiệu suất tốt hơn thường đòi hỏi thêm sức mạnh tính toán.

DẠY AI HIỂU ĐƯỢC SỞ THÍCH CỦA CON NGƯỜI

Cốt lõi của đổi mới là cách tiếp cận đối với “mô hình khen thưởng” - cơ chế phản hồi hướng dẫn quá trình học hỏi của hệ thống AI. Có thể ví mô hình khen thưởng như những “giáo viên số”: mỗi khi AI đưa ra phản hồi, mô hình sẽ đánh giá chất lượng phản hồi đó, giúp AI cải thiện dần theo thời gian. Thách thức lớn nằm ở việc tạo ra mô hình khen thưởng có thể phản ánh chính xác sở thích con người trên nhiều loại câu hỏi khác nhau.

DeepSeek đã kết hợp hai kỹ thuật, bao gồm Generative Reward Modeling (GRM) và Self-Principled Critique Tuning (SPCT). Trong khi GRM sử dụng ngôn ngữ để biểu thị phần thưởng, cung cấp phản hồi phong phú hơn so với phương pháp cũ vốn chỉ dựa vào điểm số đơn giản, thì SPCT cho phép AI tự động tạo ra nguyên tắc và phản biện thông qua học tăng cường trực tuyến.

Ông Zijun Liu, nhà nghiên cứu tại Đại học Thanh Hoa và DeepSeek-AI, đồng tác giả nghiên cứu, cho biết sự kết hợp này giúp “hệ thống nguyên tắc được tạo ra dựa trên truy vấn và phản hồi đầu vào, từ đó điều chỉnh linh hoạt quá trình tạo phần thưởng”.

Điểm nổi bật trong phương pháp của DeepSeek là khái niệm “mở rộng tại thời điểm suy luận”. Thay vì yêu cầu thêm sức mạnh tính toán trong quá trình huấn luyện, phương pháp này cho phép cải thiện hiệu suất ngay tại thời điểm AI được sử dụng, hay còn gọi là "điểm suy luận".

Các nhà nghiên cứu chứng minh rằng, phương pháp của họ đạt kết quả tốt hơn khi tăng cường việc lấy mẫu trong giai đoạn suy luận, giúp mô hình nhỏ đạt được hiệu suất tương đương với những mô hình lớn. 

Bước đột phá về hiệu suất này xuất hiện đúng lúc ngành AI đang đối mặt với lo ngại về tính bền vững, chuỗi cung ứng và khả năng tiếp cận trong bối cảnh cuộc đua xây dựng mô hình ngày càng nóng.

TƯƠNG LAI CỦA AI SẼ RA SAO?

Sáng kiến mới của DeepSeek trong hệ thống phản hồi AI có thể mang lại những tác động sâu rộng. Chẳng hạn, mô hình khen thưởng tốt giúp hệ thống AI nhận được phản hồi chính xác hơn, từ đó cải thiện chất lượng phản hồi theo thời gian.

Khả năng mở rộng tại thời điểm sử dụng cho phép AI thích nghi với nhiều điều kiện tính toán khác nhau, từ đó hiệu suất được tối ưu hóa. Hơn nữa, nhờ cải tiến mô hình khen thưởng trong lĩnh vực tổng quát, hệ thống AI có thể xử lý tốt hơn nhiều loại tác vụ.

Nếu mô hình nhỏ có thể đạt hiệu suất tương đương mô hình lớn nhờ phương pháp suy luận tối ưu, việc phát triển AI sẽ trở nên dễ tiếp cận hơn với những người có nguồn lực hạn chế.

Ông Liang Wenfeng, nhà sáng lập DeepSeek.
Ông Liang Wenfeng, nhà sáng lập DeepSeek.

Tiến bộ mới nhất tiếp tục củng cố vị thế của DeepSeek trong lĩnh vực AI. Dù mới thành lập vào năm 2023 bởi doanh nhân Liang Wenfeng, công ty có trụ sở tại Hàng Châu đã nhanh chóng tạo dấu ấn với mô hình nền tảng V3 và mô hình suy luận R1. 

Gần đây, DeepSeek nâng cấp phiên bản V3 (DeepSeek-V3-0324), được quảng bá là có “năng lực suy luận vượt trội, tối ưu hóa phát triển giao diện web và cải thiện khả năng viết tiếng Trung”.

DeepSeek cũng cam kết cho mã nguồn mở công nghệ AI. Tháng 2/2025, công ty công khai 5 kho mã nguồn, cho phép nhà phát triển đánh giá và đóng góp vào quá trình phát triển phần mềm.

Theo nghiên cứu mới công bố, DeepSeek dự định mở mã nguồn mô hình GRM, dù chưa ấn định thời gian cụ thể. Động thái này có thể đẩy nhanh tiến trình phát triển trong lĩnh vực, nhờ vào việc mở rộng phạm vi thử nghiệm với hệ thống phản hồi AI tiên tiến.

KHÔNG CHỈ LÀ CUỘC ĐUA MÔ HÌNH LỚN

Khi AI tiếp tục phát triển với tốc độ chóng mặt, bước tiến của DeepSeek cho thấy việc đổi mới cách học cho mô hình quan trọng không kém việc tăng quy mô. Bằng cách tập trung vào chất lượng và khả năng mở rộng của hệ thống phản hồi, DeepSeek đang giải quyết một trong những thách thức lớn: tạo ra AI có khả năng thấu hiểu và phù hợp hơn với mong muốn thực sự của con người.

Đột phá tiềm năng này cho thấy tương lai của AI không chỉ phụ thuộc vào sức mạnh tính toán thuần túy, mà còn nằm ở những phương pháp thông minh, hiệu quả - có thể nắm bắt tinh tế sở thích và hành vi của con người.


Trung Quốc phát triển transistor 1 nm nhỏ nhất thế giới, hứa hẹn định hình chip AI thế hệ mới

Các nhà nghiên cứu tại Đại học Bắc Kinh đã phát triển transistor ferroelectric có cổng chỉ 1 nanomet – nhỏ nhất và tiết kiệm năng lượng nhất hiện nay...

16:23 06/03/2026
Kế hoạch 5 năm mới của Trung Quốc nhấn mạnh vào AI, 6G, robot hình người, điện toán lượng tử

Kế hoạch 5 năm được công bố cùng thời điểm khai mạc kỳ họp Quốc hội của Trung Quốc cho thấy tham vọng Bắc Kinh trong việc giành “vị trí chỉ huy” trong cuộc cạnh tranh công nghệ toàn cầu…

16:22 06/03/2026
Việt Nam tiên phong tại Đông Nam Á với khung pháp lý AI toàn diện đầu tiên trong khu vực

Tạp chí Mugglehead nhận định, bước đi này đưa Việt Nam vào vị thế dẫn trước các nước láng giềng ASEAN trong việc quản lý sự phát triển nhanh chóng của trí tuệ nhân tạo...

10:24 06/03/2026
Huawei trình làng siêu máy tính AI mạnh nhất, thách thức Nvidia trên sân chơi toàn cầu

Lần đầu tiên mang hệ thống Atlas 950 SuperPoD ra ngoài Trung Quốc, Huawei phát tín hiệu quay lại cuộc đua điện toán AI toàn cầu, tự tin có thể cạnh tranh với Nvidia bằng chiến lược “cụm siêu tính toán” thay vì sức mạnh từng con chip đơn lẻ…

22:55 03/03/2026
Bước đột phá công nghệ có thể tạo ra những con chip silicon nhỏ nhất

Khung kim loại – hữu cơ trở thành chất cản quang lý tưởng mới, mở ra khả năng tạo ra những con chip mới nhỏ hơn, có hiệu năng tốt hơn…

22:55 03/03/2026
Hà Nội ra mắt Trung tâm Đổi mới Sáng tạo thế hệ mới

Sự kiện mở ra mô hình hợp tác mới giữa Nhà nước - Nhà trường - Doanh nghiệp nhằm thúc đẩy đổi mới sáng tạo, phát triển hệ sinh thái khởi nghiệp công nghệ và hình thành động lực tăng trưởng dựa trên tri thức cho Hà Nội trong giai đoạn mới…

21:49 27/02/2026
Mạng xã hội "gây nghiện" là do thuật toán?

Các tính năng quen thuộc như lướt (infinite scroll), video tự động phát (autoplay), thông báo liên tục và bảng tin cá nhân hóa đang bị cho là có tính cưỡng ép hành vi sử dụng mạng xã hội…

21:48 27/02/2026
Nhóm nghiên cứu của Trung Quốc công bố tìm ra vật liệu bán dẫn mới

Những vật liệu thế hệ mới có thể mang lại hiệu năng vượt trội cho các dòng chip chiến lược…

18:57 26/02/2026
Hành trình của robot hình người Trung Quốc: Từ vấp ngã đến nhào lộn đẳng cấp chỉ trong một năm

Robot hình người Trung Quốc vừa gây ấn tượng mạnh tại Spring Festival Gala hồi đầu tuần trước, làm thay đổi rõ rệt cảm nhận của công chúng…

10:37 25/02/2026
OpenAI quyết định khai tử mô hình mô hình 4o vì quá nịnh nọt người dùng?

Mô hình 4o của ChatGPT được rất nhiều người dùng ưa chuộng nhưng đây cũng có nhiều tranh cãi liên quan đến xu hướng trả lời nịnh nọt và những tác hại…

10:23 24/02/2026