image Thứ Năm, 05/03/2026

Microsoft, TikTok cung cấp loại bộ nhớ đặc biệt cho hệ thống AI tạo sinh

04/07/2023

Chia sẻ

Vừa qua, Microsoft và TikTok đã ra mắt “Hệ thống bộ nhớ tự kiểm soát”—ngân hàng dữ liệu gồm hàng trăm đoạn hội thoại và hàng nghìn ký tự nhằm tăng cường mô hình ngôn ngữ của họ…

 Microsoft, TikTok cung cấp loại bộ nhớ đặc biệt cho hệ thống AI tạo sinh
Microsoft, TikTok cung cấp loại bộ nhớ đặc biệt cho hệ thống AI tạo sinh

Khi người dùng nhập nội dung vào chương trình trí tuệ nhân tạo (AI) tạo sinh như ChatGPT, chương trình sẽ phản hồi không chỉ dựa trên những gì họ đã hỏi mà còn dựa trên lịch sử trò chuyện trước đó. Tuy nhiên, theo một số nhà nghiên cứu, các tổ chức cần tiếp tục trang bị thêm cho AI một bộ nhớ có thể nâng cấp đầu ra của câu trả lời. 

MỞ RỘNG GIỚI HẠN KÝ TỰ ĐẦU VÀO ĐÒI HỎI NHỮNG TÍNH TOÁN PHỨC TẠP

Trong một bài báo với tiêu đề “Tăng cường các mô hình ngôn ngữ bằng trí nhớ dài hạn” của nhà nghiên cứu Weizhi Wang (Đại học California) và các đồng nghiệp tại Microsoft, họ nhận định: “Giới hạn ký tự đầu vào của LLM đang ngăn cản khả năng xử lý thông tin của chúng”. 

Ví dụ, GPT-3 của OpenAI chỉ nhận đầu vào khoảng 2.000 mã thông báo, chính vì vậy, nếu người dùng cung cấp cho chương trình một bài báo khoảng 5.000 từ, hoặc một cuốn tiểu thuyết 70.000 từ, hệ thống không thể xử lý thông tin. Bên cạnh đó, một vấn đề cũng đáng chú ý là thời gian phản hồi của các chương trình ngôn ngữ lớn, bao gồm ChatGPT và GPT-4 hiện được đòi hỏi sẽ tăng lên theo bình phương của lượng dữ liệu đầu vào được cung cấp.

Chính vì vậy, Wang và nhóm nghiên cứu cho biết, một số học giả đã cố gắng tạo ra ký ức thô cho hệ thống trí tuệ nhân tạo. Yuhui Wu và các đồng nghiệp tại Google năm ngoái đã giới thiệu Memorizing Transformer, khu vực lưu trữ bản sao của các câu trả lời trước đó có thể sử dụng trong tương lai. Khu vực này cho phép hoạt động trên 65.000 mã thông báo cùng một lúc.

Tuy nhiên, các nhà nghiên cứu cũng cho rằng dữ liệu có thể bị “lỗi thời”. Quá trình đào tạo biến đổi bộ nhớ khiến một số dữ liệu không thể đồng bộ với mạng thần kinh khi các trọng số hoặc tham số được cập nhật. Chình vì vậy, giải pháp của Wang và nhóm là xây dựng “mô hình ngôn ngữ nâng cao với trí nhớ dài hạn” hay còn gọi là LONGMEM. Theo đó, khi hệ thống kiểm tra đầu vào, LongMem sẽ lưu trữ một số dữ liệu vào trong ngân hàng bộ nhớ đồng thời hệ thống cũng gửi đầu ra đến một mạng thần kinh khác, được gọi là SideNet.

SideNet là hệ thống bộ nhớ và mạng thần kinh phụ để lưu trữ và xử lý thông tin dài hạn, từ đó cung cấp ngữ cảnh rõ ràng hơn cho các mô hình ngôn ngữ. SideNet có thể giao nhiệm vụ so sánh lời nhắc mà người dùng vừa nhập với nội dung của bộ nhớ để xem liệu có sự trùng khớp liên quan hay không. Không giống như Memory Transformer, SideNet có thể được đào tạo riêng ngoài mô hình ngôn ngữ chính. Bằng cách này, việc chọn nội dung trong bộ nhớ sẽ ngày càng tốt hơn và không bị cũ.

Wang và nhóm đã chạy thử nghiệm để so sánh LongMem với Memorizing Transformer và mô hình ngôn ngữ GPT-2 của OpenAI. Họ cũng so sánh LongMEM với các kết quả được báo cáo từ tài liệu cho các mô hình ngôn ngữ khác, bao gồm cả tham số 175 tỷ của GPT-3.

Họ sử dụng các tác vụ dựa trên ba bộ dữ liệu về tóm tắt các văn bản dài, bao gồm toàn bộ bài báo và sách giáo khoa: Project Gutenberg, máy chủ tệp arXiv và ChapterBreak. Khi Sun và nhóm thực hiện bài kiểm tra xác định xem đoạn nào là bắt đầu của chương tiếp theo trong Chapterbreak, kết quả cho thấy các mô hình ngôn ngữ đang không thực sự hiệu quả, chẳng hạn, GPT-3 chỉ đúng 28% thời gian. 

Thế nhưng, chương trình LongMEM đã tạo ra bất ngờ, khi có thể đánh bại tất cả các mô hình ngôn ngữ tiêu chuẩn với điểm số cao nhất là 40,5%, mặc dù LongMEM chỉ có 600 triệu ký tự ít hơn nhiều so với 175 tỷ ký tự của GPT-3.

Wang và nhóm nghiên cứu viết: “Những cải tiến đáng kể trên các bộ dữ liệu này chứng minh rằng LONGMEM có thể hiểu ngữ cảnh dài trong bộ nhớ đệm để hoàn thành tốt việc mô hình hóa ngôn ngữ cho các đầu vào trong tương lai”. 

BỘ NHỚ TRONG HỆ THỐNG AI CỦA BYTEDANCE ĐƯỢC ĐÁNH GIÁ TỐT HƠN CHAT GPT  

Trong một bài báo đăng trên arXiv vào tháng 4 với tiêu đề “Giải phóng khả năng nhập liệu vô hạn cho các mô hình ngôn ngữ lớn với hệ thống bộ nhớ tự điều khiển”, nhà nghiên cứu Xinnian Liang của ByteDance và các đồng nghiệp đã phát triển một chương trình bổ sung mang giúp mô hình ngôn ngữ lớn của họ tăng khả năng lưu trữ các chuỗi dài hơn. 

Trong một “hệ thống bộ nhớ tự kiểm soát” hay còn được gọi là SCM, đầu vào do người dùng nhập tại dấu nhắc được bộ điều khiển bộ nhớ đánh giá để xem liệu nó có yêu cầu nhúng vào hệ thống bộ nhớ lưu trữ được gọi là luồng bộ nhớ hay không. Nó giống như SideNet của Wang và nhóm và ngân hàng bộ nhớ đi kèm. 

Nếu cần bộ nhớ, kho lưu trữ các đầu vào trước đó được truy cập thông qua các công cụ cơ sở dữ liệu vectơ như PineCone. Dữ liệu đầu vào của người dùng là một truy vấn và nó được so khớp để phù hợp với cơ sở dữ liệu.

 Một số truy vấn của người dùng không yêu cầu bộ nhớ, chẳng hạn như “kể cho tôi nghe một câu chuyện cười”, đây là một yêu cầu ngẫu nhiên mà bất kỳ mô hình ngôn ngữ nào cũng có thể xử lý. Nhưng yêu cầu “Bạn có nhớ kết luận mà chúng tôi đã đưa ra vào tuần trước về chế độ ăn kiêng thể dục không?” là yêu cầu truy cập vào nội dung trò chuyện trước đó.

Nói một cách ngắn gọn, lời nhắc của người dùng và bộ nhớ truy xuất được kết hợp trong “kết hợp đầu vào” và văn bản được kết hợp này trở thành đầu vào cho mô hình ngôn ngữ mà nó tạo ra phản hồi.  

Kết quả cuối cùng là SCM có thể dẫn đầu ChatGPT trong các nhiệm vụ liên quan đến việc tham chiếu lại hàng trăm lượt trước đó trong một cuộc đối thoại, Liang và nhóm viết. Họ đã kết nối SCM của mình với một phiên bản GPT-3, được gọi là text-davinci-003 và kiểm tra hiệu suất của nó với cùng một đầu vào so với ChatGPT.

Trong một chuỗi bao gồm 4.000 mã thông báo, khi người dùng tìm kiếm sở thích từng được họ thảo luận trước đó, “hệ thống SCM cung cấp phản hồi chính xác cho truy vấn, thể hiện trí nhớ đặc biệt”, trong khi “ngược lại, có vẻ ChatGPT bị phân tâm bởi một lượng đáng kể dữ liệu lịch sử không liên quan”. 

SCM cũng có thể tạo ra các bản tóm tắt hàng nghìn từ cho các văn bản dài chẳng hạn như báo cáo công việc. Nó thực hiện điều này bằng cách tóm tắt đệ quy văn bản, nghĩa là lưu trữ phần tóm tắt đầu tiên trong một luồng bộ nhớ, sau đó kết hợp phần tóm tắt trước đó với phần tóm tắt tiếp theo, v.v.

SCM cũng có thể xây dựng các mô hình ngôn ngữ lớn không phải chatbot có thể hoạt động giống như bot trò chuyện. “Kết quả thử nghiệm cho thấy hệ thống SCM của chúng tôi cho phép các LLM, vốn không được tối ưu hóa cho đối thoại nhiều lượt, đạt được khả năng đối thoại nhiều lượt tương đương với ChatGPT”, họ viết.

Công việc của cả Microsoft và TikTok có thể được coi là phần mở rộng của mục đích ban đầu của mô hình ngôn ngữ. Trước ChatGPT và tiền thân của nó, Transformer của Google, các tác vụ ngôn ngữ tự nhiên thường được gọi là mạng thần kinh hồi quy hoặc RNN. Mạng thần kinh hồi quy là một loại thuật toán có thể quay lại dữ liệu đầu vào trước đó để so sánh nó với đầu vào hiện tại. 

Transformer và LLM chẳng hạn như ChatGPT đã thay thế RNN bằng cách tiếp cận đơn giản hơn — sự chú ý. Sự chú ý tự động so sánh mọi thứ đã nhập với mọi thứ đã nhập trước đó, để quá khứ luôn được đưa vào sử dụng.

Do đó, công việc nghiên cứu của Microsoft và TikTok chỉ đơn giản là mở rộng sự chú ý bằng các thuật toán được tạo ra một cách rõ ràng để gợi lại các yếu tố của quá khứ theo cách có tổ chức hơn.

Việc bổ sung bộ nhớ sẽ sớm trở thành tiêu chuẩn của các mô hình ngôn ngữ lớn trong tương lai, giúp các chương trình có thể tham khảo nội dung trước đó, chẳng hạn như lịch sử trò chuyện hoặc để giải quyết bộ nhớ dài hơn chẳng hạn toàn bộ văn bản của các tác phẩm rất dài.


Huawei trình làng siêu máy tính AI mạnh nhất, thách thức Nvidia trên sân chơi toàn cầu

Lần đầu tiên mang hệ thống Atlas 950 SuperPoD ra ngoài Trung Quốc, Huawei phát tín hiệu quay lại cuộc đua điện toán AI toàn cầu, tự tin có thể cạnh tranh với Nvidia bằng chiến lược “cụm siêu tính toán” thay vì sức mạnh từng con chip đơn lẻ…

22:55 03/03/2026
Bước đột phá công nghệ có thể tạo ra những con chip silicon nhỏ nhất

Khung kim loại – hữu cơ trở thành chất cản quang lý tưởng mới, mở ra khả năng tạo ra những con chip mới nhỏ hơn, có hiệu năng tốt hơn…

22:55 03/03/2026
Hà Nội ra mắt Trung tâm Đổi mới Sáng tạo thế hệ mới

Sự kiện mở ra mô hình hợp tác mới giữa Nhà nước - Nhà trường - Doanh nghiệp nhằm thúc đẩy đổi mới sáng tạo, phát triển hệ sinh thái khởi nghiệp công nghệ và hình thành động lực tăng trưởng dựa trên tri thức cho Hà Nội trong giai đoạn mới…

21:49 27/02/2026
Mạng xã hội "gây nghiện" là do thuật toán?

Các tính năng quen thuộc như lướt (infinite scroll), video tự động phát (autoplay), thông báo liên tục và bảng tin cá nhân hóa đang bị cho là có tính cưỡng ép hành vi sử dụng mạng xã hội…

21:48 27/02/2026
Nhóm nghiên cứu của Trung Quốc công bố tìm ra vật liệu bán dẫn mới

Những vật liệu thế hệ mới có thể mang lại hiệu năng vượt trội cho các dòng chip chiến lược…

18:57 26/02/2026
Hành trình của robot hình người Trung Quốc: Từ vấp ngã đến nhào lộn đẳng cấp chỉ trong một năm

Robot hình người Trung Quốc vừa gây ấn tượng mạnh tại Spring Festival Gala hồi đầu tuần trước, làm thay đổi rõ rệt cảm nhận của công chúng…

10:37 25/02/2026
OpenAI quyết định khai tử mô hình mô hình 4o vì quá nịnh nọt người dùng?

Mô hình 4o của ChatGPT được rất nhiều người dùng ưa chuộng nhưng đây cũng có nhiều tranh cãi liên quan đến xu hướng trả lời nịnh nọt và những tác hại…

10:23 24/02/2026
Động cơ máy bay trở thành “nguồn phát điện mới” cho cơn khát AI

AI khiến các trung tâm dữ liệu cần nguồn điện khổng lồ và nhanh chóng, các nhà sản xuất truyền thống chưa kịp phản ứng và đã khoảng trống cho những “tay chơi” mới…

22:50 23/02/2026
CMC đặt mục tiêu đẩy mạnh chiến lược đi ra toàn cầu năm 2026

Bước sang năm 2026, Tập đoàn CMC đẩy mạnh chiến lược "Go Global" với mục tiêu thiết lập sự hiện diện vững chắc tại các thị trường công nghệ trọng điểm…

22:49 23/02/2026
Startup tạo bước ngoặt với pin giấy sinh học: Không lithium, không cháy nổ, có thể phân hủy hoàn toàn

Pin giấy có chi phí sản xuất thấp, dễ mở rộng quy mô và không phụ thuộc vào chuỗi cung ứng khoáng sản tập trung toàn cầu. Đây là yếu tố chiến lược trong bối cảnh các quốc gia ngày càng quan tâm đến an ninh năng lượng và tự chủ công nghệ...

14:33 13/02/2026