image Thứ Tư, 01/04/2026

Microsoft, TikTok cung cấp loại bộ nhớ đặc biệt cho hệ thống AI tạo sinh

04/07/2023

Chia sẻ

Vừa qua, Microsoft và TikTok đã ra mắt “Hệ thống bộ nhớ tự kiểm soát”—ngân hàng dữ liệu gồm hàng trăm đoạn hội thoại và hàng nghìn ký tự nhằm tăng cường mô hình ngôn ngữ của họ…

 Microsoft, TikTok cung cấp loại bộ nhớ đặc biệt cho hệ thống AI tạo sinh
Microsoft, TikTok cung cấp loại bộ nhớ đặc biệt cho hệ thống AI tạo sinh

Khi người dùng nhập nội dung vào chương trình trí tuệ nhân tạo (AI) tạo sinh như ChatGPT, chương trình sẽ phản hồi không chỉ dựa trên những gì họ đã hỏi mà còn dựa trên lịch sử trò chuyện trước đó. Tuy nhiên, theo một số nhà nghiên cứu, các tổ chức cần tiếp tục trang bị thêm cho AI một bộ nhớ có thể nâng cấp đầu ra của câu trả lời. 

MỞ RỘNG GIỚI HẠN KÝ TỰ ĐẦU VÀO ĐÒI HỎI NHỮNG TÍNH TOÁN PHỨC TẠP

Trong một bài báo với tiêu đề “Tăng cường các mô hình ngôn ngữ bằng trí nhớ dài hạn” của nhà nghiên cứu Weizhi Wang (Đại học California) và các đồng nghiệp tại Microsoft, họ nhận định: “Giới hạn ký tự đầu vào của LLM đang ngăn cản khả năng xử lý thông tin của chúng”. 

Ví dụ, GPT-3 của OpenAI chỉ nhận đầu vào khoảng 2.000 mã thông báo, chính vì vậy, nếu người dùng cung cấp cho chương trình một bài báo khoảng 5.000 từ, hoặc một cuốn tiểu thuyết 70.000 từ, hệ thống không thể xử lý thông tin. Bên cạnh đó, một vấn đề cũng đáng chú ý là thời gian phản hồi của các chương trình ngôn ngữ lớn, bao gồm ChatGPT và GPT-4 hiện được đòi hỏi sẽ tăng lên theo bình phương của lượng dữ liệu đầu vào được cung cấp.

Chính vì vậy, Wang và nhóm nghiên cứu cho biết, một số học giả đã cố gắng tạo ra ký ức thô cho hệ thống trí tuệ nhân tạo. Yuhui Wu và các đồng nghiệp tại Google năm ngoái đã giới thiệu Memorizing Transformer, khu vực lưu trữ bản sao của các câu trả lời trước đó có thể sử dụng trong tương lai. Khu vực này cho phép hoạt động trên 65.000 mã thông báo cùng một lúc.

Tuy nhiên, các nhà nghiên cứu cũng cho rằng dữ liệu có thể bị “lỗi thời”. Quá trình đào tạo biến đổi bộ nhớ khiến một số dữ liệu không thể đồng bộ với mạng thần kinh khi các trọng số hoặc tham số được cập nhật. Chình vì vậy, giải pháp của Wang và nhóm là xây dựng “mô hình ngôn ngữ nâng cao với trí nhớ dài hạn” hay còn gọi là LONGMEM. Theo đó, khi hệ thống kiểm tra đầu vào, LongMem sẽ lưu trữ một số dữ liệu vào trong ngân hàng bộ nhớ đồng thời hệ thống cũng gửi đầu ra đến một mạng thần kinh khác, được gọi là SideNet.

SideNet là hệ thống bộ nhớ và mạng thần kinh phụ để lưu trữ và xử lý thông tin dài hạn, từ đó cung cấp ngữ cảnh rõ ràng hơn cho các mô hình ngôn ngữ. SideNet có thể giao nhiệm vụ so sánh lời nhắc mà người dùng vừa nhập với nội dung của bộ nhớ để xem liệu có sự trùng khớp liên quan hay không. Không giống như Memory Transformer, SideNet có thể được đào tạo riêng ngoài mô hình ngôn ngữ chính. Bằng cách này, việc chọn nội dung trong bộ nhớ sẽ ngày càng tốt hơn và không bị cũ.

Wang và nhóm đã chạy thử nghiệm để so sánh LongMem với Memorizing Transformer và mô hình ngôn ngữ GPT-2 của OpenAI. Họ cũng so sánh LongMEM với các kết quả được báo cáo từ tài liệu cho các mô hình ngôn ngữ khác, bao gồm cả tham số 175 tỷ của GPT-3.

Họ sử dụng các tác vụ dựa trên ba bộ dữ liệu về tóm tắt các văn bản dài, bao gồm toàn bộ bài báo và sách giáo khoa: Project Gutenberg, máy chủ tệp arXiv và ChapterBreak. Khi Sun và nhóm thực hiện bài kiểm tra xác định xem đoạn nào là bắt đầu của chương tiếp theo trong Chapterbreak, kết quả cho thấy các mô hình ngôn ngữ đang không thực sự hiệu quả, chẳng hạn, GPT-3 chỉ đúng 28% thời gian. 

Thế nhưng, chương trình LongMEM đã tạo ra bất ngờ, khi có thể đánh bại tất cả các mô hình ngôn ngữ tiêu chuẩn với điểm số cao nhất là 40,5%, mặc dù LongMEM chỉ có 600 triệu ký tự ít hơn nhiều so với 175 tỷ ký tự của GPT-3.

Wang và nhóm nghiên cứu viết: “Những cải tiến đáng kể trên các bộ dữ liệu này chứng minh rằng LONGMEM có thể hiểu ngữ cảnh dài trong bộ nhớ đệm để hoàn thành tốt việc mô hình hóa ngôn ngữ cho các đầu vào trong tương lai”. 

BỘ NHỚ TRONG HỆ THỐNG AI CỦA BYTEDANCE ĐƯỢC ĐÁNH GIÁ TỐT HƠN CHAT GPT  

Trong một bài báo đăng trên arXiv vào tháng 4 với tiêu đề “Giải phóng khả năng nhập liệu vô hạn cho các mô hình ngôn ngữ lớn với hệ thống bộ nhớ tự điều khiển”, nhà nghiên cứu Xinnian Liang của ByteDance và các đồng nghiệp đã phát triển một chương trình bổ sung mang giúp mô hình ngôn ngữ lớn của họ tăng khả năng lưu trữ các chuỗi dài hơn. 

Trong một “hệ thống bộ nhớ tự kiểm soát” hay còn được gọi là SCM, đầu vào do người dùng nhập tại dấu nhắc được bộ điều khiển bộ nhớ đánh giá để xem liệu nó có yêu cầu nhúng vào hệ thống bộ nhớ lưu trữ được gọi là luồng bộ nhớ hay không. Nó giống như SideNet của Wang và nhóm và ngân hàng bộ nhớ đi kèm. 

Nếu cần bộ nhớ, kho lưu trữ các đầu vào trước đó được truy cập thông qua các công cụ cơ sở dữ liệu vectơ như PineCone. Dữ liệu đầu vào của người dùng là một truy vấn và nó được so khớp để phù hợp với cơ sở dữ liệu.

 Một số truy vấn của người dùng không yêu cầu bộ nhớ, chẳng hạn như “kể cho tôi nghe một câu chuyện cười”, đây là một yêu cầu ngẫu nhiên mà bất kỳ mô hình ngôn ngữ nào cũng có thể xử lý. Nhưng yêu cầu “Bạn có nhớ kết luận mà chúng tôi đã đưa ra vào tuần trước về chế độ ăn kiêng thể dục không?” là yêu cầu truy cập vào nội dung trò chuyện trước đó.

Nói một cách ngắn gọn, lời nhắc của người dùng và bộ nhớ truy xuất được kết hợp trong “kết hợp đầu vào” và văn bản được kết hợp này trở thành đầu vào cho mô hình ngôn ngữ mà nó tạo ra phản hồi.  

Kết quả cuối cùng là SCM có thể dẫn đầu ChatGPT trong các nhiệm vụ liên quan đến việc tham chiếu lại hàng trăm lượt trước đó trong một cuộc đối thoại, Liang và nhóm viết. Họ đã kết nối SCM của mình với một phiên bản GPT-3, được gọi là text-davinci-003 và kiểm tra hiệu suất của nó với cùng một đầu vào so với ChatGPT.

Trong một chuỗi bao gồm 4.000 mã thông báo, khi người dùng tìm kiếm sở thích từng được họ thảo luận trước đó, “hệ thống SCM cung cấp phản hồi chính xác cho truy vấn, thể hiện trí nhớ đặc biệt”, trong khi “ngược lại, có vẻ ChatGPT bị phân tâm bởi một lượng đáng kể dữ liệu lịch sử không liên quan”. 

SCM cũng có thể tạo ra các bản tóm tắt hàng nghìn từ cho các văn bản dài chẳng hạn như báo cáo công việc. Nó thực hiện điều này bằng cách tóm tắt đệ quy văn bản, nghĩa là lưu trữ phần tóm tắt đầu tiên trong một luồng bộ nhớ, sau đó kết hợp phần tóm tắt trước đó với phần tóm tắt tiếp theo, v.v.

SCM cũng có thể xây dựng các mô hình ngôn ngữ lớn không phải chatbot có thể hoạt động giống như bot trò chuyện. “Kết quả thử nghiệm cho thấy hệ thống SCM của chúng tôi cho phép các LLM, vốn không được tối ưu hóa cho đối thoại nhiều lượt, đạt được khả năng đối thoại nhiều lượt tương đương với ChatGPT”, họ viết.

Công việc của cả Microsoft và TikTok có thể được coi là phần mở rộng của mục đích ban đầu của mô hình ngôn ngữ. Trước ChatGPT và tiền thân của nó, Transformer của Google, các tác vụ ngôn ngữ tự nhiên thường được gọi là mạng thần kinh hồi quy hoặc RNN. Mạng thần kinh hồi quy là một loại thuật toán có thể quay lại dữ liệu đầu vào trước đó để so sánh nó với đầu vào hiện tại. 

Transformer và LLM chẳng hạn như ChatGPT đã thay thế RNN bằng cách tiếp cận đơn giản hơn — sự chú ý. Sự chú ý tự động so sánh mọi thứ đã nhập với mọi thứ đã nhập trước đó, để quá khứ luôn được đưa vào sử dụng.

Do đó, công việc nghiên cứu của Microsoft và TikTok chỉ đơn giản là mở rộng sự chú ý bằng các thuật toán được tạo ra một cách rõ ràng để gợi lại các yếu tố của quá khứ theo cách có tổ chức hơn.

Việc bổ sung bộ nhớ sẽ sớm trở thành tiêu chuẩn của các mô hình ngôn ngữ lớn trong tương lai, giúp các chương trình có thể tham khảo nội dung trước đó, chẳng hạn như lịch sử trò chuyện hoặc để giải quyết bộ nhớ dài hơn chẳng hạn toàn bộ văn bản của các tác phẩm rất dài.


Siri của Apple có thể chuyển hướng thành trợ lý AI cấp hệ thống

Siri có thể hoạt động như một tác nhân AI xử lý tác vụ xuyên suốt nhiều ứng dụng thông qua ngữ cảnh cá nhân…

09:55 31/03/2026
Cuộc đua giao diện não - máy: Mỹ hụt hơi trước Trung Quốc sau hai thập kỷ dẫn dắt

Đầu tháng này, công ty Neuracle Medical Technology đã chính thức nhận được phê duyệt thương mại cho một thiết bị BCI. Trong khi đó, tại Mỹ, các thiết bị BCI xâm lấn vẫn chưa được phê duyệt thương mại...

14:27 30/03/2026
Sách giáo khoa điện tử mở rộng cơ hội học tập cho học sinh khiếm thị

Học sinh khiếm thị tại Việt Nam đang có nhiều cơ hội học tập độc lập hơn và tham gia tích cực hơn trong lớp học nhờ việc tiếp cận sách giáo khoa điện tử...

09:36 28/03/2026
OpenAI đột ngột "khai tử" ứng dụng tạo video Sora

Bất chấp việc ký thỏa thuận kéo dài ba năm với The Walt Disney Company cho phép người dùng tạo video với hơn 200 nhân vật Disney, OpenAI vẫn đóng cửa ứng dụng từng làm mưa làm gió Sora…

13:30 26/03/2026
OpenClaw được Trung Quốc phổ cập rộng rãi tới người dùng đại chúng

Trung Quốc đang đẩy mạnh phổ cập trí tuệ nhân tạo trên quy mô lớn, và các “big tech” công nghệ nước này đang trực tiếp tổ chức nhiều sự kiện công khai để giúp người dân tiếp cận OpenClaw – trợ lý số cá nhân đang gây sốt…

07:59 25/03/2026
Tokenomics: “Nền kinh tế token” đang nhanh chóng nổi lên trong kỷ nguyên AI

Khi trí tuệ nhân tạo bước vào giai đoạn thương mại hóa quy mô lớn, “token” – đơn vị dữ liệu nhỏ nhất mà mô hình AI xử lý – đang nổi lên như một loại hàng hóa mới...

23:57 24/03/2026
Từ vệ tinh đến trung tâm dữ liệu ngoài không gian: Kinh tế LEO đang hút hàng tỷ USD đầu tư

Hơn 400 tỷ USD đã được đầu tư vào nền kinh tế không gian kể từ năm 2009, theo Space Capital. Các chuyên gia cho rằng ngành này vẫn đang ở “giai đoạn đầu của một chu kỳ hạ tầng kéo dài nhiều thập kỷ”...

15:07 23/03/2026
Australia công bố nguyên mẫu pin lượng tử đầu tiên: Bước tiến lớn hướng tới sạc siêu nhanh

Các nhà khoa học Australia vừa phát triển nguyên mẫu pin lượng tử đầu tiên trên thế giới, mở ra loạt ứng dụng đột phá, giúp xe điện sạc pin nhanh hơn cả thời gian đổ xăng vào xe chạy xăng...

10:41 22/03/2026
Bất động sản Việt Nam 2026: Khi Quản trị dữ liệu và ESG trở thành "hệ điều hành" mới

Trong bối cảnh thị trường bất động sản đang chuyển mình mạnh mẽ, việc tối ưu hóa dữ liệu công trình và các tiêu chuẩn bền vững (ESG) không còn là những khái niệm xa xỉ mà đã trở thành động lực tăng trưởng cốt lõi...

18:46 19/03/2026
Robot Trung Quốc tăng tốc với OpenClaw

Trung Quốc đang chứng kiến sự hội tụ nhanh chóng giữa trí tuệ nhân tạo và robot, khi các tác tử AI như OpenClaw được đưa vào thế giới vật lý…

16:29 19/03/2026