Google mới đây đã giới thiệu TurboQuant, thuật toán nén dữ liệu giúp giảm dung lượng bộ nhớ, từ đó tối ưu chi phí vận hành các mô hình AI. Đột phá này được giới chuyên gia đánh giá có thể góp phần giải quyết bài toán “thiếu bộ nhớ” trên quy mô toàn cầu.
Theo công bố, giải pháp này có thể giúp giảm kích thước bộ nhớ đệm dùng trong các mô hình ngôn ngữ lớn (LLM) xuống ít nhất 6 lần.
Bên cạnh khả năng tiết kiệm tài nguyên, TurboQuant còn được cho là có thể cải thiện tốc độ xử lý của AI lên tới 8 lần. Điều thú vị là Google tuyên bố những cải tiến này không làm giảm độ chính xác trong suy luận của các mô hình.
Về cơ chế, TurboQuant tập trung tối ưu bộ nhớ đệm, nơi lưu trữ các thông tin được truy xuất thường xuyên để máy tính suy luận mà không phải tìm kiếm lại thông qua cơ sở dữ liệu lớn. Khi các cuộc hội thoại kéo dài, lượng dữ liệu tích lũy trong bộ nhớ này tăng nhanh, kéo theo nhu cầu RAM lớn hơn từ đó mô hình sẽ chạm ngưỡng giới hạn dữ liệu.
Đây chính là rào cản khi sử dụng mô hình AI trên các thiết bị phổ thông như điện thoại hay máy tính xách tay có phần cứng lưu trữ hạn chế. Khi tràn bộ nhớ, hệ thống AI có thể bị treo thậm chí bị sập.
Trong bối cảnh đó, TurboQuant được xem là giải pháp mang tính cấu trúc. Thay vì phụ thuộc vào nâng cấp phần cứng, công nghệ này tác động trực tiếp vào cách dữ liệu được lưu trữ, nén bộ nhớ xuống chỉ còn khoảng một phần sáu so với trước đây nhưng vẫn đảm bảo khả năng truy xuất và độ chính xác của mô hình.
Đáng chú ý hơn, công nghệ này đang được chuyển dịch sang chip Apple Silicon. Điều này có nghĩa là những mô hình AI khổng lồ vốn chỉ chạy được trên máy chủ nay có thể vận hành mượt mà ngay trên một chiếc MacBook.
Trong một bài đăng trên nền tảng X, nhóm Google Research nhận định TurboQuant có thể “định nghĩa lại hiệu quả của AI” khi đồng thời giải quyết bài toán giảm tài nguyên bộ nhớ, tăng tốc độ xử lý và duy trì độ chính xác trong suy luận.
Nếu được ứng dụng rộng rãi, TurboQuant sẽ trở thành mảnh ghép quan trọng trong tối ưu chi phí phát triển AI. Tại các trung tâm dữ liệu vốn phụ thuộc lớn vào bộ nhớ băng thông cao (HBM), việc giảm nhu cầu bộ nhớ có thể góp phần hạ áp lực lên chuỗi cung ứng phần cứng, hiện đang ảnh hưởng cả thị trường RAM tiêu dùng.
Đối với người dùng cuối như người tiêu dùng, các thiết bị phổ thông, từ điện thoại đến laptop giá rẻ, có thể vận hành những ứng dụng AI mạnh mẽ hơn mà không cần nâng cấp phần cứng đắt đỏ.