Mô hình ngôn ngữ nhỏ sẽ là đột phá tiếp theo của AI
Các mô hình ngôn ngữ lớn yêu cầu hàng ngàn chip xử lý AI (GPU) để xử lý hàng trăm tỷ tham số. Điều này khiến chi phí xây dựng chúng lên đến hàng triệu USD...
Trong bối cảnh AI phát triển với tốc độ chóng mặt, các khoản đầu tư khổng lồ tiếp tục đổ vào ngành này. xAI của Elon Musk vừa huy động thêm 5 tỷ USD từ các nhà đầu tư như Andreessen Horowitz, Qatar Investment Authority, Valor Equity Partners, và Sequoia. Trong khi đó, Amazon đã tăng cường đầu tư 4 tỷ USD vào Anthropic, đối thủ đáng gờm của OpenAI.
Mặc dù những "gã khổng lồ" như Microsoft, Google, Meta, và Amazon đang đua nhau phát triển các mô hình ngôn ngữ lớn (LLM) với khả năng xử lý đa tác vụ, không phải giải pháp AI nào cũng phù hợp với mọi tổ chức. Điều mà các công ty lớn hướng tới có thể không phải là điều mà mọi doanh nghiệp đều cần. Trong bối cảnh này, lãnh đạo cấp cao phải hiểu rõ hơn về tiềm năng và tác động của các công nghệ AI để đưa ra quyết định phù hợp.
Hàng loạt công ty khởi nghiệp trong lĩnh vực LLM đang nổi lên, cung cấp giải pháp cho phép máy tính tổng hợp lượng dữ liệu khổng lồ và phản hồi các truy vấn ngôn ngữ tự nhiên. Điều này khiến AI ứng dụng LLM ngày càng trở nên thiết yếu với doanh nghiệp toàn cầu.
Đối với nhiều doanh nghiệp, các mô hình ngôn ngữ lớn vẫn là lựa chọn tối ưu cho các dự án cụ thể. Tuy nhiên, với một số công ty khác, việc vận hành LLM có thể đòi hỏi chi phí lớn về tài chính, năng lượng và tài nguyên tính toán. Theo IDC, chi tiêu toàn cầu cho AI dự kiến sẽ tăng gấp đôi trong bốn năm tới, đạt 632 tỷ USD, trong đó AI tạo sinh chiếm 32% tổng ngân sách này.
Steve McMillan, Chủ tịch kiêm Giám đốc điều hành của Teradata - một trong những nền tảng phân tích đám mây lớn nhất, tập trung vào tích hợp dữ liệu và AI đáng tin cậy - đã chia sẻ một hướng đi khác cho các doanh nghiệp.
"Trong tương lai, chúng tôi tin rằng các mô hình ngôn ngữ vừa và nhỏ, cùng các môi trường được kiểm soát như LLM chuyên biệt cho từng lĩnh vực, sẽ mang lại những giải pháp tốt hơn rất nhiều."
Điều này gợi ý rằng thay vì chỉ tập trung vào các LLM đa năng, doanh nghiệp có thể tìm thấy giá trị lớn hơn từ các giải pháp AI tùy chỉnh, được thiết kế để phù hợp với nhu cầu cụ thể.
MÔ HÌNH NGÔN NGỮ NHỎ (SLM)
SLM là các mô hình ngôn ngữ được đào tạo trên một tập dữ liệu cụ thể, nhằm tạo ra kết quả tùy chỉnh theo nhu cầu của dự án. Một điểm mạnh quan trọng của SLM là dữ liệu được giữ trong môi trường nội bộ, đảm bảo an toàn thông tin và tránh việc chia sẻ dữ liệu nhạy cảm với các hệ thống bên ngoài.
SLM còn có khả năng mở rộng tài nguyên tính toán và năng lượng một cách linh hoạt dựa trên nhu cầu thực tế, giúp giảm chi phí vận hành và tác động đến môi trường. Đây là một lựa chọn hiệu quả cho các doanh nghiệp muốn tối ưu hóa AI mà không cần đầu tư vào những hệ thống lớn và tốn kém như LLM.
Thay vì cung cấp kiến thức đa dạng và rộng lớn như các LLM thông thường, SLM theo lĩnh vực tập trung vào một loại kiến thức chuyên biệt. Các mô hình này được đào tạo sâu trong một lĩnh vực cụ thể, giúp đưa ra phản hồi chính xác hơn và phù hợp với vai trò của người dùng, ví dụ: trả lời câu hỏi của Giám đốc Marketing (CMO) sẽ khác với câu hỏi từ Giám đốc Tài chính (CFO).
THÁCH THỨC VỀ ẢO GIÁC, NĂNG LƯỢNG VÀ ĐÀO TẠO AI
Các mô hình ngôn ngữ lớn yêu cầu hàng ngàn chip xử lý AI (GPU) để xử lý hàng trăm tỷ tham số. Điều này khiến chi phí xây dựng chúng lên đến hàng triệu USD, không chỉ trong giai đoạn đào tạo mà cả khi vận hành để trả lời các truy vấn của người dùng.
Theo Hiệp hội Nhà khoa học Dữ liệu (ADaSci), chỉ riêng việc đào tạo GPT-3 với 175 tỷ tham số đã tiêu thụ khoảng 1.287 MWh (megawatt-giờ) điện - tương đương mức tiêu thụ năng lượng của một hộ gia đình Mỹ trung bình trong 120 năm. Đó là chưa kể lượng điện tiêu thụ sau khi mô hình được triển khai sử dụng. Trong khi đó, ADaSci ước tính rằng việc triển khai hoàn chỉnh một mô hình LLM nhỏ hơn với 7 tỷ tham số cho 1 triệu người dùng chỉ tiêu tốn 55,1 MWh - chưa đến 5% so với mô hình lớn. Điều này chứng minh rằng việc chọn các mô hình nhỏ hơn, như gợi ý của McMillan, có thể giúp tiết kiệm đáng kể chi phí năng lượng.
LLM thường yêu cầu sức mạnh tính toán vượt xa khả năng của các thiết bị cá nhân, vì vậy chúng thường được chạy trên các hệ thống điện toán đám mây. Điều này kéo theo một số hệ quả cho doanh nghiệp. Thứ nhất là mất quyền kiểm soát dữ liệu vật lý vì thông tin phải được chuyển lên đám mây. Thứ hai là phản hồi bị chậm do dữ liệu phải di chuyển qua mạng internet. Thứ ba, dễ gặp phải “ảo giác” của AI, tức là các phản hồi nghe có vẻ hợp lý nhưng thực chất lại sai.
LỢI ÍCH CỦA CÁC MÔ HÌNH NGÔN NGỮ NHỎ
SLM giúp doanh nghiệp đạt được kết quả tốt hơn. Mặc dù có nền tảng kỹ thuật giống như các LLM nổi tiếng đang được sử dụng rộng rãi, nhưng SLM được huấn luyện với số lượng tham số ít hơn và các trọng số được tùy chỉnh cho từng trường hợp sử dụng cụ thể. Việc tập trung vào ít biến số hơn giúp chúng đưa ra câu trả lời chính xác hơn, ít xảy ra hiện tượng "ảo giác" và hoạt động hiệu quả hơn. So với LLM, SLM nhanh hơn, rẻ hơn và có tác động môi trường thấp hơn.
Do không cần các cụm chip xử lý AI khổng lồ như LLM, SLM có thể chạy trên các hệ thống nội bộ, thậm chí trong một số trường hợp chỉ cần một thiết bị đơn lẻ. Việc không phụ thuộc vào xử lý đám mây cũng mang lại cho doanh nghiệp quyền kiểm soát tốt hơn đối với dữ liệu và khả năng tuân thủ quy định.
ỨNG DỤNG CỦA SLM TRONG CÁC DOANH NGHIỆP
Việc triển khai mô hình ngôn ngữ nhỏ đang tạo ra những thay đổi đột phá trong nhiều lĩnh vực, như:
Dịch vụ khách hàng
SLM có thể được sử dụng để phân tích nhanh cảm xúc và khiếu nại của khách hàng, sử dụng dữ liệu quan trọng cần được giữ an toàn bên trong hệ thống nội bộ. Chúng có thể tạo ra các bản tóm tắt giá trị, tích hợp vào các sản phẩm quản lý quan hệ khách hàng (CRM) nhằm cải thiện các hành động giải quyết vấn đề.
Chăm sóc sức khỏe
SLM đang dần chứng minh giá trị trong việc phân tích ghi chú của bác sĩ—một lĩnh vực xử lý dữ liệu đòi hỏi tính bảo mật cao. Khi AI trích xuất và diễn giải thông tin, các nhà cung cấp dịch vụ y tế có thể tập trung hơn vào chăm sóc bệnh nhân, giảm thời gian nhìn vào màn hình máy tính và tăng thời gian tương tác trực tiếp với người bệnh.
Tài chính
Các doanh nghiệp cần tìm kiếm email hoặc tài liệu có thể ảnh hưởng đến việc tuân thủ quy định có thể sử dụng SLM để đánh dấu chúng. Đây là nhiệm vụ đơn giản đối với LLM, nhưng với SLM, doanh nghiệp có thể thực hiện ngay trên cùng máy chủ lưu trữ dữ liệu, giúp tránh chi phí lưu trữ bổ sung, chip AI đắt tiền hoặc các khoản chi phí liên quan đến truyền tải qua mạng.
Bán lẻ
Các công ty như Walmart, Kroger, Costco, Target, CVS và Walgreens đang tận dụng AI để đề xuất sản phẩm, một chức năng chiến lược trong ngành bán lẻ. Quá trình này phụ thuộc nhiều vào dữ liệu nội bộ, chẳng hạn như thông tin khách hàng, lịch sử mua sắm, duyệt web và danh mục sản phẩm của công ty. SLM có thể sử dụng các chức năng phân tích, như phân cụm hoặc đo độ tương đồng vector, để cung cấp các gợi ý sản phẩm dựa trên AI, chạy song song với kết quả tìm kiếm thông thường, vừa đáp ứng yêu cầu của khách hàng vừa cá nhân hóa trải nghiệm mua sắm.
Mặc dù các LLM nổi tiếng như ChatGPT-4 của OpenAI, Claude của Anthropic và LLaMA 2 của Meta có thể xử lý lượng dữ liệu lớn và đưa ra câu trả lời thông minh, nhưng chúng không phù hợp lắm trong việc hiểu các vấn đề cụ thể của doanh nghiệp hoặc thuật ngữ y khoa.
Ngược lại, các mô hình nhỏ hơn như của Hugging Face có khả năng tập trung vào các loại dữ liệu cụ thể, điều chỉnh đầu ra và tiêu thụ ít năng lượng hơn. Chúng cung cấp các giải pháp có thể mở rộng, từ tìm kiếm hàng triệu tài liệu đến hỗ trợ hàng triệu khách hàng. Ngoài ra, SLM có thể tích hợp vào các bộ giải pháp AI, cung cấp các công cụ tùy chỉnh, hiệu quả thay vì dựa vào một LLM lớn và khó quản lý.