image Thứ Năm, 19/03/2026

Alibaba ra mắt mô hình ngôn ngữ lớn dành riêng cho Đông Nam Á

Hoàng Hà

14/12/2023

Chia sẻ

Các mô hình ngôn ngữ lớn LLM dự kiến sẽ hỗ trợ tối ưu cho một số ngôn ngữ địa phương trong khu vực, bao gồm tiếng Việt, Indonesia, Thái Lan, Malay, Khmer, Lào, Tagalog và Miến Điện…

Alibaba DAMO Academy tuyên bố ra mắt SeaLLMs. Hình ảnh do AI tạo ra
Alibaba DAMO Academy tuyên bố ra mắt SeaLLMs. Hình ảnh do AI tạo ra

Tuần trước, Singapore đã công bố kế hoạch phát triển hệ sinh thái mô hình ngôn ngữ lớn (LLM) đầu tiên, phục vụ cho văn hóa và ngôn ngữ đa dạng của khu vực Đông Nam Á. Hiện tại, hầu hết các LLM hiện có đều chỉ sẵn các giá trị và chuẩn mực phục vụ nhiều hơn cho các nước phương Tây.

HỖ TRỢ CÁC NGÔN NGỮ ĐỊA PHƯƠNG CỦA ĐÔNG NAM Á

Giống như tham vọng LLM của Singapore, Học viện Alibaba Damo của Trung Quốc cũng đã tiết lộ SEALLMS. Alibaba Seallms là một LLM tiên phong đi kèm với 13 tỷ phiên bản tham số và 7 tỷ phiên bản được thiết kế đặc biệt để phục vụ cho các ngôn ngữ đa dạng của Đông Nam Á.

Mặc dù tiếng Anh vẫn được sử dụng rộng rãi trong khu vực, ngôn ngữ bản địa vẫn là một công cụ truyền thông quan trọng của các nước. Ví dụ, ở Malaysia, mặc dù tiếng Anh vẫn được nói chủ yếu, nhưng Malay vẫn là ngôn ngữ được các cơ quan chính phủ sử dụng để truyền thông chính thức, giống như tại các nước Thái Lan, Indonesia, Campuchia, Lào, Việt Nam và Myanmar. Ở Philippines, tiếng Anh là một ngôn ngữ chính, nhưng Tagalog chủ yếu được sử dụng trong giao tiếp.

Các mô hình LLM dự kiến sẽ hỗ trợ tối ưu cho một số ngôn ngữ địa phương trong khu vực, bao gồm tiếng Việt, Indonesia, Thái Lan, Malay, Khmer, Lào, Tagalog và Miến Điện. Seallm-Chat, mô hình hội thoại, cho thấy khả năng thích ứng với kết cấu văn hóa độc đáo của mỗi thị trường, phù hợp với phong tục, phong cách và khung pháp lý địa phương, làm trợ lý chatbot cho các doanh nghiệp tham gia với các thị trường Đông Nam Á.

SEALLMS là một loạt các mô hình AI không chỉ hiểu các ngôn ngữ địa phương mà còn bao gồm sự phong phú về văn hóa của Đông Nam Á. Sự đổi mới này được thiết lập để đẩy nhanh việc dân chủ hóa AI, trao quyền cho các cộng đồng được thể hiện trong lịch sử trong lĩnh vực kỹ thuật số.

SEALLM HOẠT ĐỘNG NHƯ THẾ NÀO?

Theo một báo cáo của các nhà nghiên cứu Alibaba Damo, các mô hình SEALLM-cơ sở đã trải qua việc đào tạo trước trên một bộ dữ liệu chất lượng cao, đa dạng bao gồm các ngôn ngữ từ khu vực. Điều này là để đảm bảo một sự hiểu biết sắc thái về bối cảnh địa phương và giao tiếp bản địa.

Bộ dữ liệu đào tạo của SEALLM được hình thành bởi các tài liệu từ các nguồn công cộng khác nhau, bao gồm các văn bản web, tài liệu tin tức, bài báo học thuật và văn bản có kiến thức chuyên môn. Trước tiên Alibaba sử dụng định danh ngôn ngữ fasttext để lọc các tài liệu không thuộc về ngôn ngữ Đông Nam Á.

Để tiếp tục loại bỏ nội dung có hại hoặc không mong muốn, Alibaba phát triển một đường ống với các mô -đun lọc và lọc dữ liệu khác nhau để xử lý trước dữ liệu được thu thập. Trong khi đó, để duy trì hiệu suất tiếng Anh của SEALLMS, Alibaba cũng giới thiệu một tập hợp các văn bản tiếng Anh chất lượng cao được lấy mẫu từ Redpajama-Data vào đào tạo trước, các nhà nghiên cứu cho biết.

Công việc này đặt nền tảng cho các mô hình trò chuyện như SEALLM-Chat, được hưởng lợi từ các kỹ thuật điều chỉnh tinh chỉnh nâng cao và bộ dữ liệu đa ngôn ngữ được xây dựng tùy chỉnh. Do đó, các trợ lý chatbot dựa trên các mô hình này không chỉ có thể hiểu mà còn tôn trọng và phản ánh chính xác bối cảnh văn hóa của các ngôn ngữ này trong khu vực, chẳng hạn như các quy tắc xã hội và phong tục, sở thích phong cách và cân nhắc pháp lý.

VnEconomy

Một lợi thế kỹ thuật đáng chú ý của Alibaba Seallms là hiệu quả của chúng, đặc biệt là với các ngôn ngữ không phải là Latin. Chúng có thể giải thích và xử lý văn bản dài hơn tới chín lần (hoặc ít hơn các mã thông báo cho cùng một chiều dài của văn bản) so với các mô hình khác như ChatGPT cho các ngôn ngữ không phải là tiếng Latin như Miến Điện, Khmer, LAO và tiếng Thái. Điều đó chuyển thành khả năng thực hiện nhiệm vụ phức tạp hơn, giảm chi phí hoạt động và tính toán và chi phí môi trường thấp hơn. 


Thị trường kính AI "cất cánh": Lượng hàng xuất xưởng tăng trưởng kỷ lục 322%

Sự gia tăng mạnh mẽ của kính AI được thúc đẩy bởi thị trường Trung Quốc, nơi hàng loạt sản phẩm mới ra mắt...

09:17 18/03/2026
Trung Quốc lần đầu phê duyệt thiết bị cấy ghép giao diện não – máy tính

Trung Quốc vừa ghi dấu mốc quan trọng trong lĩnh vực công nghệ thần kinh khi lần đầu tiên cấp phép thương mại thiết bị cấy ghép giao diện não – máy tính (BCI) nhằm giúp bệnh nhân chấn thương tủy sống phục hồi chức năng vận động bàn tay...

15:51 16/03/2026
Meta ra mắt hàng loạt chip AI riêng

Phó Chủ tịch Kỹ thuật Yee Jiun Song cho biết các chip này giúp Meta đa dạng hóa nguồn cung silicon và phần nào giảm tác động từ biến động giá…

14:03 14/03/2026
Nhật Bản muốn chiếm 1/3 thị phần bán dẫn toàn cầu

Nhật Bản đặt mục tiêu đạt hơn 250 tỷ USD doanh thu chip sản xuất trong nước vào năm 2040…

12:03 14/03/2026
Khám phá các tác nhân AI bên trong Microsoft 365 Copilot

Microsoft đang thử nghiệm Copilot Cowork – bước tiến mới của AI văn phòng, cho phép hệ thống không chỉ hỗ trợ viết nội dung mà còn tự thực hiện công việc trong phần mềm. Nếu thành công, AI có thể trở thành “đồng nghiệp số” thực sự trong môi trường doanh nghiệp…

11:58 14/03/2026
"UAV bầy đàn": Giải pháp ứng dụng AI, chữa cháy tại các hẻm nhỏ ở thành phố lớn

CT UAV, thành viên của CT Group, đã phát triển một giải pháp "UAV chữa cháy bầy đàn" đầu tiên tại Việt Nam dùng AI để điều khiển phi đội UAV tiếp cận nhanh, xử lý các đám cháy ở sâu trong ngõ nhỏ, hẻm sâu...

11:48 14/03/2026
Bên trong các phòng thí nghiệm AI chuyên huấn luyện robot hình người của Trung Quốc

Trung Quốc đang xây dựng hàng loạt trung tâm thu thập dữ liệu và “nông trại huấn luyện” robot nhằm tạo ra bộ dữ liệu khổng lồ để phát triển robot hình người…

13:48 13/03/2026
Nhà sản xuất Trung Quốc nuôi tham vọng về điện thoại robot?

Honor ra mắt chiếc điện thoại có cánh tay robot cùng với mẫu robot hình người tại Mobile World Congress 2026…

09:33 13/03/2026
Giải mã Moltbook, "sân chơi" mạng xã hội dành riêng cho bot đang gây sốt toàn cầu

Moltbook, một mạng xã hội nơi người dùng không phải con người mà là các tác nhân AI (AI agent) đang trở thành chủ đề nóng trong giới công nghệ...

09:31 13/03/2026
Trung Quốc phát triển transistor 1 nm nhỏ nhất thế giới, hứa hẹn định hình chip AI thế hệ mới

Các nhà nghiên cứu tại Đại học Bắc Kinh đã phát triển transistor ferroelectric có cổng chỉ 1 nanomet – nhỏ nhất và tiết kiệm năng lượng nhất hiện nay...

16:23 06/03/2026