image Thứ Năm, 11/12/2025

"Kỳ lân" Zhipu AI phát triển mô hình giống GPT-4o tại Trung Quốc

Sơn Trần

10/09/2024

Chia sẻ

Mô hình trực quan mới nhất của kỳ lân AI Trung Quốc có thể đọc và hiểu nội dung cả video lẫn trang web…

Zhipu AI là nhà cung cấp thị trường LLM lớn thứ ba ở Trung Quốc theo International Data Corporation.
Zhipu AI là nhà cung cấp thị trường LLM lớn thứ ba ở Trung Quốc theo International Data Corporation.

Kỳ lân AI Trung Quốc, Zhipu AI, đang tăng tốc nhằm giành vị trí dẫn đầu cuộc đua trí tuệ nhân tạo đa phương thức. Hồi tháng 7, công ty chính thức ra mắt Zhipu Qingying, mô hình tạo video tương tự như Sora, theo Kr Asia.

Sora của OpenAI được giới chuyên gia đánh giá là công cụ AI tạo sinh cho ra những thước phim chất lượng tốt nhất hiện nay. Tuy nhiên, sau nhiều tháng ra mắt, Sora vẫn không thể truy cập, còn Qingying cung cấp tài khoản sử dụng miễn phí cho công chúng từ ngày đầu xuất hiện.

Một tháng sau, vào ngày 29 tháng 8, Zhipu trở thành tâm điểm tại Hội nghị Quốc tế Phát hiện và Khai thác Kiến thức (KDD) với việc ra mắt "Her", mô hình tương tự GPT-4o. Sản phẩm được công ty khẳng định là hướng tới người tiêu dùng Zhipu Qingyan bởi sở hữu chức năng "gọi video" mới có tích hợp AI, tiến gần hơn đến khả năng giao tiếp giống con người.

Ngoài ra, Qingyan cũng cập nhật xu hướng khá nhanh. Sau khi trò chơi Black Myth: Wukong nổi tiếng, mô hình nhanh chóng hiểu và có thể bàn luận với người dùng.

Bên cạnh cập nhật trên, Zhipu còn tung ra bộ mô hình đa phương thức mới, bao gồm mô hình trực quan GLM-4V-Plus (cả video và trang web) và mô hình chuyển văn bản thành hình ảnh CogView-3-Plus.

Mô hình ngôn ngữ cơ bản GLM cũng được nâng cấp lên GLM-4-Plus, có khả năng xử lý văn bản dài và giải quyết vấn đề toán học phức tạp một cách dễ dàng.

TRỢ LÝ GIÚP LÀM BÀI TẬP VỀ NHÀ, GIA SƯ VÀ CÔNG VIỆC BẾP

Trước đây, GPT-4o khiến người dùng trầm trồ với khả năng dự đoán cảm xúc. Nhưng Qingyan có cách tiếp cận đơn giản hơn. Khi bắt đầu sử dụng, mô hình nhắc nhở người dùng rằng, là một AI, chúng sẽ không thể hiện cảm xúc.

Điều đó cho thấy, tính năng gọi video của Qingyan có nhiều ứng dụng thực tế, phù hợp với chủ trương của Trung Quốc về học tập suốt đời.

Chẳng hạn, khi công cụ trở thành gia sư tiếng Anh cá nhân, người dùng có thể bật camera và học theo yêu cầu, mọi lúc, mọi nơi. Hay khi Qingyan là giáo viên toán, lời giảng của công cụ sánh ngang với gia sư ngoài đời thực, hỗ trợ rất nhiều cho bậc phụ huynh.

Tại nhà, Qingyan đóng vai trò là trợ lý cá nhân. Chúng có thể phân biệt túi cà phê và cung cấp thông tin ngắn gọn lịch sử thương hiệu. Mặc dù đôi khi có chút sai sót, như công cụ gợi ý cách bảo quản túi thay vì cà phê bên trong.

MÔ HÌNH TRỰC QUAN MỚI: TỪ HIỂU VIDEO ĐẾN DIỄN GIẢI MÃ

Tại KDD, Zhipu AI công bố bản cập nhật bao gồm thế hệ mới của mô hình ngôn ngữ cơ sở và đa phương thức nâng cao: GLM-4V-Plus và CogView-3-Plus.

Đáng chú ý, GLM-4-Plus được đào tạo bằng dữ liệu tổng hợp chất lượng cao, chứng minh dữ liệu do AI tạo ra cực kỳ hiệu quả trong việc đào tạo mô hình và giảm chi phí. Theo Zhipu AI, khả năng hiểu ngôn ngữ của GLM-4-Plus ngang bằng với một số đối thủ như GPT-4o và Llama3.1-405B.

Bảng điểm chuẩn toàn diện một số mô hình ngôn ngữ lớn.
Bảng điểm chuẩn toàn diện một số mô hình ngôn ngữ lớn.

Về khả năng xử lý văn bản dài, GLM-4-Plus hoạt động ngang với GPT-4o và Claude 3.5 Sonnet. Trên bộ thử nghiệm InfiniteBench, được tạo ra bởi nhóm của Liu Zhiyuan tại Đại học Thanh Hoa, GLM-4-Plus thậm chí còn vượt trội hơn một chút so với các mô hình hàng đầu hiện nay.

Bảng tiêu chuẩn mô hình hóa văn bản dài.
Bảng tiêu chuẩn mô hình hóa văn bản dài.

Hơn nữa, bằng cách tối ưu hóa chính sách gần đúng (PPO) - phương pháp tăng khả năng ra quyết định trong nhiều nhiệm vụ phức tạp - GLM-4-Plus có thể suy luận dữ liệu phù hợp hơn với sở thích con người.

Chi phí xử lý cho 1 triệu mã thông báo bằng GLM-4-Plus là 7 USD, tương đương với mô hình lớn mới nhất của Baidu, Ernie 4.0 Turbo, có giá khoảng 4,2 USD cho đầu vào và 8,4 USD 8,4 cho đầu ra trên một triệu mã thông báo.

Tuy nhiên, điều thực sự mang tính đột phá nằm ở khả năng đa phương thức.

Giờ đây, mô hình trực quan mới GLM-4V-Plus có thể hiểu nội dung video và trang web, đây là cải tiến đáng kể so với phiên bản tiền nhiệm.

Khác với một số mô hình thông thường, GLM-4V-Plus không chỉ hiểu các video phức tạp mà còn ghi nhớ cả thời gian. Người dùng có thể hỏi về khoảnh khắc cụ thể trong video và công cụ sẽ xác định chính xác nội dung. Tuy nhiên, tính đến thời điểm hiện tại, nền tảng mở của Zhipu AI vẫn chưa hỗ trợ tải video lên cho tính năng này.

Mặc dù có khả năng trực quan ấn tượng, GLM-4V-Plus vẫn hụt hơi trong đa số cuộc đối thoại dài và hiểu văn bản, có nghĩa là vẫn chưa ngang bằng GPT-4o ở mặt này.

Bảng tiêu chuẩn hiểu năng lực video.
Bảng tiêu chuẩn hiểu năng lực video.

Tại KDD, Zhipu AI cũng giới thiệu CogView-3-Plus, thế hệ tiếp theo của mô hình chuyển văn bản thành hình ảnh. So với FLUX, người tiên phong trong lĩnh vực này, CogView-3-Plus có thể tạo ra hình ảnh trong vòng 20 giây, đồng thời hỗ trợ chỉnh sửa hình ảnh, chẳng hạn như thay đổi màu sắc đối tượng hoặc thay thế các mục trong hình ảnh.

Bảng tiêu chuẩn năng lực chuyển văn bản thành hình ảnh.
Bảng tiêu chuẩn năng lực chuyển văn bản thành hình ảnh.

Zhipu AI mất hơn bảy tháng để thêm hậu tố "Plus" vào các mẫu ra mắt từ tháng 1/2024, chu kỳ phát triển dài nhất kể từ năm 2023.

Hầu hết công ty AI của Trung Quốc đang áp dụng chiến lược chia để trị (giải quyết vấn đề lớn bằng cách chia thành nhiều vấn đề nhỏ), trước tiên là tăng cường khả năng đơn phương thức trước khi giải quyết thách thức về tích hợp. Zhipu AI vẫn đang trong giai đoạn này, sự ra mắt tính năng gọi video là thời điểm đầu trong phản ứng tổng hợp đa phương thức.


Muốn giảm rác điện tử phải bắt đầu từ khâu thiết kế

Rác thải điện tử chứa khoáng sản quý đang gia tăng, cần thiết kế bền vững và quy trình mua sắm hiệu quả để giảm thiểu tác động môi trường.

09:49 10/12/2025
Các công ty hàng đầu chưa có kế hoạch kiểm soát siêu trí tuệ nhân tạo

Báo cáo Winter AI Safety Index 2025 chỉ ra rằng các công ty AI lớn như OpenAI và Google DeepMind không có chiến lược đáng tin cậy để kiểm soát rủi ro siêu trí tuệ.

14:23 09/12/2025
Singapore triển khai máy tính lượng tử thương mại đầu tiên

Horizon Quantum công bố máy tính lượng tử thương mại đầu tiên tại Singapore, đánh dấu bước tiến quan trọng trong lĩnh vực công nghệ cao.

14:23 09/12/2025
DeepSeek ra mắt V3.2, cạnh tranh GPT-5 và Gemini 3

DeepSeek công bố mô hình V3.2 với khả năng cạnh tranh mạnh mẽ, đạt thành tích cao trong kiểm tra toán học quốc tế, tối ưu hóa hiệu suất tính toán.

14:23 09/12/2025
Từ robot "trí tuệ vật lý" đến trái tim mềm: Bốn đột phá khoa học tái định hình tương lai con người

Tại Tuần lễ Khoa học VinFuture 2025, các nhà khoa học giới thiệu bốn đột phá trong robot, y học và nông nghiệp thông minh, mở ra tương lai mới cho nhân loại.

14:52 02/12/2025
Baidu nổi lên như đại gia mới ngành chip, lấp đầy khoảng trống của Nvidia tại Trung Quốc

Baidu đang nổi lên như đối thủ chính trong ngành chip AI tại Trung Quốc, với mảng chip Kunlunxin dự kiến tăng trưởng mạnh mẽ trong bối cảnh thiếu hụt nguồn cung.

09:29 02/12/2025
Khi mô hình 3 chiều, VR và AI ứng dụng trong phòng phẫu thuật

Startup Holocare phát triển công nghệ VR giúp bác sĩ phẫu thuật mô phỏng cơ quan 3D, nâng cao hiệu quả và an toàn trong ca mổ.

10:48 01/12/2025
Nhóm sinh viên Mỹ sáng chế robot chịu nhiệt hơn 650°C

Nhóm sinh viên Texas phát triển robot FireBot giúp lính cứu hỏa thu thập thông tin trong đám cháy, chịu nhiệt lên đến 650°C, nâng cao an toàn cứu hộ.

10:48 01/12/2025
Điều khiển nhà máy cách xa 300km: Lời giải cho thiếu hụt lao động tại Nhật Bản

NTT và Toshiba đã chứng minh khả năng điều khiển nhà máy từ 300km, mở ra giải pháp mới cho ngành sản xuất Nhật Bản giữa tình trạng thiếu lao động.

19:30 26/11/2025
AI sẽ tái cấu trúc việc làm như thế nào nhìn từ kinh nghiệm thời Internet?

Dự báo tác động của AI đến việc làm qua lăng kính kinh nghiệm từ Internet, từ chuyển đổi nghề nghiệp đến sự xuất hiện công việc mới.

19:30 26/11/2025