Vài ngày sau khi OpenAI nâng cấp Sora, Google đã ra Gemini 2.0 Flash, tăng sức nóng cuộc đua AI toàn cầu
Google vừa trình làng Gemini 2.0 Flash, mô hình trí tuệ nhân tạo mới nhất với những cải tiến vượt bậc, đánh dấu bước tiến mới trong việc tổ chức và ứng dụng thông tin. Ngay trước đó, OpenAI cũng công bố Sora, mô hình AI chuyển văn bản thành video....
Google vừa ra mắt phiên bản đầu tiên của dòng mô hình trí tuệ nhân tạo Gemini 2.0. Gemini 2.0 Flash là tên gọi của mô hình mới này, hiện đã có sẵn phiên bản trò chuyện (chat) cho người dùng trên toàn cầu.
Trong khi đó, phiên bản đa phương thức thử nghiệm của mô hình này, tích hợp các tính năng chuyển văn bản thành giọng nói (text-to-speech) và tạo hình ảnh (image generation), đang được cung cấp cho các nhà phát triển.
NHỮNG ĐIỂM VƯỢT TRỘI CỦA GOOGLE GEMINI 2.0 FLASH SO VỚI BẢN TIỀN NHIỆM
“Nếu Gemini 1.0 tập trung vào việc tổ chức và hiểu thông tin, thì Gemini 2.0 là bước tiến trong việc làm cho thông tin trở nên hữu ích hơn nhiều,” CEO Google, Sundar Pichai, phát biểu trong một thông cáo.
Mô hình ngôn ngữ lớn mới nhất của Google vượt trội hơn các phiên bản tiền nhiệm ở hầu hết các lĩnh vực yêu cầu của người dùng, như tạo mã lập trình (code generation) và cung cấp các câu trả lời đúng sự thật. Tuy nhiên, một điểm mà Gemini 2.0 Flash kém hơn Gemini 1.5 Pro là khả năng xử lý các ngữ cảnh dài.
Để truy cập phiên bản trò chuyện tối ưu của Gemini 2.0 Flash, người dùng có thể chọn từ menu thả xuống của mô hình trên máy tính hoặc trình duyệt di động. Theo thông báo từ công ty, phiên bản này sẽ sớm có mặt trên ứng dụng di động Gemini.
Phiên bản đa phương thức của Gemini 2.0 Flash sẽ được cung cấp thông qua nền tảng Google AI Studio và Vertex AI dành cho nhà phát triển.
Google cho biết phiên bản đa phương thức của Gemini 2.0 Flash sẽ chính thức được phát hành vào tháng 1/2025, cùng với các kích thước mô hình khác của Gemini 2.0. Công ty cũng có kế hoạch mở rộng ứng dụng của Gemini 2.0 sang nhiều sản phẩm khác của Google vào đầu năm 2025.
Gemini 2.0 đánh dấu nỗ lực mới nhất của Google trong cuộc đua AI ngày càng cạnh tranh của ngành công nghệ. Google hiện đang đối đầu với các đối thủ như Microsoft, Meta, và các startup như OpenAI (nhà sáng lập ChatGPT), Perplexity, và Anthropic (nhà phát triển Claude).
Bên cạnh việc ra mắt mô hình Flash mới, Google còn giới thiệu một số nguyên mẫu nghiên cứu nhằm phát triển các mô hình AI “có tính tác nhân” (agentic) và trải nghiệm tương ứng. Theo công ty, các mô hình này “có khả năng hiểu sâu hơn về thế giới xung quanh, suy nghĩ trước nhiều bước và thực hiện hành động thay bạn dưới sự giám sát của bạn.”
Tuần trước, trong cuộc trò chuyện tại Hội nghị DealBook của New York Times với Andrew Ross Sorkin, CEO Sundar Pichai đã thách thức những tiến bộ AI của Microsoft, khẳng định rằng ông sẵn sàng “làm bài kiểm tra so sánh trực tiếp” giữa các mô hình của hai công ty “bất cứ lúc nào.”
OPENAI SORA – CUỘC CÁCH MẠNG AI CHUYỂN VĂN BẢN THÀNH VIDEO
Bên cạnh các ông lớn Big Tech như Google và Microsoft, chỉ mới cách đây vài ngày, OpenAI cũng đã ra mắt Sora, mô hình AI chuyển văn bản thành video, trong chuỗi sự kiện ra mắt sản phẩm kéo dài 12 ngày có tên “ship-mas”. Sora hiện có sẵn trên trang Sora.com cho người dùng ChatGPT tại Mỹ và “hầu hết các quốc gia khác,” cùng với một phiên bản mới mang tên Sora Turbo. Mô hình cập nhật này bổ sung các tính năng như tạo video từ văn bản, tạo hiệu ứng động từ hình ảnh và chỉnh sửa video.
Với gói đăng ký ChatGPT Plus, OpenAI cho biết người dùng có thể tạo tối đa 50 video ưu tiên với độ phân giải lên đến 720p và thời lượng 5 giây. Gói ChatGPT Pro giá 200 USD mỗi tháng, được ra mắt vào tuần trước, cho phép “tạo video không giới hạn,” tăng số lượng video ưu tiên lên 500, đồng thời nâng độ phân giải lên 1080p và thời lượng lên đến 20 giây. Gói cao cấp hơn này cũng cho phép người dùng tải video xuống mà không có watermark và thực hiện tối đa năm lượt tạo video cùng lúc.
OpenAI lần đầu tiên giới thiệu mô hình AI chuyển văn bản thành video Sora vào tháng 2. Trong buổi phát trực tiếp, OpenAI đã trình diễn trang khám phá mới của Sora với nguồn cấp dữ liệu gồm các video do AI tạo ra từ cộng đồng người dùng. Công ty cũng nhấn mạnh một tính năng có tên “storyboards,” cho phép tạo video dựa trên chuỗi các gợi ý (prompts), cùng khả năng chuyển đổi ảnh thành video. OpenAI còn giới thiệu công cụ “remix,” cho phép chỉnh sửa kết quả của Sora bằng một gợi ý văn bản, và tính năng “blend” giúp kết hợp hai cảnh thành một video liền mạch.
OpenAI cho biết các video được tạo bởi Sora sẽ có watermark rõ ràng và chứa siêu dữ liệu C2PA để xác định chúng được tạo bằng AI. Trước khi tải ảnh hoặc video lên Sora, người dùng phải xác nhận rằng nội dung tải lên không chứa hình ảnh dưới 18 tuổi, nội dung bạo lực, khiêu dâm, hoặc vi phạm bản quyền. Công ty cảnh báo rằng “việc sử dụng sai mục đích phương tiện tải lên” có thể dẫn đến việc tài khoản bị cấm hoặc tạm ngưng.
Nếu không có gói đăng ký ChatGPT, người dùng vẫn có thể duyệt qua các video do người khác tạo bằng Sora. Dù mô hình này đã khả dụng tại Mỹ và nhiều quốc gia khác, CEO OpenAI Sam Altman cho biết việc triển khai tại “phần lớn các nước châu Âu và Vương quốc Anh” có thể sẽ mất thêm thời gian.
Cạnh tranh trong không gian AI giữa các công ty công nghệ lớn như Google, Microsoft, Meta, và nhiều startup khác đang ngày càng khốc liệt, với tốc độ đổi mới đáng kinh ngạc. Việc Google công bố Gemini 2.0 vài ngày sau khi OpenAI ra mắt Sora là minh chứng cho sự khẩn trương và áp lực trong ngành. Mỗi công ty đều cố gắng vượt qua đối thủ bằng cách tung ra các mô hình AI có tính năng đa dạng và khả năng xử lý mạnh mẽ hơn. Đáng chú ý, các mô hình ngày càng tập trung vào tính đa phương thức, kết hợp giữa văn bản, hình ảnh, âm thanh và video, nhằm đáp ứng nhu cầu phức tạp hơn của người dùng và doanh nghiệp.