Vài ngày sau khi OpenAI nâng cấp Sora, Google đã ra Gemini 2.0 Flash, tăng sức nóng cuộc đua AI toàn cầu
Hoàng Hà
12/12/2024
Google vừa trình làng Gemini 2.0 Flash, mô hình trí tuệ nhân tạo mới nhất với những cải tiến vượt bậc, đánh dấu bước tiến mới trong việc tổ chức và ứng dụng thông tin. Ngay trước đó, OpenAI cũng công bố Sora, mô hình AI chuyển văn bản thành video....
Google vừa ra mắt phiên bản đầu tiên của dòng mô hình trí tuệ nhân tạo Gemini 2.0. Gemini 2.0 Flash là tên gọi của mô hình mới này, hiện đã có sẵn phiên bản trò chuyện (chat) cho người dùng trên toàn cầu.
Trong khi đó, phiên bản đa phương thức thử nghiệm của mô hình này, tích hợp các tính năng chuyển văn bản thành giọng nói (text-to-speech) và tạo hình ảnh (image generation), đang được cung cấp cho các nhà phát triển.
NHỮNG ĐIỂM VƯỢT TRỘI CỦA GOOGLE GEMINI 2.0 FLASH SO VỚI BẢN TIỀN NHIỆM
“Nếu Gemini 1.0 tập trung vào việc tổ chức và hiểu thông tin, thì Gemini 2.0 là bước tiến trong việc làm cho thông tin trở nên hữu ích hơn nhiều,” CEO Google, Sundar Pichai, phát biểu trong một thông cáo.
Mô hình ngôn ngữ lớn mới nhất của Google vượt trội hơn các phiên bản tiền nhiệm ở hầu hết các lĩnh vực yêu cầu của người dùng, như tạo mã lập trình (code generation) và cung cấp các câu trả lời đúng sự thật. Tuy nhiên, một điểm mà Gemini 2.0 Flash kém hơn Gemini 1.5 Pro là khả năng xử lý các ngữ cảnh dài.
Để truy cập phiên bản trò chuyện tối ưu của Gemini 2.0 Flash, người dùng có thể chọn từ menu thả xuống của mô hình trên máy tính hoặc trình duyệt di động. Theo thông báo từ công ty, phiên bản này sẽ sớm có mặt trên ứng dụng di động Gemini.
Phiên bản đa phương thức của Gemini 2.0 Flash sẽ được cung cấp thông qua nền tảng Google AI Studio và Vertex AI dành cho nhà phát triển.
Google cho biết phiên bản đa phương thức của Gemini 2.0 Flash sẽ chính thức được phát hành vào tháng 1/2025, cùng với các kích thước mô hình khác của Gemini 2.0. Công ty cũng có kế hoạch mở rộng ứng dụng của Gemini 2.0 sang nhiều sản phẩm khác của Google vào đầu năm 2025.
Gemini 2.0 đánh dấu nỗ lực mới nhất của Google trong cuộc đua AI ngày càng cạnh tranh của ngành công nghệ. Google hiện đang đối đầu với các đối thủ như Microsoft, Meta, và các startup như OpenAI (nhà sáng lập ChatGPT), Perplexity, và Anthropic (nhà phát triển Claude).
Bên cạnh việc ra mắt mô hình Flash mới, Google còn giới thiệu một số nguyên mẫu nghiên cứu nhằm phát triển các mô hình AI “có tính tác nhân” (agentic) và trải nghiệm tương ứng. Theo công ty, các mô hình này “có khả năng hiểu sâu hơn về thế giới xung quanh, suy nghĩ trước nhiều bước và thực hiện hành động thay bạn dưới sự giám sát của bạn.”
Tuần trước, trong cuộc trò chuyện tại Hội nghị DealBook của New York Times với Andrew Ross Sorkin, CEO Sundar Pichai đã thách thức những tiến bộ AI của Microsoft, khẳng định rằng ông sẵn sàng “làm bài kiểm tra so sánh trực tiếp” giữa các mô hình của hai công ty “bất cứ lúc nào.”
OPENAI SORA – CUỘC CÁCH MẠNG AI CHUYỂN VĂN BẢN THÀNH VIDEO
Bên cạnh các ông lớn Big Tech như Google và Microsoft, chỉ mới cách đây vài ngày, OpenAI cũng đã ra mắt Sora, mô hình AI chuyển văn bản thành video, trong chuỗi sự kiện ra mắt sản phẩm kéo dài 12 ngày có tên “ship-mas”. Sora hiện có sẵn trên trang Sora.com cho người dùng ChatGPT tại Mỹ và “hầu hết các quốc gia khác,” cùng với một phiên bản mới mang tên Sora Turbo. Mô hình cập nhật này bổ sung các tính năng như tạo video từ văn bản, tạo hiệu ứng động từ hình ảnh và chỉnh sửa video.
Với gói đăng ký ChatGPT Plus, OpenAI cho biết người dùng có thể tạo tối đa 50 video ưu tiên với độ phân giải lên đến 720p và thời lượng 5 giây. Gói ChatGPT Pro giá 200 USD mỗi tháng, được ra mắt vào tuần trước, cho phép “tạo video không giới hạn,” tăng số lượng video ưu tiên lên 500, đồng thời nâng độ phân giải lên 1080p và thời lượng lên đến 20 giây. Gói cao cấp hơn này cũng cho phép người dùng tải video xuống mà không có watermark và thực hiện tối đa năm lượt tạo video cùng lúc.
OpenAI lần đầu tiên giới thiệu mô hình AI chuyển văn bản thành video Sora vào tháng 2. Trong buổi phát trực tiếp, OpenAI đã trình diễn trang khám phá mới của Sora với nguồn cấp dữ liệu gồm các video do AI tạo ra từ cộng đồng người dùng. Công ty cũng nhấn mạnh một tính năng có tên “storyboards,” cho phép tạo video dựa trên chuỗi các gợi ý (prompts), cùng khả năng chuyển đổi ảnh thành video. OpenAI còn giới thiệu công cụ “remix,” cho phép chỉnh sửa kết quả của Sora bằng một gợi ý văn bản, và tính năng “blend” giúp kết hợp hai cảnh thành một video liền mạch.
OpenAI cho biết các video được tạo bởi Sora sẽ có watermark rõ ràng và chứa siêu dữ liệu C2PA để xác định chúng được tạo bằng AI. Trước khi tải ảnh hoặc video lên Sora, người dùng phải xác nhận rằng nội dung tải lên không chứa hình ảnh dưới 18 tuổi, nội dung bạo lực, khiêu dâm, hoặc vi phạm bản quyền. Công ty cảnh báo rằng “việc sử dụng sai mục đích phương tiện tải lên” có thể dẫn đến việc tài khoản bị cấm hoặc tạm ngưng.
Nếu không có gói đăng ký ChatGPT, người dùng vẫn có thể duyệt qua các video do người khác tạo bằng Sora. Dù mô hình này đã khả dụng tại Mỹ và nhiều quốc gia khác, CEO OpenAI Sam Altman cho biết việc triển khai tại “phần lớn các nước châu Âu và Vương quốc Anh” có thể sẽ mất thêm thời gian.
Cạnh tranh trong không gian AI giữa các công ty công nghệ lớn như Google, Microsoft, Meta, và nhiều startup khác đang ngày càng khốc liệt, với tốc độ đổi mới đáng kinh ngạc. Việc Google công bố Gemini 2.0 vài ngày sau khi OpenAI ra mắt Sora là minh chứng cho sự khẩn trương và áp lực trong ngành. Mỗi công ty đều cố gắng vượt qua đối thủ bằng cách tung ra các mô hình AI có tính năng đa dạng và khả năng xử lý mạnh mẽ hơn. Đáng chú ý, các mô hình ngày càng tập trung vào tính đa phương thức, kết hợp giữa văn bản, hình ảnh, âm thanh và video, nhằm đáp ứng nhu cầu phức tạp hơn của người dùng và doanh nghiệp.
Một trong những mối quan ngại lớn của giới chức Trung Quốc là hiện tượng “bán lúa non” - khi các công ty công nghệ nội địa, đặc biệt trong các lĩnh vực chiến lược như trí tuệ nhân tạo, bị bán lại cho nhà đầu tư nước ngoài ở giai đoạn còn non trẻ…
VIRESA gia nhập mạng lưới toàn cầu với hơn 100 quốc gia nhằm phát triển hệ thống đội tuyển quốc gia và kết nối cộng đồng trong nước, qua đó góp phần nâng cao sự hiện diện của Việt Nam trên đấu trường quốc tế...
Hội đồng Cố vấn về Khoa học và Công nghệ (PCAST) sẽ đóng vai trò như một “bộ não chiến lược” hỗ trợ Nhà Trắng trong việc xây dựng chính sách liên quan đến AI, lực lượng lao động và các công nghệ mới nổi…
AI agent – những hệ thống có khả năng tự động thực hiện chuỗi tác vụ phức tạp – đang thay đổi hoàn toàn cách AI được sử dụng...
Mỹ đang cố gắng cân bằng giữa hai mục tiêu: thúc đẩy đổi mới công nghệ và duy trì lợi thế cạnh tranh; kiểm soát rủi ro an ninh phát sinh từ chính các công nghệ đó...
Các ứng dụng AI tạo ra doanh thu trên mỗi người dùng cao hơn 41% so với ứng dụng không dùng AI, nhưng lại kém “gây nghiện” hơn, theo nền tảng đăng ký RevenueCat…
Đằng sau làn sóng công nghệ là một nỗi lo âm ỉ: nếu không kịp thích nghi, họ có thể bị thay thế bất cứ lúc nào...
OpenAI tăng tốc mở rộng nhân sự, dồn lực vào thị trường doanh nghiệp trong cuộc đua AI hàng trăm tỷ USD…
Theo dự báo của tổ chức nghiên cứu TechInsights (Canada), tổng lượng phát thải của ngành bán dẫn có thể tăng khoảng một phần ba, lên tới 247 triệu tấn CO₂ tương đương vào năm 2030...
Mức lương trong lĩnh vực này đang tăng nhanh do tình trạng khan hiếm nhân lực. Nhiều vị trí hiện đã có thể đạt mức thu nhập sáu con số...