Vài ngày sau khi OpenAI nâng cấp Sora, Google đã ra Gemini 2.0 Flash, tăng sức nóng cuộc đua AI toàn cầu

Hoàng Hà
Chia sẻ

Google vừa trình làng Gemini 2.0 Flash, mô hình trí tuệ nhân tạo mới nhất với những cải tiến vượt bậc, đánh dấu bước tiến mới trong việc tổ chức và ứng dụng thông tin. Ngay trước đó, OpenAI cũng công bố Sora, mô hình AI chuyển văn bản thành video....

Gemini 2.0 đánh dấu nỗ lực mới nhất của Google trong cuộc đua AI ngày càng cạnh tranh của ngành công nghệ
Gemini 2.0 đánh dấu nỗ lực mới nhất của Google trong cuộc đua AI ngày càng cạnh tranh của ngành công nghệ

Google vừa ra mắt phiên bản đầu tiên của dòng mô hình trí tuệ nhân tạo Gemini 2.0. Gemini 2.0 Flash là tên gọi của mô hình mới này, hiện đã có sẵn phiên bản trò chuyện (chat) cho người dùng trên toàn cầu.

Trong khi đó, phiên bản đa phương thức thử nghiệm của mô hình này, tích hợp các tính năng chuyển văn bản thành giọng nói (text-to-speech) và tạo hình ảnh (image generation), đang được cung cấp cho các nhà phát triển.

NHỮNG ĐIỂM VƯỢT TRỘI CỦA GOOGLE GEMINI 2.0 FLASH SO VỚI BẢN TIỀN NHIỆM

“Nếu Gemini 1.0 tập trung vào việc tổ chức và hiểu thông tin, thì Gemini 2.0 là bước tiến trong việc làm cho thông tin trở nên hữu ích hơn nhiều,” CEO Google, Sundar Pichai, phát biểu trong một thông cáo.

Mô hình ngôn ngữ lớn mới nhất của Google vượt trội hơn các phiên bản tiền nhiệm ở hầu hết các lĩnh vực yêu cầu của người dùng, như tạo mã lập trình (code generation) và cung cấp các câu trả lời đúng sự thật. Tuy nhiên, một điểm mà Gemini 2.0 Flash kém hơn Gemini 1.5 Pro là khả năng xử lý các ngữ cảnh dài.

Để truy cập phiên bản trò chuyện tối ưu của Gemini 2.0 Flash, người dùng có thể chọn từ menu thả xuống của mô hình trên máy tính hoặc trình duyệt di động. Theo thông báo từ công ty, phiên bản này sẽ sớm có mặt trên ứng dụng di động Gemini.

Phiên bản đa phương thức của Gemini 2.0 Flash sẽ được cung cấp thông qua nền tảng Google AI Studio và Vertex AI dành cho nhà phát triển.

Google cho biết phiên bản đa phương thức của Gemini 2.0 Flash sẽ chính thức được phát hành vào tháng 1/2025, cùng với các kích thước mô hình khác của Gemini 2.0. Công ty cũng có kế hoạch mở rộng ứng dụng của Gemini 2.0 sang nhiều sản phẩm khác của Google vào đầu năm 2025.

Gemini 2.0 đánh dấu nỗ lực mới nhất của Google trong cuộc đua AI ngày càng cạnh tranh của ngành công nghệ. Google hiện đang đối đầu với các đối thủ như Microsoft, Meta, và các startup như OpenAI (nhà sáng lập ChatGPT), Perplexity, và Anthropic (nhà phát triển Claude).

Bên cạnh việc ra mắt mô hình Flash mới, Google còn giới thiệu một số nguyên mẫu nghiên cứu nhằm phát triển các mô hình AI “có tính tác nhân” (agentic) và trải nghiệm tương ứng. Theo công ty, các mô hình này “có khả năng hiểu sâu hơn về thế giới xung quanh, suy nghĩ trước nhiều bước và thực hiện hành động thay bạn dưới sự giám sát của bạn.”

Tuần trước, trong cuộc trò chuyện tại Hội nghị DealBook của New York Times với Andrew Ross Sorkin, CEO Sundar Pichai đã thách thức những tiến bộ AI của Microsoft, khẳng định rằng ông sẵn sàng “làm bài kiểm tra so sánh trực tiếp” giữa các mô hình của hai công ty “bất cứ lúc nào.”

OPENAI SORA – CUỘC CÁCH MẠNG AI CHUYỂN VĂN BẢN THÀNH VIDEO

Bên cạnh các ông lớn Big Tech như Google và Microsoft, chỉ mới cách đây vài ngày, OpenAI cũng đã ra mắt Sora, mô hình AI chuyển văn bản thành video, trong chuỗi sự kiện ra mắt sản phẩm kéo dài 12 ngày có tên “ship-mas”. Sora hiện có sẵn trên trang Sora.com cho người dùng ChatGPT tại Mỹ và “hầu hết các quốc gia khác,” cùng với một phiên bản mới mang tên Sora Turbo. Mô hình cập nhật này bổ sung các tính năng như tạo video từ văn bản, tạo hiệu ứng động từ hình ảnh và chỉnh sửa video.

OpenAI cho biết các video được tạo bởi Sora sẽ có watermark rõ ràng để xác định chúng được tạo bằng AI.
OpenAI cho biết các video được tạo bởi Sora sẽ có watermark rõ ràng để xác định chúng được tạo bằng AI.

Với gói đăng ký ChatGPT Plus, OpenAI cho biết người dùng có thể tạo tối đa 50 video ưu tiên với độ phân giải lên đến 720p và thời lượng 5 giây. Gói ChatGPT Pro giá 200 USD mỗi tháng, được ra mắt vào tuần trước, cho phép “tạo video không giới hạn,” tăng số lượng video ưu tiên lên 500, đồng thời nâng độ phân giải lên 1080p và thời lượng lên đến 20 giây. Gói cao cấp hơn này cũng cho phép người dùng tải video xuống mà không có watermark và thực hiện tối đa năm lượt tạo video cùng lúc.

OpenAI lần đầu tiên giới thiệu mô hình AI chuyển văn bản thành video Sora vào tháng 2. Trong buổi phát trực tiếp, OpenAI đã trình diễn trang khám phá mới của Sora với nguồn cấp dữ liệu gồm các video do AI tạo ra từ cộng đồng người dùng. Công ty cũng nhấn mạnh một tính năng có tên “storyboards,” cho phép tạo video dựa trên chuỗi các gợi ý (prompts), cùng khả năng chuyển đổi ảnh thành video. OpenAI còn giới thiệu công cụ “remix,” cho phép chỉnh sửa kết quả của Sora bằng một gợi ý văn bản, và tính năng “blend” giúp kết hợp hai cảnh thành một video liền mạch.

OpenAI cho biết các video được tạo bởi Sora sẽ có watermark rõ ràng và chứa siêu dữ liệu C2PA để xác định chúng được tạo bằng AI. Trước khi tải ảnh hoặc video lên Sora, người dùng phải xác nhận rằng nội dung tải lên không chứa hình ảnh dưới 18 tuổi, nội dung bạo lực, khiêu dâm, hoặc vi phạm bản quyền. Công ty cảnh báo rằng “việc sử dụng sai mục đích phương tiện tải lên” có thể dẫn đến việc tài khoản bị cấm hoặc tạm ngưng.

Nếu không có gói đăng ký ChatGPT, người dùng vẫn có thể duyệt qua các video do người khác tạo bằng Sora. Dù mô hình này đã khả dụng tại Mỹ và nhiều quốc gia khác, CEO OpenAI Sam Altman cho biết việc triển khai tại “phần lớn các nước châu Âu và Vương quốc Anh” có thể sẽ mất thêm thời gian.

Cạnh tranh trong không gian AI giữa các công ty công nghệ lớn như Google, Microsoft, Meta, và nhiều startup khác đang ngày càng khốc liệt, với tốc độ đổi mới đáng kinh ngạc. Việc Google công bố Gemini 2.0 vài ngày sau khi OpenAI ra mắt Sora là minh chứng cho sự khẩn trương và áp lực trong ngành. Mỗi công ty đều cố gắng vượt qua đối thủ bằng cách tung ra các mô hình AI có tính năng đa dạng và khả năng xử lý mạnh mẽ hơn. Đáng chú ý, các mô hình ngày càng tập trung vào tính đa phương thức, kết hợp giữa văn bản, hình ảnh, âm thanh và video, nhằm đáp ứng nhu cầu phức tạp hơn của người dùng và doanh nghiệp.

Khởi nghiệp

Hồ sơ Startup

Citigo là công ty công nghệ cung cấp những giải pháp đơn giản với chi phí tiết kiệm, giúp khách hàng nâng cao hiệu quả kinh doanh. Citigo hướng tới tầm nhìn trở thành công ty cung cấp giải pháp công nghệ cho doanh nghiệp phổ biến tại Đông Nam Á
ESBT là công ty hoạt động trọng lĩnh vực công nghệ thông tin, chúng tôi xây dựng những sản phẩm phần mềm cho cộng đồng và cung cấp dịch vụ phát triển phần mềm cho các doanh nghiệp
Lozi là một trong những ứng dụng thương mại điện tử được yêu thích nhất tại Việt Nam, kết nối hàng triệu người mua và người bán nhằm phục vụ nhu cầu mua bán trực tuyến ngày càng cao. Không chỉ là một cầu nối thương mại điện tử đáng tin cậy, Lozi còn cung cấp dịch vụ giao hàng nhanh chóng và tiện lợi chỉ trong 1 giờ, đem đến cho khách hàng những trải nghiệm mua sắm trực tuyến hiệu quả và tối ưu
Bắt nguồn từ mong muốn mang chất lượng dạy Tiếng Anh tại Trường Quốc tế đến với mọi học sinh Việt Nam, để các bạn nhỏ dù không có điều kiện kinh tế theo học tại các Trường Quốc Tế hay Trung Tâm đắt tiền vẫn có thể sử dụng Tiếng Anh tốt như người bản ngữ. Đây chính là hành trang chuẩn bị cho các em tương lai vươn ra thế giới. Chính vì lý do trên, đội ngũ sáng lập đã bắt tay vào xây dựng sản phẩm đầu tiên có tên “Chương trình học Tiếng Anh Online EDUPIA”.
Công ty TNHH SA-ACH định vị về lĩnh vững trồng rừng, phát triển gồm 3 loại cây và bốn tầng cây trên một hecta đất nhằm tạo hệ sinh thái bền vững, và nâng cao thu nhập cho bà con