OpenAI đẩy cuộc đua AI lên bậc thang mới, ra mắt công cụ Sora tạo video từ text
Thanh Minh, Huyền Thương, Hoàng
16/02/2024
Hiện tại, OpenAI vẫn chưa phát hành Sora ra công chúng mà chỉ chia sẻ công nghệ này với một nhóm nhỏ các học giả và các nhà nghiên cứu bên ngoài…
Vào tháng 4, một công ty khởi nghiệp ở New York có tên Runway AI đã tiết lộ công nghệ cho phép mọi người tạo video. Các video chỉ dài 4 giây, bị mờ, giật, méo và khó chịu. Nhưng đó là dấu hiệu rõ ràng cho thấy công nghệ trí tuệ nhân tạo sẽ tạo ra những video ngày càng thuyết phục trong những tháng và năm tới.
Chỉ 10 tháng sau, công ty khởi nghiệp OpenAI ở San Francisco đã tiết lộ một hệ thống tương tự có thể tạo ra các video như thể được lấy ra từ một bộ phim Hollywood. OpenAI đã trình diễn một số video ngắn - được tạo trong vài phút - về những con voi ma mút lông xù chạy qua đồng cỏ đầy tuyết, hay video về một con quái vật nhìn chằm chằm vào một ngọn nến đang tan chảy và khung cảnh đường phố Tokyo dường như được quay bởi một chiếc máy ảnh sà ngang qua thành phố.
SORA, CÔNG CỤ TẠO VIDEO TỪ TEXT CỦA OPENAI
OpenAI, công ty đứng sau chatbot ChatGPT và trình tạo ảnh tĩnh DALL-E, nằm trong số nhiều công ty đang chạy đua để cải tiến loại trình tạo video tức thời này. Bên cạnh OpenAI là các công ty khởi nghiệp như Runway và những gã khổng lồ công nghệ như Google và Meta, chủ sở hữu của Facebook và Instagram. Công nghệ này có thể tăng tốc công việc của các nhà làm phim dày dạn kinh nghiệm, đồng thời thay thế hoàn toàn các nghệ sĩ kỹ thuật số ít kinh nghiệm hơn.
Nó cũng có thể trở thành một cách nhanh chóng và ít tốn kém để tạo ra thông tin sai lệch trực tuyến, khiến việc xác định đâu là sự thật trên internet càng trở nên khó khăn hơn.
Oren Etzioni, giáo sư chuyên về trí tuệ nhân tạo tại Đại học Washington, cho biết: “Tôi thực sự lo sợ rằng loại công nghệ này sẽ ảnh hưởng đến một cuộc bầu cử có tính cạnh tranh sít sao”. Ông cũng là người sáng lập True Media, một tổ chức phi lợi nhuận hoạt động nhằm xác định thông tin sai lệch trực tuyến trong các chiến dịch chính trị.
OpenAI gọi hệ thống mới của mình là Sora, theo từ tiếng Nhật có nghĩa là bầu trời. Nhóm đằng sau công nghệ này, bao gồm các nhà nghiên cứu Tim Brooks và Bill Peebles, đã chọn cái tên này vì nó “gợi lên ý tưởng về tiềm năng sáng tạo vô hạn”.
Video này được OpenAI tạo ra bằng công cụ Sora, theo câu lệnh: “Đoàn voi ma mút lông khổng lồ bước qua một đồng cỏ đầy tuyết, bộ lông dài của chúng tung bay nhẹ trong gió khi chúng bước đi, cây cối phủ đầy tuyết, những ngọn núi phủ tuyết ấn tượng ở phía xa, ánh sáng giữa buổi chiều, những đám mây mỏng manh và bầu trời trên cao tạo ra ánh sáng ấm áp, chế độ xem camera ấn tượng với hình ảnh loài động vật có vú lớn di chuyển"
Trong một cuộc phỏng vấn, họ cũng cho biết công ty vẫn chưa phát hành Sora ra công chúng vì họ vẫn đang nỗ lực tìm hiểu mối nguy hiểm của hệ thống. Thay vào đó, OpenAI đang chia sẻ công nghệ này với một nhóm nhỏ các học giả và các nhà nghiên cứu bên ngoài khác, những người sẽ là “red team”, một thuật ngữ chỉ việc tìm kiếm những cách công cụ có thể bị lạm dụng.
Tiến sĩ Brooks nói: “Mục đích ở đây là đưa ra một bản xem trước về những gì sắp xảy ra, để mọi người có thể thấy được khả năng của công nghệ này - và chúng tôi có thể nhận được phản hồi”.
OpenAI đã gắn thẻ các video do hệ thống tạo ra bằng các hình mờ để xác định chúng được tạo bởi A.I. Nhưng công ty thừa nhận rằng những hình ảnh mờ xác định video đó do AI tạo ra vẫn có thể bị “lách luật”. Hơn nữa, người xem cũng khó phát hiện ra các hình mờ đó.
SORA CÓ THỂ TẠO RA NHỮNG VIDEO “ĐẸP NHƯ TRONG PHIM HOLLYWOOD”
Hệ thống này là một ví dụ về AI tổng quát, có thể tạo văn bản, hình ảnh và âm thanh ngay lập tức. Giống như các A.I sáng tạo khác. công nghệ, hệ thống của OpenAI học hỏi bằng cách phân tích dữ liệu kỹ thuật số - trong trường hợp này là video và chú thích mô tả nội dung của những video đó.
OpenAI từ chối cho biết hệ thống đã học được bao nhiêu video hoặc chúng đến từ đâu, ngoại trừ việc cho biết khóa đào tạo bao gồm cả video có sẵn công khai và video được cấp phép từ chủ sở hữu bản quyền. Công ty nói rất ít về dữ liệu được sử dụng để đào tạo công nghệ của mình, rất có thể là vì họ muốn duy trì lợi thế so với các đối thủ cạnh tranh - và đã bị kiện nhiều lần vì sử dụng tài liệu có bản quyền.
Sora tạo video dựa trên những mô tả ngắn, chẳng hạn như “một thế giới giấy thủ công được thể hiện tuyệt đẹp về một rạn san hô, với nhiều loài cá và sinh vật biển đầy màu sắc”. Mặc dù các video có thể rất ấn tượng nhưng chúng không phải lúc nào cũng hoàn hảo và có thể bao gồm những hình ảnh lạ và phi logic. Ví dụ: hệ thống gần đây đã tạo một video quay cảnh ai đó đang ăn bánh quy - nhưng chiếc bánh quy vẫn không nhỏ hơn chút nào dù bị ăn.
DALL-E, Midjourney và các công cụ tạo ảnh tĩnh khác đã được cải tiến nhanh chóng trong vài năm qua đến mức hiện nay chúng đang tạo ra những hình ảnh gần như không thể phân biệt được với ảnh chụp. Điều này khiến việc xác định thông tin sai lệch trực tuyến trở nên khó khăn hơn và nhiều nghệ sĩ kỹ thuật số phàn nàn rằng điều đó khiến họ khó tìm được việc làm hơn.
Reid Southen, một nghệ sĩ ý tưởng phim ở Michigan, cho biết: “Tất cả chúng tôi đều cười vào năm 2022 khi Midjourney lần đầu tiên ra mắt và nói: 'Ồ, thật dễ thương'”. “Bây giờ mọi người đang mất việc vì Midjourney.”
Từ khóa:
OpenAI lần đầu tiên mở rộng sự tham gia cho nhà đầu tư thông qua các kênh ngân hàng trong vòng gọi vốn kỷ lục mới đây…
Dù robot hình người vẫn còn cách khá xa việc phổ cập đại trà, nhưng doanh nghiệp dẫn đầu trong lĩnh vực này đã sẵn sàng bước lên sàn chứng khoán...
Với định vị là công ty số toàn cầu, tập đoàn công nghệ này phát triển trên ba trụ cột công nghệ chiến lược gồm hạ tầng AI, an ninh bảo mật và giải pháp AI...
Các nhà nghiên cứu của Google vừa đưa ra cảnh báo đáng chú ý: trong tương lai, máy tính lượng tử có thể phá vỡ các lớp mã hóa đang bảo vệ Bitcoin và nhiều tài sản số khác...
Cuộc thi robot FIRST® LEGO® League Vietnam Championship 2026 đang phản ánh rõ nét sự chuyển động của giáo dục STEM tại Việt Nam – nơi học sinh ngày càng tiếp cận sớm với công nghệ, tư duy kỹ thuật và các chuẩn mực đổi mới sáng tạo toàn cầu...
Siri có thể hoạt động như một tác nhân AI xử lý tác vụ xuyên suốt nhiều ứng dụng thông qua ngữ cảnh cá nhân…
Đầu tháng này, công ty Neuracle Medical Technology đã chính thức nhận được phê duyệt thương mại cho một thiết bị BCI. Trong khi đó, tại Mỹ, các thiết bị BCI xâm lấn vẫn chưa được phê duyệt thương mại...
Học sinh khiếm thị tại Việt Nam đang có nhiều cơ hội học tập độc lập hơn và tham gia tích cực hơn trong lớp học nhờ việc tiếp cận sách giáo khoa điện tử...
Bất chấp việc ký thỏa thuận kéo dài ba năm với The Walt Disney Company cho phép người dùng tạo video với hơn 200 nhân vật Disney, OpenAI vẫn đóng cửa ứng dụng từng làm mưa làm gió Sora…
Trung Quốc đang đẩy mạnh phổ cập trí tuệ nhân tạo trên quy mô lớn, và các “big tech” công nghệ nước này đang trực tiếp tổ chức nhiều sự kiện công khai để giúp người dân tiếp cận OpenClaw – trợ lý số cá nhân đang gây sốt…