10:24 16/02/2024

OpenAI đẩy cuộc đua AI lên bậc thang mới, ra mắt công cụ Sora tạo video từ text

Thanh Minh

Hiện tại, OpenAI vẫn chưa phát hành Sora ra công chúng mà chỉ chia sẻ công nghệ này với một nhóm nhỏ các học giả và các nhà nghiên cứu bên ngoài…

Hình ảnh trong video do OpenAI tạo ra về một phụ nữ bước đi trên đường phố Tokyo
Hình ảnh trong video do OpenAI tạo ra về một phụ nữ bước đi trên đường phố Tokyo

Vào tháng 4, một công ty khởi nghiệp ở New York có tên Runway AI đã tiết lộ công nghệ cho phép mọi người tạo video. Các video chỉ dài 4 giây, bị mờ, giật, méo và khó chịu. Nhưng đó là dấu hiệu rõ ràng cho thấy công nghệ trí tuệ nhân tạo sẽ tạo ra những video ngày càng thuyết phục trong những tháng và năm tới.

Chỉ 10 tháng sau, công ty khởi nghiệp OpenAI ở San Francisco đã tiết lộ một hệ thống tương tự có thể tạo ra các video như thể được lấy ra từ một bộ phim Hollywood. OpenAI đã trình diễn một số video ngắn - được tạo trong vài phút - về những con voi ma mút lông xù chạy qua đồng cỏ đầy tuyết, hay video về một con quái vật nhìn chằm chằm vào một ngọn nến đang tan chảy và khung cảnh đường phố Tokyo dường như được quay bởi một chiếc máy ảnh sà ngang qua thành phố.

SORA, CÔNG CỤ TẠO VIDEO TỪ TEXT CỦA OPENAI

OpenAI, công ty đứng sau chatbot ChatGPT và trình tạo ảnh tĩnh DALL-E, nằm trong số nhiều công ty đang chạy đua để cải tiến loại trình tạo video tức thời này. Bên cạnh OpenAI là các công ty khởi nghiệp như Runway và những gã khổng lồ công nghệ như Google và Meta, chủ sở hữu của Facebook và Instagram. Công nghệ này có thể tăng tốc công việc của các nhà làm phim dày dạn kinh nghiệm, đồng thời thay thế hoàn toàn các nghệ sĩ kỹ thuật số ít kinh nghiệm hơn.

Nó cũng có thể trở thành một cách nhanh chóng và ít tốn kém để tạo ra thông tin sai lệch trực tuyến, khiến việc xác định đâu là sự thật trên internet càng trở nên khó khăn hơn.

Oren Etzioni, giáo sư chuyên về trí tuệ nhân tạo tại Đại học Washington, cho biết: “Tôi thực sự lo sợ rằng loại công nghệ này sẽ ảnh hưởng đến một cuộc bầu cử có tính cạnh tranh sít sao”. Ông cũng là người sáng lập True Media, một tổ chức phi lợi nhuận hoạt động nhằm xác định thông tin sai lệch trực tuyến trong các chiến dịch chính trị.

OpenAI gọi hệ thống mới của mình là Sora, theo từ tiếng Nhật có nghĩa là bầu trời. Nhóm đằng sau công nghệ này, bao gồm các nhà nghiên cứu Tim Brooks và Bill Peebles, đã chọn cái tên này vì nó “gợi lên ý tưởng về tiềm năng sáng tạo vô hạn”.

Video này được OpenAI tạo ra bằng công cụ Sora, theo câu lệnh: “Đoàn voi ma mút lông khổng lồ bước qua một đồng cỏ đầy tuyết, bộ lông dài của chúng tung bay nhẹ trong gió khi chúng bước đi, cây cối phủ đầy tuyết, những ngọn núi phủ tuyết ấn tượng ở phía xa, ánh sáng giữa buổi chiều, những đám mây mỏng manh và bầu trời trên cao tạo ra ánh sáng ấm áp, chế độ xem camera ấn tượng với hình ảnh loài động vật có vú lớn di chuyển"

Trong một cuộc phỏng vấn, họ cũng cho biết công ty vẫn chưa phát hành Sora ra công chúng vì họ vẫn đang nỗ lực tìm hiểu mối nguy hiểm của hệ thống. Thay vào đó, OpenAI đang chia sẻ công nghệ này với một nhóm nhỏ các học giả và các nhà nghiên cứu bên ngoài khác, những người sẽ là “red team”, một thuật ngữ chỉ việc tìm kiếm những cách công cụ có thể bị lạm dụng.

Tiến sĩ Brooks nói: “Mục đích ở đây là đưa ra một bản xem trước về những gì sắp xảy ra, để mọi người có thể thấy được khả năng của công nghệ này - và chúng tôi có thể nhận được phản hồi”.

OpenAI đã gắn thẻ các video do hệ thống tạo ra bằng các hình mờ để xác định chúng được tạo bởi A.I. Nhưng công ty thừa nhận rằng những hình ảnh mờ xác định video đó do AI tạo ra vẫn có thể bị “lách luật”. Hơn nữa, người xem cũng khó phát hiện ra các hình mờ đó. 

SORA CÓ THỂ TẠO RA NHỮNG VIDEO “ĐẸP NHƯ TRONG PHIM HOLLYWOOD”

Hệ thống này là một ví dụ về AI tổng quát, có thể tạo văn bản, hình ảnh và âm thanh ngay lập tức. Giống như các A.I sáng tạo khác. công nghệ, hệ thống của OpenAI học hỏi bằng cách phân tích dữ liệu kỹ thuật số - trong trường hợp này là video và chú thích mô tả nội dung của những video đó.

OpenAI từ chối cho biết hệ thống đã học được bao nhiêu video hoặc chúng đến từ đâu, ngoại trừ việc cho biết khóa đào tạo bao gồm cả video có sẵn công khai và video được cấp phép từ chủ sở hữu bản quyền. Công ty nói rất ít về dữ liệu được sử dụng để đào tạo công nghệ của mình, rất có thể là vì họ muốn duy trì lợi thế so với các đối thủ cạnh tranh - và đã bị kiện nhiều lần vì sử dụng tài liệu có bản quyền.

Sora tạo video dựa trên những mô tả ngắn, chẳng hạn như “một thế giới giấy thủ công được thể hiện tuyệt đẹp về một rạn san hô, với nhiều loài cá và sinh vật biển đầy màu sắc”. Mặc dù các video có thể rất ấn tượng nhưng chúng không phải lúc nào cũng hoàn hảo và có thể bao gồm những hình ảnh lạ và phi logic. Ví dụ: hệ thống gần đây đã tạo một video quay cảnh ai đó đang ăn bánh quy - nhưng chiếc bánh quy vẫn không nhỏ hơn chút nào dù bị ăn.

DALL-E, Midjourney và các công cụ tạo ảnh tĩnh khác đã được cải tiến nhanh chóng trong vài năm qua đến mức hiện nay chúng đang tạo ra những hình ảnh gần như không thể phân biệt được với ảnh chụp. Điều này khiến việc xác định thông tin sai lệch trực tuyến trở nên khó khăn hơn và nhiều nghệ sĩ kỹ thuật số phàn nàn rằng điều đó khiến họ khó tìm được việc làm hơn.

Reid Southen, một nghệ sĩ ý tưởng phim ở Michigan, cho biết: “Tất cả chúng tôi đều cười vào năm 2022 khi Midjourney lần đầu tiên ra mắt và nói: 'Ồ, thật dễ thương'”. “Bây giờ mọi người đang mất việc vì Midjourney.”