Vừa qua, OpenAI đã giới thiệu Sora, một mô hình AI có khả năng tạo các đoạn video dài tới 60 giây chỉ với một vài dòng văn bản.
OpenAI cho biết, Sora có thể tạo ra các cảnh phức tạp với nhiều nhân vật, các loại chuyển động cụ thể và chi tiết chính xác của chủ thể và hậu cảnh. Quan trọng hơn hết, mô hình không chỉ hiểu những gì người dùng đã yêu cầu trong lời nhắc mà còn hiểu cả cách những thứ đó tồn tại trong thế giới vật lý. Đây chính là yếu tố quan trọng giúp video trở nên thực tế hơn. OpenAI cho biết, hãng dự định đào tạo các mô hình AI để có thể “giúp mọi người giải quyết các vấn đề đòi hỏi sự tương tác trong thế giới thực”.
Các video được tại từ Sora của OpenAI
“Multi-modal models” của Sora không phải quá mới mẻ khi các mô hình chuyển văn bản thành video đã xuất hiện trong vài năm qua, nhưng điều khiến nó trở nên khác biệt là độ dài và độ chính xác mà OpenAI tuyên bố. Reece Hayden, nhà phân tích cao cấp tại công ty nghiên cứu thị trường ABI Research cho biết, các loại mô hình AI này có thể có tác động lớn đến thị trường giải trí kỹ thuật số với các nội dung được cá nhân hóa. Một trường hợp sử dụng hợp lý là tạo ra những cảnh ngắn để hỗ trợ câu chuyện trên TV. Mô hình vẫn còn hạn chế, nhưng nó cho thấy hướng đi tương lai của thị trường giải trí.
Trước tiên, Sora sẽ được cung cấp cho các giáo sư an ninh mạng, được gọi là “nhóm đỏ”, những người có thể đánh giá sản phẩm cả về mặt tác hại hoặc rủi ro. Ngoài ra, hãng cũng cấp quyền truy cập cho một số nghệ sĩ thị giác, nhà thiết kế và nhà làm phim để thu thập phản hồi về cách các chuyên gia sáng tạo có thể sử dụng nó.
Hiện tại, OpenAI chưa tiết lộ thời gian phát hành công khai của Sora.
Trong trang giới thiệu, OpenAI cũng đặt rất nhiều video thể hiện sức mạnh của Sora khi tạo ra các video có độ chân thực cao. Với đoạn mô tả: Bóng rổ qua rổ sau đó phát nổ. Tổng thể video khá chân thực với màu sắc, ánh sáng và chi tiết được làm khá kỹ. Tuy nhiên, chính OpenAI cũng tự ghi chú các điểm yếu của video trong từng video. Ở đây là vật thể “biến dạng” không tự nhiên.
Theo hãng, mô hình hiện tại vẫn có điểm yếu. Sora có thể đấu tranh với việc mô phỏng chính xác vật lý của một cảnh phức tạp và có thể không hiểu các trường hợp nguyên nhân và kết quả cụ thể. Ví dụ: một người có thể cắn một miếng bánh quy, nhưng sau đó, bánh quy lại có thể không có vết cắn. Thêm vào đó, Sora có thể nhầm lẫn giữa trái và phải, hay không hiểu cách một người hoặc vật thể tương tác với một cảnh.
OpenAI cho biết, hãng sẽ xây dựng các công cụ để giúp phát hiện nội dung gây hiểu lầm, cũng như áp dụng các công nghệ hiện có để từ chối các dòng mô tả văn bản có hại.