OpenAI phát hành Sora, công cụ tạo video bằng văn bản với độ chính xác cao

Vừa qua, OpenAI đã giới thiệu Sora, một mô hình AI có khả năng tạo các đoạn video dài tới 60 giây chỉ với một vài dòng văn bản.

OpenAI cho biết, Sora có thể tạo ra các cảnh phức tạp với nhiều nhân vật, các loại chuyển động cụ thể và chi tiết chính xác của chủ thể và hậu cảnh. Quan trọng hơn hết, mô hình không chỉ hiểu những gì người dùng đã yêu cầu trong lời nhắc mà còn hiểu cả cách những thứ đó tồn tại trong thế giới vật lý. Đây chính là yếu tố quan trọng giúp video trở nên thực tế hơn. OpenAI cho biết, hãng dự định đào tạo các mô hình AI để có thể “giúp mọi người giải quyết các vấn đề đòi hỏi sự tương tác trong thế giới thực”.

Các video được tại từ Sora của OpenAI

Mô tả: Cảnh hoạt hình có cận cảnh một con quái vật lông xù ngắn quỳ bên cạnh một ngọn nến đỏ tan chảy. Phong cách nghệ thuật là 3D và thực tế, tập trung vào ánh sáng và kết cấu. Video: OpenAI

Mô tả: Chế độ xem bằng máy bay không người lái của những con sóng vỗ vào những vách đá gồ ghề dọc theo bãi biển điểm garay của Big Sur. Nước biển xanh tạo ra những con sóng trắng, trong khi ánh sáng vàng của mặt trời lặn chiếu sáng bờ đá. Một hòn đảo nhỏ với một ngọn hải đăng nằm ở phía xa, và cây bụi xanh bao phủ rìa vách đá. Video: OpenAI

“Multi-modal models” của Sora không phải quá mới mẻ khi các mô hình chuyển văn bản thành video đã xuất hiện trong vài năm qua, nhưng điều khiến nó trở nên khác biệt là độ dài và độ chính xác mà OpenAI tuyên bố. Reece Hayden, nhà phân tích cao cấp tại công ty nghiên cứu thị trường ABI Research cho biết, các loại mô hình AI này có thể có tác động lớn đến thị trường giải trí kỹ thuật số với các nội dung được cá nhân hóa. Một trường hợp sử dụng hợp lý là tạo ra những cảnh ngắn để hỗ trợ câu chuyện trên TV. Mô hình vẫn còn hạn chế, nhưng nó cho thấy hướng đi tương lai của thị trường giải trí.

Mô tả: Video cận cảnh hình ảnh của hai con tàu cướp biển chiến đấu với nhau khi họ đi thuyền bên trong một tách cà phê. Video: OpenAI

Trước tiên, Sora sẽ được cung cấp cho các giáo sư an ninh mạng, được gọi là “nhóm đỏ”, những người có thể đánh giá sản phẩm cả về mặt tác hại hoặc rủi ro. Ngoài ra, hãng cũng cấp quyền truy cập cho một số nghệ sĩ thị giác, nhà thiết kế và nhà làm phim để thu thập phản hồi về cách các chuyên gia sáng tạo có thể sử dụng nó.

Hiện tại, OpenAI chưa tiết lộ thời gian phát hành công khai của Sora.

Trong trang giới thiệu, OpenAI cũng đặt rất nhiều video thể hiện sức mạnh của Sora khi tạo ra các video có độ chân thực cao. Với đoạn mô tả: Bóng rổ qua rổ sau đó phát nổ. Tổng thể video khá chân thực với màu sắc, ánh sáng và chi tiết được làm khá kỹ. Tuy nhiên, chính OpenAI cũng tự ghi chú các điểm yếu của video trong từng video. Ở đây là vật thể “biến dạng” không tự nhiên.

Mô tả: Bóng rổ qua rổ sau đó phát nổ.
Điểm yếu: Một ví dụ về mô hình vật lý không chính xác và vật thể “biến dạng” không tự nhiên.
Video: OpenAI

Mô tả: Các nhà khảo cổ phát hiện ra một chiếc ghế nhựa trong sa mạc, khai quật và phủi bụi rất cẩn thận. Điểm yếu: Trong ví dụ này, Sora không mô hình hóa chiếc ghế như một vật cứng, dẫn đến các tương tác vật lý không chính xác.
Video: OpenAI

Theo hãng, mô hình hiện tại vẫn có điểm yếu. Sora có thể đấu tranh với việc mô phỏng chính xác vật lý của một cảnh phức tạp và có thể không hiểu các trường hợp nguyên nhân và kết quả cụ thể. Ví dụ: một người có thể cắn một miếng bánh quy, nhưng sau đó, bánh quy lại có thể không có vết cắn. Thêm vào đó, Sora có thể nhầm lẫn giữa trái và phải, hay không hiểu cách một người hoặc vật thể tương tác với một cảnh.

OpenAI cho biết, hãng sẽ xây dựng các công cụ để giúp phát hiện nội dung gây hiểu lầm, cũng như áp dụng các công nghệ hiện có để từ chối các dòng mô tả văn bản có hại.