Google ra mắt Veo: Mô hình tạo video AI dài hơn cả Sora của OpenAI

Tại sự kiện Google I/O 2024, Google đã giới thiệu Veo, mô hình AI có khả năng tạo các video độ phân giải 1080p có thời lượng dài hơn một phút. Bên cạnh đó, hãng cũng giới thiệu một AI tạo hình ảnh mới có tên Imagen 3.

Veo có khả năng hiểu ngôn ngữ tự nhiên và có thể “nắm bắt chính xác âm điệu của lời nhắc”, từ đó tạo các video thể hiện chặt chẽ tầm nhìn sáng tạo của người dùng. Thậm chí, Google cho biết, mô hình này còn có thể hiểu các thuật ngữ điện ảnh như video “timelapse” hoặc “ảnh chụp phong cảnh từ trên không”. Thêm vào đó, Veo có thể tạo ra cảnh quay nhất quán và mạch lạc với các chủ thể con người, động vật và đồ vật chuyển động một cách chân thực trong suốt cảnh quay.

So với Sora, Veo vượt trội hơn nhờ khả năng tạo video dài hơn một phút, trong khi mô hình của OpenAI chỉ có thể tạo video với thời lượng tối đa là 60 giây. Được biết, Veo được xây dựng dựa trên năm mô hình tạo video của Google, bao gồm Generative Query Network (GQN), DVD-GAN , Imagen-Video, Phenaki, WALT, VideoPoet và Lumiere, kết hợp với nhiều kỹ thuật khác để cải thiện chất lượng và độ phân giải đầu ra.

Video được tạo ra bởi mô hình Veo

Với Veo, Google đã cải tiến kỹ thuật về cách mô hình học cách hiểu nội dung trong video, hiển thị hình ảnh có độ phân giải cao, mô phỏng tính chất vật lý của thế giới chúng ta và hơn thế nữa. Theo Google, những kiến thức này sẽ thúc đẩy những tiến bộ trong quá trình nghiên cứu AI và cho phép Google xây dựng nhiều sản phẩm hữu ích hơn nữa để giúp mọi người tương tác và giao tiếp theo những cách mới.

Trong tương lai, Google cho biết họ cũng sẽ đưa một số tính năng của mô hình Veo vào YouTube Shorts và các sản phẩm khác của hãng.

Ngoài Veo, Google cũng giới thiệu Imagen 3 – mô hình tạo hình ảnh chất lượng cao nhất của hãng ở thời điểm hiện tại. Google viết trên website chính thức rằng: “Imagen 3 tạo ra những bức hình có mức độ chi tiết đáng kinh ngạc, hình ảnh chân thực, sống động như thật với ít chi tiết gây mất tập trung trong ảnh hơn so với các mô hình trước đây của hãng.”

Một số bức ảnh được tạo ra bởi Imagen 3

Thêm vào đó, Imagen 3 còn có thể hiểu rõ về ngôn ngữ tự nhiên, ý định đằng sau lời nhắc của người dùng và kết hợp các chi tiết nhỏ có trong đoạn văn dài. Nhờ những cải tiến này, Google cho biết Imagen 3 có thể tạo ra các hình ảnh với nhiều phong cách khác nhau.

Bắt đầu từ hôm nay, Imagen 3 sẽ có sẵn cho một số nhà sáng tạo được lựa chọn trong chế độ xem trước riêng tư trong ImageFX.