Trải nghiệm tạo video từ Veo 3 và Google Flow: Video tạo từ AI đã đỉnh như thế nào?

Kể từ khi ra mắt, Veo 3 đã gây sốt với người dùng khắp toàn cầu nhờ khả năng tạo video từ AI chân thực và chi tiết đến khó tin. Đây là một bước tiến quan trọng, cho thấy AI không chỉ có khả năng tái tạo hình ảnh mà còn mô phỏng cả thế giới âm thanh, làm mờ đi ranh giới giữa thực tế và hư cấu.

Trong bài viết dưới đây, mình sẽ trải nghiệm nhanh khả năng tạo video mà công cụ Veo 3 đem lại. Ngoài ra, mình cũng sử dụng thêm Google Flow, trình tạo video bằng Veo mạnh mẽ nhất đến từ Google, cung cấp thêm nhiều công cụ khác như điều chỉnh các góc máy hay tạo phim ngắn.

Tạo video từ Veo 3 và Google Flow

Hiện tại, người dùng tại Mỹ đã có thể đăng ký và trải nghiệm thử Veo 3 thông qua gói Google AI Ultra với chi phí 249,99 USD/tháng (khoảng 6,5 triệu đồng). Mặc dù mức giá không hề dễ chịu, nhưng nếu xét trên những gì công cụ này có thể đem lại thì Veo 3 là một khoản đầu tư hoàn toàn xứng đáng.

Người dùng có thể kích hoạt Veo 3 ngay từ giao diện chat của Gemini. Tuy nhiên, không phải tài khoản nào cũng có sẵn tuỳ chọn này. Chẳng hạn, tài khoản mình đang sử dụng, dù đã đủ điều kiện nhưng vẫn chỉ cho phép tạo video với Veo 2.

Vì thế, trong bài viết này, mình sẽ sử dụng một công cụ khác là Google Flow. Đây là công cụ do chính Google phát triển, hiện cho phép sử dụng ở chế độ thử nghiệm. Song, có thể nói Flow là trình tạo video bằng Veo mạnh mẽ nhất, tích hợp hàng loạt tính năng không khác gì một công cụ làm phim chuyên nghiệp. Flow hiện cũng đã tích hợp Veo 3, cho phép tạo video với model mới nhất đến từ Google.

Trước hết, mình thử tạo video mô tả cảnh một cô gái chạy xe phân khối lớn vào ban đêm. Trong prompts, mình mô tả khá chi tiết các yếu tố xuất hiện, chẳng hạn như bối cảnh (một đêm trăng tròn ngày rằm), nhân vật (một cô gái với độ tuổi, trang phục, đi xe gì), hành động (xe chạy như thế nào, tốc độ nhanh hay chậm)…

Kết quả cho ra không khiến mình thất vọng. Veo 3 mô tả các chi tiết trong video với độ chân thực vô cùng cao. Chẳng hạn, các rặng cây phía sau có độ nổi khối chứ không bị giả tạo, mặt trăng cũng có kích thước vừa đủ lớn. Ánh đèn hay chuyển động từ chiếc xe phân khối lớn cũng được xử lý rất chuẩn xác. Ngoại trừ chỉ có một khoảnh khắc nhỏ (ở giây thứ 3 trong video), Veo 3 xử lý chưa tốt khi chiếc xe bị bẻ ngoặt khi vào cua, chưa thật sự tự nhiên.

Tham khảo prompts tạo video tại đây.

Tiếp theo, mình thử sức Veo 3 với một video có đối thoại giữa các nhân vật. Bối cảnh được đặt tại một quán cafe, có một cô gái đang đặt đồ với nhân viên. Kết quả cho ra cũng khiến mình bất ngờ vì chân thực đến khó tin. Giọng nói từ cô gái “ăn nhập” vào khuôn miệng, ngoài ra cảnh bạn nhân viên gật đầu, thao tác với máy POS và đi ra ngoài (cuối video) cũng được tái hiện rất chân thực.

Song, mình dễ dàng nhận ra một số vấn đề có trong video. Chẳng hạn, video tự tạo phụ đề (subtitles) và các con chữ xử lý chưa tốt (mặc dù trong prompts mình yêu cầu Veo 3 không tạo văn bản hay chữ). Ngoài ra, giọng đọc của cô gái có cảm giác chưa thật sự tự nhiên, nôm na là vẫn “hơi AI hoá”.

Tham khảo prompts tạo video tại đây.

Mặc định, công cụ Google Flow sẽ tạo video với Veo 2 để đảm bảo tốc độ nhanh nhất. Song, mình có thể dễ dàng tuỳ chỉnh sang Veo 3 để đạt chất lượng cao nhất. Các video tạo từ model này sẽ có độ dài 8 giây và mất khoảng 1 phút cho việc tạo sinh.

Tất nhiên, người dùng có thể tải về video để lưu trữ ngoại tuyến hay chia sẻ với bạn bè. Video được tạo mặc định có chất lượng 720p, song người dùng có thể tăng độ nét (upscale) lên độ phân giải 1080p.

Tiếp đến, mình thử tạo một video khác với cấu trúc prompts tương tự bên trên. Có thể thấy, Veo 3 xử lý phần hậu cảnh video tốt khi phần bóng đổ của các toà nhà phía sau cũng chuyển động nhịp nhàng dưới nước. Hai nhân vật trong video cũng được tái tạo chân thực, ngoại trừ việc trang phục của bạn nữ bị sai so với yêu cầu (áo dài thay vì váy).

Tham khảo prompts tạo video tại đây.

Tài khoản của mình hiện đang sử dụng gói Google AI Pro và được cấp 1.000 tín dụng (credits) mỗi tháng. Mỗi video được tạo từ Veo 3 sẽ sử dụng 100 tín dụng, đồng nghĩa với tài khoản của mình có thể tạo 10 video mỗi tháng. Với người dùng Google AI Ultra, tài khoản sẽ được cấp 12.500 tín dụng.

Tận dụng thêm Gemini để xây dựng kịch bản

Tất nhiên, tiềm năng của Google Flow và Veo 3 không chỉ dừng lại ở đó. Với tính năng Scenebuilder (Xây dựng cảnh), người dùng có thể yêu cầu hệ thống tạo và ghép nhiều video AI khác nhau để tạo thành một bộ phim ngắn. Kết hợp với chatbot Gemini, người dùng có thể biến mình thành một “nhà làm phim nghiệp dư” mà không cần quá nhiều công sức.

Trong trường hợp dưới đây, mình có thử “chuyển thể” bộ truyện tranh nổi tiếng Tý Quậy thành một bộ phim ngắn. Trước hết, mình gửi một số ảnh trong một tập truyện và yêu cầu Gemini phân tích nội dung và bối cảnh cần có.

Sau đó, yêu cầu Gemini chuyển thể kịch bản trong tập truyện trên thành một storyboard (bảng phân cảnh) dạng văn bản, với các phân cảnh như mong muốn. Cũng cần lưu ý rằng phải chuyển kịch bản sang tiếng Anh, vì hiện Google Flow chưa hỗ trợ prompts tiếng Việt.

Khi này, Gemini sẽ đưa ra storyboard với từng phân cảnh khác nhau. Trước mắt, mình đưa phân cảnh thứ ba (Scene 3) vào trong Google Flow, và chờ hệ thống xử lý xong.

Sau khi hoàn thiện, di chuyển con trò chuột vào góc bên trái video và chọn Add to scene. Tại màn hình Scenebuilder, mình tìm đến biểu tượng dấu cộng bên dưới và chọn Extend.

Khi này, mình chỉ cần nhập nội dung phân cảnh tiếp theo vào trong video. Sau khi nhập xong, hệ thống sẽ tiếp tục tạo ra video thứ hai với phần mở đầu được nối liền với phần kết thúc của video đầu tiên. Chỉ cần lặp lại thao tác này nhiều lần, kết quả là mình sẽ có một bộ phim ngắn được tạo ra bởi AI với nhiều phân cảnh khác nhau.

Thậm chí, trong giao diện Scenebuilder, người dùng còn có thể tuỳ chỉnh các góc quay khác nhau, sao cho mô phỏng đúng bối cảnh và không gian mong muốn. Điều này khiến mình có cảm giác như một nhà làm phim chuyên nghiệp, có thể tuỳ chỉnh bộ phim với kịch bản và các góc quay rất đa dạng, chi tiết.

Video 2 phân cảnh được tạo từ Veo 3, Google Flow và Gemini 2.5 Pro

Tất nhiên, vẫn sẽ có những vấn đề mà Veo 3 cần cải thiện. Đoạn video dưới đây không có âm thanh, dù mình đã tạo bằng mô hình Veo 3 mới nhất. Ngoài ra, ở phân cảnh thứ hai, hệ thống vẫn tự động tạo phụ đề cho dù trước đó mình có yêu cầu không thêm bất cứ văn bản nào.

Tạm kết

Có thể thấy, sức mạnh mà Google mang đến với Veo 3 là đáng nể như thế nào. Trong các trường hợp bên trên, nếu không theo dõi kỹ từng khung cảnh, tiểu tiết thì rất khó có thể nhận ra đây là video được tạo từ AI. Thêm nữa, với sự trợ giúp từ các công cụ như Gemini hay Google Flow, người dùng còn có thể trở thành một nhà làm phim mà không cần quá nhiều công sức.