Google vừa chính thức công bố Imagen 4, mô hình tạo ảnh từ văn bản tiên tiến nhất và hiện đã có mặt trên Gemini API và miễn phí trên Google AI Studio. Imagen 4 mang đến khả năng biến ý tưởng thành hình ảnh chất lượng cao với những cải tiến vượt trội, đặc biệt là trong việc hiển thị văn bản.
Imagen 4 có những cải tiến gì?
Theo blog chính thức của Google Developers, Imagen 4 không chỉ cải thiện chất lượng hình ảnh mà còn đặc biệt ở khả năng hiển thị văn bản sắc nét và chính xác. Điều này cho phép người dùng tạo ra những hình ảnh không chỉ đẹp mắt mà còn chứa đựng thông điệp văn bản rõ ràng, mở ra nhiều ứng dụng thực tế trong các lĩnh vực như thiết kế, quảng cáo và giáo dục.
Để phục vụ các mục đích sử dụng khác nhau, Google đã phát triển hai phiên bản của Imagen 4:
- Imagen 4: Phiên bản tiêu chuẩn, có giá 0.04 USD mỗi hình ảnh, được thiết kế để xử lý linh hoạt nhiều tác vụ tạo ảnh với chất lượng cao. Đây là lựa chọn lý tưởng cho những ai cần một công cụ mạnh mẽ và đa năng.
- Imagen 4 Ultra: Phiên bản cao cấp, có giá 0.06 USD mỗi hình ảnh, tập trung vào độ chính xác và khả năng tuân thủ chặt chẽ các câu lệnh phức tạp. Imagen 4 Ultra vượt trội hơn các mô hình hàng đầu khác trong việc tạo ra hình ảnh chi tiết, chân thực, phù hợp cho các dự án chuyên nghiệp đòi hỏi sự tỉ mỉ.
Imagen 4 Ultra được tối ưu cho các yêu cầu cần độ chính xác cao, trong khi phiên bản Imagen 4 tiêu chuẩn đáp ứng tốt các tác vụ thông thường. Người dùng cũng hoàn toàn có thể trải nghiệm miễn phí bằng cách truy cập trang web Google AI Studio. Hiện tại Imagen 4 vẫn chưa tích hợp trực tiếp vào trang web và ứng dụng điện thoại của Gemini.
Trải nghiệm tạo ảnh với Imagen 4
Để dễ hình dung hơn, sau đây là một vài ví dụ về khả năng tạo ảnh của Imagen 4 kèm câu lệnh (prompt) cụ thể:
Ví dụ 1: Tạo 1 trang truyện tranh bằng câu lệnh tiếng anh
Prompt: “A 3-panel cosmic epic comic. Panel 1: Tiny ‘Stardust’ in nebula; radar shows anomaly (text ‘ANOMALY DETECTED’), hull text ‘stardust’. Pilot whispers. Panel 2: Bioluminescent leviathan emerges; console red text ‘WARNING!. Panel 3: Leviathan chases ship through asteroids; console re text ‘SHIELD CRITICAL!’, screen text ‘EVADE!’. Pilot screams, SFX ‘CRUNCH!’, ‘ROOOOAAARR!’.A 3-panel cosmic epic comic. Panel 1: Tiny ‘Stardust’ in nebula; radar shows anomaly (text ‘ANOMALY DETECTED’), hull text ‘stardust’. Pilot whispers. Panel 2: Bioluminescent leviathan emerges; console red text ‘WARNING!. Panel 3: Leviathan chases ship through asteroids; console re text ‘SHIELD CRITICAL!’, screen text ‘EVADE!’. Pilot screams, SFX ‘CRUNCH!’, ‘ROOOOAAARR!’.”

Người dùng cũng có thể lựa chọn mô hình và tỷ lệ khung hình cho ảnh trực tiếp trong giao diện của Google AI Studio
Prompt: Cận cảnh một bàn tay cầm dao cắt một quả dâu tây trông như thủy tinh trong suốt trên một chiếc thớt gỗ. Quả dâu tây được làm bằng thủy tinh, vô cùng chân thực và đẹp mắt, giống như một viên pha lê đỏ trong mờ, được đặt trên chiếc thớt gỗ sạch sẽ. Lưỡi dao lướt nhẹ qua quả dâu, tạo nên những lát mỏng, trong suốt.

Prompt: Trời đang mưa trong thành phố về đêm, mùa hè. Thành phố ngập tràn cây xanh và những ngôi nhà hai tầng cổ kính. Những chiếc đèn đường tỏa ánh sáng mờ ảo. Ánh sáng và chi tiết tuyệt đẹp

Prompt: Một khu nhà tắm suối nước nóng kiểu Nhật (onsen) trong nhà, với trần mái vòm tròn bằng kính đón ánh sáng tự nhiên. Bên trong có các chậu tắm bằng gỗ tròn, xung quanh là cây xanh tươi mát và ánh đèn vàng dịu nhẹ trên tường. Trong các bồn tắm có những nhân vật thú nhồi bông hoạt hình dễ thương: một chú vịt trắng và một con gấu trúc nâu đội hoa cúc trắng trên đầu, đang ngâm mình thư giãn trong làn nước bốc hơi ấm áp. Phong cách hoạt hình 3D mềm mại, tông màu ấm và ánh sáng nhẹ nhàng, không khí yên tĩnh dễ chịu.

Prompt: Chân dung nhiếp ảnh hiện thực với hiệu ứng bokeh mờ ảo đầy mơ mộng, ánh sáng chi tiết dịu nhẹ. Bức ảnh mô tả cận cảnh một cô gái với mái tóc dài, nâu óng đang bay nhẹ trong gió. Người này mặc một chiếc áo dây đen để lộ vai, gợi ý rằng đó là một chiếc áo không tay. Phía sau là khung cảnh ngoài trời được làm mờ mềm mại, ánh sáng ấm áp — có thể là vào lúc bình minh hoặc hoàng hôn — tạo nên không khí yên bình và tự nhiên. Trọng tâm bức ảnh tập trung vào mái tóc và góc nghiêng khuôn mặt người mẫu, làm nổi bật chất tóc và chuyển động mềm mại của nó.

Prompt: Một bức ảnh macro độ chi tiết cao chụp cánh bướm, thể hiện các hoa văn phức tạp và màu sắc rực rỡ bao gồm các sắc độ của cam, tím, trắng, đen và một chút xanh lam. Kết cấu của từng vảy nhỏ được hiển thị rõ ràng, làm nổi bật cấu trúc tinh tế và vẻ đẹp tự nhiên. Hình ảnh được đặt trên nền tối mờ nhẹ, giúp tăng cường độ sống động và chi tiết.

Sự ra mắt của hai phiên bản Imagen 4 và Imagen 4 Ultra đang mang đến sự linh hoạt, đáp ứng từ nhu cầu sáng tạo cơ bản đến các dự án chuyên nghiệp đòi hỏi độ chính xác cao, đặc biệt là khả năng thêm văn bản vào hình ảnh. Tuy nhiên qua trải nghiệm thì Imagen 4 vẫn chưa hoàn toàn xử lý tốt với những câu lệnh tiếng Việt, người dùng nên cân nhắc hoặc dịch prompt sang tiếng Anh để hình ảnh được tạo ra chính xác nhất.
Comments