Thử mở rộng ảnh, tách nền, viết chữ, phục hồi ảnh cũ với Gemini 2.0 Flash Experimental: Còn thiếu sót, nhưng rất tiềm năng!

Mới đây, Google đã trình làng Gemini 2.0 Flash Experimental, một công cụ AI cho phép tạo và chỉnh sửa ảnh từ câu lệnh văn bản. Nhờ khả năng xử lý ảnh thông qua ngôn ngữ tự nhiên chính xác và linh hoạt, công cụ này đã nhận được sự quan tâm của lượng lớn người dùng trong thời gian qua. Thậm chí, có những ý kiến cho rằng viễn cảnh những công cụ AI như Gemini 2.0 Flash Experimental thay thế hoàn toàn Adobe Photoshop không còn xa.

Trong bài viết dưới đây, mình sẽ trải nghiệm Gemini 2.0 Flash Experimental qua nhiều trường hợp khác nhau như vẽ thêm chi tiết, tách nền ảnh, viết chữ hay ghép hai bức ảnh vào cùng một khung hình. Mình cũng sẽ so sánh với các tính năng AI trong Adobe Photoshop để có cái nhìn khách quan nhất.

Gemini 2.0 Flash Experimental

Trên thực tế, Gemini đã cho phép người dùng tạo ảnh bằng câu lệnh (prompts) khá lâu trước đó. Tuy nhiên, với phiên bản Gemini 2.0 Flash Experimental mới này, người dùng có thể yêu cầu chatbot thực hiện những tác vụ sâu hơn liên quan đến ảnh như thêm chi tiết, tách nền ảnh, viết chữ hay ghép hai bức ảnh vào cùng một khung hình.

*Giao diện làm việc của Gemini 2.0 Flash Expermental.*

Một trong những cách sử dụng chatbot này là thông qua Google AI Studio. Người dùng có thể truy cập Google AI Studio tại đường dẫn dưới đây, sau đó nhập câu lệnh và kéo ảnh cần xử lý vào mục Type something. Họ cũng cần đảm bảo đã chuyển Model sang Gemini 2.0 Flash (Image Generation) Experimental để hệ thống hoạt động ổn định nhất.

Thay đổi chi tiết trong bức ảnh

Trong bức hình đầu tiên, mình thử thay đổi vật thể mà nhân vật đang cầm (bình nước Hydrogen) thành một cốc nước. Nhìn chung, Gemini không gặp khó khi tái tạo chiếc cốc khá chuẩn xác. Thậm chí, AI còn điều chỉnh lại tư thế của các ngón tay sao cho tự nhiên nhất.

Prompt 1: Thay đổi vật thể mà người trong bức hình đang cầm thành một chiếc cốc.

Ảnh được Gemini xử lý

Ảnh gốc

Đến một trường hợp khác, mình yêu cầu Gemini 2.0 Flash Experimental thay đổi chiếc áo cho nhân vật trong bức ảnh. Với những điều kiện đơn giản, nhìn chung Gemini cho ra khả năng xử lý rất tốt. Chiếc áo được tái tạo có phần tự nhiên, thậm chí trong trường hợp này AI còn thay đổi cả dây chuyền mà nhân vật đang đeo.

Prompt 2: Thay đổi chiếc áo thành áo cotton màu đỏ, có một vài vết nhăn.

Ảnh được Gemini xử lý

Ảnh gốc

So với các công cụ chỉnh ảnh truyền thống thì cách làm trên Gemini tiện lợi hơn đáng kể. Chẳng hạn, với Adobe Photoshop, mình cần phải dùng các công cụ như Marquee Tool để chọn vùng chiếc áo, sau đó nhập câu lệnh qua Generative Fill để thay đổi chi tiết.

Đến một điều kiện khó hơn, Gemini 2.0 Flash Experimental vẫn làm đúng yêu cầu khi thay đổi nền trời từ âm u thành khô ráo, có nắng. Song, người dùng có thể dễ dàng nhận thấy lượng chi tiết bị giảm sút. Các con chữ trên biển báo hay nóc toà nhà bị biến đổi, tổng thể bức ảnh cũng có phần hơi giả tạo.

Prompt 3: Thay đổi bức ảnh này thành điều kiện trời có nắng, khô ráo.

Ảnh được Gemini xử lý

Ảnh gốc

Ở những trường hợp phải vẽ thêm chi tiết, Gemini 2.0 Flash Experimental xử lý chưa thật sự tốt. Chẳng hạn, trong bức hình dưới đây, những người được AI vẽ thêm vào rất mờ và nhoè, đặc biệt là khi zoom vào.

Prompt 4: Thêm một vài người đang đứng trên cây cầu trong bức ảnh.

Ảnh được Gemini xử lý

Ảnh gốc

Nhập hai bức ảnh làm một

Một trong những yếu tố được đánh giá cao trên Gemini 2.0 Flash Experimental là khả năng làm việc với nhiều bức ảnh. Chẳng hạn, người dùng có thể nhập chi tiết trong hai bức ảnh làm một, hoặc ghép chủ thể sang một bức ảnh chụp phong cảnh khác.

Trong trường hợp dưới đây, mình yêu cầu Gemini ghép hình chú gấu vào tay của chủ thể trong bức hình chân dung. Hệ thống xử lý khá ổn các chi tiết trên chú gấu hay thao tác tay. Song, khuôn mặt của chủ thể bị biến đổi (màu da, tóc) và không còn tương đồng so với bức ảnh gốc.

Prompt 5: Tạo một bức ảnh cô gái trong hình tải lên đang cầm trong tay chú gấu trong hình tải lên. Chú gấu có kích thước nhỏ, có thể cầm dễ dàng bằng một tay.

Ở một vài điều kiện khác, Gemini ghép ảnh cũng chưa thật sự tự nhiên. Chẳng hạn, mình thử ghép nhân vật đứng trước Lăng Bác. Hệ thống nhận dạng chính xác chủ thể, song phần ghép lại hơi giả tạo và chưa ăn nhập với không gian của lăng.

Prompt 6: Chuyển nhân vật từ trong bức hình tải lên sang đứng trước bức hình chụp phong cảnh tôi tải lên.

Mở rộng ảnh

Tương tự với các trình chỉnh sửa ảnh như Adobe Photoshop, người dùng cũng có thể mở rộng chi tiết trong một bức ảnh. Tuy nhiên, mình không đánh giá cao khả năng làm việc của Gemini khi trong trường hợp dưới đây, hệ thống làm sai lệch cả chi tiết trên khuôn mặt hai bạn nam và nữ.

Prompt 7: Zoom out bức ảnh này để tôi có thể nhìn thấy hết chân và đôi giày của bạn nam và bạn nữ.

Nếu có nhu cầu mở rộng ảnh, mình sẽ ưu tiên dùng các công cụ như Adobe Photoshop hơn. Mình có thể chủ động trong việc điều chỉnh kích thước khung hình, ngoài ra các phần chi tiết gốc vẫn được giữ lại chứ không bị biến đổi như Gemini.

*Cùng một trường hợp mở rộng ảnh, Generative Expand trên Adobe Photoshop làm tốt hơn nhiều.*

Thêm chữ vào ảnh

Trong một số trường hợp, Gemini 2.0 Flash Experimental cũng có thể giúp người dùng thêm văn bản hay chữ vào trong khung hình. Chẳng hạn, trong bức hình dưới đây, mình yêu cầu AI thêm một dòng chữ được in lên áo của chủ thể.

Prompt 8: Thêm chữ "Vat Vo Studio" kích thước lớn, màu trắng được thêu lên chiếc áo của người trong bức ảnh.

Ảnh được Gemini xử lý

Ảnh gốc

Tất nhiên, Gemini cũng có thể xử lý được với các đoạn văn bản tiếng Việt. Song, hệ thống lại gặp khó khăn trong việc hiển thị và tối ưu vị trí cũng như độ tự nhiên của văn bản cần nhập. Mình phải mất từ 4 – 5 lần tạo mới có thể cho ra một bức ảnh ưng ý.

Prompt 9: Thêm chữ "Đăng ký Vật Vờ Studio" kích thước lớn, màu trắng, xuống dòng, được thêu lên chiếc áo của người trong bức ảnh.

Tách nền ảnh

Nếu cần tạo một bức ảnh thumbnail (ảnh thu nhỏ) mà không có sẵn máy tính, người dùng cũng có thể tận dụng đến Gemini 2.0 Flash Experimental. Chẳng hạn, mình có thể yêu cầu AI tách nền sản phẩm, sau đó thay đổi nền thành màu gradient. Song, công cụ này chỉ hữu dụng với ảnh chụp bề ngoài của sản phẩm (không có chữ). Trong bức hình dưới đây, Gemini thay đổi cả văn bản bên trong màn hình điện thoại.

Prompt 9: Tách nền và thay màu nền sang màu gradient tím và cam.

Ảnh được Gemini xử lý

Ảnh gốc

Thay đổi góc chụp của ảnh

Ở một trường hợp khó hơn, người dùng có thể yêu cầu Gemini 2.0 Flash Experimental thay đổi góc chụp của một bức ảnh chân dung. Song, cần lưu ý rằng chi tiết ảnh sẽ có thay đổi và có thể không đúng với thực tế.

Prompt 10: Thay đổi góc chụp từ hướng phía sau chủ thể.

Ảnh được Gemini xử lý

Ảnh gốc

Phục chế ảnh cũ, mờ

Một ứng dụng thiết thực khác của Gemini 2.0 Flash Experimental là phục chế những bức ảnh cũ, ảnh đen trắng từ thời xưa. Dù màu sắc và chi tiết được tái tạo có thể không giống so với thực tế, nhưng đây cũng là một ứng dụng thú vị từ Gemini, mang đến cơ hội “hồi sinh” những ký ức cũ đã phai mờ theo thời gian.

Prompt 11: Phục chế màu cho bức hình này.

Ảnh được Gemini xử lý

Ảnh gốc

Chuyển đổi chân dung trong bức ảnh

Cuối cùng, người dùng có thể tận dụng Gemini 2.0 Flash Experimental trong việc tạo ảnh thẻ từ một bức hình chân dung bất kỳ. Tuy nhiên, cũng tương tự các trường hợp như trên, ảnh cho ra có thể không đảm bảo về chi tiết hay màu sắc và nên chỉ dùng với mục đích tham khảo.

Prompt 12: Tạo hình chụp hộ chiếu hình vuông của người trong bức hình này, tái hiện khuôn mặt chân thực trên nền màu trắng.

Tạm kết

Qua hàng loạt thử nghiệm bên trên, có thể thấy khả năng tạo chi tiết hay chỉnh sửa ảnh trên Gemini 2.0 Flash Experimental là tương đối ấn tượng. Đặc biệt, với sự giúp sức của AI, công cụ này mở ra hàng loạt tiềm năng mới. Trong tương lai, việc tạo ra một kịch bản với hình minh hoạ kèm theo hay thậm chí là video chất lượng cao chỉ với một tấm hình là điều hoàn toàn có thể hướng tới.

Tuy nhiên, ở thời điểm hiện tại, có một vài điều mình chưa hài lòng về Gemini 2.0 Flash Experimental:

Độ phân giải các bức ảnh tạo bởi AI thường khá thấp, chi tiết thua kém rất nhiều so với ảnh gốc;
Các trường hợp có ảnh chân dung khó vẫn chưa được xử lý tốt;
Các trường hợp có chữ hay văn bản trong ảnh chưa được xử lý tốt, bị AI làm biến dạng và sai hẳn so với bức hình gốc;
Cần phải thử lại từ 2 – 3 lần mới có thể cho ra kết quả tốt nhất.

Kết thúc thử nghiệm, Gemini 2.0 Flash hoạt động chính thức từ hôm nay

AI

Thử mở rộng ảnh, tách nền, viết chữ, phục hồi ảnh cũ với Gemini 2.0 Flash Experimental: Còn thiếu sót, nhưng rất tiềm năng!

Gemini 2.0 Flash Experimental

Thay đổi chi tiết trong bức ảnh

Nhập hai bức ảnh làm một

Mở rộng ảnh

Thêm chữ vào ảnh

Tách nền ảnh

Thay đổi góc chụp của ảnh

Phục chế ảnh cũ, mờ

Chuyển đổi chân dung trong bức ảnh

Tạm kết

Google tự phát triển chip Tensor G5 cho Pixel 10 mà không cần tới Samsung

Cách sử dụng Gemini 2.0 Flash Experimental: Vẽ chi tiết, mở rộng ảnh, viết chữ rất đơn giản với AI

Comments

AI

AI

AI

Gemini 2.0 Flash Experimental

Thay đổi chi tiết trong bức ảnh

Nhập hai bức ảnh làm một

Mở rộng ảnh

Thêm chữ vào ảnh

Tách nền ảnh

Thay đổi góc chụp của ảnh

Phục chế ảnh cũ, mờ

Chuyển đổi chân dung trong bức ảnh

Tạm kết

Google tự phát triển chip Tensor G5 cho Pixel 10 mà không cần tới Samsung

Cách sử dụng Gemini 2.0 Flash Experimental: Vẽ chi tiết, mở rộng ảnh, viết chữ rất đơn giản với AI

You may also like

Comments

More in Vật Vờ Đánh giá

AI

AI