OpenAI ra mắt GPT Image 1.5: Cải thiện khả năng đồng bộ nhân vật và văn bản trên ảnh

OpenAI vừa chính thức ra mắt phiên bản mới cho tính năng tạo ảnh trên ChatGPT, sử dụng mô hình GPT Image 1.5. Bản cập nhật này tập trung vào việc cải thiện tốc độ xử lý và khắc phục các vấn đề thường gặp khi chỉnh sửa ảnh, đặc biệt là khả năng giữ nguyên các chi tiết gốc quan trọng.

Khả năng mới của GPT Image 1.5

Điểm thay đổi đáng chú ý nhất của mô hình mới là khả năng hiểu và tuân thủ chính xác yêu cầu chỉnh sửa của người dùng. Khi bạn tải một bức ảnh lên và đưa ra câu lệnh thay đổi, hệ thống sẽ tập trung xử lý đúng chi tiết được yêu cầu trong khi vẫn bảo toàn ánh sáng, bố cục và đặc điểm nhận dạng của nhân vật. Điều này khắc phục hạn chế của các phiên bản cũ thường làm biến đổi khuôn mặt hoặc các chi tiết không liên quan khi chỉnh sửa. Nhờ đó, người dùng có thể dễ dàng thay đổi trang phục, kiểu tóc hoặc bối cảnh phía sau mà chủ thể trong ảnh vẫn giữ được sự nhất quán và tự nhiên. Ví dụ, bạn có thể giữ nguyên hình ảnh cá nhân và chỉ yêu cầu AI thay đổi phông nền sang một địa điểm khác, hệ thống sẽ thực hiện việc ghép nối một cách hợp lý.

Tốc độ xử lý nhanh hơn và giao diện mới

Về mặt hiệu suất, phiên bản GPT Image 1.5 có tốc độ tạo ảnh nhanh hơn khoảng 4 lần so với trước đây, giúp rút ngắn đáng kể thời gian chờ đợi kết quả. Bên cạnh đó, OpenAI cũng bổ sung một giao diện “Images” riêng biệt nằm trên thanh công cụ của ChatGPT. Tại đây, người dùng được cung cấp sẵn các bộ lọc phong cách, tỷ lệ khung hình và các gợi ý chủ đề đang thịnh hành. Tính năng này giúp người dùng phổ thông có thể bắt đầu tạo ảnh ngay bằng các lựa chọn có sẵn mà không cần phải tự mình nghĩ ra các câu lệnh mô tả quá phức tạp.

Cải thiện khả năng hiển thị văn bản và bố cục

Một cải tiến kỹ thuật khác là khả năng xử lý văn bản và tuân thủ các hướng dẫn về bố cục. Mô hình mới đã giảm thiểu tình trạng lỗi phông chữ hay sai chính tả khi chèn chữ vào ảnh, giúp các nội dung văn bản hiển thị rõ nét hơn, hỗ trợ tốt cho việc tạo poster hay các ấn phẩm truyền thông đơn giản. Ngoài ra, khả năng sắp xếp đối tượng theo vị trí cũng chính xác hơn; ví dụ khi người dùng yêu cầu tạo một lưới hình ảnh với các vật thể cụ thể ở từng ô, AI sẽ đặt chúng đúng vị trí được chỉ định thay vì sắp xếp ngẫu nhiên.

Đối với các nhà phát triển và doanh nghiệp, mô hình GPT Image 1.5 hiện đã có sẵn trên API với chi phí sử dụng thấp hơn khoảng 20% so với phiên bản trước. Các nền tảng lớn như Wix hay Canva đã bắt đầu tích hợp công nghệ này, với nhận định rằng mô hình mới giúp tạo ra hình ảnh có độ chi tiết tốt và bám sát yêu cầu đầu vào hơn. Tuy nhiên, OpenAI cũng nhìn nhận rằng công nghệ này chưa hoàn toàn hoàn hảo. Mô hình vẫn có thể gặp lỗi về tính chính xác trong một số hình ảnh khoa học, các phong cách nghệ thuật quá đặc thù hoặc việc tái tạo khuôn mặt trong các bức ảnh đám đông đôi khi chưa thực sự tự nhiên. Bản cập nhật này hiện đang được triển khai cho tất cả người dùng ChatGPT bắt đầu từ hôm nay.