OpenAI ra mắt ChatGPT Images 2.0: Cải thiện khả năng hiển thị văn bản và đồng bộ nhân vật

OpenAI đã chính thức ra mắt phiên bản ChatGPT Images 2.0, đi kèm với khả năng tìm kiếm thông tin trực tiếp từ internet để hỗ trợ cho việc tạo ra các sản phẩm có độ chính xác cao. Đây được coi là sự nâng cấp cho những hạn chế về hiển thị văn bản và tính nhất quán giữa các khung hình vốn gây khó khăn cho các phiên bản trước đây.

Khả năng suy luận và kết nối web của mô hình mới

Điểm khác biệt lớn nhất của ChatGPT Images 2.0 nằm ở khả năng tư duy trước khi thực hiện lệnh tạo ảnh. Khi người dùng chọn chế độ suy luận, hệ thống sẽ tiến hành tra cứu dữ liệu trên mạng để hiểu rõ hơn về đối tượng cần tạo hoặc cấu trúc của bản thiết kế. Cơ chế này cho phép AI phân tích các tệp tin người dùng tải lên và suy luận về bố cục hình ảnh trước khi bắt đầu tạo ra các điểm ảnh.

Mô hình hiện nay còn có khả năng tự kiểm tra lại các tác phẩm của mình để đảm bảo chúng tuân thủ đúng các chỉ dẫn chi tiết. Khả năng này giúp ChatGPT Images 2.0 tạo ra các poster tiếp thị với nhiều kích thước khác nhau hoặc các dải truyện tranh nhiều khung hình một cách logic. Các tính năng suy luận chuyên sâu hiện đang khả dụng cho người dùng đăng ký gói trả phí.

Sửa lỗi sai chữ viết trên hình ảnh AI

Vấn đề văn bản bị biến dạng hoặc sai chính tả vốn là rào cản lớn nhất của công nghệ tạo ảnh đã được khắc phục đáng kể trên phiên bản này. ChatGPT Images 2.0 có thể hiển thị văn bản sắc nét trên các thực đơn, bìa tạp chí hay các bảng thông tin khoa học. Hệ thống đạt bước tiến lớn trong việc xử lý các ngôn ngữ không thuộc hệ Latin như tiếng Nhật, tiếng Hàn, tiếng Trung, tiếng Hindi và tiếng Bengali.

Sự thay đổi này đến từ việc OpenAI chuyển sang sử dụng mô hình tự hồi quy thay vì chỉ dựa vào mô hình khuếch tán truyền thống. Thay vì chỉ cố gắng tái tạo lại hình ảnh từ các điểm nhiễu, AI giờ đây có thể dự đoán và sắp xếp các ký tự chữ viết tương tự cách vận hành của một mô hình ngôn ngữ lớn. Các thử nghiệm cho thấy AI hiện nay vẽ được các menu nhà hàng chuẩn xác đến mức khách hàng khó lòng nhận ra đó là sản phẩm của máy tính.

Duy trì tính đồng nhất cho chuỗi hình ảnh chuyên nghiệp

OpenAI đã giải quyết bài toán khó nhất trong thiết kế AI là giữ cho nhân vật và bối cảnh không bị thay đổi giữa các tấm ảnh khác nhau. Người dùng có thể tạo tối đa tám hình ảnh trong cùng một yêu cầu, tất cả đều duy trì chung một phong cách nghệ thuật và đặc điểm của vật thể. Tính năng này giúp việc tạo ra các trang truyện tranh manga hoặc kế hoạch thiết kế nội thất cho toàn bộ căn nhà trở nên đơn giản hơn rất nhiều.

Mô hình mới hỗ trợ độ phân giải lên đến 2K và cho phép tùy chỉnh nhiều tỷ lệ khung hình khác nhau từ 3:1 đến 1:3. Đối với các nhà phát triển sử dụng qua API, hệ thống còn hỗ trợ độ phân giải 4K, tuy nhiên tính năng này vẫn đang trong giai đoạn thử nghiệm. Việc tập trung vào độ phân giải cao và tính nhất quán cho thấy OpenAI đang hướng tới nhóm người dùng chuyên nghiệp cần nội dung có giá trị kinh tế thực tế.

Việc ra mắt ChatGPT Images 2.0 diễn ra ngay sau khi OpenAI quyết định đóng cửa ứng dụng tạo video AI Sora nổi tiếng một thời. Công ty thừa nhận việc tạo video tốn quá nhiều chi phí và chưa mang lại doanh thu rõ ràng. Thay vào đó, hãng chuyển sang nâng cấp cho các sản phẩm như ChatGPT Images hoặc các dịch vụ dành cho doanh nghiệp để tạo thành một tác nhân AI có ích trong công việc hằng ngày. Toàn bộ hình ảnh tạo ra đều được nhúng siêu dữ liệu theo tiêu chuẩn C2PA để đảm bảo tính minh bạch về nguồn gốc của AI.

Nguồn: The Verge, TechCrunch