OpenAI giới thiệu mô hình GPT‑4o Image Generation để tạo và chỉnh sửa hình ảnh

CEO Sam Altman của OpenAI vừa công bố một bước tiến quan trọng trong khả năng tạo hình ảnh của ChatGPT. Trong buổi phát trực tiếp, ông đã giới thiệu bản nâng cấp lớn đầu tiên sau hơn một năm, cho phép ChatGPT trực tiếp tạo và chỉnh sửa ảnh bằng mô hình GPT-4o.

Trước đây, dù GPT-4o là nền tảng cốt lõi của chatbot AI này, khả năng của nó chỉ giới hạn ở xử lý và tạo văn bản. Với bản cập nhật này, sức mạnh của GPT-4o đã được mở rộng sang lĩnh vực hình ảnh.

So với DALL-E 3, mô hình tạo ảnh mà GPT-4o thay thế, GPT-4o có thể mất nhiều thời gian hơn để “xử lý”, nhưng OpenAI khẳng định rằng kết quả sẽ là những hình ảnh chính xác và chi tiết hơn. Đặc biệt, GPT-4o còn có khả năng chỉnh sửa các ảnh hiện có, bao gồm cả ảnh có người, cho phép người dùng biến đổi hoặc thêm chi tiết vào tiền cảnh và hậu cảnh một cách tự nhiên.

Để hỗ trợ tính năng hình ảnh mới, OpenAI đã tiết lộ với tờ Wall Street Journal rằng họ đã huấn luyện GPT-4o trên dữ liệu công khai và dữ liệu độc quyền từ các đối tác như Shutterstock.

Trong bối cảnh nhiều công ty AI tạo sinh coi dữ liệu huấn luyện là một lợi thế cạnh tranh và bảo mật thông tin này, việc OpenAI tiết lộ một phần chi tiết này là đáng chú ý. Tuy nhiên, sự minh bạch về dữ liệu huấn luyện cũng có thể đặt ra những vấn đề pháp lý liên quan đến quyền sở hữu trí tuệ.

Mặc dù vậy, OpenAI cũng trấn an cộng đồng nghệ sĩ. Giám đốc điều hành Brad Lightcap khẳng định với tờ Journal rằng công ty “tôn trọng quyền của các nghệ sĩ trong quá trình tạo ra sản phẩm và chúng tôi có các chính sách ngăn chặn việc tạo ra những hình ảnh sao chép trực tiếp tác phẩm của bất kỳ nghệ sĩ còn sống nào.”

OpenAI cũng cung cấp một biểu mẫu cho phép các nhà sáng tạo yêu cầu loại bỏ tác phẩm của họ khỏi bộ dữ liệu huấn luyện. Công ty cam kết tôn trọng các yêu cầu không cho phép các bot thu thập dữ liệu web của họ thu thập dữ liệu huấn luyện, bao gồm cả hình ảnh, từ các trang web.

Việc nâng cấp khả năng tạo ảnh của ChatGPT diễn ra sau khi Google thử nghiệm tính năng tương tự cho Gemini 2.0 Flash. Tuy nhiên, tính năng hình ảnh của Gemini 2.0 Flash đã vướng phải nhiều tranh cãi trên mạng xã hội do thiếu các biện pháp kiểm soát hiệu quả, dẫn đến việc người dùng có thể xóa hình mờ và tạo ra hình ảnh vi phạm bản quyền.

Một vài ví dụ của OpenAI với GPT-4o

Truy cập và tính khả dụng

Tính năng tạo ảnh của GPT-4o bắt đầu được triển khai từ hôm nay dưới dạng trình tạo ảnh mặc định trong ChatGPT cho người dùng các gói Plus, Pro, Team và miễn phí. Quyền truy cập vào tính năng này cũng sẽ sớm được cung cấp cho người dùng Enterprise và Edu. Ngoài ra, tính năng này đã có sẵn để sử dụng trong Sora. Những người dùng vẫn ưu thích DALL·E có thể tiếp tục truy cập thông qua GPT DALL·E chuyên dụng.

Trong vài tuần tới, các nhà phát triển cũng sẽ có khả năng tạo ảnh bằng GPT‑4o thông qua API.

Việc tạo và tùy chỉnh ảnh với GPT‑4o rất đơn giản, tương tự như trò chuyện. Bạn chỉ cần mô tả yêu cầu của mình, bao gồm các chi tiết cụ thể như tỷ lệ khung hình, mã màu hex chính xác hoặc nền trong suốt. Vì mô hình này tạo ra hình ảnh chi tiết hơn, thời gian xử lý để hiển thị ảnh có thể lâu hơn, thường lên đến một phút.