OpenAI ra mắt o3 và o4-mini với khả năng suy luận vượt trội

Hôm nay, OpenAI đã công bố ra mắt o3 và o4-mini, hai mô hình suy luận AI mới. Điểm nổi bật của chúng là khả năng tạm dừng để nghiền ngẫm câu hỏi trước khi phản hồi.

OpenAI mô tả o3 là mô hình suy luận tiên tiến nhất từ trước đến nay của họ. Nó vượt trội so với các mô hình trước đó trong các bài kiểm tra về toán học, lập trình, suy luận, khoa học và nhận thức trực quan. Trong khi đó, o4-mini mang lại sự cân bằng cạnh tranh giữa giá cả, tốc độ và hiệu suất, những yếu tố quan trọng đối với nhà phát triển khi lựa chọn mô hình AI cho ứng dụng của họ.

Khác với các mô hình trước, o3 và o4-mini có thể sử dụng các công cụ của ChatGPT như duyệt web, thực thi mã Python, xử lý và tạo ảnh để hỗ trợ việc tạo phản hồi. Từ hôm nay, cả hai mô hình này, cùng với biến thể o4-mini-high (được tối ưu hóa để tạo câu trả lời đáng tin cậy hơn), đã có sẵn cho người dùng đăng ký các gói Pro, Plus và Team của OpenAI.

Việc ra mắt các mô hình mới này nằm trong nỗ lực cạnh tranh của OpenAI với các đối thủ như Google, Meta, xAI, Anthropic và DeepSeek trên thị trường AI toàn cầu. Dù OpenAI là công ty đầu tiên giới thiệu mô hình suy luận AI (o1), nhưng các đối thủ đã nhanh chóng phát triển các phiên bản tương đương hoặc thậm chí vượt trội. Thực tế, các mô hình suy luận đang ngày càng chiếm ưu thế khi các phòng thí nghiệm AI tìm cách nâng cao hiệu suất hệ thống.

Đã có thời điểm o3 suýt không được tích hợp vào ChatGPT. CEO Sam Altman của OpenAI từng gợi ý về việc tập trung nguồn lực vào một giải pháp phức tạp hơn, sử dụng công nghệ tương tự o3. Tuy nhiên, áp lực cạnh tranh có vẻ đã khiến OpenAI thay đổi quyết định. OpenAI tự tin khẳng định o3 đạt hiệu suất hàng đầu trên SWE-bench verified (không cần cấu trúc hỗ trợ tùy chỉnh) với số điểm 69,1% trong bài kiểm tra khả năng lập trình. o4-mini cũng đạt hiệu suất ấn tượng với 68,1%. Để so sánh, o3-mini đạt 49,3% và Claude 3.7 Sonnet đạt 62,3%.

Một khả năng đột phá khác của o3 và o4-mini là “suy nghĩ bằng hình ảnh”. Người dùng có thể tải hình ảnh lên ChatGPT (ví dụ: phác thảo trên bảng trắng, sơ đồ PDF) để các mô hình phân tích trong giai đoạn “chuỗi suy nghĩ” trước khi trả lời. Nhờ đó, chúng có thể hiểu cả hình ảnh mờ, chất lượng thấp và thực hiện các tác vụ như thu phóng, xoay ảnh trong quá trình suy luận.

Ngoài xử lý hình ảnh, o3 và o4-mini còn có thể chạy và thực thi trực tiếp mã Python trong trình duyệt qua tính năng Canvas của ChatGPT, cũng như tìm kiếm thông tin trên web về các sự kiện hiện tại. Bên cạnh ChatGPT, cả ba mô hình (o3, o4-mini và o4-mini-high) sẽ được cung cấp thông qua các API dành cho nhà phát triển của OpenAI (Chat Completions API và Responses API), cho phép xây dựng ứng dụng dựa trên các mô hình này với mức phí theo mức sử dụng.

OpenAI áp dụng mức giá cạnh tranh cho o3 (10 đô la/triệu token đầu vào, 40 đô la/triệu token đầu ra) so với hiệu suất vượt trội của nó. o4-mini có mức giá tương đương o3-mini (1,10 đô la/triệu token đầu vào, 4,40 đô la/triệu token đầu ra).

Trong vài tuần tới, OpenAI dự kiến phát hành o3-pro, phiên bản o3 mạnh mẽ hơn dành riêng cho người đăng ký ChatGPT Pro.

CEO Sam Altman cho rằng, o3 và o4-mini có thể là những mô hình suy luận AI độc lập cuối cùng của OpenAI trong ChatGPT trước khi GPT-5 ra mắt, một mô hình được kỳ vọng sẽ thống nhất các mô hình truyền thống (như GPT-4.1) với các mô hình suy luận hiện tại của họ.

Tóm tắt chung về hiệu suất của o3 và o4-mini:

o3:

Mô hình suy luận mạnh mẽ nhất của OpenAI.
Vượt trội trong lập trình, toán học, khoa học, nhận thức thị giác.
Đạt SOTA trên Codeforces, SWE-bench, MMMU.
Phù hợp với truy vấn phức tạp, phân tích đa chiều, câu trả lời không hiển nhiên.
Mạnh mẽ trong phân tích hình ảnh, biểu đồ, đồ thị.
Giảm 20% lỗi nghiêm trọng so với o1 trong tác vụ thực tế.
Được đánh giá cao về khả năng phân tích, tạo và đánh giá giả thuyết mới (sinh học, toán, kỹ thuật).

o4-mini:

Mô hình nhỏ gọn, suy luận nhanh và tiết kiệm chi phí.
Hiệu suất ấn tượng so với kích thước và giá (đặc biệt trong toán, lập trình, thị giác).
Hiệu suất tốt nhất trên AIME 2024 và 2025.
Vượt trội o3-mini trong các tác vụ phi STEM và khoa học dữ liệu.
Hỗ trợ giới hạn sử dụng cao, phù hợp cho khối lượng lớn truy vấn.

Điểm chung của o3 và o4-mini:

Có thể sử dụng công cụ ChatGPT (duyệt web, Python, xử lý ảnh).
“Suy nghĩ bằng hình ảnh”, hiểu ảnh mờ, chất lượng thấp, thực hiện thu phóng, xoay.
Chạy và thực thi Python trực tiếp trong trình duyệt.
Tìm kiếm web cho sự kiện hiện tại.
Cải thiện khả năng tuân theo hướng dẫn và phản hồi hữu ích, có thể kiểm chứng.
Trải nghiệm trò chuyện tự nhiên hơn, sử dụng bộ nhớ và lịch sử hội thoại.