OpenAI ra mắt GPT-4.1 và các mô hình nhỏ hơn, vượt trội hơn cả GPT-4o

Hôm nay, OpenAI ra mắt ba mô hình mới trong API của họ: GPT-4.1, GPT-4.1 mini và GPT-4.1 nano. Các mô hình này vượt trội hơn GPT-4o và GPT-4o mini trên mọi phương diện, với những cải tiến đáng kể về khả năng lập trình và tuân theo hướng dẫn. Chúng cũng sở hữu cửa sổ ngữ cảnh lớn hơn, hỗ trợ tới 1 triệu token ngữ cảnh, và có khả năng tận dụng ngữ cảnh đó tốt hơn nhờ khả năng hiểu ngữ cảnh dài được nâng cao. Các mô hình này được cập nhật dữ liệu đến tháng 6 năm 2024.

GPT-4.1 thể hiện sự vượt trội ở các tiêu chuẩn ngành sau:

Ngữ cảnh dài: Trên Video-MME, một benchmark đánh giá khả năng hiểu ngữ cảnh dài đa phương thức, GPT-4.1 thiết lập một kỷ lục mới với điểm số 72.0% ở hạng mục dài, không có phụ đề, cải thiện 6.7% so với GPT-4o.
Lập trình: GPT-4.1 đạt điểm số 54.6% trên SWE-bench Verified, cải thiện 21.4% so với GPT-4o và 26.6% so với GPT-4.5, qua đó trở thành một mô hình hàng đầu cho lĩnh vực lập trình.
Tuân theo hướng dẫn: Trên benchmark MultiChallenge của Scale, một thước đo khả năng tuân thủ chỉ dẫn, GPT-4.1 đạt 38.3%, tăng 10.5% so với GPT-4o.

Trong buổi công bố trực tuyến mới đây, OpenAI tự hào giới thiệu GPT-4.1 với cửa sổ ngữ cảnh mở rộng đáng kể và hiệu suất vượt trội hơn GPT-4o trên hầu hết mọi khía cạnh, đặc biệt là trong lĩnh vực lập trình và khả năng tuân thủ chỉ dẫn.

Hiện tại, GPT-4.1 đã sẵn sàng cho các nhà phát triển, song song với hai phiên bản nhỏ gọn hơn là GPT-4.1 Mini và GPT-4.1 Nano. GPT-4.1 Mini tiếp tục mang đến giải pháp chi phí hợp lý cho việc thử nghiệm, trong khi GPT-4.1 Nano được OpenAI mô tả là mô hình “nhỏ nhất, nhanh nhất và rẻ nhất” từ trước đến nay của họ.

Điểm đáng chú ý là cả ba mô hình mới này đều có khả năng xử lý đến một triệu token ngữ cảnh, một bước nhảy vọt so với giới hạn 128.000 token của GPT-4o. OpenAI nhấn mạnh rằng họ đã huấn luyện GPT-4.1 để duy trì sự tập trung vào thông tin trong toàn bộ ngữ cảnh một triệu token một cách đáng tin cậy, đồng thời cải thiện đáng kể khả năng nhận diện văn bản quan trọng và loại bỏ yếu tố gây nhiễu so với GPT-4o, dù trong ngữ cảnh dài hay ngắn.

Không chỉ vậy, GPT-4.1 còn có chi phí thấp hơn 26% so với GPT-4o, một yếu tố ngày càng được chú trọng sau sự xuất hiện của mô hình AI siêu hiệu quả đến từ DeepSeek.

Thành tích ấn tượng của GPT-4.1 được thể hiện qua việc hoàn thành 54,6% số nhiệm vụ trong bộ benchmark SWE-Bench.

Sự ra mắt này diễn ra trong bối cảnh OpenAI chuẩn bị ngừng hỗ trợ mô hình GPT-4 hai năm tuổi trên ChatGPT vào ngày 30 tháng 4, với lý do các cải tiến gần đây của GPT-4o đã khiến nó trở thành “người kế nhiệm tự nhiên”. Tương tự, bản xem trước GPT-4.5 trong API cũng sẽ bị loại bỏ vào ngày 14 tháng 7, do “GPT-4.1 mang lại hiệu suất tương đương hoặc tốt hơn trên nhiều khả năng quan trọng với chi phí và độ trễ thấp hơn đáng kể.”

GPT-4o, hiện là mô hình mặc định của ChatGPT, đã được cập nhật vào tháng trước với khả năng tạo hình ảnh mới, tính năng này đã trở nên vô cùng phổ biến đến mức OpenAI phải giới hạn yêu cầu và tạm ngừng quyền truy cập vào các tài khoản ChatGPT miễn phí để tránh tình trạng quá tải GPU.

Thông tin về GPT-4.1 đã xác nhận những báo cáo trước đó về việc OpenAI chuẩn bị ra mắt các mô hình mới, đồng thời cho thấy sự điều chỉnh trong lịch trình phát hành của công ty. CEO Sam Altman trước đó đã thông báo rằng việc ra mắt GPT-5 sẽ bị lùi lại và dự kiến sẽ diễn ra “trong vài tháng tới”, muộn hơn so với kỳ vọng ban đầu vào tháng Năm. Ông giải thích rằng sự chậm trễ này một phần là do OpenAI nhận thấy “việc tích hợp mọi thứ một cách suôn sẻ khó khăn hơn dự kiến.”

Ngoài ra, OpenAI cũng đang chuẩn bị ra mắt phiên bản đầy đủ của mô hình suy luận o3 và phiên bản mini o4 trong tương lai gần, với những dấu hiệu đã được kỹ sư AI Tibor Blaho phát hiện trong bản cập nhật web ChatGPT mới nhất.