ChatGPT vô địch giải cờ vua AI, chiến thắng áp đảo Grok 4

Mô hình ngôn ngữ lớn (LLM) o3 của OpenAI đã xuất sắc đánh bại đối thủ Grok 4 từ công ty xAI của tỷ phú Elon Musk với tỷ số tuyệt đối 4-0, qua đó giành chức vô địch tại giải cờ vua dành cho AI. Giải đấu do Google tổ chức không chỉ là một cuộc so tài công nghệ mà còn phản ánh cuộc cạnh tranh gay gắt giữa hai gã khổng lồ tại Thung lũng Silicon.

Diễn biến trận chung kết: o3 áp đảo hoàn toàn

Trong trận chung kết của giải đấu Kaggle AI Exhibition Tournament, mô hình o3 (được phát triển cho ChatGPT) đã thể hiện một sức mạnh vượt trội. Cả bốn ván đấu đều kết thúc với phần thắng tuyệt đối cho đại diện của OpenAI, lần lượt sau 35, 30, 28 và 54 nước đi. Thống kê cho thấy, o3 có tỷ lệ đi nước cờ đúng trung bình lên đến 90,8%, bỏ xa con số 80,2% của Grok 4.

Bình luận về trận đấu, đại kiện tướng cờ vua số 2 thế giới Hikaru Nakamura cho rằng Grok 4 dường như thi đấu căng thẳng và mắc nhiều sai lầm hơn so với các vòng trước. Đặc biệt, mô hình của xAI đã để mất quân một cách dễ dàng, một điều hiếm khi xảy ra khi nó đã vượt qua các mô hình Gemini 2.5 của Google ở những vòng ngoài.

Phản ứng về màn trình diễn của “gà nhà”, tỷ phú Elon Musk cho rằng khả năng chơi cờ của Grok chỉ là một “tác dụng phụ” (side effect).

*Kỳ thủ Nakamura cho rằng Grok 4 thi đấu với tâm lý căng thẳng trong trận chung kết*

Kaggle Game Arena

Sự kiện này đánh dấu sự ra mắt của Kaggle Game Arena, một nền tảng đánh giá hoàn toàn mới do Google thiết lập. Mục tiêu của nền tảng là tạo ra một môi trường cạnh tranh, nơi các mô hình AI và các agent sẽ đối đầu trực tiếp trong nhiều trò chơi chiến thuật khác nhau để thúc đẩy các giới hạn mới cho việc đánh giá AI một cách đáng tin cậy.

Google lựa chọn các trò chơi như cờ vua vì chúng đòi hỏi các kỹ năng phức tạp như lập kế hoạch chiến lược, suy luận, trí nhớ, khả năng thích ứng và thậm chí là “lý thuyết về tâm trí” (theory of mind) – khả năng mô hình hóa suy nghĩ của đối thủ.

Luật chơi của giải đấu được thiết kế để thử thách năng lực suy luận thuần túy của các LLM. Cụ thể:

Các mô hình không được truy cập vào bất kỳ công cụ nào, ví dụ như engine cờ vua Stockfish.
Mô hình không được cung cấp danh sách các nước đi hợp lệ.
Nếu đưa ra một nước đi không hợp lệ, mô hình sẽ có 3 lần thử lại. Nếu sau 4 lần vẫn thất bại, nó sẽ bị xử thua ván đấu đó.

Giải đấu có sự hợp tác của những tên tuổi lớn trong làng cờ vua thế giới như Chess.com và các đại kiện tướng Magnus Carlsen, Hikaru Nakamura cùng streamer Levy Rozman (GothamChess) trong vai trò bình luận và phân tích.

Cuộc đối đầu giữa máy tính và con người trên bàn cờ vua đã trở thành biểu tượng kể từ khi siêu máy tính Deep Blue của IBM đánh bại nhà vô địch thế giới Garry Kasparov vào năm 1997. Sau đó, các AI chuyên dụng như AlphaZero của DeepMind (thuộc Google) đã đạt đến trình độ siêu phàm bằng cách tự học chơi cờ.

Tuy nhiên, giải đấu lần này đánh dấu một bước ngoặt quan trọng. Đây là giải đấu lớn đầu tiên thử nghiệm các mô hình ngôn ngữ lớn (LLM) đa dụng, vốn đã trở nên phổ biến kể từ khi ChatGPT ra mắt năm 2022. Thay vì được lập trình riêng cho cờ vua, các AI này phải vận dụng khả năng suy luận tổng quát của mình để thi đấu.

Mats André Kristiansen, CEO của Take Take Take, nhận định: “Điều quan trọng từ giải đấu này là để hiểu thêm về cách các sản phẩm này suy nghĩ và lập luận”.

Dù giành chiến thắng ấn tượng, trình độ của các LLM vẫn còn khoảng cách xa so với con người. Vua cờ Magnus Carlsen, người từng dễ dàng đánh bại ChatGPT trong một trận đấu trực tuyến, ước tính hệ số Elo của Grok chỉ khoảng 800, trong khi của o3 là khoảng 1200. Để so sánh, Elo đỉnh cao của Carlsen là 2882.