Năm ngoái, Google DeepMind đã hợp tác cùng Kaggle ra mắt Game Arena, một nền tảng benchmark công khai và độc lập, nơi các mô hình AI cạnh tranh với nhau thông qua các trò chơi mang tính chiến lược. Khởi đầu với cờ vua, mục tiêu của Game Arena là đo lường khả năng suy luận và lập kế hoạch dài hạn của mô hình AI. Tuy nhiên, trong thực tế, các quyết định hiếm khi được đưa ra dựa trên thông tin đầy đủ. Vì vậy, Google Deepmind và Kaggle Game Arena hiện được mở rộng với 2 trò chơi mới, tập trung đánh giá các mô hình AI tiên tiến trong những kịch bản đòi hỏi suy luận xã hội và khả năng chấp nhận rủi ro có tính toán.
Khả năng tư duy chiến lược qua bàn cờ vua
Trước đây, hệ thống đánh giá chủ yếu dựa trên cờ vua để đo lường khả năng lập kế hoạch và tư duy chiến lược của các mô hình. Khác với các công cụ tính toán truyền thống thường quét hàng triệu nước đi để tìm phương án tối ưu, các mô hình ngôn ngữ lớn hiện nay như Gemini 3 Pro hay Gemini 3 Flash chơi cờ dựa trên việc nhận diện các mẫu hình và phán đoán theo tình huống.

Kết quả thực tế cho thấy các mô hình đời mới có sự cải thiện về điểm số Elo so với thế hệ tiền nhiệm. AI hiện nay đã bắt đầu biết cách đánh giá các khái niệm mang tính chiến thuật như cấu trúc tốt hoặc sự an toàn của quân Vua một cách logic hơn. Việc theo dõi những chỉ số này qua thời gian giúp các nhà phát triển hiểu rõ hơn về tốc độ tiến hóa của tư duy AI thay vì chỉ nhìn vào khả năng tính toán thuần túy.
Ma Sói: Thử thách kỹ năng giao tiếp và suy luận xã hội
Trò chơi Ma Sói mang đến một thử thách hoàn toàn mới là khả năng suy luận xã hội, nơi thông tin thường bị che giấu hoặc gây nhiễu bởi những người chơi khác. Đây là trò chơi đồng đội diễn ra hoàn toàn bằng ngôn ngữ tự nhiên, buộc AI phải giao tiếp, thuyết phục và đàm phán để đạt được mục tiêu chung. Điều này giúp các nhà nghiên cứu đánh giá được những “kỹ năng mềm” cần thiết cho các trợ lý AI trong tương lai khi phải làm việc cùng con người. Trong trò chơi, AI phải phân tích xem lời nói của người chơi khác có khớp với hành động của họ hay không. Việc thử nghiệm này cũng giúp đảm bảo AI hoạt động an toàn và trung thực hơn trước khi được ứng dụng rộng rãi.

Poker và bài toán quản trị rủi ro khi thiếu thông tin
Bên cạnh kỹ năng giao tiếp, khả năng quản trị rủi ro cũng được thử nghiệm chuyên sâu thông qua trò chơi Poker. Trong Poker, AI không chỉ cần hiểu luật chơi mà còn phải tính toán xác suất và dự đoán lối chơi của đối thủ khi các lá bài không được công khai hoàn toàn. Đây là một bài toán khó về việc định lượng sự không chắc chắn để đưa ra quyết định đặt cược hợp lý nhất.

Để đánh giá chính xác năng lực này, một giải đấu Poker dành cho các mô hình AI đã được tổ chức để tìm ra hệ thống có khả năng thích nghi tốt nhất. Kết quả của bảng xếp hạng này sẽ cung cấp cái nhìn thực tế về cách AI xử lý các tình huống đánh đổi giữa rủi ro và lợi ích. Những dữ liệu thu được từ môi trường trò chơi sẽ là tiền đề quan trọng để cải thiện khả năng ra quyết định của AI trong các lĩnh vực như kinh tế hay quản lý dự án.
Việc bổ sung Ma Sói và Poker vào Kaggle Game Arena cho thấy nỗ lực của các nhà nghiên cứu trong việc xây dựng những thước đo toàn diện hơn cho trí tuệ nhân tạo. Thay vì chỉ tập trung vào các bài toán logic khô khan, AI hiện đang được thử thách ở những khía cạnh gần gũi với cuộc sống như giao tiếp xã hội và xử lý các rủi ro không lường trước. Mặc dù vẫn còn những giới hạn nhất định so với tư duy của con người, nhưng những bước tiến này đang giúp AI trở nên thực tế và hữu ích hơn trong các công việc hàng ngày.






Comments