AITin tức

Sự thật trần trụi khi Chatbot AI thông minh nhất vẫn sai sót đến hơn 30%

    0

    Google vừa công bố kết quả đánh giá thực tế về độ tin cậy của các chatbot AI hàng đầu qua bộ công cụ FACTS Benchmark Suite. Những con số được đưa ra không mấy khả quan khi mô hình tốt nhất hiện nay cũng chỉ đạt độ chính xác 69%. Điều này đồng nghĩa với việc ngay cả những bộ não nhân tạo tiên tiến nhất vẫn đưa ra thông tin sai lệch trong ít nhất một phần ba số câu trả lời.

    Thực trạng độ chính xác của các siêu AI

    Nhóm nghiên cứu của Google phối hợp cùng Kaggle đã sử dụng bộ công cụ đo lường mới để thực hiện các bài kiểm tra khắt khe trên những mô hình ngôn ngữ lớn phổ biến nhất. Kết quả cho thấy một thực tế đáng lo ngại là các chatbot vẫn chưa thể vượt qua ngưỡng giới hạn 70% về tính xác thực.

    Nguồn: Google

    Trên bảng xếp hạng, Gemini 3 Pro của Google giữ vị trí quán quân với tỷ lệ chính xác 69%. Theo sau là Gemini 2.5 Pro và ChatGPT-5 của OpenAI với mức xấp xỉ 62%. Ở nhóm dưới, Grok 4 đạt khoảng 54% và Claude 4.5 Opus dừng lại ở mức khiêm tốn 51%.

    Những con số này gửi đi một thông điệp rõ ràng nhưng khó chấp nhận là người dùng đang đối mặt với rủi ro cao khi tiếp nhận thông tin từ AI. Các chatbot thường mắc lỗi ngay cả khi giọng văn của chúng tỏ ra vô cùng chắc chắn và thuyết phục.

    Bài kiểm tra này mang ý nghĩa quan trọng bởi phần lớn các công cụ đánh giá AI hiện nay chỉ tập trung vào khả năng hoàn thành tác vụ thay vì kiểm chứng tính đúng sai của nội dung. Đối với các lĩnh vực đòi hỏi độ chính xác tuyệt đối như tài chính, y tế hay luật pháp thì lỗ hổng này có thể dẫn đến những hậu quả đắt giá.

    Một câu trả lời trôi chảy và logic nhưng chứa đựng dữ liệu sai lệch sẽ gây hại nhiều hơn một câu trả lời ngập ngừng. Người dùng có xu hướng tin tưởng tuyệt đối vào sự thông thái của máy móc nên thường bỏ qua khâu kiểm chứng cần thiết.

    Bốn bài toán thử thách trí tuệ nhân tạo

    Google thiết kế FACTS Benchmark Suite dựa trên bốn tiêu chí cốt lõi nhằm mô phỏng sát nhất nhu cầu sử dụng thực tế. Đầu tiên là kiến thức nội tại để kiểm tra khả năng trả lời dựa trên dữ liệu đã được huấn luyện mà không cần tra cứu. Thứ hai là khả năng tìm kiếm nhằm đánh giá kỹ năng sử dụng công cụ web để truy xuất thông tin chính xác.

    Tiêu chí thứ ba tập trung vào việc bám sát tài liệu và yêu cầu AI trả lời chỉ dựa trên văn bản được cung cấp mà không được tự ý thêm thắt các chi tiết sai lệch. Cuối cùng là khả năng hiểu đa phương thức qua việc đọc hiểu biểu đồ hay sơ đồ và hình ảnh.

    Dữ liệu phân tích chỉ ra sự chênh lệch lớn giữa các mô hình nhưng tất cả đều gặp chung một trở ngại là tác vụ đa phương thức. Đây là mảng yếu nhất với độ chính xác thường xuyên rơi xuống dưới mức 50%.

    Khi phải xử lý biểu đồ doanh số hay trích xuất số liệu từ tài liệu hình ảnh thì AI rất dễ nhầm lẫn. Chúng có thể tự tin đọc sai một con số trên biểu đồ hoặc lấy nhầm dữ liệu. Việc này tạo ra những sai sót nhỏ rất khó phát hiện nhưng lại làm sai lệch hoàn toàn bản chất vấn đề.

    Kết quả từ Google không phủ nhận sự hữu ích của chatbot nhưng nó là lời cảnh tỉnh về việc đặt niềm tin mù quáng vào công nghệ. AI đang tốt lên từng ngày song chúng vẫn cần sự giám sát chặt chẽ của con người. Trước khi các rào cản kỹ thuật được khắc phục hoàn toàn thì việc kiểm chứng lại mọi thông tin do AI cung cấp vẫn là quy tắc bất di bất dịch.

    Nguồn: Google

    Comments