PewDiePie tự huấn luyện AI và đã vượt qua ChatGPT trong bài kiểm tra

Felix Kjellberg (PewDiePie) vừa chia sẻ chi tiết quá trình tự huấn luyện một mô hình AI của riêng mình. Thay vì chỉ sử dụng các công cụ có sẵn, PewDiePie đã quyết định dấn thân vào lĩnh vực học máy để tìm hiểu cách các mô hình ngôn ngữ lớn hiện nay vận hành trong thực tế.

Mục tiêu là vượt qua mô hình của OpenAI

Mục tiêu chính của PewDiePie trong dự án này là tự tạo ra một mô hình AI có khả năng hỗ trợ lập trình tốt, thậm chí đặt ra thử thách vượt qua kết quả của ChatGPT trong một số bài kiểm tra cụ thể. Thay vì xây dựng từ đầu, một công việc đòi hỏi chi phí và hạ tầng khổng lồ thì anh chọn phương pháp huấn luyện AI dựa trên mô hình mã nguồn mở Qwen2.5-Coder-32B-Instruct của Alibaba. Động lực lớn nhất của anh là tinh thần tự học và sự khích lệ từ cộng đồng mã nguồn mở, đặc biệt là các tài liệu nghiên cứu chi tiết từ những đơn vị như DeepSeek, giúp những người không chuyên cũng có thể tiếp cận quá trình huấn luyện AI một cách bài bản.

Trong giai đoạn thu thập dữ liệu, PewDiePie đã tổng hợp khoảng 100.000 mẫu từ nhiều nguồn khác nhau như kho dữ liệu The Stack, các mã nguồn công khai trên GitHub và dữ liệu tổng hợp từ các mô hình AI mạnh hơn. Tuy nhiên, anh đã sớm đối mặt với thực tế khó khăn khi dữ liệu bị lẫn nhiều lỗi định dạng, mã code kém chất lượng hoặc thiếu logic từ người dùng thực tế. Những “dữ liệu rác” này ban đầu đã khiến mô hình AI của anh hoạt động không ổn định, thậm chí kết quả cho ra còn tệ hơn cả phiên bản gốc trước khi huấn luyện, cho thấy khâu làm sạch dữ liệu là bước quan trọng nhất trong việc phát triển AI.

Để nâng cao năng lực tư duy cho AI, PewDiePie đã tích hợp thêm phần “suy luận” vào dữ liệu, yêu cầu AI phải phân tích logic từng bước trước khi đưa ra kết quả cuối cùng. Anh đã sử dụng API của DeepSeek để tạo ra khoảng 15.000 mẫu dữ liệu suy luận chất lượng cao cho quá trình này. Tuy nhiên, khối lượng tính toán cực lớn đã đẩy dàn máy tính cá nhân của anh đến mức quá tải nghiêm trọng. Hệ quả là một chiếc card đồ họa đã bị hỏng do hoạt động quá công suất, và hệ thống dây cáp cũng bị nóng chảy do tiêu thụ điện năng vượt mức chịu tải, minh chứng cho việc huấn luyện AI tại gia vẫn là một thách thức lớn về mặt kỹ thuật và thiết bị.

Kết quả đánh giá và những nhận định khách quan

Để đánh giá hiệu quả, PewDiePie đã sử dụng bài kiểm tra Ader Polyglot trên 6 ngôn ngữ lập trình khác nhau. Sau khi khắc phục các lỗi nhầm lẫn dữ liệu và huấn luyện lại trên đúng mô hình chuyên biệt, kết quả đạt 39,1%, một con số đủ để vượt qua các mô hình cũ như ChatGPT 4.1 hay Gemini 2.0 Pro trong cùng bài thi này. Tất nhiên, để so với các mô hình tiên tiến nhất hiện tại như ChatGPT 5.2 hay Gemini 3.1 thì đó sẽ là điều rất khó. Mặc dù vậy, PewDiePie vẫn giữ thái độ khách quan khi thừa nhận rằng điểm số trong một bài kiểm tra đơn lẻ không phản ánh hoàn toàn năng lực thực tế của AI trong mọi tình huống sử dụng phức tạp.

Qua hành trình này, PewDiePie rút ra bài học rằng những thất bại và sai sót kỹ thuật chính là cách tốt nhất để tiếp cận và hiểu sâu về công nghệ mới. Anh tin rằng các mô hình AI lập trình sẽ không thay thế con người mà sẽ trở thành công cụ đắc lực, thúc đẩy nhiều người quan tâm và học hỏi về lập trình hơn. Sự kiên trì của anh đã cho thấy rằng bất kỳ ai cũng có thể bắt đầu hành trình công nghệ nếu có đủ quyết tâm và phương pháp đúng đắn.