DeepSeek gây bất ngờ với mô hình AI R1 có chi phí đào tạo cực thấp

DeepSeek vừa công bố một thông tin đáng chú ý khi tiết lộ chi phí đào tạo mô hình AI R1 chỉ vỏn vẹn 294.000 USD. Con số này thấp hơn rất nhiều so với mức đầu tư khổng lồ mà các đối thủ lớn như OpenAI thường bỏ ra, đặt ra một câu hỏi lớn về phương pháp phát triển AI trong tương lai.

Để hình dung rõ hơn, Sam Altman, CEO của OpenAI, từng chia sẻ rằng việc đào tạo một mô hình AI nền tảng có thể “cao hơn nhiều” con số 100 triệu USD. Dù không đưa ra con số cụ thể, mức 294.000 USD của DeepSeek chỉ là một phần rất nhỏ, thậm chí được xem là “số lẻ” khi so sánh với chi phí của các ông lớn AI khác. Ngoài ra, DeepSeek còn đầu tư thêm 6 triệu USD để xây dựng mô hình ngôn ngữ lớn (LLM) làm nền tảng cho R1, nhưng tổng số tiền này vẫn thấp hơn đáng kể so với mặt bằng chung. Điều này không chỉ là sự khác biệt về chi phí mà còn là một bước đột phá, khẳng định rằng việc tạo ra các mô hình AI mạnh mẽ không nhất thiết phải tiêu tốn hàng triệu USD.

Thành công của DeepSeek trong việc giảm thiểu chi phí đào tạo mô hình R1 đến từ nhiều yếu tố then chốt. Một trong những điểm nổi bật là việc tận dụng phần cứng một cách hiệu quả. DeepSeek đã sử dụng 512 chip H800, một loại chip được thiết kế riêng cho thị trường Trung Quốc. Việc lựa chọn loại chip này không chỉ giúp giảm chi phí đầu tư ban đầu mà còn cho phép công ty tối ưu hóa toàn bộ quá trình đào tạo mô hình R1.

Một yếu tố quan trọng khác giúp DeepSeek đạt được hiệu quả về chi phí là sự chuyên môn hóa của mô hình R1. Thay vì cố gắng xây dựng một mô hình tổng quát có khả năng thực hiện mọi tác vụ, DeepSeek đã tập trung toàn bộ nguồn lực để R1 trở nên xuất sắc trong các lĩnh vực cụ thể như khả năng suy luận, giải toán và lập trình. Chính sự chuyên sâu này đã giúp mô hình đạt được hiệu suất cao với chi phí thấp hơn đáng kể so với các đối thủ.

Mô hình R1 là một mô hình AI trọng số mở (open-weight), cho phép bất kỳ ai cũng có thể tải xuống và sử dụng. Nhờ đó, R1 đã nhanh chóng trở thành mô hình được tải nhiều nhất trên nền tảng AI Hugging Face.

Tuy nhiên, DeepSeek cũng cho biết dữ liệu đào tạo mô hình V3 của công ty dựa vào những trang web chứa một lượng lớn câu trả lời do các mô hình OpenAI tạo ra. Điều này có thể khiến mô hình nền tảng của họ gián tiếp tiếp thu kiến thức từ những mô hình mạnh khác. Dù vậy, công ty khẳng định đây không phải là một hành động cố ý mà chỉ là sự trùng hợp.

Thành công của DeepSeek với R1 cho thấy phương pháp đào tạo AI với chi phí thấp hoàn toàn khả thi, hứa hẹn mở ra cơ hội tiếp cận công nghệ AI dễ dàng hơn cho nhiều cá nhân và doanh nghiệp.