Google ra mắt Gemini 2.5 Flash: Mô hình AI tốc độ cao, chi phí thấp

Google vừa chính thức công bố Gemini 2.5 Flash, phiên bản mới nhất trong dòng mô hình trí tuệ nhân tạo Gemini của hãng. Đây là bước tiến quan trọng trong chiến lược phát triển AI của Google, với những cải tiến đáng kể về tốc độ, khả năng xử lý và chi phí vận hành.

Gemini 2.5 Flash just dropped. ⚡

As a hybrid reasoning model, you can control how much it ‘thinks’ depending on your 💰 – making it ideal for tasks like building chat apps, extracting data and more.

Try an early version in @Google AI Studio → https://t.co/iZJNqQmooH pic.twitter.com/gUKbK5x3yZ
— Google DeepMind (@GoogleDeepMind) April 17, 2025

Tối ưu hóa cho hiệu suất và chi phí

Gemini 2.5 Flash (bản Preview 04-17) đang trong giai đoạn thử nghiệm trên Google AI Studio và Vertex AI. Với thiết kế hướng đến cả nhà phát triển lẫn doanh nghiệp, mô hình này nổi bật với khả năng xử lý nhanh và chi phí vận hành thấp.

“Đây là mô hình được thiết kế để cân bằng giữa hiệu suất và chi phí, phù hợp với các ứng dụng đòi hỏi tốc độ cao như chatbot, hệ thống tóm tắt thông tin tự động, hoặc phân tích dữ liệu đa phương tiện,” đại diện Google chia sẻ tại buổi ra mắt. Google cũng thông báo sẽ cập nhật Gemini 2.5 Flash cho người dùng Gemini Advanced trong thời gian tới, mở rộng cơ hội tiếp cận đến cộng đồng người dùng phổ thông.

Tính năng mới “Thinking Budget”

Điểm đột phá của Gemini 2.5 Flash chính là tính năng “Thinking Budget” (ngân sách suy nghĩ). Đây là công cụ cho phép người dùng hoặc lập trình viên điều chỉnh mức độ “đào sâu suy nghĩ” của AI, dao động từ 0 đến khoảng 24.576 token.

Với tính năng này, người dùng có thể:

Đặt mức thấp cho các câu hỏi đơn giản, nhận phản hồi nhanh với chi phí thấp
Tăng mức cao cho các phân tích phức tạp, yêu cầu suy luận sâu
Để AI tự động quyết định mức độ suy luận dựa trên độ phức tạp của yêu cầu

Khi tăng “ngân sách suy nghĩ”, chất lượng và độ chi tiết của phản hồi sẽ cao hơn, nhưng chi phí cũng tăng tương ứng. Đây là lần đầu tiên người dùng được cung cấp quyền kiểm soát trực tiếp đến cách “suy nghĩ” của AI.

Khả năng xử lý đa phương tiện vượt trội

Gemini 2.5 Flash chấp nhận nhiều loại đầu vào bao gồm văn bản, hình ảnh, video và âm thanh, tạo ra đầu ra dưới dạng văn bản. Với cửa sổ ngữ cảnh lên đến hơn 1 triệu token, mô hình có thể xử lý các tài liệu dài và phức tạp mà không mất đi tính chính xác.

Dữ liệu đào tạo của mô hình được cập nhật đến tháng 1/2025, đảm bảo thông tin cung cấp luôn mới nhất tại thời điểm ra mắt.

Chi phí cạnh tranh

Google định vị Gemini 2.5 Flash là một trong những mô hình AI tiết kiệm nhất trên thị trường với khả năng suy luận:

Mặc định (không bật reasoning sâu): $0.60/1 triệu token
Khi bật reasoning sâu: $3.50/1 triệu token

Mức giá này được cho là áp đảo các đối thủ cùng phân khúc như Claude hay mô hình của OpenAI, nhờ vào lợi thế sở hữu toàn bộ chuỗi giá trị từ phần cứng (chip TPU), dữ liệu, đến nhân sự.

Triển vọng và tầm ảnh hưởng

Việc ra mắt Gemini 2.5 Flash đánh dấu một bước tiến quan trọng trong chiến lược AI của Google. Với khả năng xử lý nhanh, chi phí thấp và đặc biệt là tính năng “Thinking Budget” đột phá, mô hình này không chỉ mang lại giá trị to lớn cho người dùng mà còn thể hiện tầm nhìn của Google trong việc phát triển AI tiếp cận gần hơn với mọi đối tượng.