AITin tức

Google nâng cấp khả năng tạo giọng nói tiếng Việt bằng AI

    0

    Google vừa công bố các bản cập nhật mới cho công nghệ chuyển đổi văn bản thành giọng nói (Text-to-Speech – TTS) với hai phiên bản là Gemini 2.5 Flash và Gemini 2.5 Pro. Hiện tại, các công cụ này đã có mặt trên Google AI Studio dưới dạng bản xem trước dành cho toàn bộ người dùng nhằm mục đích cải thiện trải nghiệm âm thanh trong các ứng dụng thực tế.

    Những nâng cấp chính của Google

    Điểm thay đổi chính trong lần cập nhật này là khả năng kiểm soát chi tiết các yếu tố của giọng nói. Các mô hình mới cho phép người dùng điều chỉnh tốc độ, tông giọng và nhịp điệu để phù hợp với nội dung văn bản, thay vì chỉ đọc một cách máy móc. Tính năng này hỗ trợ tốt cho việc xây dựng các ứng dụng sách nói, bài giảng trực tuyến hay podcast. So với các phiên bản trước đây, hệ thống mới tuân thủ tốt hơn các yêu cầu về phong cách đọc, giúp âm thanh phát ra có cảm xúc hơn. Ví dụ, khi tạo một đoạn hội thoại, bạn có thể thiết lập để AI đọc với giọng nhanh và hồi hộp. Bên cạnh đó, việc hỗ trợ tới 24 ngôn ngữ, trong đó có cả tiếng Việt, giúp người dùng tại Việt Nam dễ dàng tạo ra nội dung với âm thanh chất lượng và chân thực hơn.

    Google chia công cụ này thành hai phiên bản để phục vụ các mục đích kỹ thuật khác nhau. Gemini 2.5 Flash Preview TTS ưu tiên tốc độ phản hồi nhanh (độ trễ thấp), phù hợp cho các ứng dụng cần tương tác tức thì với người dùng. Ngược lại, Gemini 2.5 Pro Preview TTS tập trung vào chất lượng âm thanh cao, thích hợp cho các dự án cần sự chỉn chu như lồng tiếng video hoặc tài liệu giáo dục. Cả hai phiên bản đều có khả năng tự điều chỉnh tốc độ dựa trên ngữ cảnh, giúp giọng đọc trôi chảy hơn và hạn chế tình trạng ngắt quãng thiếu tự nhiên khi gặp các câu văn dài hoặc phức tạp.

    Công cụ này cũng hỗ trợ tốt việc tạo ra các đoạn hội thoại có nhiều nhân vật, trong đó AI có thể phân biệt và thể hiện giọng điệu riêng cho từng vai. Các nhà phát triển có thể tinh chỉnh cách phát âm và ngữ điệu để sản phẩm đầu ra sát với thực tế nhất. Tuy nhiên, người dùng cần lưu ý rằng đây vẫn là phiên bản xem trước. Dù chất lượng giọng đọc đã được cải thiện đáng kể, nhưng trong một số trường hợp với các ngôn ngữ ít phổ biến hoặc cấu trúc câu quá đặc thù, kết quả từ AI có thể chưa hoàn toàn chính xác và vẫn cần sự kiểm tra, điều chỉnh lại từ con người.

    Comments