Hiệu năng vượt trội của Apple M2 giúp tai nghe AI xử lý dịch thuật đa nguồn cực mượt

Một đột phá mới trong công nghệ dịch thuật đến từ Đại học Washington (UW): tai nghe AI đa năng, được trang bị sức mạnh của chip Apple M2, có khả năng phiên dịch đồng thời giọng nói của nhiều người.

Nếu như trước đây, các giải pháp dịch thuật thời gian thực như tai nghe Pixel Buds của Google hay các sản phẩm tương tự từ Timkettle chỉ có thể xử lý và dịch một luồng âm thanh tại một thời điểm, thì công nghệ mới này mang đến một bước tiến vượt bậc. Hãy hình dung bạn đang ở một nơi đông người, và chiếc tai nghe này có thể giúp bạn hiểu được những gì mọi người xung quanh đang nói, ngay cả khi họ đang trò chuyện bằng các ngôn ngữ khác nhau cùng một lúc.

Nhóm nghiên cứu UW gọi phát minh này là “Dịch Thuật Âm Thanh Không Gian”, một công nghệ được hiện thực hóa nhờ vào việc sử dụng tai nghe binaural. Âm thanh binaural mô phỏng cách tai người tự nhiên thu nhận âm thanh, bằng cách sử dụng micro đặt trên một mô hình đầu người với khoảng cách tương tự giữa hai tai. Cách tiếp cận này cho phép tai nghe không chỉ nghe âm thanh mà còn cảm nhận được hướng phát ra của nó, tạo ra một không gian âm thanh ba chiều sống động, tương tự như trải nghiệm nghe nhạc sống hoặc công nghệ “âm thanh không gian” hiện đại.

Đứng sau phát minh này là nhóm nghiên cứu tài năng của Giáo sư Shyam Gollakota, một nhà khoa học nổi tiếng với nhiều ý tưởng sáng tạo, từ ứng dụng GPS dưới nước cho đồng hồ thông minh đến biến bọ cánh cứng thành nhiếp ảnh gia và các giao diện não-máy tính tiên tiến.

Vậy, bí quyết nào giúp tai nghe này dịch được nhiều người nói cùng lúc? Giáo sư Gollakota giải thích: “Lần đầu tiên, chúng tôi đã bảo toàn được âm sắc đặc trưng của mỗi giọng nói và hướng mà âm thanh đó phát ra.”

Hệ thống này hoạt động tương tự như một radar âm thanh, tự động xác định số lượng người đang nói trong phạm vi nghe và cập nhật thông tin này theo thời gian thực khi có người di chuyển. Điểm đáng chú ý là toàn bộ quá trình xử lý diễn ra trực tiếp trên thiết bị, không cần gửi dữ liệu giọng nói lên đám mây, đảm bảo quyền riêng tư cho người dùng.

Không chỉ dịch thuật, hệ thống còn duy trì được các yếu tố biểu cảm và âm lượng trong giọng nói của từng người. Thậm chí, khi một người di chuyển trong phòng, hướng và cường độ âm thanh mà bạn nghe được cũng sẽ thay đổi theo. Được biết, Apple cũng đang nghiên cứu một hệ thống tương tự cho AirPods.

Để kiểm chứng khả năng của công nghệ này, nhóm UW đã tiến hành thử nghiệm trong nhiều môi trường khác nhau, cả trong nhà và ngoài trời. Kết quả cho thấy hệ thống có thể xử lý và dịch âm thanh trong khoảng 2-4 giây. Người dùng tham gia thử nghiệm có xu hướng thích độ trễ 3-4 giây hơn, và nhóm nghiên cứu đang nỗ lực để giảm thiểu thời gian xử lý.

Hiện tại, hệ thống đã được thử nghiệm với các ngôn ngữ Tây Ban Nha, Đức và Pháp, và nhóm nghiên cứu hy vọng sẽ mở rộng danh sách ngôn ngữ hỗ trợ trong tương lai. Về mặt kỹ thuật, họ đã tích hợp thành công các công nghệ phức tạp như phân tách nguồn âm thanh mù, định vị âm thanh, dịch thuật biểu cảm thời gian thực và kết xuất binaural vào một quy trình duy nhất.

Trái tim của hệ thống là một mô hình dịch thuật giọng nói được thiết kế để chạy mượt mà trên chip Apple M2, cho phép suy luận thời gian thực. Về phần cứng, nhóm đã sử dụng cặp tai nghe chống ồn Sony WH-1000XM4 và micro USB binaural Sonic Presence SP15C.

Một tin vui cho cộng đồng nghiên cứu và phát triển: mã nguồn của thiết bị thử nghiệm này đã được công bố, tạo điều kiện cho những người khác có thể học hỏi và xây dựng các dự án tiên tiến hơn dựa trên nền tảng này. Phát minh của Đại học Washington hứa hẹn sẽ mở ra một kỷ nguyên mới cho công nghệ dịch thuật, phá vỡ rào cản ngôn ngữ và mang mọi người đến gần nhau hơn.

Theo Digital Trends