Tại sự kiện Google I/O 2025, Google đã chính thức công bố tính năng mới đáng chú ý cho nền tảng Google Meet – khả năng dịch giọng nói thời gian thực được hỗ trợ bởi trí tuệ nhân tạo Gemini. Đây được xem là bước đột phá trong việc phá bỏ rào cản ngôn ngữ trong giao tiếp trực tuyến.
Làm thế nào tính năng này hoạt động?
Tính năng dịch giọng nói trên Google Meet sẽ dịch lời nói sang ngôn ngữ ưa thích của người nghe theo thời gian thực. Đặc biệt, giọng nói, âm điệu và cảm xúc của người nói đều được bảo toàn trong bản dịch.
Ví dụ, nếu bạn đang nói tiếng Tây Ban Nha, người nghe sẽ nghe được tiếng Anh nhưng vẫn giữ nguyên giọng nói của bạn, bao gồm cả âm điệu, ngữ điệu và cảm xúc. Đồng thời, bạn sẽ nghe được những gì họ đang nói bằng tiếng Tây Ban Nha.
Khi cuộc gọi diễn ra, người dùng sẽ vẫn nghe thấy giọng nói gốc của người đối diện, nhưng âm thanh sẽ khá nhỏ, trước khi phiên bản đã được dịch phát ra. Quá trình này diễn ra với độ trễ thấp, nhằm mục đích cho phép cuộc trò chuyện diễn ra tự nhiên.
Công nghệ đằng sau tính năng
Công nghệ này được phát triển dựa trên mô hình ngôn ngữ âm thanh lớn (large language audio model) từ Google DeepMind, có tên là AudioLM. Được đào tạo và xây dựng trên dữ liệu âm thanh, AudioLM thực hiện các biến đổi trực tiếp từ âm thanh sang âm thanh. Điều này cho phép nó bảo toàn càng nhiều âm thanh gốc càng tốt.
Độ trễ của quá trình dịch thuật rất thấp, điều mà trước đây chưa từng có, cho phép nhiều người cùng tham gia trò chuyện một cách tự nhiên, dù họ nói các ngôn ngữ khác nhau.
Cách sử dụng tính năng
Trên giao diện web của Google Meet, người dùng có thể truy cập vào bảng điều khiển “Speech translation with Gemini” (Dịch giọng nói với Gemini) ở góc trên bên phải để chỉ định “Ngôn ngữ bạn nói trong cuộc gọi này” và “Ngôn ngữ bạn muốn nghe”. Toàn bộ khung video sẽ xuất hiện hiệu ứng Gemini và một nhãn “Đang dịch từ [ngôn ngữ]” ở góc màn hình.
Thời gian ra mắt và khả năng tiếp cận
Tính năng dịch giọng nói thời gian thực đã bắt đầu được triển khai từ ngày 20/5/2025 dưới dạng phiên bản beta cho người dùng Google AI Pro và Ultra. Ban đầu, tính năng này sẽ hỗ trợ tiếng Anh và tiếng Tây Ban Nha, với nhiều ngôn ngữ khác sẽ được bổ sung trong vài tuần tới, bao gồm tiếng Ý, tiếng Đức và tiếng Bồ Đào Nha.
Đáng chú ý, tính năng này hiện chỉ khả dụng trên nền tảng web, và chỉ cần một người tham gia cuộc gọi đăng ký dịch vụ là có thể sử dụng Speech Translation. Google cũng có kế hoạch đưa tính năng này đến với các khách hàng doanh nghiệp, với “giai đoạn thử nghiệm sớm dành cho khách hàng Workspace trong năm nay.”
Tiềm năng ứng dụng
Tính năng mới này có nhiều ứng dụng thực tế đa dạng. Ví dụ, nó có thể được sử dụng cho các cháu nói tiếng Anh muốn trò chuyện với ông bà nói tiếng Tây Ban Nha. Hoặc, tính năng này có thể được các công ty hoạt động ở nhiều khu vực khác nhau sử dụng để cho phép đồng nghiệp toàn cầu kết nối và trò chuyện theo thời gian thực.
Đây được xem là một bước tiến quan trọng trong việc phá vỡ rào cản ngôn ngữ, giúp mọi người có thể giao tiếp bằng ngôn ngữ họ cảm thấy thoải mái nhất, trong khi công nghệ sẽ đảm nhận phần việc nặng nhọc của việc dịch thuật.
Trước đây, Google Meet đã cung cấp tính năng phụ đề trực tiếp có thể được dịch theo thời gian thực, nhưng tính năng mới này tiến xa hơn một bước, mang đến trải nghiệm giao tiếp tự nhiên hơn nhiều giữa những người nói các ngôn ngữ khác nhau.