Tai nghe AI Apple M2 phá vỡ rào cản ngôn ngữ đa người nói

Một đột phá công nghệ mới đã xuất hiện trong lĩnh vực dịch thuật AI, với hệ thống tai nghe có khả năng dịch đồng thời nhiều người nói các ngôn ngữ khác nhau, đồng thời giữ nguyên đặc điểm giọng nói và vị trí không gian của từng người.

A man with headphones on stands between a boy and a girl in Y2K.

Hệ thống Spatial Speech Translation đầy hứa hẹn

Các nhà nghiên cứu tại Đại học Washington đã phát triển một hệ thống tai nghe mới mang tên “Spatial Speech Translation” (Dịch Giọng nói Không gian), có thể dịch nhiều người nói cùng lúc, đồng thời bảo toàn hướng và đặc điểm giọng nói của từng người. Công nghệ này được thiết kế để giải quyết một trong những thách thức lớn nhất của các hệ thống dịch thuật tự động hiện nay – khả năng xử lý nhiều người nói cùng một lúc trong môi trường đông đúc.

Hệ thống này được thiết kế để hoạt động với tai nghe chống ồn có micrô sẵn có trên thị trường, kết nối với máy tính xách tay được trang bị chip Apple M2, vốn có khả năng hỗ trợ mạng nơ-ron. Cùng con chip này cũng được trang bị trong thiết bị Apple Vision Pro.

Cách hoạt động của công nghệ đột phá

Hệ thống Spatial Speech Translation bao gồm hai mô hình AI. Mô hình đầu tiên chia không gian xung quanh người đeo tai nghe thành các vùng nhỏ và sử dụng mạng nơ-ron để tìm kiếm các người nói tiềm năng và xác định chính xác hướng của họ.

Mô hình thứ hai sau đó dịch lời của người nói từ tiếng Pháp, Đức hoặc Tây Ban Nha sang văn bản tiếng Anh bằng cách sử dụng các bộ dữ liệu công khai. Cùng một mô hình này trích xuất các đặc điểm độc đáo và tông giọng cảm xúc của giọng nói của mỗi người nói, như cao độ và biên độ, và áp dụng các thuộc tính đó vào văn bản, về cơ bản tạo ra một giọng nói “nhân bản”. Điều này có nghĩa là khi phiên bản được dịch của lời nói được chuyển đến người đeo tai nghe sau vài giây, nó nghe như thể đang đến từ hướng của người nói và giọng nói nghe rất giống với giọng của chính người nói, không phải là giọng máy tính nghe rô-bốt.

Những tiến bộ vượt trội so với công nghệ hiện có

Nhiều công nghệ đã xuất hiện gần đây hứa hẹn dịch thuật trôi chảy, nhưng không có công nghệ nào giải quyết được vấn đề của không gian công cộng. Kính thông minh mới của Meta, chẳng hạn, chỉ hoạt động với một người nói riêng biệt; chúng phát bản dịch giọng nói tự động sau khi người nói kết thúc.

Hệ thống mới đã hoạt động khi được thử nghiệm trong 10 môi trường trong nhà và ngoài trời. Và trong một bài kiểm tra với 29 người tham gia, người dùng thích hệ thống này hơn các mô hình không theo dõi người nói qua không gian.

Thách thức và tương lai

Trong một bài kiểm tra người dùng riêng biệt, hầu hết người tham gia thích độ trễ 3-4 giây, vì hệ thống mắc nhiều lỗi hơn khi dịch với độ trễ 1-2 giây. Nhóm nghiên cứu đang nỗ lực giảm tốc độ dịch trong các phiên bản tương lai.

Hiện tại, hệ thống chỉ hoạt động với ngôn ngữ thông thường, không phải ngôn ngữ chuyên ngành như thuật ngữ kỹ thuật. Cho nghiên cứu này, nhóm đã làm việc với tiếng Tây Ban Nha, Đức và Pháp — nhưng các công trình trước đây về mô hình dịch thuật đã chứng minh chúng có thể được đào tạo để dịch khoảng 100 ngôn ngữ.

Tầm nhìn về một thế giới không rào cản ngôn ngữ

“Có rất nhiều người thông minh trên khắp thế giới, và rào cản ngôn ngữ ngăn cản họ có sự tự tin để giao tiếp,” Shyam Gollakota, giáo sư tại Đại học Washington, người đã làm việc trong dự án này chia sẻ. “Mẹ tôi có những ý tưởng tuyệt vời khi bà nói tiếng Telugu, nhưng thật khó khăn cho bà để giao tiếp với mọi người ở Mỹ khi bà đến thăm từ Ấn Độ. Chúng tôi nghĩ rằng loại hệ thống này có thể mang tính chuyển đổi cho những người như bà.”

“Đây là một bước tiến hướng tới việc phá bỏ rào cản ngôn ngữ giữa các nền văn hóa,” Chen nói. “Vì vậy, nếu tôi đang đi bộ trên đường phố ở Mexico, mặc dù tôi không nói tiếng Tây Ban Nha, tôi có thể dịch tất cả giọng nói của mọi người và biết ai đã nói gì.”

Với sự phát triển nhanh chóng của công nghệ AI và sự hỗ trợ từ chip xử lý mạnh mẽ như Apple M2, chúng ta có thể nhìn thấy một tương lai không xa khi rào cản ngôn ngữ không còn là trở ngại cho giao tiếp toàn cầu, mở ra cơ hội kết nối và chia sẻ tri thức giữa các nền văn hóa khác nhau trên toàn thế giới.