OpenAI cập nhật chế độ giọng nói ChatGPT với khả năm phát âm tự nhiên hơn

OpenAI vừa tung ra bản cập nhật quan trọng cho chế độ Advanced Voice Mode của ChatGPT vào cuối tuần qua, mang đến những cải tiến đáng kể về chất lượng giọng nói và trải nghiệm người dùng. Đây được xem là bước tiến quan trọng trong việc làm cho trí tuệ nhân tạo trở nên gần gũi và tự nhiên hơn trong giao tiếp.

Theo thông tin từ OpenAI, bản cập nhật mới giúp giọng nói của ChatGPT trở nên tự nhiên và trôi chảy hơn đáng kể. Cụ thể, hệ thống đã được cải thiện với “ngữ điệu tinh tế hơn”, “nhịp điệu thực tế” bao gồm những khoảng dừng và nhấn mạnh tự nhiên, cùng với khả năng biểu đạt cảm xúc “chính xác hơn” như lòng đồng cảm và sự mỉa mai.

Điểm nổi bật của bản cập nhật này là tính năng dịch thuật giọng nói trực tiếp mới. Người dùng chỉ cần yêu cầu ChatGPT bắt đầu dịch, và hệ thống sẽ tiếp tục dịch cuộc trò chuyện cho đến khi được yêu cầu dừng lại hoặc chuyển sang ngôn ngữ khác. Tính năng này giúp loại bỏ nhu cầu sử dụng các ứng dụng dịch thuật giọng nói riêng biệt, cho phép người dùng tiến hành các cuộc hội thoại đa ngôn ngữ ngay trong ChatGPT.

OpenAI cập nhật chế độ giọng nói ChatGPT với khả năm phát âm tự nhiên hơn

Tuy nhiên, OpenAI cũng thành thực thừa nhận một số hạn chế vẫn còn tồn tại. Công ty cho biết có thể xuất hiện những sụt giảm nhỏ về chất lượng âm thanh, bao gồm “những biến đổi bất ngờ về tông và độ cao”, và lưu ý rằng bản cập nhật này không khắc phục được các lỗi ảo giác thỉnh thoảng của chế độ giọng nói như âm thanh không mong muốn, lời nói vô nghĩa hoặc nhạc nền.

Tính năng Advanced Voice Mode cải tiến này hiện có sẵn cho tất cả người dùng ChatGPT trả phí trên các thị trường và nền tảng. Đối với người dùng miễn phí, họ vẫn có thể trải nghiệm phiên bản xem trước hàng ngày của Advanced Voice được hỗ trợ bởi mô hình 4o-mini.

Bản cập nhật này được triển khai sau khi OpenAI nhận được phản hồi từ cộng đồng người dùng về việc cải thiện chất lượng hội thoại. Trước đó, một số người dùng đã phàn nàn về các vấn đề như ngắt quãng không mong muốn và độ trễ trong phản hồi của Advanced Voice Mode.

Chế độ Advanced Voice Mode sử dụng các mô hình đa phương thức tự nhiên như GPT-4o, có nghĩa là nó có thể “nghe” và tạo ra âm thanh trực tiếp, mang lại những cuộc hội thoại tự nhiên và thời gian thực hơn. Hệ thống có khả năng nhận biết các tín hiệu phi ngôn ngữ như tốc độ nói và có thể phản hồi với cảm xúc tương ứng.

Với việc cải tiến chất lượng giọng nói và bổ sung tính năng dịch thuật trực tiếp, OpenAI đang tiếp tục khẳng định vị thế của mình trong cuộc đua phát triển trí tuệ nhân tạo hội thoại. Đây cũng là một phần trong chiến lược của công ty nhằm làm cho AI trở nên thân thiện và dễ tiếp cận hơn với người dùng toàn cầu.

Việc cập nhật này đánh dấu một bước tiến quan trọng trong việc thu hẹp khoảng cách giữa giao tiếp với AI và giao tiếp tự nhiên giữa con người, hứa hẹn mở ra nhiều ứng dụng mới trong giáo dục, hỗ trợ khách hàng và các lĩnh vực khác.