OpenAI 推出 ChatGPT 高级语音模式，具有新功能：以下是如何使用它

OpenAI 推出了一个名为 ChatGPT 高级语音模式的新功能。此更新为 ChatGPT Plus 和 Team 计划用户带来了显著的改进。新的语音模式旨在提供自然流畅的对话体验。

在这里，我将解释OpenAI的ChatGPT高级语音模式的关键特点、升级和比较。这个发布承诺提升全球用户的语音交互体验。

另外阅读：OpenAI ChatGPT o1全新模型（草莓）现已推出：如何使用

高级语音模式：有什么新功能？

OpenAI在等待数月后推出了ChatGPT高级语音模式。这种新模式相比标准语音功能带来了几项改进。其中一个主要的增强是使用了GPT-4o模型，可以进行自由流畅的对话。其中包括处理干扰的能力。

然而，在演示过程中展示的一些功能已经延迟。这些功能包括歌唱、情绪检测和声音识别。目前，用户无法使用相机输入或通过语音识别情绪。

许多用户正在比较OpenAI发布的ChatGPT高级语音模式与谷歌的Gemini Live。两个平台都允许语音交互，但存在一些关键区别。Gemini Live使用TTS（文本转语音）和STT（语音转文本）来生成响应。相比之下，OpenAI的新模式直接处理音频输入和输出，提供更流畅的体验。

虽然两个平台都支持中断，但ChatGPT提供了真正的多模体验。然而，在最近的测试中，一些功能如声音检测和口音被发现缺失。这表明OpenAI可能限制了一些能力以避免问题。

OpenAI的ChatGPT高级语音模式最初因担心声音相似性问题而延迟。发现“Sky”声音听起来与Scarlett Johansson的声音太相似，引发争议。这迫使OpenAI推迟发布并致力于解决安全问题。

现在，OpenAI正在向其Plus和Team用户推出此功能。根据OpenAI的说法，这项推出计划将在本周末前完成。尽管有些延迟，许多用户对更新表示期待。

OpenAI推出了ChatGPT高级语音模式，带来了一些新功能。此次发布承诺更好的语音聊天体验，自然的对话流畅。虽然一些期待的功能仍然缺失，但这次更新标志着一个重要的进步。通过这次更新，OpenAI继续在基于人工智能的语音技术中处于领先地位。

这种新模式预计将使ChatGPT变得更具吸引力和互动性。用户可以期待很快完全推出，并有可能在未来实现进一步改善。