OpenAI推出新一代音频模型，语音助手能力全面升级

3.9K 0

近日，OpenAI在音频技术领域取得了重大突破，推出了两款全新的语音识别模型——gpt-4o-transcribe和gpt-4o-mini-transcribe，以及一个全新的文本转语音（TTS）模型——gpt-4o-mini-tts。这些新模型的推出，标志着OpenAI在语音助手技术方面迈出了重要一步，为用户带来了更加智能、自然和人性化的交互体验。

据悉，gpt-4o-transcribe和gpt-4o-mini-transcribe是OpenAI推出的最新语音识别模型，它们采用了更先进的学习方法和更多的音频数据，相比之前的Whisper模型，在语音识别准确性方面有了显著提升。在多个测试中，这两款新模型都取得了更低的词错误率（WER），特别是在包含100多种语言的测试中，表现尤为出色。这意味着OpenAI的语音识别技术已经在全球范围内达到了领先水平。

除了语音识别能力的提升，OpenAI还推出了全新的gpt-4o-mini-tts文本转语音模型。该模型具有更好的可控性，开发者不仅可以指定模型要说什么，还可以控制其说话的语气和语调。这使得智能助手在客户服务、讲故事等场合下，能够以更加自然、人性化的声音与用户进行交互，极大地提升了用户体验。

值得一提的是，在OpenAI的直播演示中，gpt-4o-mini-tts模型的表现令人印象深刻。通过选择不同的音色和情感，模型可以合成出具有不同风格的语音，如疯狂科学家的狂妄、宁静诗人的平和等。此外，OpenAI还展示了如何利用新的语言模式，将文本智能体转换为语音智能体，使其能够在电话等通信设备上使用。这些演示充分展示了OpenAI在音频技术领域的创新能力和技术实力。

为了鼓励开发者利用这些新的音频模型进行创新和创意应用，OpenAI还举办了有奖竞赛。参赛者需要想出最有创意的文本转语音使用方式，并分享到OpenAI的Twitter账户上，即有机会获得全球限定版收音机。这一举措不仅激发了开发者的创作热情，也进一步推动了OpenAI音频技术的发展和应用。

OpenAI表示，这些新音频模型的推出，旨在为语音助手提供更加强大的支持。未来，OpenAI将继续致力于让智能助手变得更加聪明、更加强大、更加有用。通过不断优化和升级技术，OpenAI将为用户带来更加自然、流畅的交互体验，让智能助手成为我们生活中不可或缺的一部分。