全新语音模型CSM走红，被赞类人程度真实得可怕

5.2K 0

近日，硅谷公司Sesame开放的全新对话语音模型CSM在公测后迅速走红，引发了广泛关注和热议。该模型基于英语数据进行训练，以其高度逼真的类人程度、低延迟的互动体验以及富有表现力的声音，赢得了众多用户的青睐。

据了解，CSM推出后，其体验链接在GitHub仓库上线狂揽4K星，Hacker News热帖评论超过200条。许多用户在试用后表示，与CSM的两个语音助手Miles（男）和Maya（女）进行对话时，几乎难以分辨其是否为真实人类。有用户甚至在Hacker News上写道：“类人程度真实得可怕，我几乎开始担心自己会对具备这种人类声音水平的语音助手产生情感依赖。”

在对话体验方面，CSM展现出了令人惊叹的能力。用户可以与Miles和Maya进行长时间对话，最长的甚至聊了半个小时。而CSM在对话中的表现也十分出色，能够迅速理解用户的意图，并给出恰当的回应。更令人惊讶的是，CSM还能够模仿人类的呼吸声、笑声，甚至在对话中打断对方，有时还会结巴并自我纠正，这种真实互动感让用户仿佛在与真实人类进行交流。

除了声音表现外，CSM还具备其他诸多优点。例如，它拥有大约两周的记忆能力，能够记住之前与用户的对话内容；同时，CSM还能够主动敲时机进行对话，让用户感受到更加自然的交流体验。这些特点使得CSM在与其他语音AI的对比中脱颖而出，成为备受瞩目的新星。

据悉，CSM采用了双引擎架构，包括8亿参数的主脑和3亿参数的语音解码器。这种架构将传统语音AI的“文字→语义→声音”三段式处理压缩成多模态的实时交互系统，实现了更加高效和自然的对话体验。此外，CSM还接受了100万小时英语语音数据的训练，使其能够像经验丰富的配音演员一样在录音棚里即兴表演。

尽管CSM在对话体验方面表现出色，但目前仍存在一些局限性。由于数据集污染等问题，CSM虽然具有一定的多语言能力，但目前表现不佳，暂时还不支持中文。不过，官方已经预告未来将扩展20+语种，并计划在未来几个月内开源其模型，这将为CSM的进一步发展和应用提供更多可能性。

值得一提的是，Sesame公司的创始人Brendan Iribe是Oculus联合创始人兼前CEO，他缔造了VR行业首个现象级产品，并在2014年将Oculus卖给了Meta。如今，他带着原班投资人（a16z、Spark Capital等）杀入语音AI赛道，并据称配套AI眼镜已在研发中。这将为CSM的应用场景拓展提供更多想象空间。

随着人工智能技术的不断发展，语音AI已经成为备受关注的领域之一。而CSM的推出无疑为这一领域注入了新的活力和动力。未来，我们期待看到更多像CSM这样优秀的语音AI产品的出现，为人类的生活带来更多便利和乐趣。