关注我们在 Facebook 上

Walaw

技术

Meta推出Spirit LM人工智能模型模仿人类声音

星期二 22 十月 2024 - 08:45

Zoom

Meta 推出了新的开源模型“Spirit LM”，该模型解决了与声音生成中人工智能多模态模型相关的挑战。

新模型旨在提供更自然、更具表现力的音频体验，这是开发能够以更复杂、更现实的方式进行语音交流的智能机器人的先进一步。

“Spirit LM”模型基于包含 70 亿个参数的预训练语言模型，其独特之处在于其处理声音的能力与依赖自动语音识别（ASR）技术的传统模型不同。

Meta 指出，传统方法会导致声音失去许多自然表达。因此，Spirit LM 依靠使用音素、音调和音调来克服这些限制，使其能够产生自然的声音并学习新的任务，包括语音识别、文本到文本的声音和语音分类。

Meta在一篇研究论文中披露了这个模型，除了该模型的音频性能样本之外，还提到了导致“Spirit LM”开发的研究细节，让人们对其未来的能力有了清晰的认识。

该模型现已作为开源项目供开发者和研究人员使用和扩展，预计未来将用于 WhatsApp、Instagram 和 Facebook 等元应用程序，允许用户通过自然语音与人工智能交互。充满表情的对话类似于 OpenAI 最近推出的高级语音模式。

关键词：

300 / 剩余字符 300

发布条件 : 不得侮辱作者、他人或宗教场所，不得攻击宗教或神灵，避免种族煽动和侮辱

评论中表达的观点仅代表作者本人，不代表 Lou.Press 的观点