关注我们在 Facebook 上
技术
Meta推出Spirit LM人工智能模型模仿人类声音
Meta 推出了新的开源模型“Spirit LM”,该模型解决了与声音生成中人工智能多模态模型相关的挑战。
新模型旨在提供更自然、更具表现力的音频体验,这是开发能够以更复杂、更现实的方式进行语音交流的智能机器人的先进一步。
“Spirit LM”模型基于包含 70 亿个参数的预训练语言模型,其独特之处在于其处理声音的能力与依赖自动语音识别(ASR)技术的传统模型不同。
Meta 指出,传统方法会导致声音失去许多自然表达。因此,Spirit LM 依靠使用音素、音调和音调来克服这些限制,使其能够产生自然的声音并学习新的任务,包括语音识别、文本到文本的声音和语音分类。
Meta在一篇研究论文中披露了这个模型,除了该模型的音频性能样本之外,还提到了导致“Spirit LM”开发的研究细节,让人们对其未来的能力有了清晰的认识。
该模型现已作为开源项目供开发者和研究人员使用和扩展,预计未来将用于 WhatsApp、Instagram 和 Facebook 等元应用程序,允许用户通过自然语音与人工智能交互。充满表情的对话类似于 OpenAI 最近推出的高级语音模式。