Meta公司最新推出的AI声音生成模型,Audiobox,将音频创作推向新的高度。这一创新模型不仅可以接收语音输入,还能同时理解文字描述,为用户提供更灵活、更多样的声音创作可能性。
基于Voicebox AI的革新之作
Audiobox建立在Meta今年六月发布的Voicebox AI模型基础上,突破性地实现了语音和文字的双重输入,并在音频生成和编辑方面做出了显著的升级。这让用户可以通过语音和文字的双重方式,创造出符合其需求的音频内容。
降低声音生成门槛
Meta表示,要生成高品质音频需要庞大的音频库和深厚的领域知识,而这些资源对于大多数人来说并不容易获取。Audiobox的推出旨在降低声音生成的门槛,使任何人都能轻松制作视频、游戏等应用场景所需的音效。
创新技术实现多层次音频生成
Audiobox采用了Voicebox的“引导声音”机制,并结合“流量比对”扩散模型生成方法,实现了“声音填充”功能,从而可以生成多层次、丰富多彩的音频内容。Meta通过测试展示了Audiobox生成带有雷暴声的下雨音频,并通过一系列提示句演示了不同情境下的音频创作。
超越同类模型的音质与准确度
Meta宣称,Audiobox在音质和“生成内容的准确度”方面明显超越了同类模型,包括AudioLDM2、VoiceLDM和TANGO,成为目前最优秀的音频生成模型之一。
开放试用及即将全面公开
目前,Audiobox已经向特定研究人员和学术界开放试用,用于测试模型的品质和安全性。Meta表示,计划在未来几周内全面公开Audiobox,让更多人体验这一革命性的声音生成模型。 Meta公司通过Audiobox再次证明了其在人工智能领域的引领地位,为声音创作开启了新的创作时代。Meta Audiobox,开启声音创新的新篇章!