Meta AI 研究人员在语音生成 AI 方面取得了突破。我们开发了 Voicebox,这是第一个可以泛化到语音生成任务的模型,它没有经过专门训练来完成最先进的性能。
与图像和文本的生成系统一样,Voicebox 可以创建多种样式的输出,它可以从头开始创建输出,也可以修改给定的样本。但 Voicebox 不是创建图片或一段文字,而是生成高质量的音频剪辑。该模型可以合成六种语言的语音,以及执行噪声去除、内容编辑、风格转换和多样化样本生成。
在 Voicebox 出现之前,生成语音的 AI 需要使用精心准备的训练数据对每项任务进行特定训练。 Voicebox 使用一种新方法来仅从原始音频和随附的转录中学习。与用于音频生成的自回归模型不同,Voicebox 可以修改给定样本的任何部分,而不仅仅是给定音频剪辑的结尾。
Voicebox 基于一种称为流匹配的方法,该方法已被证明可以改进扩散模型。 Voicebox 在可懂度(5.9% 对 1.9% 的单词错误率)和音频相似性(0.580 对 0.681)方面优于当前最先进的英语模型 VALL-E,同时快 20 倍。对于跨语言风格迁移,Voicebox 优于 YourTTS,将平均单词错误率从 10.9% 降低到 5.2%,并将音频相似度从 0.335 提高到 0.481。
生成语音模型有许多令人兴奋的用例,但由于存在滥用的潜在风险,我们目前不会公开 Voicebox 模型或代码。虽然我们认为与 AI 社区保持开放并分享我们的研究以推进 AI 的最新水平很重要,但也有必要在开放与责任之间取得适当的平衡。考虑到这些因素,今天我们将分享音频样本和一份研究论文,其中详细介绍了我们所采用的方法和取得的成果。在本文中,我们还详细介绍了我们如何构建一个高效的分类器,该分类器可以区分真实的语音和 Voicebox 生成的音频。
现有语音合成器的主要局限之一是它们只能在专门为该任务准备的数据上进行训练。这些输入——被称为单调的、干净的数据——很难产生,因此它们的数量有限,并且它们导致输出听起来单调。
我们基于 Flow Matching 模型构建了 Voicebox,这是 Meta 在非自回归生成模型上的最新进展,可以学习文本和语音之间高度不确定的映射。非确定性映射很有用,因为它使 Voicebox 能够从不同的语音数据中学习,而无需仔细标记这些变化。这意味着 Voicebox 可以在更多样化的数据和更大规模的数据上进行训练。