当前位置：动态资讯

微软发布AI声音生成工具VALL-E，只需3秒音频即可模仿人说话

发布时间：2023-02-01

近日，微软研究人员宣布了一种新的文本转语音AI模型，称为VALL-E，当给出三秒钟的音频样本时，它可以精确地模拟一个人的声音。一旦它学会了一个特定的声音，VALL-E可以复制说话者的情绪和语气，即使说话者本人从未说过的单词也可以模仿。

它的创建者推测，VALL-E可用于高质量的文本转语音应用程序、语音编辑，其中可以编辑一个人的录音并从文本转录中更改（让他们说出他们最初没有说的话），以及与其他生成AI模型（如GPT-3）结合使用时的音频内容创建。

微软称VALL-E为“神经编解码器语言模型”，它建立在Meta于2022年10月宣布的一项名为EnCodec的技术之上。与其他通常通过操作波形合成语音的文本转语音方法不同，VALL-E从文本和声学提示生成离散音频编解码器代码。它基本上分析一个人的声音，通过EnCodec将这些信息分解成离散的组件（称为“令牌”），并使用训练数据来匹配它“知道”的声音，如果它说的是三秒样本之外的其他短语，声音会是什么样子。或者，正如微软在VALL-E论文中所说的那样：

为了合成个性化语音（例如，zero-shot TTS），VALL-E生成相应的声学令牌，条件是3秒注册录音和音素提示的声学令牌，分别约束扬声器和内容信息。最后，使用生成的声学标记与相应的神经编解码器解码器合成最终波形。

微软在Meta组装的名为LibriLight的音频库上训练了VALL-E的语音合成能力。它包含来自7000多名演讲者的60000小时的英语演讲，其中大部分来自LibriVox公共领域的有声读物。为了使VALL-E生成良好的结果，三秒样本中的语音必须与训练数据中的语音紧密匹配。

在VALL-E示例网站上，微软提供了数十个AI模型的音频示例。在样本中，“Speaker Prompt”是提供给VALL-E的三秒音频，它必须模仿。“Ground Truth”是同一个说话者为了比较目的而说出特定短语的预先存在的录音（有点像实验中的“对照”）。“Baseline”是传统文本到语音合成方法提供的合成示例，“VALL-E”示例是VALL-E模型的输出。

微软研究人员提供的VALL-E框图

在使用VALL-E生成这些结果时，研究人员只将三秒钟的“Speaker Prompt”样本和一个文本字符串（他们希望语音说的话）输入VALL-E。因此，将“Ground Truth”样本与“VALL-E”样本进行比较。在某些情况下，两个样本非常接近。一些VALL-E结果似乎是计算机生成的，但其他结果可能会被误认为是人类的语音，这是模型的目标。

除了保留说话者的人声音色和情感音调外，VALL-E还可以模仿样本音频的“声学环境”。例如，如果样本来自电话，则音频输出将在其合成输出中模拟电话呼叫的声学和频率属性（这是一种奇特的说法，听起来也像电话）。微软的样本（在“多样性合成”部分）表明，VALL-E可以通过改变生成过程中使用的随机种子来产生语音音调的变化。

也许是由于VALL-E可能助长恶作剧和欺骗的能力，微软没有提供VALL-E代码供其他人试验，所以我们无法测试VALL-E的功能。研究人员似乎意识到这项技术可能带来的潜在社会危害。对于论文的结论，他们写道：

“由于VALL-E可以合成符合说话人身份的语音，因此滥用模型可能会带来潜在风险，例如欺骗语音识别或冒充特定说话人。为了降低此类风险，可以构建一个检测模型来区分音频剪辑是否由VALL-E合成。在进一步开发模型时，我们还将把微软人工智能原则付诸实践。”

来源：21dB声学人

新闻公告

微软发布AI声音生成工具VALL-E，只需3秒音频即可模仿人说话