当前位置：动态资讯

阿里达摩院发布全新自研语音，AI芯片技术语音合成速度比GPU快100倍！

发布时间：2019-09-16

在8月21日美国旧金山举行的芯片行业顶级学术会议HOTCHIPS上，阿里巴巴达摩院发布了新一代AI语音FPGA芯片技术——Ouroboros，该技术能将语音生成算法的计算效率提高百倍以上。这是业界首款专用于语音合成算法的AI FPGA芯片结构设计。

针对ASIC实现的性能仿真预估表明，Ouroboros 的设计可以实时运行WaveNet 等业界先进的文字转语音（TTS，Text-to-Speech）算法，实现实时语音合成。

算法很好但难以进行实时计算是语音芯片的行业难题。Ouroboros 的突破在于：使用了端上定制硬件加速技术，替代云端服务器，有效避免了对网络连接和云端服务的强依赖性，解决了这一问题。

Ouroboros 原理图（来源：阿里达摩院）

以计算量最大的AI 语音合成算法WaveNet 为例，为了生成1 秒的语音，CPU 和GPU 需要消耗50 秒的计算时间，完全无法满足语音合成对实时性的要求。但Ouroboros 在FPGA 环境下只需要0.3 秒，大大提升计算效率，同时将整体服务成本降低10 倍以上。

WaveNet 实践结果（来源：阿里达摩院）

为了达到这样的效果，达摩院的研发人员从硬件到软件进行了诸多协同设计与改良：

（来源：阿里达摩院）

Ouroboros 的主要技术在硬件层面，达摩院的研发人员采用了片上环路结构支持迭代算法的思想，通过缓存和控制器直接在片上实现语音的循环生成，而不需要再从片外反复发送计算指令。这样的设计避免了大量进行计算核启动和数据搬运的开销，是针对自回归形式的语音合成模型所特有的结构，因此研发人员形象地使用衔尾蛇（Ouroboros）为其命名。
在软件层面，研发人员针对硬件结构进行优化算法的计算流程，有效利用缓存队列和稀疏化，在保证计算等效性的前提下进一步提升计算速度。

相比于其他纯粹从算法角度改良的方法，达摩院的软硬件结合方案没有额外的模型训练开销，并且可以同时支持WaveRNN、LPCNet 等其他语音合成模型，兼顾高性能与高灵活性。

此次阿里发布的Ouroboros 技术，同样适用于达摩院于今年7 月发布的新一代的语音合成算法KAN-TTS，该算法将商用系统里的合成语音与原始语音的相似度提高到97% 以上。据了解，Ouroboros 芯片技术除了语音合成之外，还将支持AI 语音识别。基于Ouroboros 研发完整的语音AI 芯片，有望率先在天猫精灵上落地。

来源：AI前线

新闻公告

阿里达摩院发布全新自研语音，AI芯片技术语音合成速度比GPU快100倍！