Science Advances:复旦/上科大/天大联合团队汉语言脑机接口新突破,从“意念”合成汉语声调语音

发布时间:2023-06-20

语言是人类所特有的高级认知功能,是人类文明传承的载体。脑脊髓外伤、脑卒中、脑肿瘤、渐冻症等各类脑疾病可使患者丧失语言表达能力,造成严重的语言功能障碍,极大影响患者的生活质量,给社会和家庭造成巨大负担。实现大脑的“意念”解码并合成语音(语言脑机接口),不仅面向人民生命健康帮助那些失去语言表达能力的患者重建语言功能,更有助于面向国际科技前沿实现“意念交流”。

国际上利用该技术已经初步实现了英语的语音合成。然而,汉语作为声调语言通过声调表达不同的语义,英语解码的神经机制和算法无法直接适用于汉语语言,而目前汉语语言脑机接口研究仍是空白。

为了实现汉语声调语言脑机接口,来自复旦大学附属华山医院神经外科的吴劲松/路俊锋教授团队,联合上海科技大学李远宁教授团队、天津大学明东/许敏鹏教授团队采用高密度皮层脑电技术(high-density ECoG),解码了表征声调及音节构音的神经活动,建立了适用于汉语声调的深度学习算法模型,最终在国际上首次实现了从大脑神经活动到汉语单音节声调语音的端到端合成。

北京时间2023年6月10日凌晨,研究成果以“Decoding and synthesizing tonal language speech from brain activity”《从大脑活动中解码及合成声调语言语音》为题发表于Science子刊Science Advances。

研究范式及深度学习框架

该工作实现单被试最高声调音节平均分类正确率达到76%,单字解码分类正确率达到91%(随机基线为12.5%)。与此同时,研究团队在客观指标上引入梅尔频谱失真度(MCD)对合成声音进行定量分析,发现所有被试的合成声音平均失真度(MCD)均在2.53dB至3.20dB之间,远低于机器语音识别系统公认的可识别上限8dB(超过8dB代表机器语音无法识别)。研究团队还招募了31名志愿者对合成的声音进行主观听测和语音质量评估,所有被试的声调听测准确率在81.7% 至 92.3%之间;合成声调语音的平均主观得分(MOS)平均分为3.86分(最高分为5分),这意味着合成的声调语音基本达到了“只需要一点注意力即可听清“的水平。

声调音节解码正确率

这项工作首次实现了汉语声调语言端到端的解码及语音合成,为未来“植入式汉语言脑机接口”提供了针对汉语声调独特性的解码分析方案,并提出了一种可被推广借鉴的深度学习框架,为最终实现汉语语言脑机接口奠定了理论和技术基础。

来源:脑机接口社区