中科院自动化所赫然团队 | 综述: 深度视听学习

发布时间:2021-08-12

论文题名:Deep Audio-visual Learning: A Survey

论文作者:Hao Zhu, Man-Di Luo, Rui Wang, Ai-Hua Zheng, Ran He

全文链接:https://link.springer.com/article/10.1007/s11633-021-1293-0

参考链接:https://mp.weixin.qq.com/s/AXMaS4d3niwjy_EKwmQa4w

视听学习,旨在挖掘听觉和视觉两种模态之间的关系。随着深度学习得到成功应用,视听学习引起了广泛关注,研究者们以期利用这两种模态来提高单一模态任务的性能,或借此解决新的具有挑战性的问题。中科院自动化所赫然研究员团队对近年来视听学习的探索与发展进行了系统的综述,将其分为四个子领域:视听分离和定位、视听相关性学习、视听生成和视听表征学习,对前沿方法进行了讨论和梳理,分析了每个子领域存在的问题,总结了常用的数据集,并对面临的挑战进行了研判。相关成果已发表于IJAC第三期中,全文免费下载!

图片来自Springer

音频和视频作为人们日常生活中最重要的两种感知方式,在学术界和工业界均得到了大力发展,如语音识别、面部识别、细粒度视觉分类等。近年来,伴随人工智能技术的蓬勃发展,单模态学习(single-modality learning)逐渐向多模态学习(multimodality learning)发展,为更好地实现机器感知(machine perception)创造了条件。视听学习(Audio-visual learning, AVL)同时引入两种模态,有效克服了单种模态感知的局限性。此外,对视觉和听觉信息关系的探索,为新的研究课题的提出提供了可能,并为机器学习的发展提供了更广阔的舞台。

本文综述了视听学习中的关键方法,旨在发现视觉和听觉数据间的关系,以应对更多挑战性任务。本文将相关成果分为四类:1)视听分离和定位(audio-visual separation and localization),2)视听相关性学习(audio-visual corresponding learning),3)视听生成(audio and visual generation),4)视听表征学习(audio-visual representation learning)。

视听分离和定位(Audio-visual separation and localization)旨在将特定声音从相应的发声对象中分离出来,并在视觉环境中定位每一种声音,如图1(a)所示。当引入视觉模态(visual modality)后,传统的音频分离(audio separation)可以转化为视听分离(audio-visual separation)。此外,引入视觉模态也使音频定位(audio localization)得以实现,即根据音频输入,从视觉模态便能对某个声音进行定位。视听分离和定位任务可以根据作用对象分为与说话人(speaker)相关和与发声体(object)相关两类任务。前者专注于说话人的语音,通过利用语音和嘴唇运动之间高度相关的显示模式来辅助视听分离,可以用于在电视节目中增强目标说话者的声音;而后者旨在分离任意的发声对象,在这种更为通用的情况下,音频和视觉信息之间的明确模式难以捕捉,因此更加具有挑战性。由于缺乏训练标记(training labels),该领域的大多数研究都集中在无监督学习上。研究人员通过引入各种有效的策略,如稀疏相关、多实例学习等,来提升任务性能。视听分离和定位任务本身不仅能带来有价值的应用,还能为完成其他视听任务提供基础,例如,在视听生成领域中为360°视频生成空间音频,因此具有重要的研究意义。

图片1

图1:深度视听学习的四类子任务

视听相关性学习(Audio-visual correspondence learning)侧重于找到视听模态之间的全局语义关系(global semantic relation),如图1(b)所示。它由视听匹配与检索(audio-visual matching&retrieval)和视听语音识别(audio-visual speech recognition)任务组成。前者使用音频或图像在另一种模态中搜索其对应物(counterpart),实现音视频匹配,从而广泛应用于语音反欺诈等任务中;后者则在传统语音识别任务的基础之上,利用视觉信息提供更多语义信息,从而提高识别性能。尽管这两项任务都得到了广泛研究,但它们仍然面临重大挑战,尤其是在语音识别中的细粒度跨模态检索(fine-grained cross-modality retrieval)和同音异义词(homonyms)方面。

视听生成(Audio-visual generation)尝试基于其中一种模态的数据合成另一种模态的数据,这与上述两类任务同时将音频模态和视觉模态作为输入的做法具有明显区别。视听跨模态生成(Audio-visual cross-modality generation)旨在从视觉信号中生成音频,反之亦然,近年来已引起高度关注。如图1(c)所示,视频到音频生成主要侧重于从唇部序列(lip sequences)中还原语音或预测给定场景中可能出现的声音。而音频到视觉信息的生成可以分为三类:音频驱动的图像生成(audio-driven image generation)、身体动作生成(body motion generation)和说话人脸生成(talking face generation)。对人类来说,感知声音和外观(appearance)之间的自然相关性(natural correlation)易如反掌,但由于跨模态的异质性,这项任务对机器来说却是个巨大的挑战。目前,研究人员们大多采用生成对抗网络(Generative Adversarial Networks)及其不同变种来实现视听生成。为了缩小不同模态之间的差距,研究人员们进一步为模型引入了包括关键点、互信息和光流等在内的额外信息;同时对模型的输入进行预处理,以实现更加精准的视听生成。

视听表征学习(Audio-visual representation learning)旨在从原始数据中自动发现表征(discover the representation automatically)。人类可以根据大脑认知轻松识别音频或视频,而深度学习模型等机器学习算法则在很大程度上依赖于数据表征。因此,要提高机器性能,必须为机器学习算法提供合适的数据表征。然而,现实世界中的数据,如图像、视频和音频,均不具备特定的算法定义的特征(specific algorithmically defined features)。因此,机器学习算法成功的关键在于对数据进行有效的表征。为了寻求更好的表征,研究人员尝试添加不同的约束信息,并设计了各种代理任务,例如视听相关性(audio-visual correspondence, AVC)和视听同步(audio-visual temporal synchronization, AVTS)。通过利用这种学习到的表征,人们可以更轻松地解决本文最开始提到的视听任务。

本文对上述四个视听学习研究方向进行了系统综述。文章第2-5部分对四个方向分别进行了介绍,第6 部分对常用的公共视听数据集进行了总结,第7部分对每一方向的关键挑战和潜在的研究前景进行讨论,第8部分对全文进行了概括。

来源:《International Journal of Automation and Computing》编辑部