文 / 大话小数
1953年,英国科学家Edward Colin Cherry在研究注意机制(attention mechanism)时提出了著名的”鸡尾酒会”问题(Cocktail Party Problem):在鸡尾酒会中,同时存在着许多不同的声源,如多个人同时说话的声音、餐具的碰撞声、音乐声等。然而,在这种充满噪音干扰的声学环境中,听者却能够听懂所注意的人说的目标语句。
“鸡尾酒会”问题从提出之日起便一直是神经学、心理学、计算机等领域令人着迷的研究课题。而近年来,随着智能AI设备广泛融入日常生活,如何让机器像人那样在复杂听觉环境下处理目标人物所说的目标语句?这一问题越来越受到人们的重视。
在银行、保险公司等金融机构中也存在“鸡尾酒会”问题,如在对客服务的场景中需要录制录音录像作为后期质检以满足监管政策的要求。目前,各金融机构开始逐渐使用人工智能质检代替人工抽检来提高录音录像质检的效率及覆盖率。在对录音录像进行人工智能质检的过程中,机器会使用自动语音识别技术(Automatic Speech Recognition)识别录音录像中的语音内容。然而在对客服务录音录像的过程中,凡是在麦克风指向性拾音的范围内,所有声音都会被录制下来,使得声音中可能包括现场的噪声、其他人说话的声音、混响等干扰,这些干扰会严重影响质检识别的准确率。
因此,语音分离是智能机器解决“鸡尾酒会”问题的第一步。在语音识别的前端加上语音分离技术,把目标说话人的声音和其他干扰分开就可以提高语音识别系统的鲁棒性,这也是人工智能质检系统中不可或缺的一环。
目前,根据语音干扰的不同,语音分离任务可以分为三类:
- 当干扰为噪声信号时,可以称为语音增强(Speech Enhancement)或语音降噪(Noise Suppression);
- 当干扰为其他说话人时,可以称为话者分离(Speaker Separation);
- 当干扰为目标说话人自己声音的反射波时,可以称为“解混响”(De-reverberation);
根据麦克风的个数,语音分离算法可以分为单通道语音分离算法和多通道语音分离算法。由于在银行、保险公司等金融机构对客服务场景中,主要依靠单个麦克风采集音频,因此在人工智能质检过程中基本上采用单通道语音分离算法。
1.传统语音分离算法
根据算法原理的不同形式,传统的语音分离算法可以分为基于信号处理的算法、基于分解的算法和基于规则的算法。语音分离算法的具体描述及优劣势分析详见表1。
表1 语音分离算法的具体描述及优劣势分析
其中值得一提的是计算听觉场景分析(Computational auditory scene analysis,CASA),这一算法旨在建立像人类一样处理“鸡尾酒会”问题的智能系统用以分离混合的声音,可看作是基于规则的算法。
听觉场景分析理论主要研究人是通过怎样的心理学机制和生物学机制解决“鸡尾酒会”问题的。后来,这个理论被引入计算领域,根据听觉场景分析研究发现的一些规则或机制进行建模来系统性地处理“鸡尾酒会”问题。
2.基于深度学习的语音分离算法
基于深度学习的语音分离算法(如图1所示)也是来源于CASA模型,CASA模型的一个主要目标是学习一个理想二值掩蔽(Ideal binary mask,IBM),来决定频谱中的目标信号在哪些时频单元(Time-frequency units)中做主导。
如果把一个听觉信号在时间域和频率域两个维度(时频二维)进行表示(类似于视觉信号的x轴和y轴两个维度),我们就可以把时、频这两个维度表示成一个二维矩阵,这个矩阵中的每一个元素称为一个时频单元。如果对于目标信号不需要分得那么细,只需要分一次——要么属于目标声源,要么就是背景噪声,那么时频单元就可以量化为2个值,比如0和1,这便是二值。这样,从理想二值掩蔽的角度考虑CASA问题,就变成了一个监督学习(supervised learning)问题,一个分类问题。
图1 基于深度学习的语音分离系统结构
总的来说,基于深度学习的语音分离算法根据训练目标主要可以分为三类:基于时频掩蔽的算法、基于频谱映射的算法和基于信号近似的算法。
2018年8月,谷歌AI研究团队发表了Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation一文,提出了一种深度学习音频-视觉模型,用于将单个语音信号与背景噪声、其他人声等混合声音分离开来。在文章中,谷歌AI研究团队通过计算具有单个音频轨道的视频,增强其中特定人员的语音,同时减弱其他人的声音,使得用户能够在视频中选择聆听对应的说话人(如图2、图3所示)。
图2 谷歌深度学习音频-视觉模型功能 (图片取自:https://looking-to-listen.github.io)
图3 谷歌深度学习音频-视觉模型技术架构
这项技术的独特之处在于结合了输入视频的听觉和视觉信号来分离语音。直观地讲,人说话时的口型应当与其说话时产生的声音相关联,这反过来又可以帮助识别音频的哪些部分对应于该人。视觉信号不仅在混合语音的情况下显著提高了语音分离质量,重要的是,它还将分离的干净语音轨道与视频中的可见说话者相关联。
相比于只使用听觉信息作为输入参数的语音分离算法,额外引入视觉信息的模型显然更加符合人类实际处理“鸡尾酒会”问题的逻辑,基于此认识,许多研究者通过寻找与声学特征高度匹配的视觉特征集合作为语音分离的辅助参数,比如提取话者唇部运动视觉信息,来区分话者的静音和说话时刻,为音频的频谱分析提供参考。
有实验研究发现,人类不可能听到或者记住两个同时发声的语音。但是,人类却可以精准地从被混合的复杂语音中选择出其注意到的语音,以及同时忽略掉其他语音或者噪音等背景音,这种听觉选择注意能力是人类处理“鸡尾酒会”问题的关键。研究人员通过探索让算法模型模拟出这种人脑机制来达到同样的解决效果。
这些依托于深度学习框架的模型尽可能地模拟人类听觉注意的过程和自下而上的刺激驱动的推断过程,其结果也确实让人惊喜,主要代表模型有ASAM(Auditory Selection framework with Attention and Memory)模型(如图4所示)和从混合语音中分离出多个目标说话人的TDAA (Top-Down Auditory Attention) 模型(如图5所示)等。
图4 ASAM系统的结构
图5 TDAA 系统的结构
Edward Colin Cherry在出版于1957年的On Human Communication一书中说道:“到目前为止,还没有哪个机器算法能够解决‘鸡尾酒会’问题。”没想到在相隔64年的今天,这句断言也没被完全推翻。
近年来,对“鸡尾酒会”问题的建模逐渐聚焦于如何优化语音分离计算模型上。从传统的基于信号、频谱或者规则的算法再到基于深度学习的算法,其精进过程无不是依赖于理想化的预设条件或者海量数据训练。近期还出现了一批借鉴人类听觉通路过程中各类机制的计算模型,该类方法增强了面对不同情形的鲁棒性,对于现实环境中的复杂听觉环境具有更好的适应性。但是到目前为止,尽管各类研究取得了一定的成果,智能机器还是难以达到像人一样的理想水平。
从当下各类语音分离算法的研究趋势来看,要让机器真正解决复杂听觉场景下的“鸡尾酒会”问题,还是需要借鉴人类听觉研究取得的相关成果,并与计算模型和听觉研究中相关机制的深度结合,或许这将会成为今后解决“鸡尾酒会”问题的新的突破口。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请通知我们,一经查实,本站将立刻删除。