声学场景中基于特征选择的不同地域自适应方法

(整期优先)网络出版时间:2023-08-18
/ 2

声学场景中基于特征选择的不同地域自适应方法

宋佳楠

中国信息通信研究院100083

一、问题定义

在声学场景分类中,相同场景下的音频录制地区不唯一,不同地区中相同场景的音频特性也不尽相同,例如:伦敦地铁站与巴黎地铁站,由于人流量、车流量等因素的差异将造成音频中背景噪声上的特征差异。因此,在不同地区的同一场景下录制的音频特征中找到并加重他们的共同特征将有助于减小背景噪声对分类器的影响[1]。在本文中,基于特征选择的领域自适应方法将被用于找到不同地区音频中相同场景下的共同特征,并对这些共同特征进行重新加权,以加重相同场景中共同特征的影响、弱化不同地点导致的背景噪音特征的影响。

二、采用的数据集

数据集可以采用公开的声学场景和事件的检测和分类(Detection and Classification of Acoustic Scenes and Events,简称DCASE)比赛中任务1的数据集。该任务的数据集是TUT Urban Acoustic Scenes 2018数据集[2],包括来自种声学场景的记录飞机场、室内购物中心、地铁站、步行街、公共广场、中等交通的街道、电车、公共汽车、地铁、城市公园。该数据集在欧洲六个不同的城市录制,每个场景中都有来自不同国家录制的音频每个国家录制的总时间基本一致,且原始录音被分成长度为10秒的音频段。除此之外,本将再此基础上扩展数据集,拟在中国地区的相应场景下分别进行录制,以扩大不同地区相同场景下的音频差异性。

三、系统整体框架

特征选择的领域自适应法主要是指:源域和目标域中均含有一部分公共的特征,在这部分公共的特征上,源领域和目标领域的数据分布是一致的。因此,此类方法的目标就是通过机器学习方法,选择出这部分共享特征,再对这些特征构建模型。对于声学场景分类而言,通过特征选择的方式将不同地区录制的相同场景下的特征中进行选择,找出相同场景中共享特征,再对该场景下的共享特征进行分类,特征选择的思路如图1所示。

图1:特征选择法示意图

本文中用于特征选择的领域自适应方法主要有两种:一种是结构对应学习算法(Structural Correspondence Learning,简称SCL)[3],该方法的目标是找到两个领域的共同特征;另一种方法是转移联合匹配算法(Transfer Joint Matching,简称TJM)[4]中的实例重新加权法,该方法的目标是加大共享特征的权重,增加目标实例的相关性,减小不相关实例引起的域差异,以获得更好的泛化能力。在得到被加重的共享特征后,与原特征进行扩充,最后用扩充后的特征数据训练场景分类器,使目标域与该分类器有更好的自适应性,整体的设计框图如图所示。

图2:基于特征选择的不同地域自适应系统基本思路

四、具体技术实现方案

首先采用SCL算法对不同地区相同场景下的音频特征进行共同特征的选择。SCL算法的思想是通过建模与枢轴特征的相关性来识别不同地区相同场景中的音频特征之间的映射关系,进而找到共享特征的映射,再根据该映射得出不同地区与该地区相同场景下的共同特征。得出共享特征的过程主要有以下三个步骤:

图3:共享特征流程图

在本文中,SCL算法涉及源域是地点A的场景,目标域是其他地点的场景。源域中的场景音频数据是有标签的,目标域中的场景音频数据是无标签的。SCL算法的关键是定义一组出枢轴特征,枢轴特征是在两个区域中以相同方式进行判别学习的特征,即相同场景中的共有事件的音频特征,然后使用这些枢轴特征来学习从两个域的原始特征空间到共享的低维枢轴特征空间的映射。枢轴预测器是得到该特征映射的核心,将音频的特征表示为二元向量x,使用m个二分类线性预测器作为枢轴预测器来选择出m个枢轴特征,这些枢轴特征统一用l表示,其中线性预测器的计算公式如下:

                  (1)

在进行二元分类预测时的实值损失函数用L(p,y)表示,则分类器中权重的更新公式如下:

     (2)

权重向量Wl即表示非枢轴特征与枢轴特征的协方差,最后得到的w是原始特征空间到R的线性投影。线性投影后,经过奇异值分解得到的低维映射即为原始特征到共享特征的映射关系。这个新产生的低维特征空间表明了源域和目标域的高度对应性,也体现了不同地域下相同音频场景特征中的关联性,根据共享特征的映射关系,即可得到不同地域与本地相同场景中的共享特征。

当不同地区造成的音频特征域差异非常大时,共享特征中也会存在一些与目标实例无关的源实例。因此在通过SCL算法提取出共享特征后,需要用TJM中的实例重新加权法对源实例重新加权。实例重新加权法对于跨域问题上的有效性主要体现在两方面:增加枢轴特征中共同特征实例的权重;降低枢轴特征中其他干扰特征的源实例的权重。该方法的主要实现效果如图4所示。

图4:实例重新加权法的基本思想实现效果

图(a)表示特征匹配后的源域,图(b)表示特征匹配后的目标源,比较这两个图可以发现不相关的源实例在特征匹配后,域差异依然很大。图(c)是经过实例重新加权后的源域,未填充的标记表示不相关的源实例权重被减小,填充的标记表示相关的源实例权重被增加,在经过源实例重新加权后进一步增大了共享特征的权重。因此,TJM的实例重新加权法对于跨域问题上的有效性主要体现在两方面:共享特征中相关源实例的权重增加;共享特征中不相关的源实例的权重降低。

通过SCL算法对不同地区的同一场景下的音频特征进行枢轴特征的选择,得到相同场景下的共有信息,再对共有信息和目标域中的信息进行重新加权,弱化不相关信息在枢轴特征中的影响,使特征对由不相关实例引起的域差异具有更强的鲁棒性,减少相同声学场景下的目标域和源域特征的差异性。场景分类器采用深度学习算法,对不同地区的多种场景进行分类处理,通过场景分类的准确率来判断系统的性能。

参考文献:

[1]AbrahamLBorker,MatthewWMcKown,JoshuaT AckermanCOLLINAEAGLES-SMITHBernieRTershy,andDonaldACroll,Vocalactivityasalow cost and scalable indexof seabird colony size,Conser-vation biology, vol. 28, no. 4, pp.11001108, 2014.

[2]Mesaros A ,et al.DCASE 2017 Challenge setup: Tasks, datasets and baseline system[C]//Detection & Classification of Acoustic Scenes & Events.2017.

[3]Zhang Y ,et al .A New Method of Selecting Pivot Features for Structural Correspondence Learning in Domain Adaptive Sentiment Analysis[C]//International Workshop on Database Technology & Applications.IEEE, 2010.DOI:10.1109/DBTA.2010.5658932.

[4]Long M ,et al.Transfer Joint Matching for Unsupervised Domain Adaptation[C]//IEEE Conference on Computer Vision & Pattern Recognition.IEEE, 2014.DOI:10.1109/CVPR.2014.183.