空间心理声学所指的空间参数都是针对单一声源的,而通常的立体声信号在同一时刻包含多个声源,这就需要进行声源分离。声源分离模块正是为空间参数分析服务的。目前空间参数分析都是针对独立声源进行的,而实际空间音频编码器的输入是复杂声源信号,因此需要对复杂声源进行独立声源分离的操作。如何从输入信号中分离出各独立声源,解决这一问题有两个思路:盲声源的分离和虚拟声源分离。
所谓盲声源分离,如经典的鸡尾酒会问题,就是要分离出每个实际的声源[119],其有效性与声源及声道数目密切相关,同时受到计算复杂度的限制而难以实现。与盲声源分离相反,虚拟声源分离得到的并不是实际录音场景中的独立声源,而是时频图上的一个个连续的区域[10]。例如,实际音场中有3个独立声源,它们的时频分布情况如图5-4所示,此时声源分离得到的每个虚拟声源可能是由多个实际声源组成的,也可能是某一个或几个声源的一部分。
由于人耳听觉系统倾向于将相邻频带合成一个感知单位[78],即时频图上的连续区域,这也意味着进行实际声源的分离不是必须的。因此,当前空间音频编码系统中多数采用虚拟声源分离技术。
图5-4 声源的时频分布示意图
2002年,F.Baumgarte在BCC模型中通过人工耳蜗滤波器CFB(图5-5)实现虚拟声源的分离,CFB属于级联的子带滤波器,每个子带的带宽是变化的,对应于当前频率的人耳非线性分辨率。为了模拟人耳的非线性辨率,图5-5中每个节点的低通滤波器LPF和高通滤波器HPF都需要单独设计,这不仅带来了很高的实现复杂度,还使得CFB很难应用快速算法。
(www.xing528.com)
图5-5 人工耳蜗滤波器
针对CFB的缺点,另一种也是从心理声学的角度出发,频带按人耳的非线性分辨率划分的虚拟声源分离技术——短时DFT得到了发展。由于DFT有快速算法,大大降低了运算复杂度。文献[10]中的主观测试显示,基于短时DFT和基于CFB的空间音频编码系统有相近的编码音质,而前者的复杂度大大低于后者。但是,短时DFT的问题是时域分辨率不易调整,受限于可选的变换窗长。
当前在空间参数音频编码系统中还有采用混合正交镜像滤波器HQMF[11]来实现虚拟声源分离。HQMF是两级结构的复数域滤波器,如图5-6所示:第一级是64个均匀带宽的子带复数域滤波器QMF;第二级对最低的3个子带进行子带滤波,以便增加低频频率分辨率,共输出76个子带时域信号。HQMF的复滤波器结构便于空间参数ITD的提取,易于时间分辨率调整。此外,由于在QMF部分采用的是相同的滤波器结构,易于使用快速算法,降低运算复杂度。但是,HQMF的主要问题是较大的滤波延时,并且较低的频域分辨率使得很难应用于动态频域划分。事实上,在PS和MPEG Surround中,仅在低码率条件下,通过对子带的合并操作来调整频域分辨率[120]。
图5-6 混合正交滤波器HQMF
如上所述,在声源分离模块中通常是综合考虑信号的短时特性和人耳的非线性频率感知特性,采用独立的时频划分技术来实现虚拟声源的分离。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。