在一个空间参数编码的时域单元(Time Slot,TS)中,提取空间参数信息的最基本单元是一段连续的频率。在采用频带划分替代虚拟声源分离的空间音频编码技术中,频带划分是根据心理声学的方式决定的,也就是说以人耳听觉系统频带分辨特性决定最小的空间参数提取单元。最常见的就是以等效矩形带[122](Equivalent Rectangle Band,ERB)或人类听觉的临界频带[60](Critical Band,CB)为基础进行的频带划分。也就是说,现有的空间参数编码都采用类似的策略,频谱被划分成连续且无重叠的子带,子带的带宽等于或近似等于ERB/CB。
CB通过实验测试得到,主要体现测试声为窄带噪音和纯音时的特性。在窄带噪音对纯音遮蔽实验中,遮蔽门限是二者频率间距的单调下降函数,3dB下降点就是CB。事实上CB以外声音并不是完全没有影响,只是影响相对小。CB反映了特定测试者的听觉特性,不同测试者CB不同,因此CB只能作为一个参考。
ERB的定义是听觉频域响应函数roex(p,f)的等效矩形带宽4f0/p,即
式中:p是一个由实验确定的参数,f是归一化频率,,如图5-8所示。由于响应函数本身只是经验公式,ERB作为独立听觉单元也只是近似成立的。
图5-8 等效矩形带宽
CB/ERB反映了以测试声为中心频率的心理声学特征带宽,频带边界是中心频率的函数,随着测试声频率的变化,CB/ERB的边界也有相应的变化。这两种频带划分方法都反映了人类听觉系统的非线性频率分辨特性,呈现低频带宽小高频带宽大的趋势。如图5-9所示。
(www.xing528.com)
图5-9 临界频带和等效矩形带
但是值得关注的是,一个特定的立体声信号在频域可能同时包含若干独立的声源,声源的数量以及它们的时频分布都是时变的。每个声源的频谱范围通常不能恰好包含在一系列预先定义好边界的频带内,具体来说就是一个声源可能分布到几个频带,或者一个频带有几个声源,同时声源频率边界与频带边界也不一致。因此,基于频带的空间参数提取方法将出现三种情况:
(1)独立声源的多频带分布情况。它将导致多次对同一声源进行空间参数提取,因此增加了空间参数的提取数量,相应也会增大空间参数的编码码率。
(2)多声源的单频带分布情况。此时只使用一组空间参数描述多个声源,将无法准确表示实际信号中的空间信息,导致编码音质的下降。
(3)声源频率边界与频带边界不一致的情况。这种不一致将使得提取的空间参数是相邻声源混合的结果,从而降低声源的分离度。
图5-10展示了由两声源信号组成的混合信号的频谱分布情况,其中竖直方向的虚线是以CB/ERB为带宽的频带划分的边界。从图中我们可以看到:混合信号中包含的两个独立声源1和声源2,其频谱在0~2300Hz间有重叠;和信号能量在AB段主要来自声源1,在BC段主要来自声源2。显然AB段和BC段的边界都不与给定的频带边界重合,同时各段内又包含若干完整的频带。因此,在多声源的空间参数提取时,声源的混淆和空间参数重复提取是同时存在。
图5-10 两声源信号的频谱分布
现有的空间参数编码系统中都采用类似的频带划分技术,频谱被划分成连续且无重叠的子带,子带的带宽等于或近似等于CB/ERB。在J.Breebaart等人提出的参数立体声编码方案中,等效矩形带的频带划分方法得到应用:在基于FFT的PS中,从28.7~18.1kHz的频段一共被划分为33个参数提取单元;在基于HQMF的PS中,HQMF输出的77个子带被近似按照EBR划分成20个子带。在高码率下,每个子带对应一个参数提取单元;在低码率下,每两个相邻的子带对应一个参数提取单元。这种策略合理性的前提是听觉系统将一个CB/ERB内的信号作为整体处理,不同CB/ERB的信号进行单独处理。空间参数的提取就以这些子带为最基本单元,不再区分每个子带内频谱的精细结构,同时也不考虑子带间频谱的相互影响。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。