早在1907年Rayleigh就对空间听觉的物理层进行了研究,提出水平方向角定位的两个主要线索[45]:双耳时间差ITD和双耳强度差ILD。Rayleigh有两个开创性的发现:一个是著名的二分理论,即1.5kHz以下ITD是主要的定位线索,1.5kHz以上ILD为主;另一个是头阴影效应(Head-shadow Effect),头对声波的阻挡和折射可产生高达20dB的强度差异。这两个发现都将人头视为刚性球体,如图3-4所示。
图3-4 Rayleigh所使用的人头钢球模型
虽然真实人头的形状并不是球形,Rayleigh从钢球简化模型所得的结论仍然是基本正确的。2002年Ewan A.Macpherson等人所做的主观听音测试证明,除了包络延时的高频信号,二分理论对于纯音、宽带信号、高通信号以及低通信号仍然有效[93]。但是Rayleigh提出的ITD和ILD并不是全部定位线索,实际上处于人左右对称的中央平面上的声音具有相同的ITD和ILD,但是人仍然具有高度角的定位能力。
在中央平面上,人耳的定位能力来源于接收到的声波频谱特征,如图3-5所示。由于耳廓的形状是不对称的,同样的声波在不同的高度角上产生干涉的频点不同,于是幅频响应随高度角的变化而变化,这种线索称为高度角。由于此时不依赖于双耳听音,频谱线索也被称为单耳线索。
与ILD和ITD不同,频谱线索通常要与先验知识结合才能提供空间信息。原则上说,声源的频谱可以具有任意的特征,接收者无法判定接收到声波的频谱特性是来自于与高度相关的滤波效应,还是声源本身的频谱特征。
图3-5 高度角定位[1]
1997年Blauert在Spatial Hearing一书中还描述了对于中央平面上的窄带信号非常有趣的现象:实验对象给出的高度角判断与声源的实际位置几乎无关,而与信号的频率相关[72]。对于宽带声源,人耳接收到的声音频谱在不同频率处存在与高度相关的增益和衰减。也就是说,当频谱形状发生改变,人类听觉系统将其与已知类似的声音频谱形状比较,从而判断声源的高度,如图3-5所示。但是,Blauert通过对窄带信号进行的实验发现,与高度相关的滤波效应并不会改变信号的频谱形状,此时听觉系统给出的高度角是在窄带信号频率处有最大增益的高度角,而不是实际声源的高度角。例如,一般人耳对3kHz的声音在正前方有最大增益,此时无论实际声源的高度角是多少,实验者总是认为3kHz窄带信号来自正前方。
与频谱线索类似的物理线索还有远场距离线索,即人耳对1.5m以外声源距离判断的线索。此时可以将声波看成平面波,听觉系统根据响度判断声源的距离,即响度线索。同样的,听觉系统本身无法判定接受到信号的响度是声源本身还是传输距离造成的。因此判断声源距离需要参考已知类似声音在特定距离的响度。
上述分析说明频谱线索和响度线索在物理层面并不提供空间定位信息,而ILD和ITD提供了客观定位信息。空间音频编码技术中,目前为止也都主要关注ILD和ITD这两个客观定位信息的线索。此外,为了描述复杂声场环境的特征,需要引入双耳相关度IC,即左右耳接收到声音的归一化互相关度。理想声场环境下的点声源对应的IC为1,随着声源尺寸的变大、反射混响的增强,IC逐渐趋于0。因此,IC作为声源和声场空间特性的指标,在当前的空间音频编码系统中也得到了普遍的应用。(www.xing528.com)
从信号处理的角度来看,声源发出的声波经过空气传播,与耳廓、头以及躯干的作用到最终被听觉系统接收,这一过程可以看成一个线性时不变系统(Linear Time Invariant,LTI)。在双耳听音中,分别用头相关传输函数(Head-Related Transfer Function,HRTF)和头相关冲击响应(Head-Related Impulse Response,HRIR)来描述LTI系统的特性[95]。
如图3-6所示,信号源S(jω)经过左右耳传输函数(jω)和(jω)的作用,得到左右耳入声(jω)=(jω)S(jω)和(jω)=(jω)S(jω)。信号源S(jω)可以有任意频谱,因此只根据(jω)或(jω)是无法获取定位信息。
为了抵消S(jω)的影响,假设信号和传输函数不存在严格的极点,左右耳入声在频域相除,有
式中:(jω)称为双耳差异传输函数(Binaural Difference Transfer Function,BDTF)。在物理层面上,BDTF包含了(jω)和(jω)一致的空间信息。另一方面,BDTF的幅度和群延时就是ILD和ITD,即
图3-6 双耳听音的传输函数
显然,从上式我们可以看到ILD和ITD不仅与θ有关,还随频率的变化而变化。
因此,为了获取更可靠的声波传导与空间方位的关系,需要研究更接近实际的人头模型或真实人头对声波传导的影响。Rayleigh提出的人头刚性球体的模型忽略了耳廓和人头的实际情况,是真实人头一个很粗略的简化。1994年MIT媒体实验室给出了KEMAR假人头的全空间710个方位的HRTF[96]。2001年U.C.Davis的CIPIC实验室给出45个实际测试者和两个KEMAR假头模型的测试数据[94]。以上研究表明:虽然不同测试者的HRTF或者BDTF存在差异,但总体来说都保持基本一致的趋势。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。