从信息论的角度出发,物理量到生理量的转化相当于有损信道,在此过程中保留下的空间信息不断减少。如图3-9所示,首先,由于音频范围声波的波长较长,干涉和衍射现象明显,因此双耳接收到的声音只具有非常有限的空间信息,并且这些信息还要受到噪音和其他声源的干扰,如图3-9中Δp1所示。其次,当声波进入双耳转变为生理信号时,听觉系统的有限的频率、时间和强度分辨率,使得生理量所包含的空间信息进一步减少,而听觉系统的内在噪音会损失一部分空间信息,如图3-9中Δp2所示。
空间信息损失有两方面的原因:多声源间的定位干扰,称为混淆;物理系统和生理系统噪音和有限的精度。如图3-10所示,混淆使定位发生偏移,属于物理原因,对应图中窄的高斯曲线;噪音使定位精度下降,属于生理原因,对应宽的高斯曲线。
图3-10 空间定位信息的损失
物理系统和生理系统的噪音有限的精度使定位趋于模糊,与单耳听音模型类比,前者相当于掩蔽效应,后者相当于静音门限。混淆、有限精度和噪音也体现在各个物理量到对应生理量的转换过程中。当声源具有一定空间范围,ILD/ITD将是这个空间范围内所有BDTF综合作用的结果;当存在多个独立声源时,ILD/ITD将是这些位置上BDTF作用的结果,造成ILD/ITD的混淆。在生理上,频率位置映射只具有限的分辨率,这样可以区分的是一个频段而不是一个频点;此外在每个频段上,Breebaart模型的延时衰减网络也只具有有限延时量和衰减量的分辨率,而每个节点神经细胞的内在噪音使延时和衰减量的分辨率进一步下降。
通过3.2节的分析,我们可以看到:双耳听音的空间定位对应的物理量就是ILD和ITD。在生理上,根据Breebaart模型,ILD和ITD被转化为延时衰减网络中特定节点神经细胞的最大抑制,对应的生理量就是节点的二维坐标位置。在包含多个声源、随机噪音、地面墙壁的反射吸收以及混响等复杂声场下,反映声像的大小以及声场的反射混响强度的IC也是必要的物理量。
考虑空间听觉在心理层面的复杂性和不确定性,本章讨论的空间感知信息量的研究对象就是ILD、ITD和IC这三个主要的物理量及其对应的生理量。在编码中也称这三个量为双耳线索。下面先回顾一下感知熵及其听觉模型。
感知熵的定义是建立在心理声学基础上的,主要包括:听觉系统的非均匀频率分辨率,即临界带(Critical Band,CB);描述噪音和纯音频域遮蔽效应的扩展函数(Spread Function);以及纯音性(Tonality)估计。图3-11展示了Johnston计算感知熵的单耳听音模型(Monaural Hearing Model,MHM)。
图3-11 听觉模型
如图3-11所示,人的听觉系统首先被看做一组不等带宽的子带滤波器组,或者说是一组非均匀子信道,每个滤波器组的带宽反应了其中心频率处的CB带宽;同时每个子带或子信道都是有失真,包括内在的噪音(即绝对听音门限)、子信道内信号的干扰(即带内掩蔽)以及子信道间信号的干扰(即带间掩蔽)。绝对听音门限与信号无关,只与当前频带的频率范围有关,而掩蔽则是依赖于信号的,可以通过信号在频域与扩展函数的卷积得到。因此,信道的噪音就等于每个子带或子信道所有失真之和。(www.xing528.com)
与上述听觉模型不同的是,双耳线索是双耳听音情况下人耳对空间信息感知的物理量,感知熵计算使用的听觉MHM模型已经无法直接拿来为空间感知信息量计算使用。因此,本小节中借鉴了Johnston的建模思想,结合3.2.2小节中介绍的Breebaart延时衰减网络模型,建立了我们的双耳线索生理感知模型(Binaural Cue Physiological Processing Model,BCPPM)。BCPPM模型由三部分组成,如图3-12所示。
图3-12 双耳线索生理感知模型BCPPM
1.耳蜗频率位置映射
这是一个双耳对输入信号在同一特征频率处的神经元信号处理过程。可看成是一个模拟听觉系统的临界频带滤波的过程。当前已有现成的研究成果可供借鉴使用。如1970年Scharf采用的临界频带划分方法[61];2002年Baumgarte在空间音频编码系统中提出的人工耳蜗滤波[9]等都是可用的临界频带滤波技术。
2.延时衰减网络(这里与图3-8一致)
外部输入信号通过耳蜗频率位置映射后,经延时衰减网络分别输出双耳线索ILD、ITD和IC这三个生理感知量。其中对ILD和ITD来说,可以直接从模型EI单元产生最大神经抑制时,输入信号在内部的横向延时以及纵向衰减量获得,如图3-13所示的神经兴奋度曲面的极小值点的位置。但是对于IC来说,则需要从曲面谷值点附近的平缓度进行判断,谷点下降越快IC值越接近1,反之谷点越平缓IC值越趋近于0。
图3-13 神经兴奋度曲面[102]
3.噪音叠加
这里对ILD/ITD/IC叠加的噪音体现在听觉系统有限精度、内在的噪音以及多声源干扰、反射和混响等非理想因素。其中,听觉系统有限精度就是延时衰减网络模块中可分辨的最小强度差异、时间间隔及相关度,即图3-8中延时单元ΔT和强度单元ΔL的粒度。如一个延时单元的延时量为10μs,其粒度就是10μs。同时,听觉系统的内在噪音会使该有限精度下降,而这两个因素联合造成了听觉系统的有限分辨率,在心理声学上称为恰可感知差异JND。它反映了听觉系统总体的灵敏度,一般是频率的函数。此外,对于多声源干扰、反射和混响等非理想因素来说,在BCPPM模型中可解释为双耳线索ILD/ITD/IC间的互影响关系。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。