1.滤波和下混的并行处理
现有的空间参数音频编码方法采用串行处理时频分析和下混声道编码的结构,其优势是空间参数的分析提取与下混声道编码完全独立,同一个空间参数的分析提取可以和不同的传统感知音频编码器甚至参数编码器结合,如图5-13所示。
图5-13 串行处理结构
上述结构中,空间参数提取使用的分析滤波器必须缓冲至少一帧的输入多声道信号以便分块处理,下混声道编码器必须等到从空间参数分析输出的下混声道信号充满编码缓冲区。因此在串行结构中,总的算法延时d ov是空间参数分析延时dsp和下混声道编码延时dmo之和
串行处理结构下的延时示意图,如图5-14所示
显然,对移动等实时应用系统来说,这种串行处理结构下的空间音频编码难以满足要求。以典型的空间参数分析帧长2048样点,采样率32kHz的音频序列编码为例。此时dsp=64ms,而人类听觉的时域分辨率在100ms左右,有dmo~100-64=36ms,也就是说,通用音频编码延时需要控制在36ms以下,超过这个界限将产生明显的延时感。考虑到传统音频编码器很难实现36ms以下的编码延时,因此系统总体算法延时都在100ms以上,这使得空间参数音频编码很难应用在双向实时通信中。
图5-14 串行处理的延时示意图
现有的空间参数编码有式(5.6)的延时累计,关键在于串行结构。事实上,如果下混声道的编码和空间参数的分析滤波是并行处理的,下混声道不需要空间参数分析完成后再进行编码。也就是说,下混信号可以直接在时域进行,从而不必等待空间参数分析和提取。
图5-15 并行处理结构
如图5-15所示的并行处理结构中,从时域输入信号开始,下混信号进入通用音频编码器,而分析滤波器滤波得到的变换域信号作为空间参数分析的输入。这样,下混信号的编码延时dmo和分析滤波的延时d sp在时间上是重叠的,总体延时将决定于空间分析延时dsp和下混声道编码延时dmo的较大值。
并行处理结构下的延时示意图,如图5-16所示。
图5-16 并行处理的延时示意图(www.xing528.com)
通常下混声道编码器如AAC有超过100ms的延时,上例中的分析帧长和采样率下,dov=dmo,从而节省了64ms的算法延时。图5-16所示的结构需要在时域进行输入信号的下混。由于规范录音下的多声道信号和立体声信号都具有单声道兼容性,时域下混会保留足够的原始信号的频谱信息,因此不会对空间参数音频解码器的多声道或立体声合成造成明显影响。然而,对于不具有单声道兼容性的多声道和立体声信号,式(5.4)和(5.5)所示的分频带的增益控制仍是抑制信号下混导致信息丢失的有效途径。
2.合成与分析的滤波共享
进一步考察上述的并行处理结构发现:在并行处理结构下,虽然在时域进行的下混操作减少了串行处理结构下合成滤波的操作,但对通用编码模块来说仍需要一个时频分析工具。考虑这样一种情况:下混声道的通用编码器与空间参数分析采用相同的时频分析工具。此时,同样能够避免下混信号编码延时dmo和分析滤波延时dsp的累积。
如图5-17所示,输入信号经过分析滤波进行时频分析后,一方面作为空间参数分析的输入;另一方面在变换域下混,直接进入音频编码变换之后的模块,即无时频变换的通用编码模块。此时编码系统的总体延时dov依旧由从输入到音频编码输出以及从输入到空间参数输出这两个信号通路中延时较长的一路决定,因此公式(5.7)仍然适用。上述的空间分析与通用编码共用时频分析的方法,对编码端来说有两个约束条件:
图5-17 空间分析与通用编码共用时频分析
(1)在变换域进行下混操作。
下混声道是用于记录各个独立声源的信息。在空间音频编码系统中,通常采用时域下混。而对变换域下混来说,当相应的逆变换能够完全重建原始信号,即变换的时候能保留原始信号中能量、相位等基本信息的恒定,那么采用变换域下混的方法也是可行的。
(2)分析滤波与通用编码采用相同的时频变换工具。
分析滤波与通用编码采用相同的时频变换工具,降低了空间参数编码器与音频编码器的相对独立性。但是以AAC等高保真感知音频编码器为主的实际应用中,通用编码器中采用的时频分析工具通常也是以诸如MDCT、FFT等特性相似的时频变换为主。变换域的有限性也使得可以在有限的时频变换域中进行空间参数的提取/合成。
上述所述的方法,我们称为变换域下混的滤波共享技术。下面针对解码端的性能具体分析该方法的优劣。
现有的空间参数解码结构,如图5-18所示。以PS为例,编码端进行的时频变换包括:①一次从对下混声道的合成滤波,即进行一次IMDCT变换;②一次分析滤波,通常采用QMF或DFT;③左右声道各一次的合成滤波,即将变换域信号通过合成滤波生成时域信号输出。因此,现有的空间参数解码器中一共使用4次时频变换。
图5-18 PS解码结构示意图
本文在解码端提出了合成与分析滤波共享技术,如图5-19所示。音频解码器输出的下混声道不需要首先变换到时域,然后再进行分析滤波,而是直接进行多声道或立体声的合成,因此,解码端减少了针对下混声道的一次合成滤波和一次分析滤波。
图5-19 音频解码和空间参数合成共享时频合成
当然以上所述的并行结构下的滤波共享,在结构上就限制了可用的空间参数滤波器和音频编码器的选择范围,降低了空间参数编码器与音频编码器的相对独立性。但是应该注意到,实际应用中以AAC等高保真感知音频编码器为主,并且通用编码器中采用的时频分析工具通常也是以诸如MDCT、FFT等特性相似的时频变换为主。变换域的有限性也使得可以在有限的时频变换域中进行空间参数的提取/合成。因此,本章提出的将下混声道与空间参数的时频变换融合的方法是可行可操作的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。