本文的研究在国家自然科学基金重点项目《移动音频编解码基础理论与关键技术》(60832002)和国家863高技术研究发展计划子项目《数字视音频编码、传输、测试与应用示范——音频编码算法框架与关键技术》(2004AA119010)的资助下,紧紧围绕双耳线索和移动应用展开研究。研究内容和主要研究成果包括:
(1)双耳线索特征分析及空间音频参数表示扩展模型建立。
针对传统空间音频编码只能去除声道间数据客观冗余的不足,本文通过大量测听实验给出了双耳线索临界感知特征曲线,证明了双耳线索参数存在的频率依赖特性。以此为基础,建立基于感知特性的双耳线索表示扩展模型,借鉴传统感知编码理论,完成音频空间参数的感知编码,实现4.28%~11.78%参数码率下降的同时,主观MUSHRA得分平均提高2.6分,客观ODG得分平均提高1.1分。
研究成果在2008年发表EI检索文章Frequency Dependence of Spatial Cues and Its Implication in Spatial Stereo Coding,并先后申请了五项国家发明专利,均被受理。其中两项专利:《一种用于参数立体声编码的空间参数选取方法》(200710053769.X)和《立体声音频信号的空间参数量化及熵编码方法及系统结构》(200710168614.0)已于2009年8月完成实审并将获得授权。
(2)空间感知信息分析及双耳线索的感知信息度量模型建立。
针对感知熵理论无法解释空间感知信息量大小的问题,本文通过双耳听音机理分析,利用表示物理层信息量的双耳线索,建立双耳线索的生理感知模型,并借鉴感知熵理论,完成空间感知熵SPE的计算,丰富和发展了空间音频编码技术的理论和实践。
声场中空间感知信息量的度量方法及应用(200910061011.X)等三项国家发明专利申请先后获得受理。在多媒体领域的国际顶级SCI期刊EURASIP JWCN(2009年影响因子0.976)上发表相关文章,并指导本科生毕业论文:《音频信号信息量度量理论及模型的算法实现和客观验证》,获得2009年湖北省优秀毕业论文。(www.xing528.com)
(3)MDCT域信号能量和延时特征分析及变换域双耳线索的准确表示。
针对MDCT实变换的相位信息缺失及能量抖动造成双耳线索表示不准确的问题,本文提出共轭调制复重叠变换CMLCLT,采用基函数“和分离”技术,获得具有稀疏特征的CMCLT-DFT线性相移转换关系。为进一步降低复杂度,提出MDCT-MDST快速转换技术,完成MDCT变换域下高效的空间音频编码。先后申请了两项国家发明专利,并获得受理。本项研究成果受到国内外音频编码领域专家的肯定,先后在多媒体领域的国际顶级会议ICME(2009年录用率23%)、国际会议MUE、及SCI期刊MTAP(5年期影响因子0.704)上发表相关文章。并在ICME的IBM优秀奖学金角逐中成为唯一的中国获奖者(共6人获奖)。
(4)基础操作模块分析及滤波共享的并行处理结构建立。
针对独立空间参数时频变换带来的系统复杂度高延时大,难以适应移动应用的缺陷,本文提出滤波和下混并行的处理结构,将下混声道与空间参数的时频变换融合,采用合成和分析滤波的共享技术,最终系统延时缩短5%,计算复杂度下降38%~86%。
国家发明专利:《一种空间参数立体声编解码方法及其装置》(200710053770.2)获得受理,研究成果Spatial Stereo Coding Structures Based on Analysis-by-Synthesis在2008年北京举行的国际会议上发表。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。