首页 理论教育 视音频信号压缩编码标准-全媒体制播技术

视音频信号压缩编码标准-全媒体制播技术

时间:2023-11-05 理论教育 版权反馈
【摘要】:制定视音频信号压缩编码标准的组织有ISO/IEC、ITU、AVS工作组等,相关标准有JPEG系列、MPEG系列、H.26×系列、AVS等。MPEG负责数字视频、音频和其他媒体的压缩和解压缩处理等国际技术标准的制定工作,制定的标准称为MPEG-X系列。MPEG-4是基于第二代视音频编码技术制定的压缩标准,以视听媒体对象为基本单元,实现数字视音频和图形合成应用、交互式多媒体的集成,在流媒体领域得到应用。

视音频信号压缩编码标准-全媒体制播技术

制定视音频信号压缩编码标准的组织有ISO/IEC、ITU、AVS工作组等,相关标准有JPEG系列、MPEG系列、H.26×系列、AVS等。

1.概述

(1)ISO/IEC

ISO/IEC JTC1即国际标准化组织(International Standardization Organization)/国际电工委员会(International Electrotechnic Committee)的第一联合技术委员会(Joint Technical Committee)是一个信息技术领域的国际标准化委员会。下设多个工作小组,其中就包括JPEG(联合图像专家组)和MPEG(运动图像专家组)。

JPEG负责静止图像编码国际标准的制定,所制定的JPEG、JBIG及JPEG2000等标准在多媒体数码相机等产品中得到了广泛应用。

MPEG负责数字视频、音频和其他媒体的压缩和解压缩处理等国际技术标准的制定工作,制定的标准称为MPEG-X系列。MPEG-1和MPEG-2是MPEG组织制定的第一代视、音频压缩标准,为VCD、DVD及数字电视和高清晰度电视等产业的飞速发展打下了基础。MPEG-4是基于第二代视音频编码技术制定的压缩标准,以视听媒体对象为基本单元,实现数字视音频和图形合成应用、交互式多媒体的集成,在流媒体领域得到应用。MPEG-7是多媒体内容描述标准,支持对多媒体资源的组织管理、搜索、过滤、检索。MPEG-21的重点是建立统一的多媒体框架,为从多媒体内容发布到消费所涉及的所有标准提供基础体系,支持连接全球网络的各种设备透明地访问各种多媒体资源。

(2)ITU

国际电信联盟(ITU)是世界各国政府的电信主管部门之间协调电信事务方面的一个国际组织,分为电信标准部门(即ITU-T)、无线电通信部门(即ITU-R)和电信发展部门(即ITU-D)。ITU-T的标准称之为建议,并命名为H.26x系列,比如H.261、H.263等。

ISO/IEC和ITU两个国际组织大多数情况下独立制定相关标准,自1997年,ITU-T VCEG与ISO/IEC MPEG再次合作,成立了视频联合工作组(Joint Video Team,JVT),JVT的工作目标是制定一个新的视频编码标准,以实现视频的高压缩比、高图像质量、良好的网络适应性等目标。1998年1月,开始草案征集;1999年9月,完成了第一个草案;2001年5月,制定了其测试模式TML-8;2002年6月,JVT第5次会议通过了H.264的FCD版;2002年12月,ITU-T在日本的会议上正式通过了H.264标准,并于2003年5月正式公布了该标准。国际电信联盟将该系统命名为H.264/AVC,国际标准化组织和国际电工委员会将其称为14496-10/MPEG-4 AVC,是MPEG-4的第10部分。

(3)AVS工作组

自20世纪90年代至今MPEG和ITU-T VCEG(Video Coding Experts Group)已或独立或联合制定了一系列编码标准,包括MPEG-2、MPEG-4、H.263,H.264/AVC以及目前最新的H.265/HEVC(High Efficiency Video Coding)编码标准。但这些标准所用的技术专利多属于国外的公司企业或研究机构,尤其是H.265/HEVC之前的编码标准几乎没有中国专利的影子,而国内的企业和用户如果使用这些专利技术需要支付数额巨大的专利费用。2002年12月,信息产业部科学技术司正式发文成立“数字音视频编码技术标准工作组”(简称AVS工作组,Audio Video coding Standard),以制定具有自主知识产权的视频编码标准。

2012年,为了加快推进AVS在广播电视行业中的应用,国家广播电影电视总局科技司与工业和信息化部电子信息司联合发文共同成立“AVS技术应用联合推进工作组”,并于2012年7月成功制定AVS+行业标准(GT/T257.1-2012《广播电视先进音视频编解码第1部分:高清晰视频》)(注:在AVS1系列标准中为第16部分《信息技术先进音视频编码第16部分:广播电视视频》)。为与AVS1相区别,AVS工作组中将2012年启动的面向超高清晰视频的编码标准称为第二代视频编码标准,即AVS2。

2.图像压缩编码的标准

(1)静止图像压缩标准(JPEG)

JPEG(Joint Photographic Experts Group)是在国际标准化组织(ISO)领导之下制定静态图像压缩标准的委员会,主要研究适用于彩色和单色多灰度或连续色调静止图像的压缩标准,主要用于静止图像的压缩,在用于活动图像时,其算法仅限于帧内。JPEG算法的平均压缩比为15∶1,当压缩比大于50倍时将可能出现方块效应。

JPEG标准分为两种基本压缩编码算法:一种是基于DCT有失真算法,另一种是基于空间线性预测(即差分脉码调制DPCM)的无损压缩算法。JPEG标准实现了在有限空间存储图像或在低速率下的图像信息交换。

JPEG标准由多个部分组成,主要的部分有:Part 1——基本的JPEG标准,定义了静止图像编码的方法和系统;Part 2——确定符合Part 1标准的软件规则和检查方法;Part 3——建立一系列对标准改进的扩展等。本节主要介绍Part 1——基本的JPEG标准。

JPEG有两种基本压缩方法:一是有损压缩方法,它是以DCT为基础的压缩编码方法,其压缩比较高;二是无损压缩方法,又称预测压缩方法,是以二维DPCM为基础的压缩方式,解码后能完全精确地恢复原图像取样值,压缩比低于有损压缩方法。

JPEG编码算法主要有以下几个重要步骤:

第一步:用DCT去除图像数据的空间冗余;

第二步:用人眼视觉最佳效果的量化表来量化DCT系数F(u,v),去除视觉冗余;

第三步:对量化后的DCT系数F(u,v)数据进行熵编码,去除熵冗余。

JPEG算法与彩色空间无关,因此“RGB到YUV变换”和“YUV到RGB变换”不包含在JPEG算法中。JPEG算法处理的彩色图像是单独的彩色分量图像,因此它可以压缩来自不同彩色空间的数据,如RGB、YCbCr和CMYK。

(2)运动图像压缩标准(MPEG系列)

运动图像专家组(Moving Picture Experts Group,MPEG)在ISO/IEC两个国际组织的联合技术委员会(JTCI)领导下进行MPEG标准的制定。

MPEG-1和MPEG-2在编码的基本技术上是类似的,都是基于块的运动补偿编码技术。MPEG-1和MPEG-2视音频压缩编码分别在VCD中和数字电视广播系统中得到了广泛应用。

A.MPEG-1标准

MPEG-1的最终完成日期是1991年,是用于数字存储媒体活动图像及相关声音的编码标准。MPEG-1由多个部分组成,其中主要的部分有:

第一部分:系统(ISO/IEC11172-1),系统部分是关于数字视频、音频和辅助数据等多路压缩数据流复用和同步的规定;

第二部分:视频(ISO/IEC11172-2),视频部分是关于位速率约为1.5 Mbit/s的视频信号的压缩编码的规定;

第三部分:音频(ISO/IEC11172-3),音频部分是关于每通道位速率为64kbit/s、128kbit/s、192kbit/s的数字音频信号的压缩编码的规定;

第四部分:符合测试,ISO/IEC 11172-4;

第五部分软件模拟,ISO/IEC 11172-5。

MPEG-1标准的目标主要包括以下几个方面:在声像质量上高于电视电话或电视会议的声像质量,至少应达到VHS录像机或CD-ROM的放像质量。压缩后的数据量能存储在光盘、数字录音带或可改写光盘等媒体中。压缩后的数据率与目前的计算机网络传输码率相匹配,即以1.2Mb/s为宜。在通信网络上该标准能适应多种通信网络的传输。该标准充分考虑到更广泛的应用领域例如电子图像出版物、电子图像双向传递、电子图像编辑及双向电子图像通信等。

B.MPEG-2标准

MPEG-2全称为“运动图像及有关声音信息的通用编码”,标准的文件编号为ISO/IEC13818。

MPEG-2由多个部分组成,其中主要部分有:第一,系统部分(ISO/IEC13818-1),是关于多路音频、视频和数据的复用和同步的规定;第二,视频部分(ISO/IEC13818-2),主要涉及各种比特率的数字视频压缩编解码的规定;第三,音频部分(ISO/IEC13818-3),扩充了MPEG-1的音频标准,使之成为多通道音频编码系统;第四,测试部分;第五,软件仿真部分等。

MPEG-2标准与MPEG-1标准的主要区别在于:第一,MPEG-2能够有效地支持电视的隔行扫描格式,而MPEG-1只能是逐行的。运动补偿中添加了场间预测和双基预测等模式,以改进对运动较快的物体预测的准确性和提高压缩比。第二,在MPEG-1中,图像的色度格式是4∶2∶0,而在MPEG-2中图像的色度格式还包括4∶2∶2格式。第三,在MPEG-1中,运动矢量搜索的精度是以整像素为单位进行的,而在MPEG-2中运动矢量搜索的精度是以半像素为单位进行的。第四,支持分层次的可调视频编码,这适用于需要同时提供多种质量的视频服务的情况。例如,当普通电视(TV)和高清晰度电视(HDTV)同播时,将视频信号进行分层次的编码,解码能力较低的TV接收机可以只对码流中的低层次部分解码,得到低分辨率图像,而HDTV接收机对所有层次解码,可获得高清晰的图像。

C.MPEG-4标准

运动图像专家组MPEG于1999年2月正式公布了MPEG-4(ISO/IEC14496)标准第一版本。同年年底MPEG-4第二版亦告审定,且于2000年年初正式成为国际标准。MPEG-4与MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具体压缩算法,它是针对数字电视、交互式绘图应用(影音合成内容)、交互式多媒体(WWW、资料撷取与分散)等整合及压缩技术的需求而制定的国际标准。MPEG-4标准将众多多媒体应用集成于一个完整框架内,旨在为多媒体通信及应用环境提供标准算法及工具,从而建立起一种能被多媒体传输、存储、检索等应用领域普遍采用的统一数据格式。(www.xing528.com)

D.MPEG-7标准

MPEG-7标准被称为“多媒体内容描述接口”,为各类多媒体信息提供一种标准化的描述,这种描述将与内容本身有关,允许快速和有效的查询用户感兴趣的资料。它将扩展现有内容识别专用解决方案的有限的能力,特别是它还包括了更多的数据类型。换而言之,MPEG-7规定一个用于描述各种不同类型多媒体信息的描述符的标准集合。该标准于1998年10月提出。

MPEG-7的目标是支持多种音频和视觉的描述,包括自由文本、N维时空结构、统计信息、客观属性、主观属性、生产属性和组合信息。对于视觉信息,描述将包括颜色、视觉对象、纹理、草图、形状、体积、空间关系、运动及变形等。

(3)运动图像压缩标准(H.26x系列)

A.H.261建议

H.261是1990年ITU-T制定的一个视频编码标准,属于视频编解码器,是为在综合业务数字网(ISDN)上开展双向声像业务(可视电话视频会议)而制定的,速率为64kb/s的整数倍。

H.261是最早的运动图像压缩标准,它详细制定了视频编码的各个部分,包括运动补偿的帧间预测、DCT变换、量化、熵编码以及与固定速率的信道相适配的速率控制等部分。

B.H.263建议

H.263是最早用于低码率视频编码的ITU-T标准,随后出现的第二版(H.263+)及H.263++增加了许多选项,使其具有更广泛的适用性。

C.H.264/AVC建议

H.264是由ISO/IEC与ITU-T组成的联合视频组(JVT)制定的视频压缩编码标准。自1996年制定H.263标准后,ITU-T的视频编码专家组(VCEG)开始了两个方面的研究:一个是短期研究计划,在H.263基础上增加选项(之后产生了H.263+与H.263++);另一个是长期研究计划,制定一种新标准以支持低码率的视频通信。长期研究计划产生了H.26L标准草案,在压缩效率方面与先期的ITU-T视频压缩标准相比,具有明显的优越性。

2001年,ISO的MPEG组织认识到H.26L潜在的优势,随后ISO与ITU开始组建包括来自ISO/IEC MPEG与ITU-T VCEG的联合视频组(JVT),JVT的主要任务就是将H.26L草案发展为一个国际性标准。于是,在ISO/IEC中该标准命名为AVC(Advanced Video Coding),作为MPEG-4标准的第10个选项;在ITU-T中正式命名为H.264标准。

D.H.265/HEVC建议

H.265视频解码器,又称高效视频编码(HEVC,High Efficiency Video Coding),是JCT-VC(The Joint Collaborative Team on Video Coding)正在设计的最新视频编码算法,以取代目前用于高清和全高清(1920×1080)视频编解码的H.264标准。通过运动图像专家组(MPEG,Motion Picture Experts Group)和ITU-T的协作努力,H.265在2013年1月最终确定。据H.265的发言人说,新的视频标准在数据传输和码流效率上较之前的编码算法,将提高67%。针对网络传输流媒体的分辨率越来越大,对于带宽要求也越来越高的情况,H.265可提供类似质量下更小的码率。

(4)AVS视频编码标准

AVS视频编码标准采用传统的基于预测变换的编码框架,可以分为预测、变换、熵编码和环路滤波4个主要模块。

预测编码利用信号间的相关性,用前面一个或多个信号作为当前信号的预测值,对当前信号的实际值与预测值的差进行编码。预测技术在视频编码中有着重要的应用,在现代视频编码技术中包括帧内预测和帧间预测两种,分别用于消除空域冗余及时域冗余。在AVS基准类中,由于主要面向高清分辨率视频编码,帧内预测及变换块大小都是基于8×8块的,其中亮度有5种预测模式,色度有4种预测模式,这里的预测与H.264/AVC中的预测方法相比,其区别主要体现在对相邻像素的选取以及对相邻像素所采用的滤波器上。但在AVS移动类中,由于需要考虑低分辨率视频的高效编码,除了8×8块的帧内预测,还增加了基于4×4块的帧内预测及变换编码。在AVS2中,帧内预测通过增加更多的预测方向,编码性能得到进一步提升。帧间预测中,AVS1中的B帧还采用了一种新型的对称预测模式,通过前向运动矢量可以导出后向运动矢量,从而可以只编码前向运动矢量而进行双向预测,而且对B帧中的直接模式编码,采用了时域/空域直接预测模式相结合的方式,并在直接模式的运动矢量导出过程中进行舍入控制。AVS2在帧间预测编码方面进行了大量研究,采用了四叉树划分、层次参考帧预测、多假设预测等编码工具,显著提高了码性能。

变换将空域信号变换到频域信号,有效地去除了信号的相关性,并使大部分能量集中到低频区域是图像或视频最有效的编码技术之一。根据变换的这一特点,有选择地编码部分显著的频域信号,丢弃不显著的频域信号,可以达到提高压缩效率的目的。在第1代视频编码标准如MPEG-1、MPEG-2等都是采用DCT变换。从H.264/AVC开始,整数变换替换了传统的浮点变换。与浮点DCT相比,整数变换具有计算复杂度低和编解码完全匹配等优点;同时,量化/反量化与变换/逆变换的归一化相结合,可以通过乘法和移位来实现量化,降低了量化/反量化的计算复杂度。AVS也采用了整数变换,特别是在AVS2中采用了两层变换结构设计,进一步提升了变换编码的性能。

熵编码的目标是去除信源符号在信息表达上的表示冗余,也称为信息熵冗余或者编码冗余。视频编码常用的熵编码方法有两种:变长编码和算术编码。AVS1中有两种熵编码方案,即基于上下文的二维变长编码算法(Contest-based 2D Variable Length Coding,C2DVLC)和基于上下文的二元算术编码(Contest-based Binary Arithmetic Coding,CBAC)。AVS基准类只支持C2DVLC,而在AVS的加强类中使用新的上下文自适应算术编码,称为CBAC,这两种熵编码的复杂度都比与H.264/AVC对应的熵编码方法低。AVS2中采用了算术编码,但在算术编码引擎、上下文选择等方面进行了优化,更适宜并行解码实现。

环路滤波因其处于编码环内而得名,即重建图像经过滤波后被用作参考图像以编码将来的图像,它能够在达到改进视觉质量的同时提高编码效率H.264/AVC基准类中的环路滤波以宏块为单位,在每个4×4块边界进行水平和垂直两个方向上的滤波处理。对于亮度块,该16×16块又分为16个4×4的块,环路滤波需要对该块中4条垂直边界和4条水平边界进行滤波。在AVS1中,去块效应滤波也是以宏块为单位,但是只在8×8块边界进行滤波处理。相比于AVS1、AVS2的环路滤波技术进一步增强。除了去块效应滤波,还增添了样本偏移补偿滤波(Sample Adaptive Offset,SAO)、样本滤波补偿(Adaptive Loop Filter,ALF)等,能够进一步提高主客观编码质量。

随着HEVC/H.265、AVS2新一代标准的制定完成,新一轮技术储备已经悄然开始,高效的视频编码技术依然有着巨大的应用需要,特别是针对监控视频、云图像/视频研究新型高效的压缩方法,不再仅仅是基于数字信号处理的方法进行编码,而是与视觉模型、内容理解等相结合,对于智能监控、视频搜索等具有十分重要的意义。

(5)其他图像压缩标准

A.DV压缩格式

DV最初明确的定义是DVC(Digital Video Cassette),就是我们用的DV带。DV中的视频采样频率和D1、D5以及Digital Betacam是一样的,即625条扫描线、每条扫描线720个点(PAL制式)——但是,色彩信号的采样率只有其一半,也就是4∶2∶0(PAL制式,N制是4∶1∶1,D1等为4∶2∶2),视频信号采样后,使用DCT压缩算法进行5∶1的压缩,DCT和motion-JPEG所用的是一类算法,所不同的是,DV的DCT在帧内允许更多的优化(量化表),这样,在同样为5∶1的压缩率下,DV的画面质量要比JPEG高一些。

B.M-JPEG压缩格式

M-JPEG源于JPEG压缩技术,是一种简单的帧内JPEG压缩,压缩图像质量较好,在画面变动情况下无马赛克,但是由于这种压缩本身技术限制,无法做到大比例压缩,录像时每小时约1-2GB空间,网络传输时需要2M带宽,所以无论录像或网络发送传输,都将耗费大量的硬盘容量和带宽,不适合长时间连续录像的需求,不大实用于视频图像的网络传输。

3.声音压缩编码的标准

目前已有多种数字音频标准,但是在数字电视广播中主要有两大类,即MPEG音频编码标准和Dolby AC-3音频编码标准。

(1)MPEG音频压缩编码标准

A.MPEG-1音频标准

MPEG-1(ISO/IEC11172)标准的第三部分(ISO/IEC 11172-3),称为MPEG-1Audio。

在MPEG-1中,对音频压缩规定了三种模式,即层Ⅰ、层Ⅱ(即MUSICAM,又称MP2)、层Ⅲ(又称MP3)。每个层次针对不同的应用,但是三个层的基本模型是相同的。由于在制订标准时对许多压缩技术进行了认真的考察,并充分考虑了实际应用条件和算法的可实现性(复杂度),因而三种模式都得到了广泛的应用。VCD中使用的音频压缩方案就是MPEG-1层I;而MUSICAM由于其适当的复杂程度和优秀的声音质量,在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用;MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术,在当时的技术条件下,MP3的复杂度显得相对较高,编码不利于实时,但由于MP3在低码率条件下高水准的声音质量,使得它成为软解压及网络广播的宠儿。可以说,MPEG-1音频标准的制定方式决定了它的成功,这一思路甚至也影响到MPEG-2和MPEG-4音频标准的制定。

B.MPEG-2音频标准

MPEG-2定义了两种声音数据压缩格式:一种称为MPEG-2 Audio,或者称为MPEG-2多通道(Multichannel)声音,它是与MPEG-1Audio兼容的格式。另一种称为MPEG-2 AAC(Advanced Audio Coding),它是与MPEG-1Audio不兼容的格式。

(2)杜比AC-3数字音频编码技术

随着技术的不断进步和生活水平的不断提高,原有的立体声形式已不能满足受众对声音节目的欣赏要求,具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。

Dolby AC-3技术是由美国杜比实验室主要针对环绕声开发的一种音频压缩技术。在5.1声道的条件下,可将码率压缩至384kbps,压缩比约为10∶1。Dolby AC-3最初是针对影院系统开发的,但目前已成为应用最为广泛的环绕声压缩技术之一。

AC-3是杜比公司几十年来在声音降噪及编码技术方面的结晶,它在影院系统、HDTV、消费类电子产品(如LD、DVD)及直播卫星等方面获得了广泛的应用,得到了众多厂商的支持,成为业界事实上的标准。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈