文件传真是指一般文件、图纸、手写稿、表格、报纸等文件的传真,这种信源是黑白二值的,也即信源为二元信源(r=2)。为测定这种信源的概率分布,CCITT[1]从大量的国际文件传真资料中精选出了8种试验用的标准文件样本,如图4.8所示。其样张的选取是根据传送的内容、形式、字号以及文字的疏密等条件确定的。
图4.8 CCITT推荐的8种标准文件样本
a)打字的商业信函(英文) b)电路图(手绘) c)印刷和打字的发票(法文) d)密集打字报告(法文) e)包括插图与公式的科技论文(法文) f)带有印刷解说词的图(法文) g)密集文件(日文假名) h)具有很大黑白字母的手写备忘录(英文)
数字文件传真是将一页文件分成n×m个像素。文件传真只有两个灰度值,即像素点只能是白色或者黑色。若每一个像素采用一位二元码(0表示“白”,1表示“黑”)来描述,则一页文件的码元数就是该页的二值图像的像素数,这种编码称为直接编码。
通常,将单位长度(1mm)所包含的像素数称为分辨率。显然,分辨率越高,文件细节越清晰,文件质量也就越高,其表示一页文件的数据量也就越多。例如,一页A4幅面文件(210mm×297mm),分辨率为5样点/mm。直接编码时需要传送210×297×52≈1.56Mbit,用2.4kbit/s码率传送约需11min。
CCITT对选用的8种标准文件样本建议使用以下两种分辨率:
1)1728像素/行(8样点/mm),3.85行/mm。
2)1728像素/行(8样点/mm),7.7行/mm。
即水平分辨率8样点/mm;垂直分辨率为两种,3.85行/mm或7.7行/mm。由于直接表达数字传真文件的数据量非常大,因此从节省传送时间和存储空间来说,必须进行数据压缩。
MH编码是一维编码方案,即对一行一行的数据进行编码。它将游程编码和Huffman码相结合,是一种标准的改进Huffman码。
CCITT的T.4推荐MH编码为文件传真三类机(G3)一维压缩编码的国际标准,1980年正式确定,并于1984年修改通过。实际的MH编码过程只是查表,可以实时处理。MH编码的平均编码效率可达86.9%,差错灵敏度低,容易扩展且基本适合中文文件传真。
对CCITT推荐的8幅样张统计,计算出黑、白两种游程长度的出现概率,然后根据这些概率分布,分别得出黑、白游程长度的Huffman码表,见表4.10和表4.11。由于规定每行标准像素为1728个,又根据统计结果可知,黑、白游程长度在0~63的情况居多,因此MH码的码字分为终端码(或结尾码)和组合码(或形成码)两种。
表4.10 MH码表(1),终端码(结尾码)
表4.11 MH码表(2),组合基干码
MH码的编码规则如下:
1)游程长度在0~63时,码字直接用相应的终端码(结尾码)表示。例如,一行中连续19个白,接着连续30个黑,即白游程长度为19,接着黑游程长度为30。查表得码字为(www.xing528.com)
0001100,000001101000
表4.12MH码表(3),供加大纸宽用的组合基干码(1792~2560,黑、白相同)
2)游程长度在64~1728时,用“组合码+终端码”表示相应码字。例如,白游程长度为65(=64+1),用白游程长度为64的组合码字加上白游程长度为1的终端码字组成相应的码字,查表得码字为
11011,000111若黑游程长度为855=832+23=64×13+23,故查表得码字为
0000001001101,00000101000
3)规定每行从白游程开始。若实际出现黑游程开始,则在行首加上零长度白游程码字。每行结束用一个结束码(EOL)。
4)每页文件开始第一个数据前加一个结束码。每页尾连续使用6个结束码表示结尾。
5)每行恢复成1728个像素,否则有错。因为Huffman码是即时码,所以可以将接收到的二元序列查表译得原二元序列。
6)为了传输时实现同步操作,规定T为每编码行的最小传输时间。一般规定T最小为20ms,最大5s。若编码行传输时间小于T,则在结束码之前填以足够的0码元(称为填充码)。
总的传送数据格式如图4.9所示。如果用于存储,则可以省去4)~6)。
图4.9 传真信息传输格式
【例4.19】
某页传真文件中某一扫描行的像素点为16白、6黑、57白、8黑、1641白。该扫描行MH码为
原一行为1728像素,需1728位二元码元。现MH码则只需用53位二元码元。可见,这一行数据压缩比为1728∶53=32.6,压缩效率很高。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。