字符的编码包括(字母、数字、各种符号)和中文符号。由于计算机是以二进制的形式储存和处理数据,因此字符也必须按特定的规则进行二进制编码才能进入计算机。字符编码的方法很简单,首先确定需要编码的字符总数,然后将每一个字符按顺序确定顺序编码,编号值的大小无意义,仅作为识别与使用这些字符的依据。字符形式的多少涉及编码的位数。对西文与中文字符,由于形式的不同,使用不同的编码。
1.西文字符的编码
计算机中常用的字符编码有EBCDIC码和ASCII码。IBM系列大型机采用EBCDIC码,微型机采用ASCII码是美国标准信息交换码,被国际化组织指定为国际标准。它有7位码和8位码两种版。国际的7位ASCII码是用7位二进制数表示一个字符的编码,其编码范围从0 000 000B-1 111 111B,共有7~128个不同的编码值,相应可以表示128个不同的编码。
2.汉字的编码
(1)汉字信息的交换码。汉字信息交换码简称交换码,也称为国标码。规定了7 445个字符编码,其中有682个非汉字图形符和6 763个汉字的代码。有一级常用字3 755个,二级常用字3 008个。两个字节存储一个国标码。国标码的编码范围121H-7E7EH。区位码和国标码之间的转换方法是将一个汉字的十进制区号和十进制位号分别转换成十六进制数,然后再分别加上20H,就成为此汉字的国标码,即
汉字国标码=区号(十六进制数)+20H位号(十六进制数)+20H
而得到汉字的国标码之后,就可以使用以下公式计算汉字的机内码为
汉字机内码=汉字国标码+8 080 H(www.xing528.com)
(2)汉字内码。汉字内码是在计算机内部对汉字进行存储、处理的汉字代码。它应能满足存储、处理和传输的要求。一个汉字输入计算机后就转换为内码。内码需要两个字节存储,每个字节以最高位置“1”作为、内码的标识。
(3)汉字字型码。汉字字型码也称为字模或汉字输出码。在计算机中,8个二进制位组成一个字节,它是度量空间的基本单可见一个16×16点阵的字型码需要16×16/8=32字节存储空间。汉字字型通常分为通用型和精密型两类。
(4)汉字地址码。汉字地址码是指汉字库中存储汉字字型信息的逻辑地址码。它与汉字内码有着简单的对应关系,以简化内码到地址码的转换。
(5)各种汉字代码之间的关系。汉字的输入、处理和输出的过程,实际上是汉字的各种代码之间的转换过程,如图1-3表示了这些汉字代码在汉字信息处理系统中的位置及它们之间的关系。
图1-3 各种汉字代码之间的关系
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。