首页 理论教育 汉字编码详解-大学计算机基础 

汉字编码详解-大学计算机基础 

时间:2023-11-19 理论教育 版权反馈
【摘要】:国标码1980年我国颁布了《信息交换用汉字编码字符集·基本集》代号为,是国家规定的用于汉字信息处理使用的代码依据,这种编码称为国标码。区位码输入汉字的优点是无重码,而且输入码与内部编码的转换方便。

汉字编码详解-大学计算机基础 

汉字也是字符,与西文字符比较,汉字数量大,字形复杂,同音字多,这就给汉字在计算机内部的存储、传输、交换、输入、输出等带来了一系列的问题。为了能直接使用西文标准键盘输入汉字,必须为汉字设计相应的编码,以适应计算机处理汉字的需要。

(1)国标码

1980年我国颁布了《信息交换用汉字编码字符集·基本集》代号为(GB2312—80),是国家规定的用于汉字信息处理使用的代码依据,这种编码称为国标码。在国标码的字符集中共收录了6763个常用汉字和682个非汉字字符(图形、符号),其中一级汉字3755个,以汉语拼音为序排列,二级汉字3008个,以偏旁部首进行排列。

国标GB2312—80规定,所有的国标汉字与符号组成一个94×94的矩阵,在此方阵中,每一行称为一个“区”(区号为01~94),每一列称为一个“位”(位号为01~94),该方阵实际组成了一个94个区,每个区内有94个位的汉字字符集,每一个汉字或符号在码表中都有一个唯一的位置编码,叫该字符的区位码。

使用区位码方法输入汉字时,必须先在表中查找汉字并找出对应的代码,才能输入。区位码输入汉字的优点是无重码,而且输入码与内部编码的转换方便。

(2)机内码(www.xing528.com)

汉字的机内码是计算机系统内部对汉字进行存储、处理、传输统一使用的代码,又称为汉字内码。由于汉字数量多,一般用2个字节来存放汉字的内码。在计算机内汉字字符必须与英文字符区别开,以免造成混乱。英文字符的机内码是用一个字节来存放ASCII码,一个ASCII

码占一个字节的低7位,最高位为“0”,为了区分,汉字机内码中两个字节的最高位均置“1”。例如,汉字“中”的国标码为5650H(0101011001010000)2,机内码为D6D0H(1101011011010000)2

(3)汉字的字形码

每一个汉字的字形都必须预先存放在计算机内,例如GB2312国标汉字字符集的所有字符的形状描述信息集合在一起,称为字形信息库,简称字库。通常分为点阵字库和矢量字库。目前汉字字形的产生方式大多是用点阵方式形成汉字,即是用点阵表示的汉字字形代码。根据汉字输出精度的要求,有不同密度点阵。汉字字形点阵有16×16点阵、24×24点阵、32×32点阵等。汉字字形点阵中每个点的信息用一位二进制码来表示,“1”表示对应位置处是黑点,“0”表示对应位置处是空白。字形点阵的信息量很大,所占存储空间也很大,例如,16×16点阵,每个汉字就要占32个字节(16×16÷8=32);24×24点阵的字形码需要用72字节(24×24÷8=72),因此字形点阵只能用来构成“字库”,而不能用来替代机内码用于机内存储。字库中存储了每个汉字的字形点阵代码,不同的字体(如宋体、仿宋、楷体、黑体等)对应着不同的字库。在输出汉字时,计算机要先到字库中去找到它的字形描述信息,然后再把字形送去输出。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈