首页 理论教育 计算机数据和编码简介

计算机数据和编码简介

时间:2023-10-19 理论教育 版权反馈
【摘要】:简而言之,一切可以被计算机加工、处理的对象都可以被称为数据。字节是计算机中用来表示存储空间大小的基本容量单位。在计算机中作为一个整体被存取、传送、处理的二进制数字串叫做一个字或单元,每个字中二进制位数的长度,称为字长。

计算机数据和编码简介

1.数据和数据的单位

数据(data)是表征客观事物的、可以被记录的、能够被识别的各种符号,包括字符、符号、表格、声音和图形、图像等。简而言之,一切可以被计算机加工、处理的对象都可以被称为数据。数据可在物理介质上记录或传输,并通过外围设备被计算机接收,经过处理而得到结果。计算机中数据的常用单位有位、字节和字。

(1)位(Bit)。计算机中最小的数据单位是进制的一个数位,简称为位(英文名称为bit,读音为比特),计算机中最直接、最基本的操作就是对二进制位的操作。

(2)字节(Byte)。

字节简字为B,为了表示数据中的所有字符(字母、数字以及各种专用符号,大约有128~256个),需要7位或8位二进制数。因此,人们采用8位为1个字节。1个字节由8个二进制数位组成。字节是计算机中用来表示存储空间大小的基本容量单位。

1B=8bit

1KB=1024B=210B 1KB=1024字节,“K”的意思是“千”

1MB=1024KB=210KB=220B=1024×1024B 1MB=1024KB字节,“M”读“兆”。

1GB=1024MB=210MB=230B=1024×1024KB 1GB=1024MB字节,“G”读“吉”。

1TB=1024GB=210GB=240B=1024×1024MB 1TB=1024GB字节,“T”读“太”。

注意位与字节区别:位是计算机中最小数据单位,字节是计算机中基本信息单位。

(3)字(Word)。在计算机中作为一个整体被存取、传送、处理的二进制数字串叫做一个字或单元,每个字中二进制位数的长度,称为字长。一个字由若干个字节组成,不同的计算机系统的字长是不同的,常见的有8位、16位、32位、64位等,字长越长,计算机一次处理的信息位就越多,精度就越高,字长是计算机性能的一个重要指标。目前主流微机的字长都是32位。

2.计算机中的常用编码

计算机中只能识别二进制数码信息,因此一切非二进制数码的信息,如数字、字母、汉字等都要用二进制数的特定编码表示。为了便于交换和处理,必须采用统一的编码方法。常用的数据编码有BCD码、ASCII码、汉字编码等。

(1)数字编码。用四位二进制数来直接表示一位十进制数,这种表示方法称为二—十进制编码或BCD(Binary Coded Decimal)编码。因四位二进制编码自左向右每一位对应的权为8、4、2、1,所以这种编码也称为8421BCD码。

如:十进制数1998.12的8421BCD码可写为0001 1001 1001 1000.0001 0010;而BCD码1001 1000 0001 0010.0010 1000对应的十进制数为9812.28。

(2)字符编码。文字信息和控制信息是用各种字符来表示的,而这些字符必须按一定规则用二进制编码表示计算机才能识别。通常使用的字符编码有ASCII码、EBCDIC和Unicode等。

1)ASCII码。ASCII码是由美国国家标准委员会制定的一种包括数字、字母、通用符号、控制符号在内的字符编码集,全称叫美国国家信息交换标准代码(American Standard Code for Information Interchange)。ASCII码是一种7位二进制编码,能表示128种国际上最通用的西文字符,其中包括数字(0~9)、英文大、小写字母、一些在算式中常用的符号以及控制字符,每个字符用一个字节表示,最高位为0。由7位编码构成的ASCII码基本字符集能表示的字符只有128个,不能满足信息处理的需要,于是对ASC II码字符集进行扩充,采用8位二进制数编码,编码范围为00000000~11111111,一共可表示256种字符和图形符号,成为扩充的ASCII码字符集,但通常使用的是基本ASCII码字符集,如表1-5所示。

表1-5 基本ASCII码字符集

a)数字“0”~“9”:对应的ASCII码值为0110000B~0111001B,习惯上用十六进制数表示为30H~39H。

b)字母:包括26个大、小写的英文字母。字母“A”~“Z”的ASCII码值为41H~5AH,字母“a”~“z”的ASCII码值为61H~7AH。

c)通用字符:如“+”、“-”、“;”、“,’、“/”和“,”等共32个。(www.xing528.com)

d)控制符号:包括空格SP(20H)、回车CR(0DH)、换行LF(0AH)等共有34个。

ASCII码是一种7位编码,存放时必须占一个字节b7b6b5b4b3b2b1b0,其中b7一般恒置为0,其余7位便是ASCII码值。

ASCII码值大小规律是:小写字母大于大写字母、字母大于数字、所有的字符都大于空格、空格大于所有的控制符(控制符“DEL”除外)。

2)EBCDIC编码。即扩展二一十进制交换码(Extended Binary-Coded Decimal Interchange Code)。主要用在IBM公司的计算机中,采用8位二进制表示,有256个编码状态。

3)Unicode编码。EBCDIC码和ASCII码所表示的字符,对于英语和西欧地区语言已经够用了,但对于中国等亚洲国家所用文字的表示则远远不够,于是就出现了Unicode码。Unicode是一种16位的编码,能够表示65000个字符或符号。而目前世界上的各种语言一般都只用到34000多个符号,所以Unicode可以用于大多数的语言。

Unicode与ASCII码完全兼容。可在Windows NT、OS/2、Office等软件中使用。

(3)汉字编码。

1)国标码。国标码是由国家标准总局制定的“中华人民共和国国家标准信息交换汉字编码”,代号为“GB 2312—80”,采用两个字节对汉字进行编码。编码集规定了计算机使用的汉字和图形符号总数为7445个,其中汉字总数6763个,按照常用汉字的使用频度分为一级汉字3755个,二级汉字3008个,图形符号682个。

在GB 2312—80中,将全部国标汉字及符号组成一个94×94的矩阵。在此方阵中,每一行称为一个“区”,每一列称为一个“位”,这样就组成了一个有94个区(01~94),每个区有94个位(01~94)的汉字字符集。将区号和位号组合在一起就形成了“区位码”,区位码可以唯一确定某一个汉字或符号,反之也一样。

国标码与区位码之间有如下关系(H表示该数是十六进制数):

国标码前两位=区码+20H,国标码后两位=位码+20H

2)机内码。计算机内部,汉字作为字符(不涉及字形)进行存储、加工等处理时所用编码称为汉字机内码,简称机内码或内码。

目前使用的汉字机内码是国标码的变形,即把国标码的两字节表示中的每个字节的最高位改为1,即得到机内码。即:

机内码=国标码+8080H

机内码的第一字节=区码+AOH,机内码的第二字节=位码+AOH。

例如:汉字“啊”的区位码是1601,它的国标码是3021H,机内码是BOA1H。

汉字机内码每个字节的最高位均是1,而西文字符机内码(ASCII)的最高位是0,因此,可从机内码区分西文字符和汉字。汉字系统的整字识别功能就利用了机内码的这一特点。

3)汉字字形码。汉字字形码即汉字字形的编码,亦称字模。存放字模的数据文件叫汉字字库,简称字库。通常采用点阵、矢量和曲线逼近等描述方法。

目前,我国已颁布了16×16、24×24、32×32和48×48点阵的字模标准。汉字显示一般用16×16的点阵,而24×24以上的点阵一般用于打印。

4)汉字输入码。汉字输入是依靠键盘来实现。现行的汉字输入方案众多,每种方案对同一汉字的输入编码固然并不相同,但经转换后存入计算机内的机内码均相同。

常用拼音输入法有:全拼、智能ABC、微软拼音、中文之星的智能狂拼输入法等。全拼拼音输入法以输入“字”为主,智能ABC输入法以输入“词组”见长,微软拼音输入法和智能狂拼输入法以输入“句子”和大段文章为其优点。五笔字形输入法是最具影响的字形码输入法。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈