文本是以文字和各种专用符号表达的信息形式,是组成多媒体信息的基本元素之一。是现实生活中使用最多的一种信息存储和传递方式,也是计算机中信息交流的主要方式之一。文本具有易处理、占用空间少和便于存储等特点。
1.文本信息在计算机中的表示
计算机中的所有信息都是以二进制方式处理的。文本信息也是以二进制编码形式表示的。在计算机系统中,西文字符和汉字的编码方式有所不同。
(1)西文编码。目前计算机中使用最广泛的字符编码是ASCII码,即美国标准信息交换码(American Standard Code for Information Interchange)。
标准ASCII码使用7位二进制数(8个二进制位,最高位为0)组合来表示128种字符,包括32个通用控制字符、10个数字字符、52个英文大小写字母和34个专用符号。
(2)汉字编码。计算机中汉字的表示也是用二进制编码,但汉字进入计算机面临数量庞大、字形复杂、存在一音多字和一字多音的现象等难点。因此必须为汉字设计相应的编码,以适应计算机处理汉字的需要。
为了使每个汉字有一个全国统一的代码,1980年,我国颁布了汉字编码的国家标准《信息交换用汉字编码字符集》(GB2312—80),这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准,国标码是汉字信息交换的标准编码。国标码由连续的两个字节组成。在国标码字符集中共收录6763个常用汉字和682个数字和图形符号。其中,一级汉字3755个,按拼音顺序排列;二级汉字3008个,按部首排列。
汉字输入码是使用英文键盘输入汉字时的编码。目前,我国已推出的输入码有数百种,但用户使用较多的约为十几种。常用的有各种拼音输入法。
汉字机内码是计算机内部存储、处理加工和传输汉字时所使用的二进制编码。为了避免ASCII码和国标码同时使用时产生二义性问题,大部分汉字系统都采用将国标码每个字节最高位置1作为汉字机内码。这样既解决了汉字机内码与西文机内码之间的二义性问题,又使汉字机内码与国标码具有极其简单的对应关系。
(3)Unicode编码。Unicode(统一码、万国码、单一码)于1990年开始研发,1994年正式公布,是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
2.获取文本信息
文本信息的获取主要是指利用不同的设备和输入途径,快速准确地输入文本信息的方法。随着多媒体技术的发展,文本信息的输入从键盘输入扩展到手写输入、语音输入和OCR识别输入等多种文本信息输入方法。
(1)键盘输入。是传统的文本输入方法,是随时可用的主要输入方法。通过键盘,可直接输入英文信息,而中文信息则需要通过不同的中文输入法来完成。
(2)手写输入。是近年来比较成熟的人性化中英文输入法,适合于不习惯键盘操作的人群和没有标准英文键盘的场合。传统的手写输入系统由手写笔、手写板和手写识别软件三部分组成,使用时只要将手写板与电脑主机正确连接,并安装识别软件,即可像在纸上写字一样向电脑输入信息。(www.xing528.com)
现在很多输入法都配备有手写输入方式,通过单击“手写输入”框可以选择手写输入的方式来输入文本,这样计算机不需要配备专用的手写输入系统也可以输入文本。
常用的手机产品和一些笔记本电脑都可以通过触摸屏手写输入文本。
(3)语音输入。是通过计算机系统中的音频处理系统(主要包括声卡和麦克风),采集人的语音信息,再经过语音识别处理,将语音内容转换为对应的文字来完成输入的。利用语音识别技术将声音通过计算机转换为文本,是最方便、自然、快捷的文本输入方式。语音输入的最大特点是只要会说话,就能把信息输入到电脑中,但在具体使用之前,需要进行短时间的语音适应性训练。
现在很多输入法都配备有语音输入方式,通过单击“语音输入”框可以选择语音输入的方式输入文本。
(4)扫描输入。扫描输入的核心是光学字符识别技术(Optical Character Recognition,OCR),该技术能够从扫描的图像中识别出文字。用扫描方式将印刷文字以图像的方式扫描到计算机系统中,再用OCR文字识别软件将图像中的文字识别出来,并转换为文本格式的文件,完成文本信息的输入。
扫描输入适用于将印刷文字重新输入到计算机中。这种输入方式能够在短时间内输入大量信息,常应用于档案、资料管理和多媒体应用系统的文本输入。
3.处理文本信息
文本类型可分为无格式文本和有格式文本。
无格式的文本只存储文字信息本身,文字以固定的大小和风格输出,因而也称为纯文本,通常保存为“.txt”类型的文件。一般使用简单的文本编辑软件即可进行编辑,如Windows的“记事本”程序,保存后的文本文件是无格式文本文件,不带任何格式。
格式文本不仅包含文字的基本信息,还包括文字的字号、颜色、字体以及其他用于规定输出格式的排版(如表格、分栏等)信息。编辑这类文件,可设置文本的字体、字号、颜色、字形、字间距、行间距和段间距等。格式文本要用功能较强的文字处理软件来编辑。使用这些软件,用户可以定义和编辑文本的格式和版面信息,如定义文本中颜色、字体、字号等文本格式,定义页边距、行距、表格、分栏等版面格式,以及定义图片、公式等格式。格式文本是计算机文字处理的重要内容之一。
WPS Office是由金山软件股份有限公司自主研发的一款办公软件套装,可以实现办公软件最常用的文字、表格、演示,以及PDF阅读等多种功能。
Microsoft Word文字处理软件是微软公司开发的用于文字处理的软件。
Adobe Acrobat是由Adobe公司开发的一款PDF(Portable Document Format,便携式文档格式)编辑软件。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。