首页 理论教育 知识捕获层技术:OCR技术的应用

知识捕获层技术:OCR技术的应用

更新时间:2025-01-13 工作计划 版权反馈
【摘要】:知识捕获是数字图书馆建设的内容基础,具体内容包括馆藏文献资源的数字化、网络数字资源的采集、馆员和读者隐性知识的捕获以及数字知识资源的描述等。知识捕获层技术的主要功能是完成知识资源的采集和编码转换。OCR技术是通过扫描仪或数码相机等光学输入设备获取将纸张、胶卷胶片上的文字图片资料转化为图像信息,再利用文字识别技术将图像信息转化为可编辑的文本文件的过程。目前,汉字的识别主要依赖于影像的统计特征和结构特征。

知识捕获是数字图书馆建设的内容基础,具体内容包括馆藏文献资源的数字化、网络数字资源的采集、馆员和读者隐性知识的捕获以及数字知识资源的描述等。知识捕获层技术的主要功能是完成知识资源的采集和编码转换。

(一)数字资源的采集设备和方法

数字图书馆知识资源的来源多样,既包括显性知识和隐性知识,也包括原始数字文献和纸质文献、胶卷、胶片以及光盘磁带里的音频、视频、资料等非数字文献。因此,对这些文献资源的数字化和规范化就成了数字图书馆资源建设的基本内容。对于原始非数字文献,需通过数字化,将其转换成数字形态。对于原始数字文献,也要根据数字图书馆资源建设的标准和要求,转换其内容编码、数据格式,并进行规范化的标识工作。

数字资源的采集设备主要包括扫描仪、数码相机、传真机、数码摄像机、声卡、视频卡等。

数字档案的采集过程如下:

1.数字对象的创建:通过扫描仪或照相机获取纸质文献和胶卷胶片的数字图像,通过数码摄像机、声卡和视频卡获取音频视频资源。

2.对数字对象二次加工:按照系统要求对图像进行分割、去污、纠偏等细节处理,通过OCR进行文本提取,通过音频视频卡及配套软件对音频、视频资料进行编辑。

3.对二次加工后的数字对象进行标识、编目和分类:对数字对象进行元数据描述,按照系统知识组织体系进行分类,并编制目录。

(二)光学字符识别(OCR)技术

OCR是英文Optical Character Recognition的缩写,意思为光学字符识别。该技术出现于20世纪50年代中期。OCR技术是通过扫描仪或数码相机等光学输入设备获取将纸张、胶卷胶片上的文字图片资料转化为图像信息,再利用文字识别技术将图像信息转化为可编辑的文本文件的过程。即对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。OCR是计算机输入技术的一种,它的出现彻底改变了计算机纸介质资料传统的输入方式,实现了文字自动输入。只要用扫描仪将文本图像输入计算机,就可转化为可修改的文本文件,这比手工输入速度快了几十倍。因此,它是一种快捷、省力、高效的文字输入方法。

OCR系统的核心工作是把影像作一个转换,使储存在计算机内的图像文件转化为可编辑的文本文件。具体说来,OCR系统的工作流程主要包括以下步骤:[3]

1.影像输入

影像输入是指通过影像扫描仪、传真机或其他摄影器材等光学仪器,将需要经OCR处理的影像输入到计算机中的过程。

2.影像前处理

影像前处理是将输入到计算机中的二值化、灰阶或彩色的影像,去除噪声,进行影像矫正和影像正规化,并进行图文分析以及文字行与字分离的文件前处理的过程。

3.文字特征抽取

选择何种特征进行识别,直接影响到文字识别的效率。因此,文字特征的抽取可以说是OCR技术的核心,OCR早期的研究也主要是文字特征抽取方面的研究。目前,汉字的识别主要依赖于影像的统计特征和结构特征。基于影像统计特征的文字识别,主要通过统计文字区域内的黑白点数,计算其比值来实现,该方法适宜识别有噪声的文字。基于结构特征的文字识别主要通过将文字影像细线化,以汉字的笔画端点、交叉点之数量及位置或笔画段为特征,进行识别,如市面上手写输入法就是基于结构特征的识别方法。在实际应用中,统计特征和结构特征通常被有机结合起来使用。

4.比对识别

根据抽取出的影像文字特征,与系统的特征数据库进行比对识别。常用的比对方法有松弛比对法、欧式空间比对法、动态程序比对法等。

5.字词后处理

比对识别的结果有多种可能,字词后处理就是根据识别文字的前、后文字,从候选字群的多个可能文字中,选择出最合乎逻辑的字,提高文字识别的准确性。

6.人工校正

人工校正是OCR的最后关卡,也是OCR的重要辅助。人工校正的工作内容主要包括:对照文字影像检查校正OCR识别出来的文字,确定待识别文字的候选字,标示出文字识别后仍可能有问题的字词等。(www.xing528.com)

7.结果输出。根据使用者的不同需求,输出影像识别后的不同文献格式,如有人只需要影像中的文字部分,有人只需要影像中的图像和表格,有人则需要和原文一模一样的文件等。

衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性、产品的稳定性、易用性及可行性等。

(三)标记语言

标记语言是为提高数字文献组织、检索、存储、显示和使用效率,对文献内容和结构进行标记,实现对各类文献的标准化描述。数字信息系统一般采用标记语言对数字对象文件进行描述。SGML、HTML和XML是数字图书馆建设中常见的三种标记语言。

1.SGML标记语言

SGML(Standard Generalized Markup Language,标准通用标记语言)是1986年ISO制定的国际标准(IS08879:1986),专门用于描述电子文档资料的结构和内容,实现电子文档的交换和共享,是一种典型的通用标记语言。其他电子文档标记语言都起源于SGML。

SGML认为普通的电子文档是由结构、内容和样式三部分构成的,并且所有电子文档的内容和样式是可以分开的。因此,一个典型的SGML文档一般由SGML声明、文档类型定义(DTD)和SGML文档实例三部分组成。其中,SGML声明主要定义了SGML文档使用的语言集、参考语法规则和SGML可选特性等;DTD主要定义电子文档的各个元素及其相互关系;SGML文档实例主要负责文档内容的具体描述,由文档的元素及元素的值按DTD定义的结构组织而成。

SGML独立于平台和系统,其文件的内容和结构也可重复利用,还可以描述任何类型的文档结构,具有极好的可扩展性,但是SGML的功能和选项太过于复杂,开发成本高,因此没能被广泛地推广。

2.HTML标记语言

HTML(Hyper Text Markup Language,超文本标记语目)是W3C协会专门为WWW网页的显示和浏览而设计的,基于SGML语法的简易标记语言,是目前WWW上网页开发的标准语言格式。HTML文档可以在不同的操作平台间传送。

HTML是通过标签(Tag)来描述网页的,一个正常的HTML文档包含HTML标签和纯文本两大部分。HTML标签由“<”和包含的关键词组成,如<html>。HTML标签一般都以开始标签和闭合标签的形式成对出现,如<b>和</b>。许多HTML标签还含有专门的属性群,通过设定这些属性值,可以让开始标签和闭合标签之间的文字有不同的显示属性。

在超文本文档中,可以嵌入文本、图像、表格、声音、视频等多种媒体,并可以通过链接实现对各种多媒体文件和其他网页内容的访问。然而,HTML将文档的内容与格式结合在了一起,并且HTML是一个发展中的标记语言,每次修订都会给网站的维护增加许多额外的工作量。

3.XML标记语言

由于SGML在Web数据描述和价格方面的缺点,W3C等机构开发了XML(Extensible Markup Language,可扩展标记语言),它与HTML一样,都是SGML的简化版本。目前,XML已逐渐成为全球网络数字化环境中各种信息、信息集合和信息工具进行定义、组织、处理和交换活动的核心。

XML的目的是传输和存储数据,注重数据的内容,而HTML的目的是显示数据,注重数据的外观。因此,XML比HTML更具有开放性和可扩展性。XML将文档的内容与格式分开描述,使XML对文档的描述更加结构化。XML具有自我描述性,可以由设计者自行定义XML标签,因此,XML极其简单,对XML文档的开发和应用非常容易。由于XML继承了所有Web的功能,所以非常适合在网上传输和处理。

XML作为一个日益完善的开放性信息组织处理技术框架的基础,已经在全球范围内受到重视,并产生大量应用实践。基于这个事实,XML技术体系也逐渐形成和完善。XML技术体系就是指基于XML的一系列信息组织和处理技术,包括XML Schema,XML Namespace,XML Incude,XPath,XLink,XSL,DOM等。

可以说,XML集成了SGML和HTML的优点,一经推出就受到了世界软件业的关注和支持,微软和Netscape都宣布将在新?的Internet浏览器中支持XML,这使得XML得以迅速在网络上推广。

(四)Web资源自动采集技术

网络信息资源的收集整理是数字图书馆资源建设的重要内容。网络信息资源的最大特点就是数量众多,且增长迅速。面对如此众多的网络资源,利用人工编目的方式肯定是不可能的。同时,现有的图书编目软件只能对图书信息进行著录,在软件设计之初,并没有设计网络资源著录的功能,况且图书的著录与网络信息资源的著录是不同的。

Web资源自动采集技术就是以程序或软件的形式对网络上大量的网页信息进行浏览、查找、获取、识别、归档和网址有效性测试的过程。Web资源的自动采集包括Web资源的自动获取、自动识别和自动归档。Web资源的自动获取是指获取网络资源底层的HTML文档信息。自动识别是指从HTML文档信息中识别出所有的链接标记,并从每个链接标记中识别出URL及URL对应的标题等子信息。Web资源自动归档是指将URL及标题等子信息存人数据库中。

网络资源是Internet存在的大量的网页,而网页是以JSP、ASP、ASPX、PL或HTML等格式存储于Internet Information Server等网络资源服务器上的。当用户在浏览网页信息时,不同格式的文件在浏览器中都会以HTML文档的形式呈现给用户。也就是说,只要获取了网页的HTML信息,就等于获取了网页的内容,可以进一步对网页进行识别和归档。因此,Web资源的自动获取、识别和归档技术的核心是对网络资源底层的HTML信息的自动获取、识别和归档处理。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈