首页 百科知识 国土安全:文本数据挖掘及信息分类

国土安全:文本数据挖掘及信息分类

时间:2024-01-18 百科知识 版权反馈
【摘要】:5.5.1文本数据挖掘文本数据挖掘是指从文本数据中抽取有价值的信息和知识的计算机处理技术[38]。文本数据挖掘是一门综合学科,由机器学习、数理统计、自然语言处理等多种学科交叉形成。图5.25文本数据挖掘概观总之,可以把对文本数据的分类、融合、压缩、摘要,以及从文本中抽取发现知识与信息都看作是文本数据挖掘。5.5.1.2文本信息分类文本信息分类是根据文本的特征将信息分到预先定好的类别中。

国土安全:文本数据挖掘及信息分类

5.5.1 文本数据挖掘

文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术[38]。顾名思义,文本数据挖掘是从文本中进行数据挖掘(Data Mining)。文本数据挖掘是一门综合学科,由机器学习数理统计自然语言处理等多种学科交叉形成。文本数据挖掘是应用驱动的,它在智能商务(Business Intelligence)、信息检索(Information Re-trieval)、生物信息处理(Bioinformatics)等方面都有广泛的应用。

国土安全监控中,会不断产生海量数据,特别是海量的文本数据。怎样从这些数据中抽取和发掘有用的信息和知识,已成为一个日趋重要的问题。因此,文本数据挖掘虽是一个新兴学科,但已成为一个不可忽视的关键学科。

对文本数据挖掘的理解可以用图5.25来说明。这个图由三部分组成:底层是文本数据挖掘的基础领域,包括机器学习、数理统计、自然语言处理;在此基础上是文本数据挖掘的基本技术,有五大类,包括文本信息抽取、文本信息分类、文本信息聚类、文本信息压缩、文本信息处理;在基本技术之上是两个主要应用领域,包括信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤、信息报告,知识发现包括数据分析、数据预测。

图5.25 文本数据挖掘概观

总之,可以把对文本数据的分类、融合、压缩、摘要,以及从文本中抽取发现知识与信息都看作是文本数据挖掘。以下主要对文本数据挖掘的五大基本技术作一个综述。在五项基本技术中,文本信息抽取和文本信息压缩是文本数据挖掘特有的技术,其他三项技术在其他数据挖掘领域中也会用到。

5.5.1.1 文本信息抽取

文本信息抽取是从文本数据中抽取人们关注的特定信息。文本数据可以以句、段落、篇章为单位;抽取信息既可以以字、词、词组、句或段落为单位,也可以是以上基本单位的组合。抽取的信息可以是关于个体的(比如人、组织、时间、地点),也可以是关于事实、事件或个体间关系的。抽取的信息还可以作为文本数据的特征,用于其他数据挖掘处理。

文本信息抽取所抽取的信息可以是各种类型的,比如,文本中的名词短语、人名、地名、机构名、产品名等实体名称,电子文件的题目、作者、作者所属单位等元数据,专业术语的定义,网上购物信息,新闻报道中的事件等。

可以把文本信息抽取看作是一个标注(Tagging)问题,它是有指导机器学习的一个应用。下面,将通过机器学习的框架来统观这个问题。它分为学习和抽取两个过程。首先有一些有标注的数据样本,每一个样本由文字单元序列及相应的标注序列组成,用xi1,xi2,…,xin来表示第i个样本的文字单元序列,用yi1,yi2,…,yin来表示相应的标注序列,其中i=1,2,…,m。每一个xij(i=1,2,…,n;j=1,2,…,n)是一段文字,是进行处理的最基本单元,每一个yij是一个标注。机器学习系统基于已有的标注数据构建一个模型,它可以由一个条件概率分布来表示,即在给定随机变量X1,X2,…,Xk的条件下随机变量Y1,Y2,…,Yk的条件概率分布。这里每一个Xk取值为所有可能的处理文字单元,每一个Yk取值为所有可能的标注,一般有k≤n。信息抽取系统参照学习得到的条件概率分布模型,对一些新的文字单元序列进行标注,找到相应的标注序列。具体来说,对一个文字单元序列xm+1,1,xm+1,2,…,xm+1,n找到使P(ym+1,1,ym+1,2,…,ym+1,n|xm+1,1,xm+1,2,…,xx+1,n)最大的标注序列ym+1,1,ym+1,2,…,ym+1,n

文字单元在具体实现中可以是一个文本、一个句子、一个词,甚至可以是一个字。标注可能是表示信息抽取对象的开始、结束及其他。在信息抽取时,将把从标注为开始到标注为结束的文字单元作为信息抽取。

文本信息抽取常用的模型有:隐马尔可夫模型(Hidden Markov Model)、最大熵马尔可夫模型(Maximum Entropy Markov Model)、条件随机场(Conditional Random Field)、表决感知机(Voted Perceptron)。它们是以上一般模型的具体实现。

5.5.1.2 文本信息分类

文本信息分类是根据文本的特征将信息分到预先定好的类别中。它也是有指导机器学习的应用问题。下面,将通过机器学习的框架来描述这个问题。它分为学习和分类两个过程。首先有一些文本t1,t2,…,tn及其所属类的标注c1,c2,…,cn,学习系统从标注的数据中学到一个函数f(T)或条件概率分布P(C|T),称为分类器。C和T取所有可能的类和文本(通常是文本的特征)。对新给出的文本器tn+1,分类系统利用学到的分类器对其进行分类。类别可以只有两类,通常用0和1或+1和-1表示,称为两类问题。当类别超过两类时,可以采用“一类对所有其他类”的方法,把问题分解为两类问题处理。

文本信息分类有非常广泛的应用。文本信息的类型可以是新闻报道、网页、电子邮件、学术论文、Newsgroup文章。文本分类时的类往往表示内容,比如“经济”、“政治”、“体育”可以成为类;也可以根据其他的特点分类,比如“正面意见”、“反面意见”;还可以根据应用要求分类,比如“垃圾邮件”、“非垃圾邮件”。文本分类时,从文本中取出特征,将每个文本变成一个属性向量。通常,把文本中的词抽取出来,将它们作为特征,特别是根据内容进行分类的时候,这等于是把文本当作一个“词包(Bag of Words)”。

分类是机器学习的核心问题,有很多分类器模型被提出,它们都可以用于文本分类,事实上也被广泛地应用于文本分类。常用的模型或算法有:支持向量机或SVM(Support Vector Machine)、边缘感知机(Perceptron with Margin)、最近邻法(Nearest Neighbor)、决策树(Decision Tree)、决策表(Decision List)、中心法(Centroid)、朴素贝叶斯(Naive Bayes)、Ada-Boost算法、Logistic回归(Logistic Regression)、Winnow算法、神经网络(Neural Network)、贝叶斯网络(Bayesian Network)。

5.5.1.3 文本信息聚类

文本信息聚类是指将文本根据其特征归类。也就是说,将给定的文本集合分为若干子集,称之为类,使得各个类内部的文本相似,而类与类之间的文本不相似。文本的特征往往根据应用的不同而各异。文本之间的相似性也往往由应用而定。

聚类时,如果一个样本只能属于一个类,则称为硬聚类;如果一个样本可以属于多个不同的类,则称为软聚类。聚类还有分层聚类和非分层聚类之分,其类分别是树状的和平坦的。

各种聚类方法原则上都可以用在文本信息聚类上。常用于文本信息聚类的方法有K-均值法(K Means)、模型估计法(Model Estimation)(特别是混合模型估计法(Mixture Model Estimation))、分层聚类法(Hierarchal Clustering)(其中又有自上而下法(Divisive)和自下而上法(Agglomerative))。

5.5.1.4 文本信息压缩

文本数据挖掘中,常常需要或只需要将文本信息中主要的特征抽取出来,这就要用到文本信息压缩的技术。文本信息压缩有两种:一种是对向量空间中的文本数据进行压缩,如主成分分析(Principal Component Analysis)、对应关系分析(Correspondence Analysis);另一种是对文本内容进行压缩,如从文本中抽取关键词,或自动生成摘要。前者通常作为数据特征使用,后者通常用来方便人们阅读。

(1)主成分分析在统计学教科书里常见,这里不予赘述。主成分分析的目的在于将高维空间的样本点投影到低维空间中去。其前提是在这个数据变换中,力求保持样本点之间的相对位置关系,也就是说尽量使由转换带来的信息损失最小化。

(2)文本摘要自动生成也有广泛的研究。最常见的方法是从文本中抽取出重要句,再将重要句连接成文。所以对这个方法来说,重要句识别是本质问题。常见的方法也是通过指导学习的方式构建一个分类器[39],如决策树、朴素贝叶斯,用这个分类器进行重要句识别。常用的特征有句子位置(文章中靠前的句子往往重要),句子是否含有在本文中常出现的关键词等等。人对重要句的识别具有一定的主观性,重要句学习数据的标注往往是很困难的。另外,对文本摘要结果的评价也是一个值得进一步研究的课题。

5.5.1.5 文本信息处理

文本信息处理指对文本信息进行各种统计的快速算法。文本信息处理一般不涉及具体的模型。它包括关联规则抽取(Association Rule Mining)、Suffix Tree算法、Suffix Array算法等。

关联规则抽取是数据挖掘的成功技术之一,它在数据库数据挖掘中有着广泛的应用,也可以推广到文本数据挖掘上来。比如,关联规则抽取可以用于搜集所有频数大于一定阈值的词的N元组。在对数据库数据进行关联规则抽取时,通常不需要考虑单元的顺序信息,而在对文本进行关联规则抽取时,通常需要考虑这种信息。比如说,抽取在文本中所有出现在动词“买”后面的名词时,前后顺序是重要的。

关联规则抽取通常利用Apriori算法[40]。具体是利用N元组的反单调性(Anti-monotonicity),即N元组的频数一定小于等于它的子串的N-1元组的频数,可以快速地发现所有满足条件的N元组。

5.5.2 视频信息检索

视频是多媒体信息中最复杂的一种,是集图像、声音于一体的综合性媒体信息。视频作为信息媒体,虽然具有表现力强、蕴涵信息量大、形象生动等优点,但同时其非结构化的数据格式、巨大的数据量以及表现内容的不透明等缺点,使得对视频数据的管理和分析相当困难(如视频数据的浏览、检索)。面对海量的视频信息,如何有效地组织和管理视频数据以实现快速准确地存取,尽可能满足人们的查询需求,已经成为多媒体研究领域中一项重要的研究课题,并且具有广泛的应用背景和深远的研究意义。

当前视频检索系统的研究大都试图从低层物理特征和高层语义特征两个方面综合分析得到符合查询要求的视频片段,然后通过有效的多模态信息融合方法得到最终的查询结果。该类视频检索系统通常将视频信息检索分成离线和在线两个部分。离线部分如图5.26所示,主要包括视频低层特征组织和语义信息建模两个模块,用于对视频中包含的低层物理特征和高层语义特征进行提取和组织,形成视频特征库。在线查询部分如图5.27所示,主要包括查询题目分析、多模态信息查询、融合和排序以及用户界面等功能模块。

图5.26 视频信息检索框架离线部分

图5.27 视频信息检索框架在线查询部分

(1)视频特征数据库组织

由图5.26可知,视频特征数据库组织主要是提取视频的低层物理特征并对其建立索引结构。这个部分包含三个功能模块:分割视频、提取低层特征和建立索引结构。首先,是将视频库的所有视频流分割成在时间上连续的视频单元,通常用镜头表示视频的基本单元,因为同一镜头是由相关性比较强的图像序列组成,可以用一幅或者几幅图像帧来表示该镜头,这些图像帧被称为关键帧。接着,针对每个关键帧图像,提取相关的颜色、纹理、形状等低层物理特征用于描述该视频单元的内容。最后,为了便于对视频特征数据库进行管理和方便用户的快速查询,将采用适宜的索引结构对视频特征数据库进行组织管理。因为一个良好的数据库组织需要能够合理地管理海量的高维视频特征,所以能够快速地索引到相应的视频特征。

(2)语义概念建模

如何有效提取视频的语义概念是系统优劣的关键所在,高层语义特征就是利用视频的低层视觉特征或者语音特征分析视频中包含的高层语义信息。对视频语义信息进行概念检测,首先要对视频进行分割和提取其低层特征(颜色、纹理和形状),然后利用分类器(支持向量机)或推理规则分析得到视频中包含的高层语义特征。从视频中分析得到的高层语义信息可以用于与文本或语义相关的视频检索。

(3)查询题目分析

由于用户提供的查询题目可能包括文字描述信息、样例图片、样例视频和自己绘制的样例草图等多种媒体形式,所以需要经过查询题目分析模块将这些查询需求变成查询所需的关键词(文本)或低层特征向量(颜色、纹理和形状等),才能进行下一步的查询。

(4)多模态信息查询

多模态信息查询包括文本、图像和高层语义特征查询,也就是通过分析用户给出的查询条件,然后从事先提取的多种模态特征中查找与其相符的视频单元;或者通过基本检索模块得到的多种模态的查询特征,使用一定的匹配算法和相似度模型计算视频特征数据库中的特征数据与用户提供的查询样例之间的相似度,并根据一定的相似度阈值返回查询结果。

(5)融合和排序

这里所说的融合是后融合(融合包括前融合和后融合),所以多模态信息查询的结果只是视频在某一种媒体形式或者查询特征上的查询结果,是每个基本模型的查询结果,如文本检索模型的检索结果、图像检索模型的检索结果和高层语义模型的检索结果。为了得到更为丰富和详细的视频内容信息,提高视频查询的准确性,即更贴近用户的查询需求,则需要采用一定的融合策略,将根据不同检索模型分别查询得到的多模态查询结果进行有效的融合以及合理的排序。

(6)用户界面

现代多媒体信息系统的一个重要特征就是信息获取过程的可交互性。一个友好的用户界面,能够提供使用户便捷地浏览视频数据的窗口,能够使用户快速而又方便地检索到自己感兴趣的内容。用户界面主要考虑用户接口、导航、内容表现、浏览、有效利用屏幕空间等问题。它提供给用户一个视频查询结果显示和浏览的可视界面,以及具有丰富交互能力的查询接口,主要有四个作用:首先,用户可以通过友好的用户界面查看检索结果;其次,能通过标记查询结果的相关程度,进行相关反馈的学习;再次,将用户反馈的信息返回给融合、查询题目分析的模块;最后,通过机器学习的方法优化查询矢量、调整相似度模型的参数以及相关阈值,从而进一步提高查询检索精度。

5.5.2.1 镜头边界检测

镜头是视频数据在编辑制作及检索中的基本结构单元。视频检索,首先要把视频自动地分割为镜头,以作为基本的索引单元,这一过程就称为镜头边界检测,它是实现基于内容的视频媒体检索的第一步。镜头变换的类型大致可以分为切变和渐变两种:切变即表示视频数据将发生一系列的变化,一般表现在颜色差异突然增大、新旧边缘的远离、对象形状的改变和运动的不连续性等各个方面;渐变则是在镜头变换中加入了一定的编辑手法。

镜头检测的基本原理就是将这一类经过编辑的视频分解为镜头。其基本方法是比较视频帧间的差异,即根据帧间差异得到一个判断,如果差异达到一定程度则判定为一个新的镜头。现有的镜头检测的方法很多,常用方法主要有模板匹配法、颜色直方图法、基于边缘的方法以及基于模型的方法。

(1)模板匹配法

模板匹配法先将两帧图像间的关键帧对应像素差的绝对值之和作为帧间差,当帧间差大于某个阈值t时,则认为有镜头的切换。该方法原理简单,也是以后很多算法的基础。其计算公式如下:

其中,Vi表示第i帧视频;d(Vi,Vj)是Vi和Vj的帧间差;Vi(x,y)为第i帧(x,y)位置的像素值;W,H为帧的宽度和高度。

模板匹配法的缺点是由于与像素的位置密切相关,因此对噪声、镜头或物体运动非常敏感,容易造成误识别。采用改进的模板匹配方法,即把各图像帧划分为8×8像素的子块,并对每个子块取平均,再用这个平均值与前后帧的对应子块进行比较。这种方法可以去掉图像中的一些噪声,并对小的物体运动和镜头运动不敏感。

(2)颜色直方图法

颜色直方图法是进行镜头边界检测的一种常用的、有效的方法,它丢失了颜色的位置信息,而使用像素亮度和色彩的统计值,因而抗噪声能力比模板匹配法强。其基本原理是首先将像素空间分为一个个离散的颜色子区间,接着再计算落入每个子区间的像素的数目。其计算公式如下:

即把颜色空间分为n个区间,Hik和Hjk分别是第i帧和第j帧中落入第k个颜色区间的像素数目。

颜色直方图法的缺点是两幅图像可能内容完全不同,但直方图相似,有时会漏掉场景变换,容易造成误识别。一种改进的方法是将图像划分成若干子块,分别对各子块进行匹配。另一种与颜色直方图法相似的计算帧间差的方法是x2直方图法,据介绍这种方法用于镜头转换检测效果很好。Nagasaka A.等人提出了一种将视频帧划分成4×4大小相同的子块并比较相应子块的方法[41]。两幅图像之差的计算如下:

(3)基于边缘的方法

这种镜头边界检测方法的基本思想是:由于在镜头切变时新旧边缘应在不同的位置,在发生镜头转换时,新出现的边缘应远离旧边缘的位置,同样旧边缘消失的位置应远离新边缘出现的位置,所以可先提取两幅图像的边缘,计算新边缘在旧边缘的基础上增加或减少的像素比例,当大于某一个阈值时便认为发生镜头切换。

首先提取前后两帧视频图像Vi和Vi+1的边缘图Ei和Ei+1,然后计算两帧视频图像之间的帧间差,计算公式如下:

其中,din是进入像素所占的比例,dout是退出像素所占的比例。din=p1/pm,p1为Ei+1中最近边缘像素点的距离>r的边缘像素点的总数,pm 为Ei+1中边缘像素点的总数;dout=p2/pn,p2为Ei中最近边缘像素点的距离>r的边缘像素点的总数,pn为Ei中边缘像素点的总数。其缺点是计算量大,当边缘不明显时效果差。

(4)基于模型的方法

上面介绍的三种镜头检测方法都是利用帧间差自下而上来进行镜头边界检侧,虽然对于突变的镜头检测可以取得很好的效果,但对于渐变的镜头检测则有一定的困难,因为它在很大程度上忽略了渐变转换中相邻帧之间结构上的相关性。由于基于模型的方法是利用对镜头编辑的先验知识,对各种镜头切变建立一定的数学模型,自顶向下地进行镜头切换的检测,因此这种基于模型的方法对镜头渐变的检测往往可以取得较好的效果。

Hampapur等人通过对视频制作过程的不断研究,提出了一种可用于镜头边界检测的视频编辑模型[42]。一个典型的镜头渐变模型可表示为:

其中,g1(x,y,t)是即将逐渐消失的镜头;g2(x,y,t)是即将逐渐出现的镜头。如果镜头内没有运动或运动较小,则可分别记为:g1(x,y,t)=g1(x,y),g2(x,y,t)=g2(x,y)。α(t)和β(t)都是时间的线性函数:假设渐变转换的持续时间为0到T。对于慢转换,可以表示为:

对于渐变的淡出,则g2=0;对于渐变的淡入,则g1=0。在变化的过程中,每幅图像上所有的像素都以线性规律变化。可定义如下的常量图CI:(5.55)

对于一定的时间t,可以得到所有像素均为常数的常量图CI,因此渐变检测只需检测模型的常量图。对于给定的视频编辑模型,一旦检测到常量图,则认为有一个渐变过程。因此,基于模型的方法的优点是只要模型建立准确,对于渐变检测往往能得到较好的效果;其缺点是建模过程比较复杂,需要对每种切换类型建立模型。目前,这种方法只适用于专业领域。

5.5.2.2 视频语义分类(www.xing528.com)

随着因特网、数字存储技术以及视频数据库技术的飞速发展,多媒体信息变得日益丰富。为了有效地利用这些多媒体信息,人们需要对这些多媒体信息进行自动的组织、索引,以方便语义上、内容上的检索。视频分类是视频语义理解过程的第一步,它在归纳、检索视频数据的处理中是不可或缺的重要环节。其实,视频分类方法就是那些可以将视频划分到预先定义的类别中的技术。视频分类最早是在1996年由Lienhar等人提出[43],他们首次尝试了对视频进行分类,对新闻、广告卡通等进行分类。他们所选择的体育类视频被细分为多个独立的子风格类型,这是因为体育类的视频内容比其他类型的视频内容要丰富,所以难以把它们成功地划分为同一个风格类型。他们提出了一个分为三步的视频分类方法:第一步,提取基本的音频和视觉统计信息,包括视频片断中的场景颜色统计信息及运动、内容模式和声音等属性;第二步,利用第一步提取的统计信息导出更为抽象的高级电影风格属性(Style Attribute),这些风格属性包括场景的长度和变换、摄像机和对象运动强度、用于检测字幕的颜色直方图以及一些低级统计量的组合等,并且他们将声音数据划分为讲话、音乐和噪声;最后,将第二步检测得到的风格属性映射到电影风格类型,用它们的分布来识别电影的风格类型。

常用的分类方法有风格分类方法、基于知识的视频内容分类方法、基于关联规则的视频分类方法、受监督的基于规则的视频分类系统、基于马尔可夫模型(HMM)的分类方法等。

5.5.2.3 多模态融合的信息检索

通常认为,视频是连续的帧的集合,是一个包含图像和语音等多种媒体形式的复合体。不同的媒体形式包含了视频中不同方面的语义信息,如图像包含了视频中的视觉信息,一般包含颜色、纹理、形状、空间关系、运动等视觉特征信息;语音包含了视频中的各种各样的音频信息,如语音、背景音乐、观众的掌声以及一些现场的声音,如枪击声、爆炸声、各类交通工具发出的声音、动物的叫声等,以及另外的一些隐含信息;同时视频中也包含有各种各样的文字信息,其中有背景文字、图像字幕等等。另外,还有一些通过视频语义信息建模得到的视频高层语义特征,视频中还存在一些更便于人类理解、接受的高级语义特征,从图像序列特征的角度看,最典型的高级语义特征包括文字和人脸等。由于这些视频信息包含在不同的媒体当中以不同的形式存在,并且现有的基于任何单一媒体形式或者特征的处理和识别能力都比较有限,因此在视频检索的时候,需要对这些多媒体内容采用不同的方法分别进行分析,从而得到描述该视频的多模态信息,然后通过有效的融合得到最终的视频检索结果。提取并分析这些特征,对视频结构分析、建立视频索引以及实现基于内容的视频检索具有重大的意义。

在视频信息中,多模态性被定义为一个系统与用户通信、表达内容的多种方式,通过合并采用多种信息通道表示特定内容的方法,来表达一种预定义的视频语义信息的能力。在视频系统里,多模态性也就是可以通过合并视频包含的多模态信息完成视频语义内容的分析和检索。在视频中主要包括三种多模态信息。

(1)视觉模态信息:视频中能够看到的所有信息,包含在图像序列里的对象。例如,能在视频中被显示和观察的所有事物。视觉特征包括图像的颜色特征、纹理特征、镜头运动和人脸特征等。

(2)听觉模态信息:视频中可以听到的所有声音,包含语音、音乐和环境音等所有能引起听觉的声音以及不能引起听觉的静音等。听觉特征包括所有音调特征、重要停顿等。对声音信息的分析主要包括说话人识别、自动语音识别、音乐分类、噪音分析等。

(3)文本模态信息:一种是场景本身包含的文字,称为场景文字;另一种是在视频的后期制作中加入的文字,称为后期文字,如脚本、隐藏字幕信息,以及从视频中利用光学字符识别得到的文本信息等。文本特征则包括所有转录文本、视频字幕等。

视频信息流本质上是由文本、图像序列和音频等多模态媒质交互融合形成的。由于视频是文本、图像序列和音频等多模态信息的综合体,每一模态都表示了丰富的语义信息,所以对这些多模态信息的分析和处理也采用不同的方法,并通过多模态特征查询,可得到视频在不同模态特征下的查询结果,融合分析视频中的多模态特征将有助于对视频的语义理解。随着人们对视频检索查询要求的不断提高,查询题目中包含了越来越多的高层语义信息,单一模态信息或特征的视频查询方法很难满足用户的查询要求。因此,首先利用视频包含的多模态信息和特征对视频进行综合查询,然后通过多模态信息融合的方法对其进行合并,最后对多模态融合后的结果进行重排序,已成为视频信息检索的重要研究方向。

随着多模态信息检索研究的不断深入,出现了越来越多的多模态信息融合策略和方法,主要包括Borda计数多特征融合、最高排名、逻辑回归,以及Melnik等人提出的Mixed Group Ranks[44]。这些多模态信息融合方法通常把多特征检索的结果看作分类器的分类结果,每个特征的查询结果都包含一个置信度值,用于表示该查询结果的可信度。

5.5.3 开源信息处理

基于开源信息进行国土安全监控有其坚实的现实基础。监控对象的任何行动都是有组织按计划实施的。对监控对象的行动进行瓦解的最有效方法是获得监控对象的行动实施计划,从而有的放矢地采用反制措施。直接获取监控对象的行动方案在大多数情况下是不现实的,但监控对象幕后的行动方案必定会随着方案的实施以人员活动、物资流动、资金往来、信息交流等方式表现在台前。当然这些信息呈现于公众面前时,不会打上监控对象行动计划的标签,而是混杂在其他信息之中。这就需要分析人员在浩如烟海的信息中发现这些潜在的重要信息,并据此产生有价值的信息。通过分析人员的分析和合理推测,能够对监控对象的行动方案有所了解和掌握。上述分析如图5.28所示。

面对浩如烟海的信息,仅依靠人工的处理方式显然是不够的。开源信息分析系统的作用就在于借助计算机强大的计算能力,借助统计学、数据挖掘、图像处理和自然语言处理等技术提高分析人员的工作效率。比如,文档聚类和文档分类能够把大量的文档自动地按类别进行归类,这样就方便了分析人员的信息查找工作;文档摘要功能能够自动生成一篇或多篇文档的摘要,分析人员通过浏览摘要就能够了解文档的主要内容,从而减少分析人员的阅读工作量。分析工作的最终目的是依据各种来源的数据去推测隐藏在幕后的敌方行动意图。

图5.28 借助开源信息分析系统对监控对象行动计划进行分析

开源信息主要涉及海量数据获取技术、海量数据存储和检索技术。数据获取指的是从Internet等数据源上获取数据的技术,通常采用网络爬虫(Crawler)技术以及代理(Agent)技术,从Internet上获取数据。目前主要采用分布式存储和分布式检索技术来应对海量数据的存储和检索。即将海量数据分为若干个数据块,这些数据块放在不同的数据库服务器中,数据库服务器通过网络连接起来;用户的查询请求会在多个数据库服务器上同时进行,然后把局部检索结果汇总起来。分布式检索如图5.29所示。

5.5.3.1 Web数据挖掘

图5.29 分布式检索

Internet的出现引发了新的信息革命,使得WWW成为了网络信息的基础平台。如今WWW已经发展成为包含多种信息资源、站点遍布全球的巨大信息服务网络,为信息处理提供了一个极具价值的信息源。与其他类型的开源信息源相比较,Internet具有海量、异构、动态变化等特性,使得从中搜集有价值的信息成为一个亟待解决的难题。基于Web的信息处理最需要的是能提供面向一定的领域、有较好智能程度的信息采集和处理系统。

搜索引擎是时下人们在网上搜索信息时最为主要的应用工具之一。从所使用技术的角度可划分为三大类型:关键字式Web搜索引擎、目录式Web搜索引擎和元搜索引擎。目前搜索引擎在技术上面临着极大的挑战,主要方面有:缺乏对语义查询的支持,用户常为大量的与查询无关的结果所困扰;基于单数据库模型的Web搜索引擎,其查全率非常有限;缺乏对于Web后台数据库中内容查询的支持,用户无法获得所需的深层次的信息;基于WWW的新应用模式和新数据类型的出现对传统的搜索引擎提出新的挑战。

总之,目前Web搜索引擎主要采用的技术仍是传统的基于关键词匹配的检索技术及其改进方法,尽管其在帮助人们有效查询信息的过程中已经发挥了巨大的作用,但是面对用户的多样化需求和个性化服务的呼声,现有的网上信息检索机制都无法满足用户信息需求的相关性、准确性和快捷性的要求,于是Web数据挖掘、基于语义Web的应用和Deep Web信息资源搜集等相关技术应运而生。

目前,Web数据挖掘技术已经成了Web信息发现研究方面一个重要的课题,是一个新兴的具有广泛应用前景的研究领域。Web挖掘是一项综合技术,是以从Web上挖掘有用知识为目标,以数据挖掘、文本挖掘、多媒体挖掘为基础,并综合运用计算机网络、数据库与数据仓库、人工智能、信息检索、可视化、自然语言理解等技术,将传统的数据挖掘技术与Web结合起来的新型技术。

Web挖掘与传统数据挖掘相比有许多独特之处。首先,Web挖掘的对象是大量、异质、分布的Web文档;其次,Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的;此外,由于Web文档本身是半结构化或无结构的,且缺乏机器可理解的语义,而传统数据挖掘的对象局限于数据库中的结构化数据,并利用关系表格等存储结构来发现知识,因此有些传统数据挖掘技术并不适用于Web挖掘,即使可用也需要建立在对Web文档进行预处理的基础之上。因此,Web的分布、动态、海量、异质、变化、开放性的特点,以及网页内容的半结构化特征,决定了Web挖掘比传统的KDD(数据库知识发现,Knowledge Discovery in Databases)和以关键字搜索为主的信息检索问题更为复杂和困难。这样,开发新的数据挖掘技术,以及对Web文档进行预处理以得到关于文档的特征表示,便成为Web挖掘研究的重点;同时,解决Web挖掘问题需要有新的数据模型、体系结构和算法等,在理论上、方法上要有新的突破,要求有更高级的Web信息处理技术。

Web数据有三种类型:Web内容数据,如HTML或XML标记的Web文档;Web结构数据,如Web文档内的超链接;用户访问数据,如服务器Log日志信息。相应地,Web挖掘也分成三类:Web内容挖掘(WebContent Mining)、Web结构挖掘(WebStructure Mining)和Web日志挖掘(WebLog Mining)。Web结构挖掘是挖掘Web潜在的链接结构模式,是对Web页面超链接关系、文档内部结构、文档URL中的目录途径结构的挖掘;Web日志挖掘的主要目标是从Web的访问记录中发现感兴趣的模式,分析服务器中的用户访问日志来帮助Web站点的管理者或设计者理解用户的行为和Web站点的结构,从而优化站点的结构,或为用户提供个性化的服务。

在信息处理过程中的应用重点应该是Web内容挖掘。Web内容挖掘是从Web页面内容及其描述信息中获取潜在的、有价值的知识或模式的过程。Web内容挖掘主要是针对各种非结构化的数据,如文本数据、音频数据、视频数据以及图形图像数据等各种数据相融合的多媒体数据。Web内容挖掘又可分为基于文本信息的挖掘和基于多媒体信息的挖掘两种数据挖掘方式。

基于文本信息的挖掘和Web内容挖掘功能及方法比较类似,因此文本挖掘的方法也可用于Web文本的挖掘。使用Web文本挖掘技术可以根据Web文档表示的内容,实现对Web文本的总结、分类、聚类和关联规则分析等。文本总结是对文本信息进行浓缩,给出它的紧凑描述,并以简洁的形式对文档内容进行摘要或解释;文本分类是在已有数据的基础上构造出一个分类模型,即通常所说的分类器,实现对Web文档的分类;文本关联规则分析是在不同的文本或文本集合之间寻找有意义的关联规则的过程。

随着网络带宽的不断加大,多媒体信息在网上迅速增加,这对基于多媒体信息的挖掘提出了要求。基于多媒体信息的挖掘主要是指基于音频的挖掘、基于图片的静态图像的挖掘和基于视频的动态图像的挖掘。Web多媒体挖掘的主要任务是对多媒体数据的特征进行挖掘,以实现对多媒体文件进行分类、聚类等。Web多媒体挖掘与Web文本挖掘的不同点就在于需要提取特征的不同。Web多媒体挖掘需要提取的特征一般包括图像或视频的文件名、URL、类型、键值表、颜色向量等。

Web挖掘可在多方面发挥作用,如改进和提高搜索引擎的质量和效率、确定权威页面、Web文档分类、WebLog挖掘、智能查询、建立Meta-Web数据仓库等。Web数据挖掘是一个新兴的且具有巨大发展前景的研究领域,经过众多研究者的努力,已取得了一些进展。但总体而言,Web挖掘系统的应用还处于比较初级的阶段,如何让Web挖掘系统有更高的智能,还有很多问题需要解决。

5.5.3.2 语义Web应用

随着Web的迅速发展和普及,可获取的信息种类和结构日益丰富,人们对Web信息的动态集成、透明的知识融合以及信息变化追踪的需求也更加迫切。对于这些需求,传统的搜索引擎和信息集成技术已不能很好地胜任,对更高层次的信息集成以及知识同步的研究逐渐成为必然。语义Web技术的发展为知识融合和同步带来了契机。

被称为下一代Web的语义网(Semantic Web)通过获得词汇的语义使得Web应用不但能够表示信息,而且能够理解信息,还可以在此基础上依据一定的规则对信息进行推理。语义检索能够通过概念,立足于对信息进行语义层次上的分析和理解,解决之前一系列的信息检索难题,力图真正理解并挖掘检索者的信息请求。

语义Web是对当前Web的扩展,其所具有的定义良好的语义,能更好地使计算机和人之间进行协同工作。1998年,语义Web首次被提出;2000年12月,语义Web正式被提出;2001年2月,W3C正式成立“Semantic WebActivity”来指导和推动语义Web的研究和发展,语义Web的地位得以正式确立。

一些主要的开发商,包括Adobe、HP、IBM、Nokia甚至美国国防部高级研究计划局(DARPA),都支持并投资开发语义Web。欧盟也把语义Web列为其第六个框架纲要的关键行动路线之一。惠普实验室已推出专门用于语义Web应用系统开发的基于Java的开发包Jena。国外许多著名的大学和科研机构也在从事语义Web研究,其中比较著名的有美国斯坦福大学的知识系统实验室、德国卡尔斯鲁厄大学的应用信息学和规范描述方法研究所等。

语义Web为七层框架的体系结构,分别是:

第一层:Unicode和URI(Uniform Resource Identifier,统一资源标识符),它们是整个语义Web的语法表示基础。Unicode是一种统一的字符编码系统;URI是一种标准的标识Internet资源的方法。

第二层:XML+NS(Namespace)+XML Schema,用于从语法上表示数据的内容和结构,通过使用标准的格式语言,将互联网上资源和信息的表现形式、数据结构和内容分离。

第三层:RDF(Resource Description Framework)+RDF Schema,其提供的语义模型用于描述Web上的资源及其类型,为网上资源描述提供了一种通用表示框架,实现数据集成的元数据解决方案。

第四层:本体(Ontology)词汇层,用来定义共享的知识,从而对各种资源之间的语义关系进行描述,揭示资源本身以及资源之间更为复杂和丰富的语义信息。

第五层:逻辑层(Logic),主要提供公理和推理规则,为智能服务提供基础。

第六层和第七层是证明层(Proof)和信任层(Trust),它们注重于提供认证和信任机制,使用户代理(Agent)在网络上实现个性化服务且彼此之间交互合作具有可靠性和安全性。

第五层到第七层是在下面四层的基础上进行逻辑操作。在整个Web体系结构中,核心层为XML、RDF(S)、Ontology,其支持从语义上描述Web信息,是当前语义Web研究和应用的关注重点。

基于语义Web的一个典型应用是Web挖掘。基于语义网络的Web挖掘旨在利用Web上新的语义结构来改进Web挖掘的结果,以及利用Web挖掘的结果来帮助构建语义Web。对应于Web挖掘,基于语义网络的Web挖掘也分为语义Web内容挖掘、语义Web结构挖掘和语义Web日志挖掘。

语义网络和Web挖掘技术的融合过程可分为四个步骤:

(1)构建本体。要构建一个本体,首先要获取相关的原子概念集,通过用聚类算法从Web文档中获取,然后利用OntEx(Ontology Exploration)方法根据这些原子概念建立层次概念树。OntEx依赖于通过探索属性来获取知识的技术,它需要一组概念集合作为输入数据,然后输出在这组概念集合的基础上所建立起来的概念层次树,最后结合一组相关的Web页面集合,通过关联规则分析得到这些概念之间的关系。

(2)本体实例化。这一步需要从Web页面集中提取大量实例,并基于上一步构建的本体运用相关技术确定它们之间的关系。例如,用IE (Information Extraction)技术从Web页面中提取实例,并采用Web-KB系统确定它们之间的关系。

(3)基于语义知识的挖掘。经过上两步后,得到一个本体和该本体的大量实例,形成了具有明确语义及高度结构化的知识库。现在要在这样的知识库上采用相关技术如关联规则分析进行数据挖掘。

(4)本体扩展及修饰。主要就是根据上面的结果对本体进行扩展及修饰。

目前国外对语义网络技术的研究有很多,已经有学者设计出能够从语义网络中半自动地获取知识的算法,并且开发了一组基于Java的API来提供一些基础的服务。通过实验,验证了这组工具能够作为一个通用的工具箱应用到自然语言处理当中。

5.5.3.3 Deep Web信息资源获取

Deep Web最初由Dr Jill Ellsworth于1994年提出,是指那些普通搜索引擎难以发现其信息内容的Web页面。2001年,Christ Sherman、Gary Price对Deep Web定义为:虽然通过互联网可以获取,但普通搜索引擎由于受技术限制而不能或不作索引的那些文本页、文件或其他通常是高质量、权威的信息。Deep Web产生的原因既包括技术因素,如搜索引擎无法索引动态页面以及无法访问网络数据库(WebDatabase,WDB)、站点(是Deep Web信息资源的主要组成部分)和注册站点,又有非技术因素,如知识产权保护、搜索引擎的负面限制等,这些因素造成了Deep Web资源的多样性。

Internet上的信息早已处于“信息泛滥”、“信息爆炸”的状态,那么为什么还要重视Deep Web信息资源的开发呢?更多的信息对于人们来说有何益处呢?致力于Deep Web研究的Bright Planet公司的报告显示,相对于Surface Web,Deep Web资源有诸多不可比拟的优点:①数量大、发展快:Deep Web资源在2000年大约有75TB,是当时Surface Web资源总和的400~550倍,用常规搜索引擎只能找到大约16%的Surface Web信息资源,其余84%属于Deep Web信息资源;②质量高:Deep Web比Surface Web所涉及的范围更小,内容更为精深,往往是大部分网络用户用常规搜索引擎搜索不到的高价值的、官方的信息以及动态实时信息、多媒体文档、大量的统计数据等;③专业性强:Deep Web中大约存在350 000多个可搜索数据库,其中大约150 000个数据库的内容是独一无二的,这些数据库所存储的信息都是与特定专业领域高度相关的;④成本低廉:95%的Deep Web资源都是免费的,无需交费或订阅;⑤便于处理:Deep Web中的信息格式常常是容易用应用软件进行处理的,例如统计信息和财政信息可用电子制表软件(如Excel)或者统计分析软件(如SPSS)来处理。因此,对Deep Web进行分析研究是必要的和有意义的。

举个Deep Web应用的例子:如果提供一个能同时查询多个书店数据库的统一查询接口,将能快速准确地返回所需书目信息,而不用分别查看当当网和卓越网等书店来确定最合适的交易。实现该目标可以分为两个步骤:首先将同领域的查询表单进行属性匹配,然后选取最具有表现力、最容易为用户接受的属性组成统一接口。

近几年,对Deep Web的研究和实践,尤其在商业领域已经有了一定实质性的成果。但对网络数据库内容的获取仍处于起步阶段,并且现在Deep Web研究范围一般限定在英文数据库上,因此对中文Deep Web技术的研究应当引起关注。

Deep Web信息资源获取可按如下步骤进行:发现数据源,数据源聚类,将同一领域查询接口集成为统一查询接口,将用户提交给统一接口的查询映射到与查询相关的在线数据库,提取在线数据库返回的结果,集成与查询相关的在线数据库返回的结果,并以统一的形式展现给用户。

基于Deep Web信息资源的特性,可以从宏观政策、可利用的工具和实现技术三方面来对Deep Web信息资源进行开发和利用。

(1)宏观计划与政策

从根本上讲,Deep Web属于网络信息资源组织范畴的问题,所以有人提出了“国际互联网信息资源控制计划(Universal Internet Information Resources Control,UIIRC)”,建立一个国际互联网信息资源控制中心组织(UIIRCO),负责组织、协调各国在网络信息资源控制与管理方面的工作。

UIIRC计划的结构大致包括三个层次:国际的、国家级的和地区层次的互联网信息资源控制计划。UIIRC计划的最大特点在于合作与分工。它把全球互联网信息资源控制与管理这样庞大的任务,按国家、地区分成多个子任务。就一个国家、地区而言,每天发布的新的网络信息都不会很多,搜索引擎完全有能力跟踪其最新变化。由UIIRCO组织专家专门从事搜索工具的研究开发工作,把成果反馈给各级UIIRCO使用,而所有的索引信息都输送给统一的国际互联网信息资源索引数据库。索引数据库是分布式的,可以根据需要在不同的国家、地区建立镜像站点,按实际情况建立数据复本。用户检索时,只需访问最近站点,能减少远程通讯费用。

(2)利用各种检索工具

利用Deep Web门户网站,把自己当作一个“寻猎者”,把检索工具当作搜索武器,充分利用信息环境中的可能条件及各种查询工具的有关知识,随时利用各种技巧搜索难以捕捉的信息资源。目前网络中有许多专门搜索Deep Web信息的工具网站,通过这些专门的门户便可以找到Deep Web信息资源。

利用搜索引擎:在一般情况下,存储在数据库中的信息可能不被普通的搜索引擎所发现,但许多由简单的HTML页面构成的Web界面则完全能够被搜索引擎的“爬虫”搜索到。一旦“爬虫”发现了一个入口,就有可能用数据库内部提供的检索服务技术,涉足全部的丰富内容。发现这种入口的难度比较大,可以在搜索引擎中用检索术语,诸如“可检索数据、互动工具、交互式数据库、定制式数据库”和其他类似的短语,通过运行优先检索权来进行,即在搜索引擎中用布尔逻辑“and”运算符,加上述关键词,检索有关主题。用这样的检索策略找到的信息可能多半是Surface Web信息,但可以从中发现Deep Web数据库的入口通道,再由此进行Deep Web信息的检索。

利用高质量的主题/学科通道:与普通搜索引擎的信息源不同,主题/学科通道通常是少量资源的排序,是针对特定议题或者用户进行人工选择的资源。它具有主题范围的明确性以及质量控制的严格性,还有内容描述(包括人工编制的关键词、可控术语和精炼评述),其所选信息源的链接采用实用的分类浏览结构,甚至还有部分手工制作的元数据。它与普通的搜索引擎互补,可以提供搜索引擎“未加工”的、但属于主题指南范围内的狭小的信息源,而搜索引擎提供的是与某专题有关的广泛的信息源。

尝试离线查找帮助:越来越多的高质量的印刷型出版物正在网络化,其中一些仅仅是印刷物在网上的再现,另一些则是创建增值的互动工具,将其作为原有出版物核心内容的补充,而使用互动界面的网站一般可界定在Deep Web范围之内。以评论网站为特色的出版物对于搜寻Deep Web资源很有帮助,因为通过这些评论信息,可以发现某个站点的潜力,这样可以尝试搜寻该站点,从而有利于找到一些重要的Deep Web资源。

(3)微观实现技术

Deep Web爬虫设计:传统的爬虫仅能爬行所谓的公共可索引的页面,它是通过分析页面中超链接来爬行的。然而Deep Web页面是为响应来自客户端的表单查询请求而由服务器端后台数据库动态产生的。因此要获取这个页面集,就需要一种特殊的爬虫来搜集这些页面。一般需要如下几个步骤:寻找Deep Web入口页面、自动提交表单、识别和存取查询结果。

Deep Web信息集成:对Deep Web研究的根本目的是为了能够自动地获取利用自由分布在整个Web上的Deep Web中丰富的信息并加以集成。虽然整个Deep Web中几乎包含了我们所需要的任何信息,但要想以手工的方式对其加以有效地利用,在实际当中是一件非常困难的事情,而对Deep Web数据库的集成正是为了以尽可能自动的方式来完成对Web数据库中信息的有效利用。

随着Web2.0网站的大量涌现,面向深层网络的各类技术已经开始成为网络技术发展的主要趋势之一,但针对深层网络的技术仍然处于探索阶段,距离实际应用还比较远,仍有大量的问题需要研究。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈