首页 理论教育 多源视觉信息感知与识别架构和组成

多源视觉信息感知与识别架构和组成

时间:2023-11-19 理论教育 版权反馈
【摘要】:人们在生活中时时刻刻都在进行视觉媒体的感知与识别。有两种基本的感知识别方法,即基于统计的方法和基于结构(句法)的方法,与此相应的感知识别系统都由两个过程所组成,即设计和实现。图1-4视听感知识别系统的基本组成结构图1.信息获取为了使计算机能够对各种现象进行分类感知识别,要用计算机可以运算的符号来表示所研究的对象。

多源视觉信息感知与识别架构和组成

人们在生活中时时刻刻都在进行视觉媒体的感知与识别。环顾四周,能认出周围的物体是桌子、椅子,能认出对面的人是张三、李四;听到声音,能区分出是汽车驶过还是玻璃破碎,是猫叫还是人语,是谁在说话,说的什么内容;闻到气味,能知道是炸带鱼还是臭豆腐。人们所具备的这些感知识别能力看起来极为平常,谁也不会对此感到惊讶,就连猫狗也能认识它们的主人,更低等的动物也能区别食物和敌害。因此,过去的心理学家也没有注意到模式识别的能力是个值得研究的问题,就像苹果落地一样见惯不惊。只有在计算机出现之后,当人们企图用计算机实现人或动物所具备的感知识别能力时,它的难度才逐步为人们所认识。由于目前计算机的感知识别在多数方面还远不如人,因此研究人脑中的感知识别过程对提高机器的能力是有益的;反之,研究机器感知识别的能力对于理解人脑中的过程也有很大帮助,认知心理学的很多新模型即得益于此。

有两种基本的感知识别方法,即基于统计的方法和基于结构(句法)的方法,与此相应的感知识别系统都由两个过程所组成,即设计和实现。设计是指用一定数量的样本(称为训练集或学习集)进行分类器的设计。实现是指用所设计的分类器对待识别的样本进行分类决策。本书只讨论基于统计的方法,主要由四个部分组成:数据获取、预处理、特征提取和选择、分类决策,如图1-4所示。

下面简单对这几个部分做些说明。

图1-4 视听感知识别系统的基本组成结构图

1.信息获取

为了使计算机能够对各种现象进行分类感知识别,要用计算机可以运算的符号来表示所研究的对象。通常输入对象的信息有下列3种类型,即:

(1)二维图像,如文字、指纹、地图、照片这类对象;

(2)一维波形,如脑电图、心电图机械振动波形等;(www.xing528.com)

(3)物理参量和逻辑值,前者如在疾病诊断中病人的体温及各种化验数据等;后者如对某参量正常与否的判断或对症状有无的描述,如疼与不疼,可用逻辑值即0和1表示。在引入模糊逻辑的系统中,这些值还可以包括模糊逻辑值,比如很大、大、比较大等。

通过测量、采样和量化,可以用矩阵或向量表示二维图像或一维波形。这就是数据获取的过程。

2.预处理

预处理的目的是去除噪声,加强有用的信息,并对输入测量仪器或其他因素所造成的退化现象进行复原。

3.特征提取和选择

由图像或波形所获得的数据量是相当大的。例如,一个文字图像可以有几千个数据,一个卫星遥感图像的数据量就更大。为了有效地实现感知识别,就要对原始数据进行变换,得到最能反映分类本质的特征。这就是特征提取和选择的过程。一般把原始数据组成的空间称为测量空间,把感知分类识别赖以进行的空间称为特征空间,通过变换,可把在维数较高的测量空间中表示的模式变为在维数较低的特征空间中表示的模式。在特征空间中的一个模式通常也称为一个样本,它往往可以表示为一个向量,即特征空间中的一个点。

4.分类决策

分类决策就是在特征空间中用统计方法把被识别对象归为某一类别。基本做法是在样本训练集基础上确定某个判决规则,使按这种判决规则对被识别对象进行分类所造成的错误识别率最小或引起的损失最小。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈