在图像处理中,特征是从图像中抽象出来的能表示此图像特性的数据集合,包括特征提取、特征压缩、特征选择等过程。特征提取是从图像提炼出标识数据的过程,特征压缩是在特征数据中删除一些重复的、不重要的特征数据,而特征选择则是为了特定的目标而选择特征数据的过程。
特征提取是计算机视觉和图像处理中的一个概念,指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。特征提取是图像处理中的一个初级运算,也就是说它是对一个图像进行的第一个运算处理。
在工尺谱图像处理中,特征数据是谱式分类、语义对象提取和识别、树状结构解构和乐音时序分析的操作对象,特征提取与选择是高识别率、高泛化性分类网络的一个重要研究内容。在深度学习技术中,如卷积神经网络(CNN)利用迭代的卷积层和池化层提取特征数据,而在传统的光学乐谱识别分类器中,多采用人工设计的特征数据。
由于乐谱在色彩上一般为黑白图像或灰度图像,这里利用图像的连通区域标记算法对工尺谱曲谱图像的连通区域进行标记,然后得到人工设计的多维特征数据集,如连通区域的长、宽、面积、最小横坐标、最小纵坐标等特征,如图9-3所示是对图9-1(b)进行连通区域标记后得到的特征数据,图9-3(a)为所有连通区域的长、宽为坐标的图示。很明显,有些孤立点是页面框架、或是粘连在一起的谱字块;图9-3(b)为利用形态学聚类分析方法去掉孤立点后的所有连通区域的长、宽图示;图9-3(c)为连通区域的最小横坐标出现的次数图示;图9-3(d)为连通区域的最小纵坐标出现的次数图示。
选择合适的分类特性有利于高识别率、高泛化性分类网络的优化,高内聚、低耦合是特征选择的原则,欧氏距离、街区距离、Mahalanobis距离和Hamming距离等距离度量方法可以得到不同特征之间的相似测度与不相似测度,这些距离度量方法以实向量或者离散向量为测度操作对象。用于工尺谱的特征相似测度有Pearson’s correlation coefficient、内积等,不相似测度有Tanimoto测度、Hamming距离、加权Lp度量、Contingency table等,单向量到向量集合之间的测度有最大近邻函数、最小近邻函数和平均近邻函数等。(www.xing528.com)
图9-3 对图a的连通区域的标记后的特征数据的图示结果
关于乐谱图像中的某个连通区域,不仅要考虑它和哪些连通区域附属于同一个曲词或谱字,而且要考虑它与这些连通区域之间的时序关系,从而正确解构乐谱的多维树状结构。为方便分析语义对象的附属关系与时序关系,可以采用如下的最小近邻函数和加权Lp度量为特征选择依据:
其中左边一个公式度量当前连通区域特征数据与其他连通区域之间的测度度量,右边公式是对此连通区域向量与其他向量之间的测度度量,C为连通区域,x,y分别是要度量的向量,wi是第i个权重系数,p为向量维度。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。