首页 理论教育 音乐数据分析-去除工尺谱无效空间信息

音乐数据分析-去除工尺谱无效空间信息

时间:2023-11-18 理论教育 版权反馈
【摘要】:实验结果表明,通过加入少量先验约束对信息,半监督近邻传播算法较大程度地改善了无监督近邻传播算法的聚类结果。其中第步工尺谱的空间信息特征数据由图像的连通区域特征数据构成,分别是连通区域的大小、像素统计数、左上角坐标、右下角坐标等常用的特征数据。表9-1《九宫大成南北词宫谱》和《纳书楹曲谱》的乐谱空间无效信息的总识别率图9-6乐谱二维空间的有效语义信息与无效信息的分离

音乐数据分析-去除工尺谱无效空间信息

一、聚类分析

聚类分析指将物理或抽象对象的集合分组为由类似对象组成的多个类的分析过程。聚类分析是人工智能的重要研究内容,是无监督的分类方法,聚类通常把一些具有某些特征表示的数据集,按数据之间的相似性进行合并,最后达到分类的目的。

聚类分析的目标是在相似的基础上收集数据来分类。常见的聚类方法有层次聚类算法、顺序聚类算法、基于密度聚类算法、基于代价函数最优聚类算法、概率聚类算法、模糊聚类算法、最小生成树聚类、竞争学习算法、基于形态学变换聚类算法、边界检测聚类算法、分支与约束聚类算法、遗传聚类算法等。

杨小兵指出聚类分析是数据挖掘的最主要的功能之一,聚类就是将数据对象分组为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。文献首先介绍了聚类分析的定义、聚类算法的基本要求以及聚类中用到的主要数据类型;然后讨论了聚类分析的各种算法:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法;最后对聚类算法的应用领域进行了探讨。[191]

肖宇提出了一种加权的自适应高斯型相似性度量方法。传统的高斯型相似度适用于同密度簇的聚类问题,而且对于数据中的野值点不够鲁棒。考虑到实际数据中野值点和不同密度簇的存在,肖宇提出了一种新的鲁棒的高斯型相似度计算方法。基于已有的自适应高斯型相似度度量,新的相似度根据数据点的邻域信息对每个数据点赋以权值,并通过降低野值点的权重来降低野值点与其他数据点的相似度。实验表明新的相似性度量能更好地反映类内和类间数据点的相似性关系,得到更加满意的聚类结果。文章还提出一种基于近邻传播算法的半监督聚类算法。近邻传播算法是基于相似度矩阵的聚类算法,新算法根据约束对先验信息调整相似度矩阵,进而改善聚类结果。实验结果表明,通过加入少量先验约束对信息,半监督近邻传播算法较大程度地改善了无监督近邻传播算法的聚类结果。[192]

夏永泉等人针对高分辨率天文图像中的星点聚类研究中存在的两个问题:一是天文图像的分辨率较高,且图像处理速度较慢;二是选取何种聚类算法对天文图像中的星点进行聚类分析效果较好。在研究中,问题一采用图像分块的方法提高图像的处理速度;问题二提出了一种改进的K均值聚类算法,以解决传统的K均值聚类算法的聚类结果易受到k值和初始聚类中心随机选择影响的问题。该算法首先在用K均值聚类算法对数据初步聚类的基础上确定合适的k值,其次用层次聚类对数据聚类确定初始聚类中心,最后在此基础上再采用K均值聚类算法进行聚类。通过MATLAB仿真实验的结果表明,该算法的聚类结果与效率优于其他聚类算法。[193]

二、层次聚类实现方法

层次聚类是聚类算法的一种,它通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最底层,树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法。

刘明波等人指出K-means聚类算法所构建的视觉词典已无法满足用户对图像分类的需求,为了提高视觉词汇码本的质量和图像分类的准确率,针对构建视觉词典的算法进行研究。在空间金字塔模型的基础上,图像分类算法首先采用K-means算法对SIFT特征进行初步聚类,得到一个粗略的划分;然后利用层次聚类进行精确归类;最后对视觉词典进行特征编码并且用SVM分类器进行分类,在混合的聚类算法中引入基于信息熵的属性加权方法,通过信息熵度量类间及类内的相似性。在Catchl01和Catch256[194]图像库上的实验结果表明,与传统的K-means算法和加权K-means算法相比,结合信息熵的混合聚类算法能够有效提高空间金字塔模型的分类准确率。

工尺谱的层次聚类的实现一般包含若干步,对于第t步而言,它是在第t-1步的基础上进行进一步的聚类,它有两个不同的方向,即合并聚类算法和分裂层次聚类算法。在工尺谱的有效空间信息提取采用合并算法,具体步骤如下:

(1)设工尺谱的空间信息特征数据集为R={x1,x2,……,xi,……,xN},初始化t=0。(www.xing528.com)

(2)t=t+1,在R的所有可能聚类对(Cr,Cs)中找一组(Ci,Cj),满足:

【noindent】记Cq=CiUCj,并产生新聚类Rt=(Rt−1−{Ci,Cj})U{Cq}。

(3)重复第(2)步,直到所有的数据加入到两个类别中,即有效语义信息类别和无效信息类别。

其中第(1)步工尺谱的空间信息特征数据由图像的连通区域特征数据构成,分别是连通区域的大小、像素统计数、左上角坐标、右下角坐标等常用的特征数据。

三、实验结果与分析

实验选取了二部经典的清代昆曲剧本《九宫大成南北词宫谱》和《纳书楹曲谱》为例,它们分别包含6951页和4242页有效的乐谱,先利用图像处理方法对每页乐谱图像进行二值化处理,然后对每页乐谱图像进行区域标记,提取出区域特征,包括面积、周长、宽高等,再利用层次聚类算法,对每页乐谱进行有效语义信息和无效信息的分类,最后统计无效信息的识别效果。

随机选取了《纳书楹曲谱》的一页曲谱,如图9-6所示为分类结果,图9-6(a)为有效的语义信息的空间图像,图9-6(b)为无效信息的空间图像。很显然,图9-6(b)主要由边框组成,利用边框可以获取边框内的有效语义信息,而边框外为无效信息的空间图像。

实验用乐谱无效信息的识别率的统计结果见表9-1,这里的无效信息以边框为代表,统计了乐谱的三边边框或四边边框的识别率,很显然,每种图像局部特征的三边边框的识别率都高于四边边框。如图9-6所示,一般的乐谱由于版式上的安排,边框的三条边比另外第四条边要明显,符合人们的主观感受。

表9-1 《九宫大成南北词宫谱》和《纳书楹曲谱》的乐谱空间无效信息的总识别率

图9-6 乐谱二维空间的有效语义信息与无效信息的分离

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈