首页 理论教育 音乐数据分析-文本挖掘简介

音乐数据分析-文本挖掘简介

时间:2023-11-18 理论教育 版权反馈
【摘要】:文本挖掘通常指的是从文本数据中获取有价值的信息和知识,并且利用这些知识更好地组织信息的过程。常见的文本挖掘技术包括相似度算法、线性方法、非线性方法和概率方法等。监督评估是对文本挖掘的结果进行自动或人工评估,预测获取的新知识对决策的作用,对有利于决策的知识采用合理的方法进行知识表示并采用可视化的方法进行展示和交流。

音乐数据分析-文本挖掘简介

文本文档中包含有庞大的知识,它们被存储于互联网和局域网内,也存在于各个组织和个人计算机中,如数字图书馆电子出版社、E-Mail等。这些文本数据大多是半结构化的数据,对这些文本数据的挖掘和分析形成了专门的研究内容。文本挖掘通常指的是从文本数据中获取有价值的信息和知识,并且利用这些知识更好地组织信息的过程。通过自动抽取事先未知的、有效的、新颖的、有用的、可理解的、散布在文本文件中的有价值知识,为决策提供信息支撑。

文本挖掘是一个主要建立在文本分析技术基础上的新兴功能集,文本信息的自动分析有几个不同的目的:①对大型文档集的内容做一个纵览,并以最有效的方式来组织它们;②识别文档或文档之间的隐藏结构;③提高搜索过程的效率以找到类似的或相关的信息;④检测存档文件中的副本信息或文档。[101]

梅馨等人对文本挖掘技术进行了综述,该文献先介绍了文本数据挖掘技术的演化过程和重要的研究论文,然后给出了文本挖掘的框架,包括信息检索、信息提取、信息挖掘和信息解析等,再对文本挖掘中信息的抽取技术以及文本挖掘中使用的相关技术、评估方法等都做了详细的介绍,如事务与事务规则、概念聚类、概念层次、自然语言处理、神经网络等,最后指出了文本挖掘在知识发现中的重要意义,展望了文本挖掘在信息技术中的发展前景。[102]

文本挖掘的一个重要数据对象是Web数据,针对Web数据挖掘,王继成等人认为Web文本挖掘技术是从浩瀚的Web信息资源中发现潜在的、有价值知识的一种有效技术,Web挖掘正悄然兴起而处于发展阶段,尚无统一的结论,需要国内外学者在理论上开展更多的讨论,Web挖掘系统的开发对其研究也将起到很大推进作用。[103]他们在文中探讨了Web挖掘的有关理论,从Web挖掘的定义、Web挖掘与Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述,然后重点分析了Web文本挖掘的方法,包括文本的特征表示、文本分类与文本聚类,在此基础上简单介绍了一个Web文本挖掘系统原型—WebMiner。WebMiner采用了多Agent体系结构,将多维文本分析与文本挖掘这两种技术有机地结合起来,以帮助用户快速、有效地挖掘Web上的HTML文档。

文本挖掘通常可以分为文本集获取与准备、文本提炼(或特征提取)、挖掘模型、监督评估和知识表示等几个过程,如图5-1所示。

图5-1 文本挖掘基本过程

文本挖掘的对象是文本数据,这些数据可以是结构化数据或半结构化数据,它们构成文本数据集合,文本集获取与准备是文本挖掘的基础。文本数据中,Web文本数据是最大量的文本数据源之一,这些Web文本数据包括各大门户网站的新闻、论坛的帖子、微博、博客等。获取Web文本数据的一般方法是使用网络爬虫技术,如常用的“火车头”“网络神采”等工具,或者利用Java、Python等开源的爬虫框架,或者用户按自己的要求进行开发,其中的网页解析可以用“正则表达式”或Beautiful Soup等方式。获取后的数据可以存为JSON或CSV格式文件,也可存储进非关系型数据库,如MongoDB等。(www.xing528.com)

面对庞大的文本数据对象,需要对文本进行提炼并用特征来表示提取结果。在中文文本中,利用中文分词方法把文本切分成一个一个单独的词,然后对词性进行标记,这样就得到了文本数据的数据特征。中文分词的工具主要有MSRSeg、Hylanda、HIT、ICTCLAS等,其中ICTCLAS是中国科学院计算机技术研究所研制的,主要功能包括中文分词、词性标注、命名实体识别、新词识别,同时支持用户词典,是当前世界上最好的汉语词法分析器。另外,Python的Jieba扩展包也是很好的分词工具。

常见的文本挖掘技术包括相似度算法线性方法、非线性方法和概率方法等。文本相似度算法可以为两个文本计算相似度,常用的算法包括IF-IDF、基于向量空间的余弦算法、隐形语义标引(LSI/LSA)、主题模型(LDA)等,其中LSI、LDA已经被开发为Python的Gensim扩展包。常见文本挖掘的线性方法有最小二乘拟合和支持向量机(SVM),非线性方法包括决策树和神经网络等,概率方法有贝叶斯算法等。

监督评估是对文本挖掘的结果进行自动或人工评估,预测获取的新知识对决策的作用,对有利于决策的知识采用合理的方法进行知识表示并采用可视化的方法进行展示和交流。

文本挖掘在Web用户行为分析、文本检索、文本自动分类、文本摘要与关键词提取、文本机会发现等方面有着广泛的应用。通过分析Web用户的行为,可以帮助用户获取感兴趣的有用信息。文本数据的机会发现是文本挖掘的一个研究领域,机会发现(Chance Discovery)概念是由Ohsawa.Y.提出的,它是指在动态不可预测的环境中,发现对主体决策具有重要影响的事件或状态,多年来,这一研究内容已经取得了一系列的重要成果。孙晓华等人对文本机会发现研究进行了综述,该文献从系统定义、应用环境以及目的等多个角度比较文本机会发现与文本挖掘的不同,分析文本机会发现的研究背景及现状,介绍机会的定义、文本机会发现关键算法、Scenariomap分析等文本机会发现的主要研究热点,在总结当前研究不足的基础上,指出未来文本机会发现的研究方向。[104]

文本摘要和关键词抽取是自然语言处理领域的两个重要研究课题,莫鹏等人认为它们均以生成描述文本主旨内容的精简信息为目标,尽管这两个任务目标相似,但它们通常被作为两个独立的问题分别研究,而较少考虑其彼此间的自然关联性,尽管已有学者提出了基于图模型的协同抽取方法,该方法同时考虑了句子与句子、词与词、句子与词之间的各种关系,以迭代强化的方式同时生成文本摘要和关键词,但现有模型大多仅限于表达句子与词之间的各种二元关系,而忽视了不同文本单元间潜在的若干重要的高阶关系。[105]他们在文献中提出了一种新的基于超图的协同抽取方法,该方法以句子作为超边,以词作为节点构建超图,在一个统一的超图模型下利用句子与词之间的高阶信息来生成摘要和关键词,在NLPCC 2015面向微博的新闻文本摘要任务数据集上的实验结果验证了所提方法的可行性和有效性。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈