文本分类指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。这样,用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找变得更加容易、便捷。
文本分类问题是自然语言处理领域中一个非常经典的问题,相关研究可追溯到20世纪60年代,那个时期Maron开创性地提出了概率索引模型,采用了贝叶斯公式来进行文本分类。20世纪70年代,Salton等人提出了向量空间模型。在后来一段时间内,知识工程成为文本分类的主要技术。20世纪90年代,基于统计和机器学习的文本分类方法逐渐兴起。先由机器从文档中挖掘出一些能够有效分类的规则,通过训练得到分类器,这成为目前的主流方法。目前文本分类的算法大致分为两类:一种是传统的分类算法,一种是基于机器学习的算法。
文本分类按照任务类型的不同可划分为问题分类、主题分类以及情感分类。常用于数字化图书馆、舆情分析、新闻推荐、邮件过滤等领域,为文本资源的查询、检索提供了有力支撑,是当前的主要研究热点之一。
文本分类从流程上可分为文本预处理、文本表示、特征提取与选择、分类器训练等过程,其中最关键的步骤是特征提取和分类器训练。
(1)文本预处理
文本预处理过程是在文本中提取关键词表示文本的过程,中文文本处理中主要包括文本分词和去停用词两个阶段。之所以进行分词,是因为很多研究表明特征粒度为词粒度远好于字粒度,其实很好理解,因为大部分分类算法不考虑词序信息,基于字粒度显然损失了过多“N-gram”信息。具体到中文分词,不同于英文有天然的空格间隔,需要设计复杂的分词算法。
(2)文本表示
文本是由词和短语构成的符号序列。文本表示的目的是把文本预处理后的信息转换成计算机可理解的方式,对词和文本进行向量化建模。传统的文本表示模型有布尔模型、向量空间模型VSM、概率模型以及图空间模型。然而,这些传统的文本表示方法缺乏语义表征能力。伴随着Word2vec、Glove等分布式单词表示技术的兴起,深度文本表示模型得到了广泛的研究和应用。此外,为了弥补模型在词向量处理阶段忽略单词之间排列顺序的缺陷,Doc2vec在Word2vec算法的基础上引入段落信息,增强模型表示文本语义的准确性和完整性。
(3)特征提取与特征选择
特征提取和特征选择都是特征降维的重要手段。特征提取是其对原始的特征空间进行压缩、变换生成新的语义空间,能够较好地解决自然语言中的一义多词、一词多义问题,并降低原始空间的维度。特征选择是指从原始的特征空间中筛选部分重要特征组成新的特征集合,从而提高文本分类的准确率和效率,不改变原始空间的性质。常用的特征选择算法有文档频率、期望交叉熵、互信息等;常用的特征抽取方法有潜在语义索引、主成分分析和非负矩阵分解。
(4)分类器训练(www.xing528.com)
分类器基本都是统计分类方法,大部分机器学习方法都在文本分类领域有所应用,比如朴素贝叶斯分类算法、KNN、SVM、最大熵和神经网络等,传统分类模型也比较被人们所熟知,本书不再展开叙述。
(5)深度学习
近年来,深度学习技术在文本、语音、图像等多媒体信息的处理任务中取得突破性进展。深度学习方法能够通过多层语义操作获得更高层、更抽象的语义表征,并将特征提取工作融于模型的构建过程中,减少人为设计特征的不完备性与冗余,深度学习最初之所以能在图像和语音方面取得巨大成功,一个很重要的原因是图像和语音的原始数据是连续和稠密的,有局部相关性。应用深度学习解决大规模文本分类问题最重要的是解决文本表示,再利用CNN/RNN等网络结构自动获取特征表达能力,去掉繁杂的人工特征工程,实现端到端地解决问题。
常用的深度学习模型有卷积神经网络(CNN)、循环神经网络(RNN)等。卷积神经网络由输入层、卷积层、池化层、全连接层以及softmax层构成,卷积层和池化层是CNN的核心组件,经过卷积和池化操作,将原始特征映射到更高层次维度的语义空间。RNN是一种常用的文本信息处理深度学习模型,RNN擅长处理序列数据,并且具备变长输入和发掘长期依赖的能力。当前,RNN除应用于文本分类之外还广泛应用于语音识别、机器翻译等诸多领域。
(6)基于大数据挖掘技术的一种文本分类
①从互联网上收集大量电子文本数据,并对每一类型进行分词和去停用词处理。
②计算每一篇电子文本的词的权值,所有词的权值组成原始特征向量集合。
③采用KPCA从原始特征向量集合中提取重要特征向量。
④将重要特征向量作为输入,文本类型作为输出,采用ELM对训练样本集进行学习,建立文本分类器。
⑤对于文本分类的测试数据集,提取和选择特征,并用建立的分类器进行分类,输出文本分类结果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。