根据中国互联网信息中心提供的数据,中国的互联网页面从内容上看,仍是文本居多,占到网页总数的85%以上,其次是图像,音频和视频网页数量相对比例仍旧不高。因此,不良信息监测相关的研究大多集中于文本信息的监测,本书中所指的不良信息也主要是文本形式的信息。归纳起来,不良信息监测技术研究主要分为以下几类:
1.网络处理协议及体系结构研究
目前相关的研究大多集中在网关或用户端的信息过滤与自动屏蔽上,通常基于信息过滤技术。信息过滤系统中对信息源数据的获取往往采用网络监听的方法。网络底层信息监听可以采取两种方法:一是利用以太网的广播特性实现,二是通过设置路由器的监听端口实现。在这一方面,曲建华于2003年进行了Web上的信息过滤问题研究[5];文自勇于2005年进行了分布式网络监听系统研究与实现[6];郑海春于2003年进行了网络监听技术的研究与应用[7]。网络监听作为信息监测领域一个较成熟的手段,目前对于这方面的研究仍然占很大比重。
为进一步提高内容分析系统的处理能力和加快响应时间,谭建龙提出了扁平结构的网络内容分析模型[8],其主要思想是把各个协议层的数据处理函数集中到一个层次中,从而减少内存访问次数,便于协议自动实现。对任何一个数据包,各个分析层尽可能地进行处理,包括尽可能早地执行关键词匹配,尽可能早地发现匹配规则,从而尽可能早地执行响应动作。
但是,采用网络底层的监听技术,需要对已有网络进行较大规模的改动。这种技术成本高、灵活性差,对监测点的选择提出了较高的要求,很难有效地应对不良信息传播者的“游击”策略。同时,该方法对于在网络用户端进行信息过滤有较大优势,而不适合本文所针对的应用需求。
2.面向不良信息的文本分类研究
文本分类是实现不良信息监测的关键技术,目前在这方面的研究较多,是信息内容安全领域所关注的一个重点。(www.xing528.com)
熊静娴、李生红在模糊集和语义网络的理论基础上,通过构建模糊值动态约束性概念网络,进行了面向不良文本信息监控的概念网技术研究,提出基于概念网络的文本分析算法[9]。黄海英、林士敏、严小卫也进行了基于概念空间的文本分类研究[10],提出基于概念空间的文本分类机制,表现出明显的性能优势。郭莉、张吉、谭建龙提出一种基于后缀树的文本向量空间模型(VSM),并在此模型之上实现了文本分类系统[11]。对比基于词的VSM,该模型利用后缀树的快速匹配,实时获得文本的向量表示,不需要对文本进行分词、特征抽取等复杂计算,同时还能保证训练集中文本更改能够对分类结果产生实时影响,具有较好的时间复杂度。分类过程和语种无关,是一种独立语种的分类方法。万中英、王明文、廖海波以提高分类精度为目的,提出一种基于投影寻踪(Projection Pursuit,PP)的中文网页分类算法[12]。他们首先利用遗传算法找到一个最好的投影方向,然后将已被表示成n维向量的网页投影到一维空间,最后采用KNN算法进行分类,能够有效解决“维数灾难”问题。林鸿飞、姚天顺提出基于示例的中文文本过滤模型[13],首先对于用户提出的示例文本进行文本结构分析,采用文本层次的方法提取文本特征,形成主题词表示的用户模板,然后进行文本过滤;同时在用户反馈的基础上扩充示例文本数量,进而采用基于潜在语义标注的文本过滤方法,改进用户模板,提高过滤效率。樊兴华、孙茂松采用两步分类策略,提出一种高性能两类中文文本分类方法[14],首先以词性为动词、名词、形容词或副词的词语为特征,然后将文本看做由词性为动词或名词的词语构成的序列,以该序列中相邻两个词语构成的二元词语串作为特征,以改进互信息公式来选择特征,以朴素贝叶斯分类器进行分类。该两步分类方法达到了较高的分类性能。卢军、卢显良、韩宏、任立勇针对网络信息的实时过滤问题,提出一种基于代理服务器的网络信息实时过滤机制[15]。为提高信息过滤的性能,还提出一种高效的关键词集合匹配方法(KPSMM),该方法可以实现关键词集合的高效过滤,其性能比传统的字符串过滤方法有较大提高。
此外,基于决策树(Decision Tree)、粗糙集(Rough Set)[16]、Ripper方法[17]、Boosting方法[18]以及k邻近(KNN)方法[19]、贝叶斯(Bayes)方法[20]、Rocchio方法、支持向量机(SVM)[21]等的研究相当多。
3.不良信息特征提取研究
文本特征的表示与特征提取是分类算法的基础与前提,在以上列举的文本分类算法中都有提及。但由于不同领域信息的形式特殊性,许多研究者也对特征提取进行了专门研究。
陈文亮、朱靖波、朱慕华、姚天顺以提高分类性能为目的,提出了一种结合机器学习和领域词典的文本特征表示方法[22]。他们利用了基于领域词典的文本特征表示方法增强文本特征的表示能力并降低文本特征空间维数;同时又提出一种自划分模型以解决领域词典存在覆盖度不足的问题,在特征数目较少的情况下,该方法表现出很好的分类性能。为解决分词给分类系统带来的消极影响,胡吉祥、许洪波、刘悦、程学旗提出了一种基于重复串的特征提取方法[23],该方法无需分词便可以从文本中提取有意义的重复串作为特征,能降低特征空间维数,同时可有效改善传统以词为特征的聚类算法的性能。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。