首页 理论教育 网络舆情中的话题特征选择-流程、方法分析

网络舆情中的话题特征选择-流程、方法分析

时间:2023-11-04 理论教育 版权反馈
【摘要】:图4-1为特征选择过程的流程图。目前应用比较普遍的是过滤式特征选择方法,包括距离度量[96]、信息度量[97]、依赖性度量[98]、一致性度量[99]。由于后文将提出基于信息度量的、结合话题特点的特征选择方法,本节首先对信息论里的几个重要概念做简单介绍,然后介绍两种话题特征选择方法。

网络舆情中的话题特征选择-流程、方法分析

特征选择本质上是一个组合优化的问题,它的定义方法有多种,但是目的基本相同:寻找最优特征子集描述目标[92]。图4-1为特征选择过程的流程图。由以下流程图可以发现,特征选择的过程主要包括四部分:确定特征子集、对特征子集进行评价、特征选择的结束条件和对选择的特征子集进行性能评价。目前该方面的研究主要围绕搜索策略和评价准则展开。其中基于搜索策略划分的特征选择方法包括:全局最优搜索策略、随机搜索策略和启发式搜索策略[93],以上搜索策略都有自己的优点和缺点,在实际应用中,可根据不同的需要选择合适的搜索策略。例如,如果样本数比较少,可选择全局搜索策略,因为其搜索性能最优,但时间消耗大;如果对计算速度的要求比较高,则可选择启发式搜索策略;若在性能和速度上为二者的折中,则可选择随机搜索策略。若基于评价标准来划分特征选择方法,包括过滤式(filter)[94]和封装式(wrapper)[95]。由于封装式的评价标准计算量大,所以时间消耗就比较大,不适合处理大数据,其优点是计算的准确率比较高。过滤式速度比较快,选出的特征子集与后续学习算法无关,其性能低于封装式。目前应用比较普遍的是过滤式特征选择方法,包括距离度量[96]、信息度量[97]、依赖性度量[98]、一致性度量[99]。由于后文将提出基于信息度量的、结合话题特点的特征选择方法,本节首先对信息论里的几个重要概念做简单介绍,然后介绍两种话题特征选择方法。

(www.xing528.com)

图4-1 特征选择过程流程图

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈