【摘要】:在话题识别与追踪领域应用比较多的是TF-IDF权重计算方法,在2002年的TDT评测会议中,CMU、IBM、Umass均基于该方法进行话题特征选择。增量式TF-IDF随着时间的推移会发现新的术语,而且这些术语的权重依据增量式报道集合计算,体现了动态性,更符合实际情况。则t时刻特征k在报道d中的权重为:观察以上公式可以发现,ITF-IDF特征提取方法主要考虑了随着时间变化特征频度的变化引起权重更新。
在话题识别与追踪领域应用比较多的是TF-IDF权重计算方法,在2002年的TDT评测会议中,CMU、IBM、Umass均基于该方法进行话题特征选择。但是,话题不同于普通文本数据,属于典型的流数据,具有明显的动态性。基于此,Brants在文献[103]中给出了一个新的话题特征选择方法:增量式TF-IDF(Incremental TF-IDF,ITF-IDF)。在TF-IDF方法中,术语的频度被文档倒排频度修订,在ITF-IDF方法中,文档频度df(k)不是静止不变的,而是随着时间t变化的,假设在时刻t,新增加新闻报道集合为Ct,此时包含特征k的新闻报道总数更新为:
其中,dft-1(k)为t-1时刻包含特征k的新闻报道数,dfCt(k)为t时刻新增的包含特征k的新闻报道数,df0(k)表示初始的文档频度,该值由训练集产生(有可能为0)。增量式TF-IDF随着时间的推移会发现新的术语,而且这些术语的权重依据增量式报道集合计算,体现了动态性,更符合实际情况。则t时刻特征k在报道d中的权重为:(www.xing528.com)
观察以上公式可以发现,ITF-IDF特征提取方法主要考虑了随着时间变化特征频度的变化引起权重更新。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。