首页 理论教育 网络舆情研究中的TDT评测会议与语料信息

网络舆情研究中的TDT评测会议与语料信息

时间:2023-11-04 理论教育 版权反馈
【摘要】:在DARPA和NIST的资助下,从1998年开始,每年都举办TDT评测会议,对参赛单位的系统进行评测,实验数据由美国语言资源联盟提供。这种会议促评方式具有以下特点:研究任务非常明确、训练数据和测试数据统一且公开、评测标准统一。图2-2为美国语言资源联盟官网提供的和话题识别与追踪相关的语料信息截图,图2-2为该网站提供的相关研究文献资料。本书后续研究的测试集合均采用图2-2中的TDT2语料。图2-2TDT相关语料信息和文献资料

网络舆情研究中的TDT评测会议与语料信息

随着计算机及其网络技术的快速发展,尤其是各种网络新媒体(微博、微信、QQ、社区等)的出现,使我们已经摆脱信息匮乏的状态,随之出现了信息爆炸的问题。海量信息的典型特点为异质性和价值密度低,这种情况下,亟须解决的问题是如何快捷、准确地获取人们感兴趣的有效信息。早期的研究者们尝试将信息检索、信息过滤、信息提取技术用于解决该问题,并取得了一定的成效。话题识别与追踪技术也是解决上述问题的方法之一,与上述方法不同的是它更强调动态性、过程性,可帮助用于了解某个话题的整个脉络及未来发展趋势。

话题识别与追踪技术源于1996年,其倡导者为美国国防部高级研究计划局(DARPA),该部门提出话题识别与追踪技术的目的是希望可以自动判断新闻信息属于哪个主题并且能把同一主题下相关的新闻信息联系起来。在DARPA和NIST的资助下,从1998年开始,每年都举办TDT评测会议,对参赛单位的系统进行评测,实验数据由美国语言资源联盟(Linguistic Data Consortium,LDC)提供。参加会议的机构主要包括三类:大学、研究机构、公司。其中代表性的大学包括美国卡耐基·梅隆大学、马萨诸塞大学、宾夕法尼亚州立大学,国内的参赛大学包括台湾大学北京大学哈尔滨工业大学等,研究中心包括IBM Watson研究中心、国内的中国科学院等,代表性的公司为BBN Technologies公司。总体上,话题识别与追踪系列评测会议主要呈现两大明显趋势:①信息来源多样化;②语言种类丰富化。TDT评测语料已经从最初的纯英语语料变为包括英语、中文、阿拉伯语三种语言。

话题识别与追踪技术采用以会促评的方式推动了该技术的深入发展。这种会议促评方式具有以下特点:研究任务非常明确(五个子任务)、训练数据和测试数据统一且公开(TDT语料)、评测标准统一。会务组最终将各个参赛单位的研究成果放在一个公共的平台,做出更加客观、公正的评比。通过对比,使得各个研究团队认识到自己研究成果的优劣。从研究问题的提出到话题识别与追踪系列测评,我们可以看到推动该技术发展的主要原因就是应用。为了强调应用性,以往的话题识别与追踪评测会议一直试图模拟真实的应用环境。另外,为了体现智能化,更好地满足实际应用的需求,话题识别与追踪相关研究努力将自然语言处理的相关研究成果应用其中,这也是其细粒度研究分支发展的推动力之一。

图2-2(a)为美国语言资源联盟官网(https://www.ldc.upenn.edu)提供的和话题识别与追踪相关的语料信息截图,图2-2(b)为该网站提供的相关研究文献资料。本书后续研究的测试集合均采用图2-2(b)中的TDT2语料。(www.xing528.com)

图2-2 TDT相关语料信息和文献资料

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈