首页 理论教育 网络舆情研究:热点话题识别与追踪集

网络舆情研究:热点话题识别与追踪集

时间:2023-11-04 理论教育 版权反馈
【摘要】:采用TDT4语料中的中文部分作为测试集合,验证研究内容的有效性。由于本书的后续实验将采用TDT4语料作为测试集合,本章将对其做详细介绍,主要包括:数据来源、语料结构和数据标注三个方面。

网络舆情研究:热点话题识别与追踪集

为体现TDT比赛的公平性、合理性,从1998年开始,会务组给出了TDT语料,该语料系列包括TDT2、TDT3和TDT4,其中的新闻信息格式包括语音和文本,来自多种新闻源,涉及不同语言。其中TDT2中的新闻报道只有英文版,其语料集合包括200个标注的新闻话题,跨越时间为1998年的1月至6月;TDT3的时间跨越为1998年的10月至12月,包括120个标注的新闻话题,语言格式有英文和中文,其中小部分话题被翻译成阿拉伯语的格式;TDT4涉及三种语言(英文、中文、阿拉伯语),历时四个月(自2000年10月至2001年1月),包括40个已经标注的新闻话题。采用TDT4语料中的中文部分作为测试集合,验证研究内容的有效性。

TDT4包括七个文件夹:file.tb1、2002 topics.html、2003 topics.html、content_summary.txt、tdt4_doctable.txt、tdt4_stats.txt、tdt4guidelines_v1_5.pdf。若想深入了解该语料的相关知识可登录LDC(Linguistic Data Consortium)的官网查看。由于本书的后续实验将采用TDT4语料作为测试集合,本章将对其做详细介绍,主要包括:数据来源、语料结构和数据标注三个方面。

1.数据来源

TDT4语料集的新闻报道来自20个新闻源,包括98245个新闻报道,涉及40个新闻话题。下文将对20个新闻源及采样频度进行分类介绍。

其中英文新闻源包括以下几个:

·美联社World-stream服务(APW_ENG),采样频度为2次;

·《纽约时报》的新闻专线服务(NYT_NYT),采样频度为3次;

·有线新闻网络的头条新闻(CNN_HDL),采样频度为3次;

·美国广播公司的今晚世界新闻(ABC_WNT),采样频度为5次;

·美国全国广播公司晚间新闻(NBC_NNW),采样频度为5次;

·国际公共广播电台(PRI_TWD),采样频度为5次;

·美国之声英文栏目(VOA_ENG),采样频度为5次;

·MS-NBC,布莱恩威廉斯新闻(MNB_NBW),采样频度为6次。

中文新闻来源于以下几种媒体:

·新华社(XIN_MAN),采样频度为2次;

·《新闻早报》(ZBN_MAN),采样频度为2次;

·中国广播系统(CBS_MAN),采样频度为3次;

·中国电视系统(CTS_MAN),采样频度为3次;

·美国之声的中文栏目(VOA_MAN),采样频度为5次;

·中国国际电台(CNR_MAN),采样频度为5次;

·中国中央电视台(CTV_MAN),采样频度为5次。

阿拉伯语新闻来源于下述媒体:

·法新社(AFP_ARB),采样频度为1次;

·生活报(ALH_ARB),采样频度为1次;

·今日报(ANN_ARB),采样频度为4次;

·美国之声阿拉伯语栏目(VOA_ARB),采样频度为5次;

·尼罗河电视台(NTV_ARB),采样频度为6次。

2.语料结构

对语料的组织是为了支持每年TDT会议中每项任务的评估,同时也是为了给其他相关研究提供格式化的数据,包括信息提取、信息检索、自动文摘技术等。以下对实验中要用的TDT4语料的基本结构做详细介绍。

语料库中不同的数据样本以不同的形式展现,不同形式放在不同的目录下,其中“tkn_sgm”和“asr_sgm”数据没有进行压缩,可直接从目录下得到,其他内容则放在压缩文件“tdtproj_tgz”中,可通过解压缩获得。经过解压缩处理后,实验中用到的原始数据主要来源于asr和arc文件夹,asr中的新闻报道已经经过分词处理,src保持了新闻报道的原文状态,新闻报道的记录形式采用了SGML结构,依据该结构可以从相关标签中获得新闻报道的来源、类型、发生时间等信息。

除asr和src文件外,语料库中还包括其余9类数据,共11类,分别放在11个文件夹下,下面对其进行介绍。

·标注:具体的标注方法下文将进行详细介绍。

·src_sgm:原始文本数据资源,主要来源于美通社、人工翻译、闭路字幕文本,这些文件以SGML格式存在,类似于TIPSTER文本语料。

·tkn:将参考文本中的数据格式化,报道的边界和其他一些描述性的标识符被删除,每一个英文单词或者中文的每个汉字被赋予唯一的编号(一个有序的“recid”数字),一行一行书写。

·asr:和tkn中的内容相比,该类文件中的报道以词语的形式存在,并且每个词语单独占一行。(www.xing528.com)

·mttkn:将所有的中文资源和阿拉伯语资源翻译成英文,以单词形式分行显示。

·mttkn2:将所有的非英文资源翻译成英文,以词语的形式分行显示。

·mtasr:将asr中的所有非英文资源翻译成对应的英文资源。

·tkn_sgm:将tkn中的文本数据以SGML的形式进行标注。

·asr_sgm:将asr中的文本数据采用SGML的形式进行标注。

·mttkn_sgm:将mttkn中的文本数据采用SGML的形式进行标注。

·mttkn2_sgm:将mttkn2中的文本数据采用SGML的形式进行标注。

在上述数据类型中,“src_sgm”“tkn_sgm”和“asr_sgm”这三种文本数据均包括报道的边界,“asr_sgm”和“tkn_sgm”不仅包括报道边界,而且进行了分词处理,是比较好的数据资源,二者在文件标注上采用了SGML语言,其涉及的标签包括<DOC><DOCNO><DOCTYPE><TXTTYPE><TEXT>等。下面是“asr_sgm”数据的一个样本示例:

其中<DOC>是新闻报道的边界标签,<DOCNO>标签标明新闻的编号,测试集合中所有的新闻报道都有唯一的编号,<DOCTYPE>标签标明文档的类型,可能是正式的新闻(NEWS),也可能是对新闻的评论(MISCELLANEOUS),<TXTTYPE>用于标明数据类型。“asr_sgm”和“tkn_sgm”具备以下特点:

(1)对于英文格式的新闻报道,在“tkn_sgm”文件中,单词的分隔符可能是标点、括号或者引号;在“asr_sgm”文件中,英文报道没有标点、括号或者引号等分隔符,只有空格。

(2)对于中文的新闻报道,在“tkn_sgm”文件中,是连续的、包括中文标点的新闻篇章,没有进行分词处理。在“asr_sgm”文件中,中文新闻报道已经被进行分词处理,没有任何标点,词语以空格分隔。

(3)在所有文件中,新闻报道换行显示,但均没有段落标记。

(4)对于新闻报道来源为广播的新闻,其文本内容(即<TEXT></TEXT>标签之间的信息)可能是空的,原因是与其对应的广播段落没有对话内容。

不同文件夹下的数据其文件的路径描述也有所不同,以下为不同文件夹下文档路径描述方法示例。

上述路径表示出测试集合中不同文件夹下的文档,其中最后一项内容,例如19981220_0700_0800_VOA_MAN.asr_sgm表示文件名。

此外,并不是所有的文件夹中都包含所有新闻源的新闻报道,表2-3列出了tkn、asr、mttkn、mtasr文件中包含哪些新闻源的新闻报道。

表2-3 不同文件夹下的新闻源

续表

3.数据标注

TDT4对40个话题进行了标注,包括英文形式、中文形式和阿拉伯语形式。表2-4为40个话题的列表,包括两列,分别是40个新闻话题的编号和话题的英文名称。

TDT语料最初是由LDC搜集的一些原始数据,这些数据有的来源于美通社和其他一些电子文本,有的来源于网络音频、电台广播、电视等,在正式使用之前,需要对这些原始数据进行处理,包括对一段新闻进行报道切分、话题相关/不相关标注、对标注的结果进行质量控制。

表2-4 40个话题的编号及名称

续表

切分的目的是将新闻广播分割成一个一个的新闻报道,切分的依据是新闻报道谈论的内容是否发生变化。新闻专线提供的新闻服务一般都对报道的边界进行了标识,有时候对于一些较长的新闻报道,为了便于传输,新闻专线服务会将其分割成两个或多个片断。对此,LDC采用自动处理程序将这些片断加以整合。其他来源的新闻往往没有进行报道的边界标识,需要进行切分。闭路字幕服务和商业转录机构运用一定的合约对话题的边界和说话人的转换进行边界标记,但是这些标记需要LDC的标注者对其准确性进行核实。标注者通过听整个音频,对已有的标识信息进行修订,为此,标注者将边界信息分为四类:①新闻报道;②评论内容;③杂项;④没有转录或者正在转录的部分。其中新闻报道是新闻广播中关于一个话题的连续的片断,评论部分是对上一条新闻报道的总结或者是对下一条新闻报道先做一个简介,杂项包括广告和广播员的一些闲谈等。如果一个音频片断没有文本或者没有合适的文本来说明其属于哪个话题,标注者将其定为没有转录或者正在转录的部分。综上,标注者的切分任务包括:边界识别、片断分类(属于上述四类别中的哪种)、质量控制。

对新闻报道切分后,标注者开始进行话题标注,标注内容包括对TDT初始语料中的所有话题进行定义、选择、研究和加标签。在话题选择工作中,标注者先寻找种子报道以及与之对应的种子事件,经确定后,标注团队的领导者将其充实为一个全面的话题。LDC最终给出了上述40个话题的标题、种子事件、简单介绍。

对以上话题进行简单描述后,LDC标注工作者对所有新闻报道进行了相关性标注(给level属性赋值),对于TDT4之前的版本标注结果包括:YES、NO和BRIEF。当新闻报道确定在论述话题时,标注为YES(相关),当新闻报道确定不是对话题描述时,标注为NO(不相关),当分不清到底有没有描述话题时,标注为BRIEF。在TDT4中,去除了BRIEF,如果报道有一点信息说明其在描述话题,则标注为YES,若实在找不到任何信息,处于模棱两可的状态时侧重于标注为YES。

对标注结果的质量控制主要处理以下三种情况:标注准确度的核实、标注结果的裁决和对有争议的标注结果如何做出最后的决定。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈