搜狐新闻数据（SogouCS）-Python文本分析

时间：2026-01-26 理论教育东北妞版权反馈

【摘要】：每个文档都是XML格式，其基本数据格式为：参数：url：表示网页所在地址，通过这个地址可获取页面链接。表4-1搜狐新闻语料库

1.搜狐新闻数据简介

搜狐新闻数据来自搜狐新闻2012年6月至7月期间有关国内、国际、体育、社会、娱乐等18个频道的新闻数据，提供URL、标题和正文信息，是经过手工整理与分类的新闻语料与对应的分类信息。其中完整版总共有141万多篇文档^[1]。

每个文档都是XML 格式，其基本数据格式为：

参数：

url：表示网页所在地址，通过这个地址可获取页面链接。

docno：表示页面的ID号。

contenttitle：表示页面内容标题。

content：表示页面的内容，这里的内容是纯文本格式，没有其他的网页页面标签。

例如，其中的一篇公益类的文本文档为：

因此，为了实现文本内容的分析处理，需要对页面内容进行解析，获取每个页面content、url等元素的值即可；但也有类似下面这样的文本文档：

这种只有标题没有实际内容（content内容为空）的文档，或者是内容的字符量太少，会对后续文本分析产生不利影响。因此，对于这种内容比较短小的文本，在后续文本预处理的过程中需要删除。

2.搜狐新闻数据集处理

1）获取文本类别标签

抽取＜url＞和＜/url＞之间的内容。(https://www.xing528.com)

2）创建类别目录

根据获取的文本文档类别标签，将所有的新闻文本都存储在相应的类别中。

3）获取文本数据

抽取XML文档中的内容数据（＜content＞标签），然后保存为文本文件（TXT）格式。

4）存储文本数据

按照类别存储原始语料库的文本文档。

经过相关处理后，搜狐新闻语料包含类别见表4-1。

表4-1　搜狐新闻语料库

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

工作计划

年度工作

工作规划

教学计划

实施方案

工作方案

教学工作

发展计划

德育工作

管理工作

发展规划

工作总结

教育工作

体育教师

年度计划

后勤工作

安全教育

工作思路

教育计划

小学教师

幼儿教师

数学教师

食品安全

英语教学

搜狐新闻数据（SogouCS）-Python文本分析

相关推荐

搜狐新闻数据（SogouCS）-Python文本分析

相关文章：

相关推荐