首页 理论教育 利用短文本表示建模的应用在维基百科知识库的研究成果

利用短文本表示建模的应用在维基百科知识库的研究成果

时间:2023-11-18 理论教育 版权反馈
【摘要】:Wikipedia知识库是由美国维基百科公司于2001年开始运营的多语言在线百科全书,是一个由广大网民自发形成且共同参与创建、维护、编辑、修改的网络空间。Wikipedia知识库涵盖超过453万个实体,支持超过280种语言,目前已经成为众多百科类知识库资源的重要数据来源。在 Wikipedia 中的每篇文章对应一个实体标识,描述和定义了一个实体。Wikipedia作为最大的在线百科,具有很高的实体覆盖率,除了常见实体外,其还包含大量特殊实体信息。

利用短文本表示建模的应用在维基百科知识库的研究成果

Wikipedia知识库(简称“Wikipedia”)是由美国维基百科公司于2001年开始运营的多语言在线百科全书,是一个由广大网民自发形成且共同参与创建、维护、编辑、修改的网络空间。Wikipedia知识库涵盖超过453万个实体,支持超过280种语言,目前已经成为众多百科类知识库资源的重要数据来源。

在 Wikipedia 中的每篇文章对应一个实体标识,描述和定义了一个实体。Wikipedia作为最大的在线百科,具有很高的实体覆盖率,除了常见实体外,其还包含大量特殊实体信息。Wikipedia文章页面提供了很多实体有关信息,如实体定义介绍、实体类别、重定向页面、消歧页面、页面超链接等,这些半结构化的信息极大地方便了用户对实体信息的使用。Wikipedia提供了XML形式的文档供用户下载使用,该文档是一个离线版的Wikipedia,包含了某个时间点下的所有Wikipedia信息。为了方便使用该文档,用户通常可以借助UKP实验室(Ubiquitous Knowledge Processing Lab)开发的JWPL(Java Wikipedia Library)工具包来处理Wikipedia离线文档。JWPL是一个免费的、基于Java的应用程序接口,可以很容易地获取Wikipedia信息,如重定向、消歧项、类别、入链、出链等。由于Wikipedia具有丰富的半结构化信息和较高的准确率、覆盖率,它已经成为用来构建语义知识库的优秀数据源,Wikipedia是众多知识库(如DBpedia、YAGO、Freebase等)的基础。(www.xing528.com)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈