首页 理论教育 图情大数据:智能化知识服务

图情大数据:智能化知识服务

时间:2023-08-08 理论教育 版权反馈
【摘要】:清华大学图书馆是国内最早将人工智能应用于图书馆咨询服务的高校图书馆。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。知识图谱提供了从“关系”的角度去分析问题的能力。这种跨网域关联的数据和数据详尽的语义描述无疑为智能化的语义理解提供了条件。

图情大数据:智能化知识服务

在MSN、QQ等即时通信技术兴起之后,图书馆开始通过QQ等聊天机器人自动回答读者的问题。其主要特点是通过将读者用自然语言的方式描述的问题,与问答数据库匹配,返回给读者若干个与咨询问题相匹配的问答,读者可选择与自己所问的问题相同或相近的问题,点击阅读相关答案。与传统咨询方式相比,其具有信息交流及时、无服务时间限制、沟通使用方便、便于记录管理等优势,同时它还支持在线传输文件、语音咨询等功能。但这种方式的一个重要弊端是必须事先假设读者所要询问的问题,并将预设的答案存储在问答数据库中。如果读者所问的问题超出问答数据库的范围,这种预设问题和答案的方式就显得捉襟见肘了。

随着大数据和人工智能技术的发展,图书馆的自动参考咨询服务向着更为智能化的方向发展,不仅要求能回答读者提出的存储在知识库中的已知问题,在大规模语料库的基础上能回答稍微复杂的问题,还能基于大量的数据进行分析和推理,以获得回答未知问题的能力。清华大学图书馆是国内最早将人工智能应用于图书馆咨询服务的高校图书馆。自2010年运行以来,清华大学“小图”在图书馆业界和其他领域引起广泛的关注。“小图”是基于ALICE开源平台进行二次开发。ALICE系统以AIML为基础,具有学习、推理、判断、记忆及上下文获取等功能,而且更加成熟和稳定。清华大学图书馆“小图”将语料库的建设、中文自然语言处理等方面作为研发工作的重点。“小图”设计了语料库优先级系统,以往的咨询记录、人工动态添加的内容、教学系统的问答知识分别作为一、二、三级语料库。“小图”使用中文分词,剔除停用词、一些敏感词和不健康词,建立倒排索引,基于对查询语句和语料库中记录的相似度计算来提供咨询解答。“小图”还能够基于积累的AIML知识库进行推理,解答咨询。由于中文语料库的缺乏,尤其是专业词库的不足,“小图”的专业咨询服务效果有时也不是很理想,符合其查询格式的咨询能够得到比较准确的回答,自然语言形式的提问则可能会答非所问。(www.xing528.com)

近年来,基于知识图谱的问答系统成为学术界和工业界的研究和应用热点方向。知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(point)和边(edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(heterogeneous information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。相较于问答数据库和语料库,知识图谱作为智能问答系统的知识库,具有广泛的数据关联度和较强的数据准确度等优势。与简单问答系统和基于语料库的对话机器人不同,基于知识图谱的问答系统回答问题的依据是知识库中的实体以及实体间的关系,其主要过程是将自然语言转化为一系列形式化的逻辑形式,通过对逻辑形式进行自底向上的解析,得到一种可以表达整个问题语义的逻辑形式,通过相应的查询语句在知识库中进行查询,从而得出答案。不同语义理解程度是问答系统的核心指标,在知识图谱中,所有知识点被具有语义信息的“边”所关联。从问句到知识图谱的知识点的匹配关联过程中,可以用到大量关联节点的关联信息,这些节点可位于互联网上的任何网域之中。这种跨网域关联的数据和数据详尽的语义描述无疑为智能化的语义理解提供了条件。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈