首页 理论教育 数字图书馆知识开发的关键技术及方法

数字图书馆知识开发的关键技术及方法

时间:2023-07-31 理论教育 版权反馈
【摘要】:数字图书馆的知识开发,是在知识组织基础上,通过数据分析、知识挖掘,对知识进行重组或再造,实现知识创造和创新的过程。知识开发层的关键技术是知识挖掘技术。数字图书馆常用的知识挖掘的技术和方法有以下几种。它的挖掘对象一般是大型数据库,包括基于图标的技术、基于图表的技术、面向像素的技术、层次技术、几何投射技术以及混合技术等。语义网络是对知识的有向图表示方法。

数字图书馆知识开发的关键技术及方法

数字图书馆的知识开发,是在知识组织基础上,通过数据分析、知识挖掘,对知识进行重组或再造,实现知识创造和创新的过程。知识开发层的关键技术是知识挖掘技术。

(一)知识挖掘技术

知识挖掘也称知识发现(Knowledge Discovery in Databases,KDD),即所谓的“数据挖掘”,就是按照某种既定目标,对大量数据进行分析和探索,从中识别出有效的、新颖的、潜在的、有用的知识,以最终可理解的模式显示的一系列处理过程。[5]

知识挖掘的过程一般包括以下几个步骤:

1.确定应用领域:包括此领域的基本知识和目标。

2.建立目标数据集:选择一个数据集或在多数据集的子集上聚焦。

3.数据预处理:根据需求,利用数据净化和整合技术,在大数据中集中选择与任务相关数据,在不降低其准确度的状况下减少处理数据量。

4.数据转换:找到数据的特征进行编码,减少有效变量的数目。

5.数据挖掘:根据数据和所要发现知识的种类来确定相应的挖掘算法

6.数据评价:将挖掘的知识和数据以各种可视化方式显示,并将其以图形、文本等方式存储在库中,以便对它们进一步挖掘,直至满意为止。

数字图书馆常用的知识挖掘的技术和方法有以下几种。

1.聚类分析

聚类分析主要是按一定的规则和事物的特征对其进行聚类或分类,使每一类具有较高的相似度。它是数据挖掘中一个很活跃的研究领域,用来帮助分析数据的分布、了解各数据类的特征、确定所感兴趣的数据类,以便做进一步的分析。

2.神经网络方法

神经网络方法即利用大量的简单计算单元(即神经元)连成网络,使系统具有分布存储、联想记忆、大规模并行处理自组织、自学习、自适应等功能。所连接的系统是通过极为完善的连接构成的自适应非线性动态系统。神经网络具有直观性、并行性和抗噪声性等优点。

3.决策树方法

决策树方法即根据不同的特征,以树型结构表示分类或决策集合,产生规则和发展规律。决策树起源于概念学习系统(Concept Learning System,CLS),该分类算法是数据挖掘研究中的一个以样本数据集为基础的归纳学习方法,它着眼于从一组无次序、无规则的样本数据集中推理出决策树表示形式的分类规则,提取描述样本数据集的数据模型。

4.粗集技术

粗集技术作为不确定性计算的一个重要分支,它的特点是不需要预先给定某些特征或属性的数量描述,而是直接从给定问题出发,根据数据不可分辨关系和不可分辨类别,对数据进行分析推理,确定问题的近似域,从而找出该问题中的内在规律。

5.遗传算法

遗传算法(Genetic Algorithms,GA)是基于进化论优胜劣汰、适者生存的物种遗传思想的搜索算法。遗传算法模拟生物进化过程将个体的集合—群体作为处理对象,利用遗传操作—交换和突变,使群体不断“进化”,直到成为满足要求的最优解。即首先对求解的问题进行编码,产生初始群体,再计算个体的适应度,然后进行染色体的复制、交换、突变等操作,优胜劣汰、适者生存,直到最佳方案出现为止。

6.关联规则挖掘

关联规则是数据挖掘研究的主要模式之一,侧重于确定数据中不同领域之间的关系,找出满足给定条件下的多个域间的依赖关系。它的挖掘对象一般是大型数据库,包括基于图标的技术、基于图表的技术、面向像素的技术、层次技术、几何投射技术以及混合技术等。

7.Web挖掘技术

Web中包含了Web页面的内容信息、丰富的超链接信息以及Web页面的访问和使用信息,为数据挖掘提供了丰富的资源。Web挖掘就是利用数据挖掘技术从Web文档和Web活动中抽取人们感兴趣的、潜在的、有用的规律和模式。(www.xing528.com)

(二)语义网络

语义网络(Semantic Web),最早是由互联网之父Tim Berners Lee在1998年提出来的。语义网络来源于一种古老而简单的思想,即人类的记忆是由概念及概念之间的联系组成的。目前,语义网络已广泛地应用于人工智能的许多领域中,是一种表达能力强而灵活的知识表示方法。[6]

语义网络是通过概念或对象及其语义关系来表示知识的一种网络图,它是知识的一种图解表示,由节点和弧线组成。节点用于表示实体、概念和情况等,弧线用于表示节点间的关系。

语义网络表示由下列4个相关部分组成:①词法部分。决定该表示方法词汇表中允许有哪些符号,它涉及各个节点和弧线。②结构部分。叙述符号排列的约束条件,指定各弧线连接的节点对。③过程部分。说明访问过程,这些过程能用来建立和修正概念的描述以及回答相关问题。④语义部分。确定与描述相关意义的方法,即确定有关节点和对应弧线的排列及其相互关系。

语义网络是对知识的有向图表示方法。一个语义网络是由一些以三元组(节点1.弧和节点2)的图形表示连接而成的有向图。其节点表示概念、事物、事件、情况等;弧是有方向和有标注的,方向体现主次关系,节点1为主,节点2为辅。弧上的标注表示节点1的属性或节点1和节点2之间的关系。这样一个三元组的图形表示如图7-3所示。

图7-3 语义三元组表示

图7-4 “所有的燕子都是鸟”语义网络

1.二元语义网络的表示

二元语义网络可以用来表示一些涉及变元的简单事实,其实质还是一个三元组:(R,x,y;)。例如,表示“所有的燕子(Swallow)都是鸟(Bird)”这一事实,可建立两个节点:Swallow和Bird。两节点以ISA(表示“是一个”)链相连,如图7-4所示。

对于事实“知更鸟是鸟,所有的鸟都有翅膀”,为了表达知更鸟、鸟及翅膀这3个个体,要建立3个节点,并分别用Robin、Bird及Wings表示。

因为知更鸟是鸟的一部分,因此在Robin和Bird之间用弧连接,并加标记AKO(A Kind Of),以表示这种关系;又因为翅膀属于鸟的一个组成部分,所以在Bird和Wings之间也用弧连接,并加标记HA&PART,这样形成的上述事实的语义网络如图7-5所示。

图7-5 “知更鸟是鸟,所有的鸟都有翅膀”的语义网络

如果增添新的事实,只需在语义网络中增加新的节点和弧线就可以了。如果在图7-5所示的语义网络中,要增添事实:Clyde是一只知更鸟,并且有一个叫作Nest—1的巢”,则图7-5变成了如图7-6所示的图形。Clyde是知更鸟的一个实例,因而Clyde与Robin之间用表示“是一个”含义的弧ISA连接。而Clyde的巢Nest—1属于所有巢的一个实例,因而增加一个Nest节点,并用ISA弧连接Nest—1和Nest节点。

图7-6 鸟与知更鸟的关系语义网络表示

从上面不难看出语义网的语义表示方法。例如,Bird和Wings之间的关系是固定的,但表示的方法可以不止一种。若表示为Bird←Wings,仍然可以表达它们之间的关系,这时它的标记应为PART—OF。不管哪一种表示,它们表达的语义都是一样的。

2.多元语义网络的表示

语义网络是一种网络结构。从本质上讲,节点之间的连接是二元关系。如果要表示的事实是多元关系,必须将多元关系转化为二元关系,然后用语义网络表示出来。必要时,要在语义网络中增加一些中间节点。具体来说,多元关系总可以转成

例如,TRIANGLE(a,b,c)表示一个三角形由3条边a、b、c构成,可表述成CAT(a,b)∧ CAT(b,c)∧ CAT(c,a),其中CAT表示将两条边串接起来。又例如,要表达:“John gave Mary a book”这一事实,用谓词可表示为GIVE(JOHN,MARY,BOOK),这是一个多元关系。用语义网络表示如图7-7所示。其中G1是增加的一个节点,用来表示一个特定GIVING— EVENTS事件。

图7-7 “John gave Mary a book”语义图

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈