【摘要】:无论是何种方法采集数字图书馆的关联数据,得到的数据都需要进行某种数据格式的规范与标准化,这样才能使得数据能够被语义标注。
基于语义的数字资源聚合利用多种数据来源进行主题与概念的提取与语义互联。因此,需要挖掘多种形态的数字图书馆关联数据。无论是何种方法采集数字图书馆的关联数据,得到的数据都需要进行某种数据格式的规范与标准化,这样才能使得数据能够被语义标注。数字图书馆查询行为中所提交的关键词是日志挖掘的重点,也是能够反映语义组织、语义链接的重要数据源,文章对查询行为的标准化主要采取共现矩阵的方式,对数字图书馆关联数据的关联实现是基于哈希技术的改进的Apriori算法。
1.数字图书馆的数据格式标准化
由于共同出现的查询词具有某种程度的语义相似性,如果能够对查询的相似度进行定量计算,则可通过数值反映出查询词之间的语义联系。因此,为了体现查询词之间的关系,需要对查询条目进行分词处理。一条查询记录中往往包含两个或两个以上的查询词,中间以不同的间隔符号区分,分词处理的首要目标就是统一这些间隔符号,例如查询词之间统一用空格表示分隔。(www.xing528.com)
2.关联数据的数据格式标准化
关联数据的数据标准化需要建立在识别、分析和评估数字资源相互关系与反馈、会话的基础上。目前,典型的会话识别规则有基于会话时间的识别规则、基于页面停留时间的识别规则和基于页面引用关系的识别规则。基于会话时间的识别规则强调设置合理的会话持续时间阈值使得日志中的会话信息能够被划分,例如设定一个会话的持续时间不超过30分钟,另外两种识别规范也是强调规定用户在一个页面上的停留时间或者规定服务器页面引用的次序等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。