COUNTER R4实施规范附录A:术语表中对标准的检索行为定义为:用户驱动的智能查询,通常表现为提交检索表单给服务器获取在线服务[21]。因此,可以理解标准的检索行为一般为在数据库检索页面输入检索条件,然后点击“检索”“搜索”或“高级检索”等按钮,数据库服务器会根据输入的检索请求而返回检索结果,这样就形成一个完整的检索行为,由于标准检索页面比较简单,此处不作过多分析。下面以常用的中国知网为例进行相关阐述。
图10-1是中国知网的检索结果界面。在这个界面中可以对初步检索结果进行筛选、排序、改变显示顺序、翻页和在结果中检索等大多数数据库平台都有的操作。从服务器后台来看,每个操作均相当于发起了一次参数不同的检索,从技术角度来看和第一次发起的带有检索式的标准检索行为并无本质的区别,只是存在输入参数的差别。
图10-1 检索结果界面
在COUNTER R4规范中对初步检索结果进行上述筛选、排序、改变显示顺序、翻页和结果中检索行为没有相应的定义,在这些行为中全部或者部分是否应该纳入相应检索统计计数是无法确定的。由于ERU采取的技术可以完整捕捉到这些行为,通过数据比对,从而可以发现在实际应用中不同的数据库厂商对此定义亦大不相同。此种问题在包括外文数据库在内的绝大部分电子资源中均广泛存在。尤其对于“结果中检索”行为是否应该纳入检索计数统计更是很难判断。ERU系统通过分析,统一采取对初次有检索词的检索和在结果中检索(此处也有用户键入检索词行为)计为有效检索,其他类似行为均不计入统计数据的方法。
此外,对ERU采集到的用户不完整访问行为数据进行分析,发现在用户发起检索请求后,由于互联网传输及可能的服务器响应超时等因素,用户端所接收到的检索返回结果出现异常,包括以下三种情况:
(1)检索结果未显示完整,原因是数据库所在服务器处理故障,造成后台会话不完整,返回给用户端部分结果数据;(www.xing528.com)
(2)用户已经发出检索请求,数据库所在服务器端也已经开始返回结果,但此时检索请求被用户自行取消,导致最终用户端结果数据不完整或没有收到检索结果数据;
(3)用户在短时间内不停地使用F5键或刷新页面功能多次刷新页面,造成后台重复发出检索请求。
针对上述三种检索行为,COUNTER R4规范中规定对10秒内的重复点击/刷新页面不重复计数。但对于检索行为是否应该以服务器端响应为准还是以用户端实际接收到完整结果为准未给出明确定义。在实践中,由于技术限制,电子资源厂商目前的技术手段无法发现这些问题,因而采取的基本是以服务器端接收到请求开始进行统计,而不考虑用户是否成功接收到数据。由于ERU平台可以采集到用户请求开始时间、请求结束时间、服务器响应开始时间、服务器响应结束时间等所有处理环节的时间点,可以实现根据用户实际是否接收到完整结果为依据进行统计,可以做到不受这些问题的影响。此外,从公平交易角度,我们亦认为应该以最终用户接收到结果数据为统计依据,对于未能成功满足用户需求的请求不应计算在内。
另外,在COUNTER R4实施规范中对数据库使用报告1(Database Report 1,简称“DR1”)定义为:每月、每种数据库的总检索量、结果点击量(Result Clicks)和记录浏览量(Record Views)。DR1要求将常规检索(Regular Searches)与来自集成搜索引擎(Federated Search Engines)和自动搜索代理(Automated Search Agents)的检索分开统计,分别计入DR1中的常规检索(Regular Searches)和联邦自动检索(Searches-Federated and Automated),见图10-2。
图10-2 COUNTER R4检索统计报表DR1样例
因此,为了数据库供应商能分辨出哪些检索来自集成搜索引擎和自动搜索代理,COUNTER R4在附录I和附录J中分别给出了当前已知的集成和自动搜索引擎列表,以及网络机器人、网络爬虫、网页爬虫等列表,并要求数据库供应商及时更新。这在实际操作中无疑会有遗漏和更新不及时问题,造成统计数据不准确。基于图书馆端部署ERU系统的技术路线完全不存在此类问题,大大提升了统计数据的准确性。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。