搜索日志分析研究始于20世纪90年代,一般包括查询词的长度、组合出现频率、查询词修改方式、高级搜索方式的使用情况等的基本研究,以及发现相关搜索、改善搜索结果排序算法等的扩展研究(基于搜索日志的用户行为研究与应用)。不同日志服务器的日志有不同的日志格式。华东师范大学图书馆OPAC日志服务器为Nginx服务器。Nginx日志分两种,一种是访问日志,另一种是错误日志。访问日志记录在“access.log”文件中,错误日志记录在“error.log”文件中。access.log日志格式可以自己配置,可用以下命令:
配置完成获得的日志格式如下:
其由几个部分组成:
(1)$remote_addr客户端(用户)IP地址。如上例中的202.120.82.81。
(2)$time_local访问时间。如上例中的[05/Nov/2019:12:49:48+0800]。
(3)$request请求。如上例中的 GET/index.php?client=ecnu&isbn=9787121147852/cover HTTP/1.1。(www.xing528.com)
(4)$status请求状态。常见状态码:200表示成功;404表示页面不存在;301表示永久重定向等,具体不再赘述。如上例中的200。
(5)$body_bytes_sent请求页面大小,默认为B(byte)。如上例中的16589。
(6)$http_referer来源页面,即从哪个页面转到本页,专业名称叫作referer。 如上例中的 http://202.120.82.40:2082/search~S0*chx/?searchtype=Y&searcharg=java&sortdropdown=-&SORT=DZ&extended=0&SUBMIT=%E6%A3%80%E7%B4%A2&searchlimits=&searchorigarg=Yjava%26SORT%3DDZ。
(7)$http_user_agent用户浏览器其他信息,含浏览器版本、浏览器类型等。如上例中的Mozilla/4.0(compatible;MSIE 8.0;Windows NT 5.1;Trident/4.0;.NET CLR 2.0.50727)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。