1.工具选取及主题词选取
本文爬虫工具的开发使用了C语言,其集成开发环境是Visual Studio 2019。这种基于爬虫工具获取的数据,简称“爬虫数据”。
围绕中国“十三五”会展司法案例,选取关键词:①会展;②展览;③节庆;④演出;⑤赛事;⑥会展+知识产权。需要说明的是,会展现在一般认为包括会议、展览、节庆、演出和赛事活动五大板块。但是在以“会议”为关键词进行法律文书全文搜索时,发现有143万件案例,以“判决结果”为条目进行搜索,结果有接近1万件案例。无论是全文搜索还是判决结果查找,对结果进行初筛时发现基本不属于会展类型案件。可见“会议”这个关键词在会展学界和业界是清楚的,但是在裁判文书中是难以区分的。因此,本文放弃以“会议”为关键词筛选数据,增加“会展”关键词进行全部筛选。
因此,本次关键词的筛选分为三个层次:第一层是“会展”,针对会展司法的整体状况。第二层是“会展”中的展览、节庆、演出和赛事。之所以选取了“会展”后仍然对会展外延进行挖掘,是因为赛事、节庆等会展活动很难在“会展”中体现出来。第三层是“会展+知识产权”,主要是针对会展活动中的知识产权司法状况进行观察。上述三个层次尽管存在重叠内容,但是基于数据观察的特殊要求,并不矛盾。
在上述六类关键词的基础上,再按照法院层级(四级)、地域(31个省份)、裁判年份(2016—2020年)、案由和审判程序等判例属性再对上述六类关键词进行分类整理。
2.数据的抓取过程及应用程序
利用爬虫从中国裁判文书网(https://wenshu.court.gov.cn/)中下载2016—2020年法律文书。
(1)以六类关键词和时间参数在中国裁判文书网上搜索后,找到Network,分析网页后台操作;
(2)请求方法POST;
(3)设置搜索参数;
(4)对加密生成的参数追根溯源,找到生成方法后,调用JS生成或直接用PyCryptodome的DES解密;
(5)将数据保存到Excel中。
3.数据的清洗过程和初步统计(www.xing528.com)
按照法院层级、地域、裁判年份、案由和审判程序五个维度分别进行数量统计。根据以下步骤清洗数据。
(1)统一同一“地域”的不同说法,合并同类项;
(2)利用数据分列的方法提取裁决日期中的“裁判年份”信息;
(3)利用分列、替换等方法剔除“案由”数据中的无效符号,随后将一个案件中的多个案由拆开统计;
(4)结合案件标题等信息填补“审判程序”部分的空白值;
(5)完成数据清洗后,利用数据透视表选择相应字段,生成各个维度的数量报表。
4.数据清洗过程中的问题
从目前中国裁判文书网提供的高级检索途径(见图1)来看,可以提供全文检索,其中包括全文、首部等9项选择。除了“全文检索”的9项选择外,另外提供了7项选择性搜索以及9项输入性复合型选择。“全文检索”几乎可以将所有需要的字段一网打尽,但是清洗难度特别大。例如有的当事人名字为“杨会展”“李会展”等,有的案件发生在某“会展路”,这样的意外情形很多,所以数据清洗难度很大。经过初步清洗后,整理出以“会展”为关键词的各省份结案数量表(见表1)。从表中数据可以看出,贵州省以5115个结案数量排名第一,广东省以4750个结案数量排名第二,山东省以4205个结案数量排名第三。广东省和山东省排名靠前可以理解,但是排名如此靠前值得商榷,贵州省排名第一是否真实?
为保证数据准确性,需再一次对其进行清洗。经过进一步个案抽查,并且结合其他搜索,得知贵州省贵阳市,广东省广州市、中山市和珠海市等,山东省济南市,辽宁省大连市等城市都有“会展”道路。这样的例外情形还有多少?结合中国裁判文书网提供的搜索路径看,这些数据清洗难度仍然非常大。
图1 中国裁判文书网高级检索途径
表1 以“会展”为关键词的各省份结案数量表
续表
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。