以刑事案件为例,在比对刑事案例的相似度时,可以根据上文方法构造的结构化的刑事案例设计计算公式。通常,一类罪名之下呈现多种法律案件表现形式,一个法律案件由一个或多个情景链组成,同一个法律案件的情景链间存在异同性,情景节点对应的法律判断和司法措施存在一对多、多对一的关系。因此,可以根据以下思路设计案件相似度算法。首先,从同类的两个法律案件的情景链结构入手,计算刑事案例级别(危害程度)相似度、刑事案件情景节点数的相似度。但是这一步还不足以证明刑事案件的相似,因为进行情景切分的依据不一定统一。其次,通过情景名称的相似度计算进一步比对,计算包括情景名称集合整体的相似度和具体情景节点所包含的事件属性的相似度的语义概念间相似度。最后,通过以上计算,最终求得两个法律案件的相似度。
需要指出的是,本文提出的刑事案例相似度计算有三方面的前提:一是依据案例结构化表达对刑事案例进行了切分和存储,这样提高了计算的准确性和多样性。二是以案例进行的情景链为基础,体现了刑事案例动态的发展过程。三是以相同类型的刑事案件作为计算和比对的前提基础。
具体算法计算过程如下:
给定法律案件Ei,依据不同的标准,在时间顺序上划分为不同的情景sk(k=1,2,3…n), 则 Ei={s1,s2,s3…sn}。
定义1 情景:给定刑事案件Ei={s1,s2,s3…sn},∀sk∈S,其中S为情景集合,情景sk的构成记为:
sk={{x1,x2…xn},{y1,y2…yn}{z1,z2…zn}}
其中,xn表示情景发生的背景维度的属性,yn表示事件维度的属性,zn表示法律维度的属性。
定义2 情景链:假定法律案件Ei的情景构成序列。
C={sa→…→sp→…→sq→…→sb}
其中,sa,sp,sq,sb为情景集合S中的任一元素,a不等于p不等于q不等于b,将其命名为情景链。
定义3 情景节点数:假定刑事案件Ei的情景链由s1到sn的n个情景构成,该案件的情景节点数为n。
定义4 刑事案例级别的相似度:给定同一类型的刑事案例Ei和Ej(比如都是故意伤害案件),因为刑事案例的级别直接影响应急响应的级别,所以对司法案例的级别进行相似性比较,并将司法案例级别的相似度记为。
定义5 情景节点数的相似度:给定法律案件Ei和Ej,将其进行情景切分后,分别得到两条情景链,对两条情景链包含的情景节点数进行相似性比较,相似度标记为。
定义6 情景名称的语义相似度:给定法律案件Ei和Ej,它们情景名称的集合记为Namei和Namej,对情景名称的语义相似性比较相似度记为。
在以上定义的基础上,设计相似度求解的步骤包括:在将刑事案例情景根据结构化表达模型切分为若干情景库基础上,从同类的两个法律案件的情景链结构入手,第一步:计算刑事案例级别(危害程度)相似度;第二步:刑事案件情景节点数的相似度;第三步:计算案件语义概念间相似度,可以通过情景名称集合整体的相似度与具体情景节点所包含的事件属性的相似度来比较;第四步:求得两个刑事案件整体情景链的相似度。刑事案例相似度求解过程,如图5所示。
图5 刑事案例相似度模型框架
1.刑事案件级别相似度算法
刑事案例级别表示的是社会危害程度的高低,其相似度的计算公式,即定义(1)的数学表达:(www.xing528.com)
其中,level i为刑事案例Ei的级别,由于我国刑法没有对罪名进行级别划分,目前可以《中华人民共和国刑事诉讼法》第二章“管辖”中划分的基层人民法院、中级人民法院、高级人民法院管辖的刑事一审案件类型为依据,设为1至3中的任一数值。,其中当level i与level j为相同级别时,两个司法案例的级别相似度最高。
2.情景链包含的情景节点数相似度算法
假设:以同一类型的刑事案件Ei和Ej,两者的情景链相似度具体算法步骤如下:情景链中包含的情景节点数的相似度的计算公式。以同一类型的两个刑事案件的不同情景链中节点数的差异来衡量情景链的结构相似度,便于区分法律案件在犯罪行为进展中的差异。节点数相似度也就是定义(2)的数学公式。
其中,Ni与Nj为大于1的自然数。,如果i与j相同则两个刑事案件的情景链相似度最高。比如Ei故意伤害包括了“语言威胁”“持刀威胁”“捅刺腹部”“逃走”四个情景节点,而Ej故意伤害有“用力殴打”“非法拘禁”两个情景节点。那么这两个刑事案件相似度不太高。但值得注意的是,只有情景链的节点数相似度高,远远不足以判断两个刑事案件结构相似度高,只能作为参考的数据值的一部分。因为,情景节点切分时采取的依据也许并非统一,所以还要比较情景名称的语义相似度。
3.语义概念间的相似度算法
假设法律案件Ei中情景名称集合Namei和法律案件Ej中情景名称集合Namej
Namei={Nodei1,Nodei2,Nodei3…Nodeim}Namej={Nodej1,Nodej2,Nodej3…Nodejn}
(1)情景名称的相似度计算。可以在单个情景名称的相似度计算基础上,计算整体情景链的情景名称相似度计算的。单个情景名称的相似度计算公式:
其中,Nodeim为法律案件Ei情景链的第m个情景名称,Nodejn为刑事案件Ej情景链的第n个情景名称,计算一个情景链的单个情景和另一个情景链的所有情景的相似度,这个部分取最大值。,其中当Nodeim与Nodejn相同时,两个情景名称的相似度最高。
在求得的基础上,每个情景都有一个相比较后的最大值,之后把这个值相加取其中值的和最小的那个作为分子,以两个情景链的所有相似度的最大值之和为分母,求取整个情景链中情景名称的相似度:
情景链中名称相同,或相似度最高的情景所包含的事件维度下的属性集合整体的相似度计算为:
其中,Proi和Proj分别为情景名称相同或相似度最高的两个法律案件Ei和Ej的情景中所包含的背景维度、事件维度、司法维度下的属性集合。[0,1],
其中当Proi与Proj的“三维度”属性相同时,两个情景名称下的“三维度”的属性相似度最高。相似度值表示该两个情景名称包含“三维度”属性内容的相似程度,值越大表示两个案件越相似。
(2)情景链中情景名称集合的整体相似度的计算公式,即定义(6)的数学表达:
其中,T1,T2分别为与的权值。
综上,整个法律案件事件的情景链相似度Sij计算公式如下:
其中,w1,w2,w3分别表示了分配的权值。最后,把整个刑事案件事件的情景链相似度Sij按Sij的值排序即可。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。