首页 理论教育 司法人工智能:数据结构化及算法层面不足问题解决方案

司法人工智能:数据结构化及算法层面不足问题解决方案

时间:2023-07-25 理论教育 版权反馈
【摘要】:从更进一步的技术应用看,司法大数据还要经由结构化的处理,并将法律语言转化为技术语言,才能训练出更有效的算法模型,而这方面存在的障碍也不少。法律的修改和司法政策的调整,在数据层面表现为数据刷新、数据模式和数据规律的高速变化,这也给结构化数据的形成和整理提出了重大挑战。相较而言,因司法大数据的半结构化特征,司法人工智能的开发比较适合运用半监督学习。

司法人工智能:数据结构化及算法层面不足问题解决方案

从更进一步的技术应用看,司法大数据还要经由结构化的处理,并将法律语言转化为技术语言,才能训练出更有效的算法模型,而这方面存在的障碍也不少。

(一)数据结构化的困难和风险

从机器识别和应用角度看,大数据可以划分为结构化数据、半结构化数据和非结构化数据。结构化数据很规整,可以放在数据库里很轻松地进行精确的识别、匹配和查询,是训练算法模型的基础。而非结构化数据一般要经由自然语言处理NLP(Natural Language Processing)等技术[10]方能结构化,但在司法大数据中,一般认为,裁判文书属于半结构化数据,而诸多的审判流程、审判管理方面的信息则属于非结构化数据,而且其增速迅猛,比重越来越大。这意味着,以法院信息化、司法公开、数据库建设为基础的司法(原始)大数据,仍要按照一定的技术标准经由系统化和结构化的改造后,才能作为司法人工智能的高质量“原料”。这在技术上集中体现为法律语言表达的精确性,以及其转化为技术语言的可行性和困难。一方面,同一法律术语可能在自然语言层面有多种表述,当事人或法官的陈述方式或习惯也不尽相同,如据统计,有关交通事故责任纠纷中后续治疗费的说法就有十多种,包括“二次治疗费”“后续治疗费”“后期医疗费”“取出内固定物费用”。而机器并无法像人一样智能地思考并建立起概念和话语之间的映射(这显然属于有机智能而非机器智能范畴),从而需要专门的法律从业者为其“打标签”,使机器能够“明白”。结合《刑法》近470个罪名、民事案件467个二级案由,相应的法律概念的表达就可以预想,这种“打标签”的工作量将是何等的巨大。另一方面,有些法律术语因涉及价值判断,与其说难以“标签化”,还不如说“标签化”是否可行。不妨以《消费者权益保护法》中的对消费者概念的界定和识别为例来阐释这一困难。按照该法第2条的规定,消费者的概念是有严格限定的,消费者系为生活消费需要购买、使用商品或者接受服务的自然人。而从自然语言来看,消费者购买商品或服务的目的基本上不在考虑之列,购买转售的中间商、购买使用的公司等都可能被理解为消费者。这就需要在技术上进行人工标注,然而这种标注的数量极其庞杂、成本也极其昂贵。但更大的困难还不止于此。法律概念的理解和界定不纯粹是技术性的,很多时候在其背后还涉及价值判断问题,如知假买假者是否是消费者?从机器的形式逻辑上看,知假买假并不能推导出是否以生活消费为目的,但职业打假人群体和其诉讼实践的普遍存在,又证明了知假买假的目的可能并不在于消费,而在于牟利。那么,确定某个具体主体是否是消费者,还需要明确职业打假人的定义和范围,以此作为否定的排除项。而关于职业打假人的界定则可能又要深挖其背后的历次诉讼行为,并和具体时期的司法政策紧密结合起来。法律的修改和司法政策的调整,在数据层面表现为数据刷新、数据模式和数据规律的高速变化,这也给结构化数据的形成和整理提出了重大挑战。以上“标签化”的困难还仅仅是点层面的困难,按照目前的技术演进,各种标签还要被整理为相应的“知识图谱”,即将法律概念分析成机器能够读懂的“知识结构”,并建立起知识与知识、概念与概念之间的联系,让机器“明白”。[11]而这种工作量的庞杂度、困难度和标签数据整理者的人才缺口,就更是难以想象的了,它要求标签数据整理者在理解技术原理的同时,准确而透彻地理解法律概念,并能使这种理解最接近法官;也要求法官在文书撰写中尽量规范精确,最好是最大可能地按照技术应用标准予以表述,或者有专门的司法辅助人员负责法律语言和数据语言的“连接”。

需要指出的是,这种结构化的语言转化过程还包藏着上文提到的司法异化的风险。从法律语言转化为技术语言,必然预设着两种话语权的冲突,且法律固有的回应社会的要求存在被技术决定的风险。在技术主义看来,司法是用来定分止争的,所谓的“分”完全可以交给司法人工智能准确无误地计算出来。但是,大多数人对那些技术语言以及由技术语言所构成的编程链条一无所知。如要让司法人工智能回应社会,则先要从技术语言转化为法律语言,再从法律语言转化为大众所熟悉的自然语言。也就是说,运用司法人工智能的代价之一是,法律回应社会的环节被额外增多了、难度也更大了,而如果不回应,则又偏离了司法的本质。诚如有学者指出的:“如果再深想一层,在这里还表现出对审判本质的理解方面的变化——有关机构正在试图用专业性共同语言(按照法律要件整理事实并进行严格论证)来取代日常性共同语言,尽量排除情绪化因子和暧昧含义对推理的影响。”[12]

(二)机器学习和算法监督的困难

机器学习,就是从已知的知识(特征)出发,利用概率统计等数学计算方法来得到某种数学规律(模型),并利用所得数学规律来完成计算任务。概括地说,就是利用事务本身具有的数据特征用数学的表达方式构建数学模型并完成既定的任务。从机器学习流程来看,需要从预先设定好的学习算法出发对训练集进行训练,从而得到需要的模型,而训练好的模型就可以用来解决所需要解决的任务。因而,形象但不甚恰当地说:“训练集是输入,算法是核心,模型是输出。”[13]而按照是否需要事先对数据进行标注,可将机器学习分为监督学习、无监督学习和半监督学习。监督学习需要为数据集进行真值标注,有时会显得费时费力;无监督学习则存在训练数据集质量不高的问题;半监督学习可用少量带有标记的样本训练出的初始模型来对无标注的数据进行预测,再将那些预测结果较好的样本作为新的标注过的训练数据来扩充之前的训练集,并用这个新的训练集对模型重新进行训练。相较而言,因司法大数据的半结构化特征,司法人工智能的开发比较适合运用半监督学习。然而,如上所述,基于司法场景的复杂性,这种标记工作的工作量、困难度和可行性,都颇费考量。

就机器学习算法的选择而言,除了分类算法,在机器学习大家族里还有回归、聚类、关联挖掘、决策树(也包括随机森林)、支持向量机、神经网络增强学习、贝叶斯模型等一系列的算法。因机器学习是用来处理特定问题的,其所面临的问题不是等可能性的,而是存在可能性很大的解。[14]因此,需要尽可能深入地了解问题的特征,并利用这些知识来帮助选择合适的学习算法。因而,技术人员在算法选择当中必须对司法场景、司法知识、司法需求等具体问题有确切的了解,而目前这种了解显然是不够的。

就算法的监督而言,按照法律和司法的要求,需要对算法歧视、算法独裁等进行有效规制。而规制的前提是算法应当透明其具有可解释性,否则监督就无从下手,但算法的不透明性问题恰恰始终存在且不易克服。美国加州大学信息学院的乔娜·布雷尔(Jenna Burrell)在其论文《机器如何“思考”:理解机器学习算法中的不透明性》中论述了三种形式的不透明性:“第一种是因商业秘密或者国家秘密而产生的不透明性;第二种是因技术了解程度不同而产生的不透明性;第三种是算法本身的复杂所带来的不透明性。”[15]第一种不透明性的解决,更多地可以依靠法律规定和实施机制的完善,如由公共部门或企业来开发司法人工智能或者以政府采购的形式购买司法人工智能等。第二种不透明性问题的解决,则要深入对技术本身的了解,这在理论上至少并非不可能。而第三种不透明性问题的解决,则不仅仅是规则和技术了解层面的,而是算法自身的不可知性,以对生物神经网络进行模拟建构人工神经网络而言,谁也不知道数量巨大、颗粒度均一的神经元和互联网之间究竟是如何具体运作的。另外,因司法公共性、公开性的基本要求,无论何种透明性问题,都应接受司法意义之审查。在此基础上,才能进一步评判司法人工智能所产生的效益、风险、可行性和可接受性。目前,学术界已经充分地意识到了这一问题,但在实践层面,对算法尚缺乏基于司法属性与要求的审查监督机制,应在今后的工作中进一步地予以建设和完善。

【注释】

[1]参见左卫民:“如何通过人工智能实现类案类判”,载《中国法律评论》2018年第2期;王禄生:“司法大数据与人工智能开发的技术障碍”,载《中国法律评论》2018年第2期。

[2]参见左卫民:“一场新的范式革命?——解读中国法律实证研究”,载《清华法学》2017年第3期。

[3]左卫民主张,基于数据的实证研究将会是一场新的范式革命。法律实证研究,本质上是一种以数据分析为中心的经验性法学研究,它以法律实践的经验现象作为关注点,通过搜集、整理、分析和运用数据,特别是尝试应用统计学的方法进行相关研究的范式。参见左卫民:“一场新的范式革命?——解读中国法律实证研究”,载《清华法学》2017年第3期。

[4]参见白建军:“大数据对法学研究的些许影响”,载《中外法学》2015年第1期;左卫民:“一场新的范式革命?——解读中国法律实证研究”,载《清华法学》2017年第3期。(www.xing528.com)

[5]需要说明的是,算力的改进主要是技术层面的事情,和司法属性并无直接关联,故本书在此不做讨论。

[6]参见李林、田禾主编:《中国法院信息化发展报告No.2(2018)》,社会科学文献出版社2018年版,第50页。

[7]马超、于晓虹、何海波:“大数据分析:中国司法裁判文书上网公开报告”,载《中国法律评论》2016年第4期。

[8]季卫东:“人工智能时代的司法权之变”,载《东方法学》2018年第1期,第130页。

[9]季卫东:“人工智能时代的司法权之变”,载《东方法学》2018年第1期,第130页。

[10]自然语言处理NLP(Natural Language Processing)技术是用机器处理人类语言的理论和技术,又可以称作自然语言理解或计算语言学。NLP大致可分为基础研究和应用技术研究,基础研究包括词法分析、句法分析、语义分析和篇章理解等;应用技术研究包括文本挖掘、自动问答、信息检索、信息抽取、机器翻译等。

[11]华宇元典法律人工智能研究院编著:《让法律人读懂人工智能》,法律出版社2018年版,第114页。

[12]季卫东:“人工智能时代的司法权之变”,载《东方法学》2018年第1期,第129页。

[13]姚海鹏等:《大数据与人工智能导论》,人民邮电出版社2017年版,第26页。

[14]姚海鹏等:《大数据与人工智能导论》,人民邮电出版社2017年版,第29~30页。

[15]转引自高奇琦、张鹏:“论人工智能对未来法律的多方位挑战”,载《华中科技大学学报(社会科学版)》2018年第1期,第86页。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈