首页 理论教育 非结构化数据识别困境的解决方法

非结构化数据识别困境的解决方法

时间:2023-07-24 理论教育 版权反馈
【摘要】:然而,司法案例大数据的非结构化特征是阻碍技术突破的瓶颈。其次,司法案例具有“非结构化”特征。因此,在机器识别的概念里,裁判文书每个部分之间的信息毫无关联地杂乱堆砌,这种数据形式用专业名词即是“非结构化数据”。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,在现实生活中,几乎所有格式的办公文档、报表、图片、音频与视频信息等都是非结构化数据,[13]司法领域的裁判文书也是典型的非结构化数据。

非结构化数据识别困境的解决方法

1.大数据背景下的类案判断:基于裁判文书信息的类案识别与判断

对于普通人而言,尤其是具有丰富审判经验的法官而言,在个案对比时判断类案似乎并不是什么难事。如波斯纳所言:“在为类比推理辩护时,一种诱人的辩护是指出人类都具有一种固有的辨识态势的能力,一种固有的相似性标准。就是这种能力使得我们在久别重逢时还能辨认熟悉的面孔,换一个角度也能认出物体。”[9]然而,在大数据时代,对于精力有限的法律人来说,在海量的案件中快速找到类案却并非易事。那么,波斯纳所谓人类固有的辨识态势的能力、固有的相似性标准以及本文前述的相关类案的判断方法和标准能否被机器所认知呢?大数据背景下的类案判断方法又当如何呢?

图1 “类案类判”的总体路径与算法步骤

关于法律大数据,可以归纳出以下四个特征:“第一,法律大数据的原始信息存在的形式大多是文本信息,在没有对文本信息进行结构化分割之前,对于信息和数据的大数据利用难度是比较大的。第二,法律大数据可利用的基础信息的数量十分庞大,除了司法机关公布的各类法律文书之外,还包含互联网上存贮的以及以纸质形式存在的各类信息和数据。第三,法律大数据所利用的基础信息是以司法机关公布的各类法律文书为核心的。相较于其他法律信息,这些信息的可信度高,其中讹误的信息较少,格式较为规范。第四,法律大数据的复杂性较高,其数据展现的相关性,既有法律的专业逻辑,也有一般社会活动所遵循的规律和准则。”[10]于本文而言,对司法大数据应用类案判断可以做这样的描述:海量的裁判文书数据、非结构化的文本信息、以云计算和自然语言处理为代表的数据处理技术。在这种背景下,机器进行类案判断的主要任务是运用技术处理数据。其总体路径大致如图1所示。其中,大数据背景下的类案判断,主要是运用技术处理数据,其始于数据采集,并经过数据存储、清洗、挖掘、标注之后,使机器对经过技术处理的数据具有一定的认知,并对文本信息进行特征标记(即标签化处理),再以其标记的特征根据算法自动匹配相似文本从而达到类案判断的目的。

从技术实现的角度来说,在上述路径中,数据采集、数据存储因为有中国裁判文书网的支撑,凡是依法公开的文书信息基本上都可以被采集和存储;数据清洗的主要功能在于将半结构化文本改造为可以方便进一步技术处理的结构化文本,由于裁判文书的格式比较规范,因此在技术处理上也相对容易;数据挖掘是整个路径中的关键环节,如何解析文本、从文本中提取哪些信息作为案件特征、如何提取类案相似性标准所要求的关键事实或法律问题是数据挖掘必须要解决的几大核心问题;在相似性标准所要求的关键事实或法律问题在文本信息中被挖掘之后,需要对其进行标注,进行标签化处理,即对每个案件都以其相应的特征作为属性标签进行标记,如此一来,每个案件都会以其属性标签作为特征与其他案件进行比较后自动匹配,属性标签匹配度越高,则两个案件越类似。

在计算机科学领域运用机器进行文本比较的过程中,算法往往依据语词、句子、段落与段落之间的相似度来判断文本之间的相似度。必须指出的是,在计算机科学领域使用的“文本相似度”的概念与法学领域所称的“类案”概念,两者的含义并不一致,其区别在于“文本相似度”是基于一定算法由机器在文本之间综合比较而得出的结果,“类案”则是基于一定的经验和专业判断在案件之间比较某些特殊的关键因素而得出的结果。因此,可能会存在案件的“文本相似度”较高但并不是“类案”的情形,也可能存在案件的“文本相似度”较低但可以归为“类案”的情形。在机器依据上述路径进行类案判断时,必须有法学专业人士的深度介入,将法学领域关于“类案”的标准融入算法之中,才可能使基于算法得出的“文本相似度”与基于经验判断得出的“类案”结果趋于一致。(www.xing528.com)

2.司法案例文本的非结构化特征是瓶颈所在

通过运算法则将司法裁判工作模型化是人工智能介入审判工作的前提要件。[11]如今,司法实践者急迫需要的是一个比人工处理解析信息数据效率更高的司法案例系统,从而可以在海量司法案例库中快速定位对司法决策有参考价值的信息。然而,司法案例大数据的非结构化特征是阻碍技术突破的瓶颈。

首先,司法案例数据是典型的文本数据。当前我国的司法案例信息化建设工作以文本记录模式为主,尽管有些案例附加图片、视频、音频等证据,但是总的来说司法案例库没有实现利用现代信息技术进行组合记录。单纯的文本数据通常具有不完整、不精细、主观随意的特点,使得历史的法律案例表达无法呈现最完整、最丰满的历史,限制了机器对多种载体综合开发和智能分析处理的可能性。其次,司法案例具有“非结构化”特征。即案例的数据在机器的视角中是“杂乱无章”的,导致计算机无法充分识别和利用。以刑事裁判文书为例,尽管裁判文书的文字内容在结构上划分为“当事人信息”“审理经过”“本院查明”“裁判结果”“裁判人员”“裁判时间”几个部分,[12]看似是“结构化的”,但这种结构化程度是粗放的,还无法满足现代计算机的语义识别。加之,法官在撰写裁判文书时,阐述案件事由、认定案件事实和分析判断角度千差万别,法律依据不尽相同,因此案例呈现的内容结构性较差,机器翻译无法准确和充分地识别这些信息。因此,在机器识别的概念里,裁判文书每个部分之间的信息毫无关联地杂乱堆砌,这种数据形式用专业名词即是“非结构化数据”。而所谓结构化数据(别名行数据),是严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理,可以由二维表结构来逻辑表达和实现的数据。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,在现实生活中,几乎所有格式的办公文档、报表、图片、音频与视频信息等都是非结构化数据,[13]司法领域的裁判文书也是典型的非结构化数据。在上文提到的决策类案例研究中,一个重要的前提是把案例进行结构化描述和表达,这也是司法案例深度挖掘的必经之路。

综上所述,尚无一种技术将案例数据以计算机能够识别的方式表达,导致了司法案例应用功能向高端发展受阻,使得人工智能前沿技术在司法领域难以施展更好的辅助功能。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈