首页 理论教育 数据:从数字到智慧-基于大数据挖掘的服刑人员再犯罪预测

数据:从数字到智慧-基于大数据挖掘的服刑人员再犯罪预测

时间:2023-07-31 理论教育 版权反馈
【摘要】:例如,“0、1、2...”“阴、雨、下降、气温”“学生的档案记录、货物的运输情况”等都是数据。图3-1数据、信息、知识、智慧的金字塔层次体系①数据的涵义。信息必然来源于数据并高于数据。例如,北京7月1日,气温为30摄氏度;在12月1日气温为3摄氏度。例如,我们根据北京近几年来的冬天温度预测今年的冬天温度,从而有针对性地部署冬季取暖情况。

数据:从数字到智慧-基于大数据挖掘的服刑人员再犯罪预测

数据是数据挖掘的基础,因此我们首先要认识数据,从数据挖掘的角度认识数据,我们更加关注数据的属性和质量。

1.数据的定义

数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合[1]。它是可识别的、抽象的符号。数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。在计算机系统中,数据以二进制信息单元0和1的形式表示。

数据不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,“0、1、2...”“阴、雨、下降、气温”“学生的档案记录、货物的运输情况”等都是数据。数据经过加工后就成为信息。

在计算机科学中,数据的定义是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。

在数据科学中,各种符号(如字符、数字等)的组合、语音、图形、图像、动画、视频、多媒体和富媒体等统称为数据[2]。数据是一个相对来说,比较抽象的概念,因此我们需要对其进行认真辨析,尤其是注意以下三点。

(1)数据与数字之间存在区别和联系。数字只是用来记数的符号,数是用数字来表示的,可用一个或几个数字来表示。例如:3既是一个数字,又可以表示一个数;317是一个数,它是由三个数字1、3、7组成的。数字是单纯的,而数除了用数字表示,还可以用一些符号表示,如:字母、点或线。数用数字表示,没有数字,就不能反映出数量;离开数去谈数字,数字就失去意义,仅仅是一个符号。综上所述,数字仅仅是数据的一种表现形式,是一种符号。

(2)数据与数值之间存在联系与区别。数值是数据的一种存在形式。除了数值,数据还包括文字、图像、图形、音频、视频等其他多种类型。

(3)数据(Data)、信息(Information)、知识(Knowledge)和智慧(Wisdom)(简称DIKW)等概念之间存在一定的区别与联系。数据、信息、知识、智慧的金字塔层次体系见图3-1所示。从图3-1可以看出,从数据到智慧的认知转变过程,同时也是从认知部分到理解整体、从描述过去(现在)到预测未来的过程。数据、信息、知识、智慧的DIKW层次体系之间的联系与区别如下[3][4]

图3-1 数据、信息、知识、智慧(DIKW)的金字塔层次体系

①数据的涵义。数据是数字、文字、图像、图形、视频、音频、符号等,它还是最原始的素材,未被加工、解释、没有回答特定问题,本身不代表任何潜在的意义。由此我们可以看出,数据是一种抽象表示,由于没有针对具体事务,不具有逻辑性。

②信息的涵义。信息必然来源于数据并高于数据。我们知道50米、300吨等数据是没有联系的、孤立的,只有当这些数据用来描述一个客观事物和客观事物的关系,形成有逻辑的数据,他们才能被称为信息。除此之外,信息事实上还包括有一个非常重要的特性——时效性。例如新闻说北京气温9摄氏度,这个信息对我们是无意义的,它必须加上今天或明天北京气温9摄氏度。再例如通告说,在会议室三楼开会,这个信息也是无意义的,它必须告诉我们是哪天的几点钟在会议室三楼开会。注意信息的时效性对于我们使用和传递信息有重要的意义,它提醒我们失去信息的时效性,信息就不是完整的信息,甚至会变成毫无意义的数据。所以我们认为信息是具有时效性的、有一定含义的、有逻辑的、经过加工处理的、对决策有价值的数据。当我们通过某种方式对数据进行组织和分析,数据的意义才显现出来,从而演变为信息。

③知识的涵义。信息虽给出了数据中一些有一定意义的东西,但它的价值往往会在时间效用失效后开始衰减,只有通过人们的参与对信息进行归纳、演绎、比较等手段进行挖掘,使其有价值的部分沉淀下来,并于已存在的人类知识体系相结合,这部分有价值的信息就转变成知识。例如,北京7月1日,气温为30摄氏度;在12月1日气温为3摄氏度。这些信息一般会在时效性消失后,变得没有价值,但当人们对这些信息进行归纳和对比就会发现北京每年的7月气温会比较高,12月气温比较低,于是总结出一年有春夏秋冬四个季节。因此我们认为知识不是信息的简单累积,而是从相关信息中过滤、提炼、加工而得到的有用资料,知识将信息与信息在行动中的应用之间建立有意义的联系,他体现了信息的本质、原则和经验。此外,知识基于推理和分析,可以产生新的知识。知识来源于信息,但又不是信息的子集,它是经过“理解”后,加入了以往的经验,关联了具体情境的、可以指导“如何”行动的信息。

④智慧的涵义。因此我们认为智慧是人类基于已有的知识,主要表现为收集、加工、应用、传播知识的能力,以及对事物发展的前瞻性看法。在知识的基础之上,通过经验、阅历、见识的累积,而形成的对事物的深刻认知、远见,体现为一种卓越的判断力。这种能力运用的结果是将信息的有价值部分挖掘出来并使之成为已有知识架构的一部分。例如,我们根据北京近几年来的冬天温度预测今年的冬天温度,从而有针对性地部署冬季取暖情况。

从图3-1整体来看,知识的演进层次,可以双向演进。从噪音中分拣出来数据,转化为信息,升级为知识,升华为智慧。这样一个过程,是信息的管理和分类过程,让信息从庞大无序到分类有序,各取所需。这就是一个知识管理的过程。反过来,随着信息生产与传播手段的极大丰富,知识生产的过程其实也是一个不断衰退的过程,从智慧传播为知识,从知识普及为信息,从信息变为记录的数据。

综上所述,在当今海量数据、信息爆炸时代下,知识起到去伪存真、去粗存精的作用。知识使信息变得有用,可以在具体工作环境中,对于特定接收者解决“如何”开展工作的问题,提高工作的效率和质量。同时,知识的积累和应用,对于启迪智慧,引领未来起到了非常重要的作用。

最后,有一点需要补充说明的是,数据、信息、知识依赖于语境、依赖于接收者本身,三者之间的区别并非泾渭分明。某个经过加工的数据对某个人来说是信息,而对另外一个人来说则可能是数据;一个系统或一次处理所输出的信息,可能是另一个系统或另一次处理的原始数据。同时,在某个语境下是知识的内容,在另外的语境中,可能就是信息,甚至是无意义的数据。因此,在进行数据、信息与知识的研究与应用时,要与特定语境(即人、任务等)进行结合才有意义。

2.数据分类

数据的种类很多,按性质分为:

(1)定位的,如各种坐标数据;

(2)定性的,如表示事物属性的数据(居民地、河流、道路等);

(3)定量的,反映事物数量特征的数据,如长度、面积、体积等几何量或重量、速度等物理量;

(4)定时的,反映事物时间特性的数据,如年、月、日、时、分、秒等。

按表现形式分为:

(1)数字数据,如各种统计或量测数据;

(2)模拟数据,由连续函数组成,又分为图形数据(如点、线、面)、符号数据、文字数据和图像数据等。

按记录方式分为:

地图、表格、影像、磁带、纸带。

按数字化方式分为:

矢量数据、格网数据等。

在数据挖掘中,数据的选择、类型、数量、采集方法、详细程度、可信度等,取决于系统应用目标、功能、结构和数据处理、管理与分析的要求。(www.xing528.com)

3.数据的属性

数据集有数据对象组成,一个数据对象代表一个实体。例如,在监狱管理信息库、罪犯信息库中,数据对象主要是服刑人员、监狱干警等。属性(Attribute)是一个数据字段,表示数据的一个特征。在文献中,通常属性、维度(Dimension)、特征(Feature)和变量(Variable)可以互换使用。术语“维度”一般用在数据仓库中;术语“特征”一般用在机器学习领域;术语“变量”一般用在统计学领域;术语“属性”一般用在数据挖掘和数据库中。当数据对象存放到数据库中后,数据对象也被称为数据元组,每一行称为数据元组;每一列称为数据对象的属性。例如,描述服刑人员对象的属性可能包括Prisoner_ID、Name、Address等。一个属性的类型由该属性可能的值的集合决定,属性的描述有多种方法,在数据挖掘领域,一般将属性分为定性和定量,对应于不同的处理方法。给定属性的观测值称为观测,用来描述一个数据对象的一组属性称为属性向量或特征向量。数据的属性类型见表3-1所示。

表3-1 属性的不同类型

标称属性(Nominal Attribute)[5]的值是一些符号或事物的名称,每个值代表某种类别、编码或状态,因此标称属性又被看作是分类的。这些值可能不需要有意义的排序,在计算机科学中,这些值也被看作是枚举的。尽管,标称属性是一些符号或事物的名称,但是标称属性也可以用数表示这些符号或名称。例如,Prisoner Education(服刑人员学历)={小学、初中、高中、大专、本科、研究生}={1,2,3,4,5,6}。尽管,标称属性可以取整数值,但是也不能把它视为数值属性,因为标称属性并不具有有意义的次序,并且不是定量的。当标称属性的值只有两个时又称为二元属性或布尔属性,当这两种属性值具有同等价值并且携带相同的权重时,我们说这个二元属性是对称的,即属性的哪个值应用哪个编码并无偏好。例如,Prisoner_gender(服刑人员性别)={男,女}={0,1}={1,0},我们用指定编码0表示男,1表示女或用1表示男,0表示女。反之,这个二元属性是非对称的,即状态的结果不是同等重要的。例如,服刑人员再犯罪的结果,通常我们将用1表示最重要的结果(通常是稀有的)——再犯罪;而用编码0表示不再犯罪;再例如艾滋病病毒化验的阳性和阴性结果,通常我们将用1表示最重要的结果(通常是稀有的)——HIV阳性;而用编码0表示HIV阴性。

当定性属性的值具有有意义的排序时,我们称为序数属性,但是序数属性值之间的差是未知的。例如,教师的职称包括:助教、讲师、副教授、教授,这些值具有有意义的先后次序,但是我们不能说教授比副教授大多少。在监狱里,对服刑人员进行危险性评估级别为:普管级、严管级、危险级;危险性种类为:积极类、稳定类、消极类、顽固类、危险类,同样,这些值只具有先后次序,但不能说,上一级比下一级多多少。一般,序数属性用于记录不能客观度量的主观质量评估,通常可应用于等级评定调查。例如,调查服刑人员对监狱整体的满意程度可有如下序数类别:0—很不满意,1—不太满意,2—一般,3—满意,4—很满意。现实中,可以通过把定量数据离散化,划分为有限个有序类别而转换为序数属性。序数属性的中心趋势可以用它的中位数表示,但不能定义均值。

数值属性是定量的,即它是可以度量的量,用整数或实数值表示,可分为区间标度和比率标度。区间标度属性用相等的单位尺度度量,区间属性的值有序,并且运行进行比较和定量计算值之间的差。例如,出生的年份,2010年和2018年相差8年,但是我们不能说2018年是2010年的多少倍。再例如,某服刑人员的身体温度为31℃比另外一个服刑人员的身体温度28℃多3℃,但不能说10℃比5℃高2倍。由于区间属性是数值的,除了集中趋势度量外,还可以计算它的均值和分散趋势等。

比率属性是具有固有零点的数值属性,也就是说,我们可以说一个值是另一个值的几倍。当然,比率属性也是有序的,我们可以计算值之间的差,也能计算均值、中位数和众数等。例如服刑人员张三每年的收入4000元是服刑人员李四每年收入2000元的2倍;服刑人员王五每年的亲情回见平均次数8是服刑人员赵六每年的亲情回见平均次数2的4倍。

在机器学习领域,又把数据的属性分为离散型和连续型。离散属性是指属性的值是有限或无限可数的,可以具有数值型的值,可以用整数表示;否则,即为连续属性,通常定量属性和连续属性可以互换使用。

4.数据的维度

数据的维度分为三维,分别对应:加工程度、抽象程度和结构化程度[6],具体见图3-2所示。

图3-2 数据的维度

(1)从数据的加工程度来看,可以分为:零次数据、一次数据、二次数据、三次数据,见图3-3所示。

图3-3 数据的加工程度

数据的加工程度对于数据挖掘中的流程设计和活动选择具有重要的意义,数据挖掘团队可以根据数据的加工程度来判断是否需要进行数据预处理。

①零次数据:原始或备份数据。零次数据中往往存在缺失值、数据噪声、错误或虚假数据等数据质量问题。

②一次数据:对零次数据进行初步预处理(主要包括数据清洗、变换、集成等)后得到的“干净数据”。

③二次数据:对一次数据进行深度处理或分析后(主要包括数据脱敏、规约、标注等)得到的“增值数据”。

④三次数据:对一次或二次数据进行洞察分析(主要包括统计分析、数据挖掘、机器学习、可视化分析等)后得到的,可以直接用于决策支持的“洞见数据”。

(2)从数据的结构化程度来看,可以分为:结构化数据、半结构化数据和非结构化数据三种。它们的联系与区别见表3-2所示。

表3-2 结构化数据、半结构化数据和非结构化数据的联系与区别

①结构化数据:以“先有结构,后有数据”的方式生成的数据,通常,我们所说的结构化数据是指关系数据库中存储和管理的数据。而在关系数据库中,需要先定义数据结构(主要包括表结构、字段的定义、完整性约束等),然后再严格按照事先定义好的数据结构对数据进行处理。

②半结构化数据:介于结构化和非结构化之间的数据,数据的结构与内容耦合度高,需要进行一定的转换处理后可发现其结构。主要包括:htm l、xm l等文件。

③非结构化数据:没有统一结构的数据,在没有定义结构的情况下存储和管理数据。通常不能再关系型数据库中存储和管理,主要包括:音频、视频、图像、图形、文本等数据。

目前,在监狱、强制隔离戒毒所等司法行政机关,绝大部分数据属于非结构化数据,但受限于技术条件,当前数据挖掘的主要对象还是结构化数据。

(3)从数据的抽象程度来看,可分为:数据、元数据、数据对象三个层次。

①数据:是指对客观事件进行记录并可以鉴别的符号。例如,专著《基于大数据挖掘的服刑人员再犯罪预测》的内容。

②元数据:数据的数据,可以是数据内容的描述信息等。例如,专著《基于大数据挖掘的服刑人员再犯罪预测》的元数据有:作者、出版社、出版日期、页数、印数、字数等。

③数据对象:对数据内容和元数据进行封装或关联后得到更高层次的数据集,这属于面向对象的抽象思想。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈