1.终端数据预处理
为了使平台能够有效地采集到车载终端中的数据,可以通过表3-2中的方法对数据进行预处理。
①汽车上车载终端采集到的数据有正有负,在数据传输时GB 32960协议无法表示正负值,所以需要将采集到的电流值转化为可以通信的数据格式。例如:通过数据偏移的方式(即传输电流值=采集电流值+1000)将采集到的电流转换为可以通信的数据格式,这样就可以使用0~1000来表示原来在-1000~0A的电流值,用1000~2000表示原来在0~1000A的电流值。
②因为GB 32960协议中传输数据精度没有车载终端采集的数据精度高,所以可能存在采集数据中小数位丢失的情况。为了提高通信时的数据传输精度,需要将采集到的数据值扩大为原来的10倍。
③当车载终端采集并上传到平台的数据存在超出合理范围的异常情况时,为了避免异常数据影响平台功能的正常使用,可以对异常数据进行过滤。
通过图3-5的方式处理数据后,不仅过滤了异常数据,还通过数据偏移的方式,使得数据转变为可以通信的数据格式,提高了数据的精度。处理完成的数据会保存在数据库中,并定时同步给接入网关。
数据描述与要求样例见表3-2。
表3-2 数据描述与要求样例
车载终端上传的数据首先会进入接入网关。接入网关对车载终端上传数据完成解析后,调用预处理模块对每个数据项值进行有效验证。预处理模块的判断规则是把当前车载终端动态上传的数据项和管理员预配置的有效取值范围进行大小关系比较,对异常数据置空处理。平台后续功能模块会忽略被置空的异常数据,这样就实现了对终端上传数据的预处理功能。(www.xing528.com)
图3-5 终端数据预处理
2.数据分析前对数据的预处理
数据质量是数据分析的基础,低质量的数据会严重影响模型精度和准确度,因此在数据分析之前要先对原始数据进行处理,提高数据质量。从平台中获得的数据由于数据传输过程中可能出现的丢包、掉帧等问题而存在缺失值,在对数据进行分析之前要先处理掉这些缺失值。对于缺失值的处理过程如图3-6所示,具体可以分成下面几个步骤:
①找出数据集中含有缺失值的数据。要清洗数据集中的缺失值,首先要找出数据集中存在缺失值的数据记录。
②判断含有缺失值记录的可用性。因为本文提出的统计学习的缺失值清洗方法的适用范围是单变量缺失的情况,所以,对于找出的存在缺失值的数据记录,要根据包含缺失值的个数来决定该条记录是删除还是保留。
③插补缺失值。按照缺失值所在的属性,对保留下来存在缺失值的数据记录进行分组,然后利用完整的数据记录,对每组记录中的缺失值做基于统计学习的缺失值插补。
图3-6 缺失值处理流程
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。