随着纺织机械设备自动化、网络化和智能化的发展,整个纺织制造过程以前所未有的速度产生着海量的工艺设备、生产过程和运行管理数据,除此以外还包括控制回路数据,文本类型的原料、传感器数据、纱疵检测图像数据等,其不仅包括结构化数据还包括非结构化数据,具有数据量大、类型多、实时性强以及价值大的特点,并具备了大数据“4V”的特点,是一个典型的纺织“大数据”。而该“大数据”随着应用精度的提高则呈几何级递增,使得已有的信息集成与管理模型和算法难以应对。因此,如何对这些海量数据进行有效集成与管理,从而构建大数据环境下的纺织制造执行系统是亟待解决的现实问题。为此,本文在纺织大数据环境下,利用D-S证据以及增量聚类方法,通过数据间的相关性实现生产计划层与车间制造层间信息的有效衔接,在制造层面上搭建一个信息共享平台,实现所有工艺设备、生产过程和运行管理等的共享共用。
(一)系统设计
1.系统结构设计
为实现海量纺织数据的集成与管理,在体系结构设计时将系统构建为集贸易、生产、研发、设计、销售等功能为一体的集成管理平台;最终的目的是实现企业内部各类数据的共享共用,以解决企业信息“孤岛”问题。为此,在现有制造层面海量数据信息的基础上,将各种纺织机械控制回路数据,文本类型的原料、传感器数据,纱疵检测图像数据等进行分析与处理,并利用HDFS存储海量源数据,MapReduce处理海量数据,HBase存储处理后的数据,实现基础数据的有效融合,以此构建如图6-2所示的基于Hadoop的三层纺织大数据存储体系结构。
图6-2 纺织大数据存储系统体系图
由于纺织制造过程与其他纯机械加工过程不同,整个制造过程需经历物理和化学性质的交替变换过程,从而使制造过程中的各类数据均围绕由纤维到纱、由纱到坯布再到成品的整个制造过程对应的“品种”为中心进行信息交换和通信,故在纺织大数据存储体系中抽取表达纤维属性与成纱质量或坯布质量间关系的有益知识时,整个数据关联规则必须以“品种”为主轴,并通过增量聚类的方式从大数据集中抽取表达上层计划层与底层生产控制层之间信息衔接的知识规则(如纤维属性与纺纱质量之间非线性关系等)。在此基础上,借助大数据存储体系结构,从各异构数据库中获取实时数据时,可建立多数据表间的品种数据信息链接,其目的是通过品种数据信息建立多数据表间的相关性,可以增强底层生产控制层数据的采集、处理、分析和存储能力;最后,通过这种关系规则,实现生产计划层与车间制造层之间数据的有效对接,进行数据的融合处理,从海量数据中“挖掘”出表达纤维属性与纺纱质量、坯布质量之间相关联的数据交集,进而通过纺织过程的系统集成与数据管理,做到织物成品质量的实时在线检测。
为此,结合图6-2所示的存储体系,将纺织制造执行系统结构设计为三层,即:数据应用层、数据处理层、数据存储层三部分。其中,数据存储层的主要作用是将各部门、车间信息管理系统、监控系统中所存储的数据信息进行获取、处理,并进行数据的通信、存储以及加工。数据处理层主要实现如工艺管理系统、计划调度系统、劳资信息管理系统等数据的并行加载存储,并通过数据接口进行数据的融合、存取和链接。数据应用层用来统一管理、调用纺织大数据系统中经过处理的数据,主要通过实时数据与历史数据的分离方法来有效保证所有数据的实时性、完整性和正确性。
2.纺织数据分析与聚类算法设计
(1)纺织数据分析。以织布车间为例,通常纺织企业至少拥有织机300台,并根据在机品种的不同织机的转速需调整,现选取在机品种CJ 140×140,计划转速为460 r/min。在给定的工艺条件下,织机控制系统产生的脉冲信号数为7.67个/s,即每秒钟织机产生的数据记录为7条(7.67取整)。织机除正常检修和维护或其它异常情况外,每天按四班三运转24 h不停机工作,这样每个班(8 h)300台织机产生的数据记录为:300×8×60×60×7=60 480 000条,则一天三个班产生的数据记录为3×60 480 000=181 440 000条。同时,根据生产数据表中每个字段的数据类型可以计算出每条记录共需要500 B,则织布车间每天产生的数据量为:记录数×每条记录所占存储空间字节数=181 440 000条×500 B≈84.4 895 GB=0.08 251 TB。
就制造层面而言,纺织企业的八大车间每天产生的数据量约为:0.08 251 TB×8=0.660 TB。与此同时,纺织机械电机控制回路数据,文本类型的原料、配棉、工艺计划单数据,设备信号传感器数据,以及纱疵织疵在线图像检测数据等产生的结构化和非结构化数据也以TB数量级日益倍增[11]。在海量纺织数据环境下,数据突显出了高维、非线性、强相关,以及多噪声的四大特点,加之纺织制造过程又是一种非线性、时变的多变量系统,使得制造过程中产生的各类数据常伴有不可测的不确定性因素,易导致数据量的倍增,导致纺织制造过程质量与产量数据的正确性难以保证,无法从数据中获取有利于纺织企业管理决策有用的数据依据。
如何在纺织大数据环境下获取对生产管理决策有用的数据,是近几年国内外纺织学者们研究的热点问题。诸如Kehry S.和Uhl H.通过智能数据的管理来提高纺织机械效率,刘佩全探讨了知识挖掘在纺织行业信息化建设中的作用,詹俊等人利用改进的Apriori算法分析了质量指标超标与纱线质量不合格之间的关联规则,以及李荟萃等人通过产品进化关系和数据模型完整表达了纺织产品的工艺进化过程等。就纺织制造过程而言,其属于一种典型的分布式系统,要进行数据的聚类分析,首要解决的问题是数据准备,需从原料(如棉花、人造纤维等)、计划任务(配棉、工艺设计、试验、试纺、计划调度等)、设备(清梳联合机、并条机、络筒机、粗纱机等)、加工过程(清棉、梳棉、精梳、并条、粗纱、细纱、络筒等)相关的许多规律性知识和生产决策,挡车工的操作决策和控制经验,以及纺织机械控制、文本订单、传感器通信、纱疵检测等视角去分析;然后,将数据中的闲置数据进行划分,以提高数据的分析和处理能力。但是现有的聚类算法(如k-means)已不适宜大数据集的聚类分析,故本文在k-means的基础上提出改进算法。
(2)聚类算法分析与设计。定义:分布式聚类算法Dk-means的聚类结果等同于利用k-means算法对分布式数据进行集中聚类的结果[17]。
证明:分布式环境下执行Dk-means算法,每个站点都划分为k个簇,中心点分别为
借助上述定义,可见Dk-means算法的基本思路为:在纺织制造过程中,假设存在q个已经过处理的结构化数据源,即站点,现从中任意选定一个站点作为主站点记为Ms,并令q-1个站点作为从站点S【【i】】,则所设计的Dk-means聚类算法的如下:
(3)试验比较分析。在k-means算法的基础上,为验证和对比分析所构建Dk-means聚类算法的可行性,以及纤维属性与纺纱质量、坯布质量之间的因果关系,从纺织大数据存储体系中按照“品种”分类提取棉纱数据,该数据涉及3个基本数据源(其中,一是纺织ERP系统、清梳车间监测系统,主要提取原料纤维属性数据,包括纤维拉伸性能数据;二是细纱车间、筒并捻车间的监测系统,主要提取纱线质量数据;三是织布车间监测系统,主要提取坯布质量数据)作为试验数据集。
试验平台搭建为:Windows2003+浪潮PC服务器2台+其他服务器2台,形成32GB内存,1TB硬盘容量,1G/秒通信带宽峰值,通过VS2008进行算法编程并测试。
具体试验内容设计为:使用200台机器、每台机器100个进程对Dk-means聚类算法分3组做聚类测试,小表数据为2GB,大表数据为1TB。
第1组选取100个二维数据,按棉纱品种划分为4类,对应的群体规模为4,并取最大迭代次数均为20,则聚类效果如图6-3(a)所示。在相同的3组数据中分别使用k-means算法和Dk-means算法做聚类,对比结果如如图6-3(b)所示。
图6-3 100个数据点及聚类结果
可见,当数据量为100个二维数据,且品种分类少时,k-means与Dk-means算法的区别不明显,而且均有很强的局部寻优能力。
第2组为500个二维数据,且品种分类增加至6,最大迭代次数为50,其数据分布如图6-4(a)所示,试验结果如图6-4(b)所示。
图6-4 500个二维数据分布及聚类结果
可见,当数据量大且品种分类增加至6时,k-means易陷入局部最小值,而Dk-means算法在处理大量数据时,比k-means算法更具有优势,同时具有较强的全局寻优能力,能更快地收敛到较优点。
第3组数据为500个四维数据,品种分类为6,最大迭代次数为50,其数据分布如图6-5(a)所示,试验结果如图6-5(b)所示。
图6-5 500个四维数据分布及聚类结果
由上述试验结果可知,针对纺织制造过程中数据量大、维数高和数据类型繁杂的情形,k-means更易陷入局部最小值,但Dk-means算法更能体现出全局寻优能力强、收敛平稳、速度快的优势。
因此,在纺织大数据环境下,对纺织制造过程数据聚类分析时,所改进的Dk-means算法比k-means算法更具有全局寻优能力,而且只需传送聚簇过程中的中心点和纺织数据对象的总数,无需传送大量的纺织生产数据,只传送聚簇过程中的中心点和纺织数据对象的总数,在很大程度上提高了聚类分析的效率,有助于从海量纺织数据中快速提取企业管理决策所需的有用数据。
(二)异构数据的融合
在纺织制造过程中,影响纺织数据正确性的因素有很多,并且诸多因素(除原料、机台、环境、系统以及人为因素外)是不可预测的或突发的,具有一定的不确定性,从而诱发制造过程的中断或停止。相应地,这些中断或停止又因数据性质的突变而带来更多的数据量和类型,给各个异构系统的数据融合、集成、分析与处理带来不可估量的困难,更使从海量数据中提取表达纤维属性与纺纱、织布质量之间关系的有益知识更少。那么,如何对制造过程中产量的大量突变数据进行处理,从而进行纺织异构系统的集成和数据融合,是系统构架亟待解决的一个技术难点。
由于D-S(Dempster-Shafer)证据理论为研究不确定性因素的检测和获取提供了理论模型,可借助该模型为辨识不确定因素的产生机理和异构纺织数据的融合提供理论方法。为此,在纺织数据融合过程中,利用纺织各部门的信息管理系统,以及车间监测系统的机台监测器所携带的传感器来检测和捕捉影响纺织数据的各类不确定因素,并构建如图6-6所示的纺织数据融合结构,进而选择两种以上的传感器组来检测诱发异常事件产生的不确定因素。
图6-6 基于D-S证据的纺织数据融合结构
1.局部融合
在多传感器构成的纺织制造数据融合环境中,构架基于Hadoop的三层纺织大数据存储体系,则数据融合中心需通过各个下位机监测器的传感器所提供的数据信息进行推理,以达到属性判决的目的。然而,各个监测器的传感器所提供的数据易受到制造过程中各类不确定因素(如原料、机台、环境、系统等)的干扰,导致数据具有高维、非线性、强相关,以及多噪声四大特点。D-S证据理论作为一种不确定推理的数值推理方法,在处理不确定因素方面具有优势,并以信任函数为度量,以信任区间代替概率,以及以集合表示事件,除降维处理外,D-S证据理论为解决因上述四大特点所带来的数据影响也提供了保证。故在局部数据融合过程中,特为每个传感器分配一个加权因子。
这样,首先假设由n个传感器已检测到由不确定因素诱发的异常事件,其加权因子定义为,对应的测量值分别为x【【1】】,x【【2】】,……,x【【n】】,且相互独立,方差分别为数据融合值为则根据D-S证据理论[19],纺织制造过程多传感器的数据融合值可表示为:则对应的总均方差为:
由于x【【1】】,x【【2】】,……,x【【n】】是x的无偏估计,且相互独立,故又存在如下关系:
可见,在δ【【i】】(i=1,2,……,n)一定的条件下,式(1)中的δ【】2【1】值与加权因子wi(i=1,2,……,n)的分配相关,而且y的精度越高,δ【】2【1】的值越小,呈现一种负相关关系。当然,在纺织异构数据融合过程中,这种负相关关系还存在一个问题,即当已知
i=1,2,……,n),δ【【i】】(i=1,2,……,n)时,w【【i】】(i=1,2,……,n)应满足什么条件,才能使对应的函数F(w【【1】】,w【【2】】,……,w【【n】】)的值最小?问题的性质变为求解多变量条件下的极值问题。具体求解过程如下:
首先,引进修正函数并对修正函数F求w【【i】】(i=1,2,……,n)(www.xing528.com)
的偏导数,可得:
(2)
将式(2)转化为求解F最小值问题。当时,函数F取得最小值,则对应的方程
组为:
(3)
由式(3)可得到如下加权因子w【【i】】的值:
(4)
在式(4)基础上进行加权因子w【【i】】的累计,得到,则对应的λ值为:
(5)
将式(5)代入式(4),得:
(6)
同时,将式(6)代入(3)式,获得多传感器数据融合后的可达到的最高精度计算公式
为,在此基础上,获取最小值
2.局部纺织数据近似融合算法
在证据组合规则中,k是一个用于衡量各个证据之间冲突程度的系数。若k=1,则表明不能采用D-S证据组合规则进行数据融合。
如前所述,在纺织制造过程中,由于下位机监测器携带的传感器在实时采集数据过程中易受到外界各类不确定因素的干扰,常会出现基本概率赋值的0分配,导致k=1或k趋于1,形成融合结果与实际结果相悖问题,而D-S证据理论的近似算法为该问题的解决提供了便利条件[20]。
根据D-S近似计算的基本思想:通过减少Mass函数的焦元个数来达到计算的简化。如果Mass函数的合成将产生一个Bayes信任函数(即一个识别框架上的概率测度),则Mass函数用它们的Bayes近似来代替,将不会影响Dempster合成规则的结果。故假设目标识别框架为,采用16个下位机监测器的传感器对纺织数据融合过程进行测度,则得到的基本概率赋值见表6-1。
表6-1 由16个传感器测度的基本概率赋值
由表6-1可见,存在k=1的情形,这个结果说明在证据组合规则时融合结果与实际结果相悖。为了解决这一问题,国内外学者们提出了许多修正方法[21,22]。但通过仔细研读,其可分为两大类:一是基于修正融合模型的方法,该类方法最显著的特点是对这种相悖问题进行预处理,在此基础上利用证据组合规则融合证据,代表性的方法有折扣系数法、加权平均法等;二是基于修正组合规则的方法,该类方法主要解决面向相悖问题的分配空间和权重问题,代表性的方法有全局分配法、局部分配法等。目前已有的这些修正方法在数据集较小的前提下,当融合结果与实际结果相悖或判定某一或部分证据与其他证据冲突时,可通过融合权限的调整,实现降低融合结果或所判定证据对实际融合结果的影响。当然,从根本上讲,这种融合权限调整方法在大数据环境下还是一种被动调整,其融合结果与实际结果还存在一定的误差。为此,本文在纺织大数据环境下,提出利用如下Mass函数的Bayes近似公式进行进一步计算。即:
由此进行贝叶斯近似计算,则计算后得到的基本概率赋值见表6-2。
表6-2 贝叶斯近似后的基本概率赋值
从表6-2中可以发现:О【【4】】(F【【4】】)、О【【8】】(F【【1】】)、О【【15】】(F【【2】】)、О【【16】】(F【【3】】)为0,表明其不能进行D-S证据理论合成,需要根据纺织制造过程中各类不确定因素的产生概率,以及对棉纱产量数据造成的系统误差进行分析,以此对表6-2中值为0的数据分别分配适当的扰动量εi进行适当调整。
若将扰动量ε【【i】】定义为0.0100,则经调整后的基本概率赋值如表6-3所示。
表6-3 调整后的基本概率赋值
由表6-3可见,通过增加扰动量后数据融合结果达到了归一化要求,使得Bel(О【【i】】)=m(О【【i】】)。进而,经D-S证据理论融合后得到的结果如图6-7所示,最终的识别结果为F【【1】】。
图6-7 融合结果
(三)系统的实现
在现有制造层面海量数据信息的基础上,构架了基于Hadoop的三层纺织大数据存储系统体系。在此基础上,通过梳理纺织制造过程的业务流程和数据流程,利用U/C矩阵(过程/数据矩阵)划分系统子功能的方法,将纺织制造执行系统的主要功能划分为:计划管理、资源管理、设备维护管理、产量质量管理、机台数据采集、生产调度、职工管理、资料管理,以及生产过程跟踪管理九大功能模块,并且各功能模块又可通过业务与数据之间的因果关系,二次划分为与织物“品种”关联的若干子功能模块,并在纺织数据融合的基础上通过相互间的信息共用来实现系统的主要功能,其功能模块间的相互关系如图6-8所示。
图6-8 系统主要功能模块
在系统功能设计与实现过程中,按照纺织企业从市场需求到生产供应的整个产业链中所涉及的各个业务流程,以及由业务流程所产生的数据流向,将系统功能按照“品种”信息输入输出关系划分为与业务流程与数据流向相对应的九大功能模块。而且,每个模块与后台大数据存储系统数据库之间均以“品种”信息为索引字段进行数据存取,并通过纤维属性与纺纱、坯布质量之间数据关系所对应的“品种”来建立数据之间的相关关系。以如图6-9(a)所示的棉纱质量人机交互功能模块为例,由于整个棉纱质量数据融合过程的数据源于上层计划层ERP系统(其中包括订单、原料、工艺计划、试织工艺数据等),以及底层车间制造层四个车间的监测系统(清梳车间监测系统、细纱车间监测系统、筒并捻车间监测系统、织布车间监测系统),但是每个系统均存储海量的纺织数据,且本身是一个大数据集,而这种以“品种”信息为索引字段进行融合后的数据存取方法,通过增量聚类算法进行聚类,更有利于表达上层计划层与底层生产控制层之间以“品种”为主线的纤维属性数据与纺纱、坯布质量数据之间关联关系。
图6-9 机台生产数据及运转状态
同时,在纺织制造过程的多传感器数据融合中,系统还可对各类不确定因素所引起的异常事件做出快速反应。若突发如图6-9(b)所示的异常事件(灰色标识),则表明需要进行局部传感器数据的融合,此时可根据各机台监测器在异常事件发生时刻所采集的机台运转状态数据来估计。通过双击异常(灰色标识)信息,系统人机交互界面可自动弹出异常信息的来源,以及异常信息对应的纤维属性、成纱质量或坯布质量异常数据,有利于表示纤维属性与成纱质量、坯布质量之间的因果关联关系,有效地提升了制造过程异常事件的快速反应能力,更增强了计划层与生产制造层之间信息的有效衔接。
(四)结论
针对纺织制造过程中的系统集成与数据管理问题,在原有车间监测系统、部门管理信息系统以及工艺管理系统数据,以及文本类型的原料、传感器数据,纱疵检测图像数据的基础上,利用D-S证据、增量聚类理论方法,通过纺织企业内部局域网,在纺织大数据环境下构建了一种制造执行系统,实现了各类异构纺织业务与生产数据的有效集成。
通过系统测试,结果表明:该系统运行稳定、数据处理结果准确、而且系统结构简洁、易维护,有效解决了纺织企业上层计划层与底层车间制造层之间信息无法衔接的现实问题,并通过强调制造过程的整体优化来帮助企业实施完整的闭环生产,同时也为企业信息化的建设提供了良好的技术支撑。但是,随着技术研究的不断深入和方案设计的不断细化,越发觉得如下问题还得拓展:
(1)在“两化融合”政策的指导下,深入探究纺织企业如何通过信息技术的进步来驱动纺织行业的管理创新和转型升级。尤其是,如何从交叉学科的角度,将这种面向大数据环境下的制造执行系统进行功能扩展,从后台大数据存储体系中获取更多更有价值的管理信息,从而为企业的管理创新决策提供数据依据,这是纺织制造执行系统功能设计中有待进一步考虑的问题。
(2)如何通过数据融合结果应用于各类在织织物加工质量的在线实时检测,并对制造过程中易出现的异常事件行为进行实时预警,从而保证整个生产过程的连续化,是一个系统实现与应用过程中值得深入探究的问题。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。