制造业大数据来源多样、结构互不相同,这些数据对制造企业的信息化带来了根本性的变革影响,具体包括:
(1)产品数据:产品设计CAD数据、产品建模仿真CAE数据、产品工艺数据、产品加工数据与数控加工NC程序、产品测试数据、产品维护数据、产品结构BOM数据、零部件配置关系、变更记录等。
(2)企业运营数据:企业组织结构、市场营销与销售数据、业务管理数据、生产设备与设备运行数据、质量检验与质量控制数据、生产制造数据、采购数据、库存数据、各类计划数据、电子商务数据等。
(3)物联网感知数据:工业传感器、无线射频识别(RFID)、条形码、工业自动控制系统等技术更是日益丰富着工业数据量。而工业企业中生产线高速运转,由机器所产生的数据量远大于计算机和人工产生的数据,而且数据类型多是非结构化数据。
(4)供应链数据:随着大规模定制和网络协同发展,制造业大数据还包括涵盖整条供应链网络产生的数据,包括消费者的个性化定制数据、售后反馈数据、供应商和合作伙伴信息数据等。
(5)外部数据:经济运行数据、行业数据、市场数据、政策数据、竞争对手数据等。
随着互联网与工业融合创新,工业互联网的时代到来,工业大数据集成应用将成为工业互联网应用的核心。以工业数据的采集与解析、工业大数据的分析和可视化、工业大数据的安全管理为代表的三大工业大数据应用的关键技术可以促成工业大数据的企业基础信息平台建设和发展。大数据时代的发展需要完善的企业信息基础平台,而现有的企业信息系统基础架构还不足以满足大数据时代的发展需求。我们在进行信息基础架构的建设和完善时,不仅要增加信息系统的大数据计算处理能力和工业大数据存储管理能力,还要重视对数据资源的扩展和融合。
传统企业信息基础架构是以小型机、关系数据库、应用集成、数据仓库构成了数据统计分析和商务智能分析基础架构。大数据时代下,海量数据的出现、数据结构的改变,非结构化数据量大大超过了结构化数据量,列存储、内存数据库、NoSQL存储、流计算等技术将成为数据存储和处理的主流技术。基于云计算技术是大数据时代数据中心架构的基本特征,大数据的高并发、低延迟的特性要求企业数据中心基础架构具备快速横向扩展能力,满足业务模式的增长具有突发性和高速性,当业务需求突然高速增长时能够快速扩张基础架构,以提供相应的服务能力[1]。制造大数据平台技术架构如图5-1所示。
图5-1 制造大数据平台技术架构
制造大数据平台技术架构包含大数据数据处理平台,大数据分析应用模型、大数据可视化展现。大数据数据处理平台提供将多源异构结构化数据、半结构化、非结构化数据进行有效数据集成,并将这些工业大数据进行分布式NoSQL数据库存储;基于HDFS(hadoop distributed file system)来实现面向非结构化数据的分布式存储服务,并提供大规模结构化数据分析引擎和非结构化计算框架。通过丰富的可视化分析展现工具提供大数据分析结果信息,灵活快速地响应企业产品设计、生产制造、营销服务、经营管理的各种变化,支撑构建制造大数据智能分析与决策应用系统[2]。
5.1.3.2 大数据推动企业信息系统迈向大融合(www.xing528.com)
在大数据背景下,企业数据源具有数据类型多样、模式异构、地理位置分散、访问机制不同等传统特点外,还具有海量数据、数据价值密度高等特征,这将带来数据集成模式和数据集成技术的变革。
适配器(adapter)是一种常见设计模式,它把一个类的接口转换成客户期望的另一个接口,让类与类之间不至于因为接口不兼容而不能协同工作。使用适配器技术大大节省了用于开发接口与修改接口的时间。在数据集成中,往往需要访问各种数据源各种存储格式的数据来返回给用户统一的结果。通过为不同数据源编写适配器,就可以在集成过程中使用统一接口来访问各种数据源。适配器技术作为数据集成的基础技术,已经在工业界获得极大成功。主流的数据集成工具都提供了丰富的适配器,主要包括以下几种:关系型数据库,结构化信息如XML、文本文件,企业应用程序系统,Web服务等。其中iWay公司的Universal Adapter Suite提供了多达300种的适配器,几乎涵盖了所有的信息类型。Universal Adapter Suite从四个维度对适配器技术进行了支持:消息传输协议;消息寻址分发协议;格式化消息内容;多平台。Universal Adapter Suite因此具备极大的灵活性和可重用性。在大规模网络环境下进行数据集成,数据源的类型将更加多样化,除了为已知数据类型提供接口完善的适配器来访问信息,同时要设计灵活的适配器架构,可以快速为新数据类型创建适配器[3]。
随着工业大数据的出现,以数据仓库、关系型数据库为核心的数据资源集成、数据中心集成,现在成为企业发展的一个重点和难点。在海量结构化与非结构化数据集成方面,传统的数据库和数据集成厂商提供了功能丰富的ETL工具用来支持数据处理流程的开发,比如Informatica的PowerCenter,IBM的Data Stage和Microsoft的SSIS。数据量的不断增大和积累,尤其是非结构化数据的显著增加,使得传统的基于数据库或者并行的数据流程处理方式在处理大数据量时,表现出了很大的局限性,云计算技术也随着海量数据的处理需求出现而日益流行,同时出现了很多云计算平台,如Google的MapReduce,开源Hadoop,微软的Dryad等。国内一些制造业企业数据集成平台正处于起步阶段,这主要由于国内企业的信息化建设相比于国外落后一些,企业数据集成平台承载的信息很大一部分来自产品生产企业、销售企业以及售后服务系统等企业内部管理系统。
大数据处理模式主要可以分为先存储后处理的批处理和直接处理的流处理两种方式,流处理将数据视为流,源源不断的数据就组成了数据流,流处理模式要求当新的数据到来是能实时返回新的数据处理结果。一般在实时性要求较高的场景比较适合应用流处理模式,比如说传感器网络,工业过程自动化实时控制等。Hadoop的Map/Reduce编程模型就是典型的批处理模式。即数据首先被存储,然后批量进行处理。批处理模式做离线的、非实时的数据处理分析,而流处理则用来处理工业实时控制。
企业构建大数据资源中心采用基于分布式的数据存储、管理及应用。数据分布在整个云的各个计算节点上。利用非结构化数据库(例如HBase)可以很方便地实现数据的分布存储和冗余,充分利用云的节点存储能力。此外也可以部署一些关系型数据库(MySQL、ORACLE等),尤其是汇聚机架配置了存储设备时,可以在这些存储设备上部署关系型数据库(汇聚机架上可能需要增加额外的数据库服务器)。两种类型的数据库的设计是目前新一代数据中心的重要特征,既可以实现对海量非结构化数据的存储与管理,也可以发挥传统关系型数据库对结构化数据的处理能力。
然而,现有的制造业行业IT系统一般使用关系型数据库存放数据,因此,将部分存储在关系型数据库中的数据迁移到面向列的分布式数据库中,是云构建需要解决的问题之一。
从方法讲,在数据资源中心设计阶段,根据应用对数据模型的要求,设计面向列的分布式存储模型,然后完成从传统关系型数据库表格到后者的映射。例如,在HBase中,可将原关系型数据库中的表格数据直接对应到面向列数据库的列族中,并根据这些定义的映射实现数据的迁移操作。
这一问题从技术上并不难以实现,主流的云计算技术都直接支持关系型数据库与云环境分布式数据库之间的数据迁移,例如Hadoop中的SQOOP工具:Sqoop是Clouder公司开发的一个在关系数据库和HDFS,Hive之间数据导入导出的一个工具,可以将一个关系型数据库(例如MySQL、Oracle、Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。构建制造业数据资源中心可利用Sqoop数据迁移工具,实现制造业数据在传统关系型数据库系统与分布式数据库系统的双向迁移。
数据资源中心除存储上述原始数据的非结构化数据库、关系型数据库和文件外,根据制造行业各应用的标准,还可以存储大量符合制造业行业标准的数据。这些数据不同于未经任何处理的原始数据,一般是符合业务标准,质量高的制造业数据。这些数据可以直接作为数据分析和挖掘的素材。制造企业大数据分析与决策融合系统如图5-2所示。
图5-2 制造企业大数据分析与决策融合系统
构建企业大数据资源中心,从制造企业PDM系统、ERP系统、销售接单系统、制造执行MES系统获取产品设计数据、产品BOM与工艺数据,销售订单、物料信息、库存信息、设备信息、生产计划、生产制造数据、企业经营管理数据、外部市场与供应链数据、质量测试检验数据等。通过数据接入工具将抽取的数据进行标准化数据模型的转换,同时按照预定的规则对数据合理性进行校验,为数据分析提供准确的基础数据。采用分布式数据库存储:产品与工艺数据域、生产计划域、销售数据域、生产制造域、产品质量域、供应链数据等数据。基于企业大数据分析管理平台,进行基于大数据的销售预测与精准营销应用、产品优化设计与个性化定制应用、制造过程大数据分析服务、产品装备运维数据分析、经营管理数据分析、供应链数据分析等服务。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。