在工业4.0中,大数据被认为是物理与信息融合过程中的关键技术。在工业互联网中,大数据已经成为生产机器、厂房、人力资源等之外更为创新性的生产要素,被认为是重构全球工业、激发生产力的关键技术。可以说,工业互联网是基石,工业大数据是引擎。
工业互联网将会产生非常有价值的大数据。机器所产生的大量数据,通过传感器收集到数据库中。例如,消费类和工业产品中的许多传感器和数据捕获设备都在不停地生成海量数据,这些数据经过处理后可以用于工程设计、测试流程或制造流程。而且,随着传感器软硬件成本以及收集、储存海量数据成本的不断降低,现在可以承受可负担的成本对企业在生产流程中产生的所有海量数据进行实时收集、处理和分析。而这一切,在过去是无法想象的。在以前从未收集和利用的数据会产生极大的业务价值。
例如,如今制造的汽车都配有数百种传感器,每一个传感器在每一秒内都要生成有关车辆的各种部件或系统(如刹车、油门、转向、传动、润滑、散热、发动机)在正常使用时产生的数据。这些数据存储在汽车之中,可以在汽车维修时进行分析和利用。这些数据也可以用于工程设计领域,在后续改进产品设计时是大有裨益的。
可以想象,无论收集设备如何(无论是在制造流程、工程设计流程中还是使用最终消费或工业产品),此类设备的数量将连年增加,每一台设备生成的数据量也同样会增加。而且机器生成的数据量远大于非传统数据量。例如,一架喷气发动机30分钟内即可生成10 TB数据。如果每日的航班超过25000架次,则仅此一个数据源每日即可生成数PB数据。
由此,结果将导致在优化现有大多数大规模制造产品设计、工程设计和维护流程时需要分析的数据量呈指数级增加。
1.工业到底包含什么数据
工业大数据是一个全新的概念,从字面上理解,工业大数据是指在工业领域信息化应用中所产生的大量数据。那么工业大数据到底包含什么样的数据呢?
制造业整个价值链、制造业产品的整个生命周期,都涉及诸多的数据。制造业企业需要管理的数据种类繁多,涉及大量结构化数据和非结构化数据。
从数据的来源上看,数据包括以下系统的数据:
(1)传统制造企业业务运营系统数据,包括ERP、SCM、ERP等系统数据。
(2)从传感器收集的生产和供应链数据。
(3)包括市场需求/价格、销售活动信息、营销响应等信息的客户营销系统数据。
(4)产品生命周期数据。
(5)财务及业务预测系统的数据。
(6)网站浏览的数据。
(7)社交媒体数据等。
从数据内容上看,工业大数据包括:
(1)产品数据:设计、建模、工艺、加工、测试、维护数据、产品结构、零部件配置关系、变更记录等。
(2)运营数据:组织结构、业务管理、生产设备、市场营销、质量控制、生产、采购、库存、目标计划、电子商务等。
(3)价值链数据:客户、供应商、合作伙伴等。
(4)外部数据:经济运行数据、行业数据、市场数据、竞争对手数据、社交媒体数据等。
2.工业大数据如何进行处理
各种连接设备里的传感器会产生的大量数据,海量数据使得机器学习成为可能,机器学习的结果又指导生产机器或工业机器人去更精确地执行任务,生产机器或机器人的行动又会触发传感器。这整个就是一个完整的工业大数据处理闭环(图8-10)。
图8-10 工业大数据
工业大数据经过生成、采集、传输、加工与合成后,形成业务洞察,被用于工业产品生产的各个阶段。具体来说,整个大数据处理分为以下几个步骤:
(1)数据采集与记录。
收集和记录下相关信息,是利用数据提升业务机会的基础。只有制造流程被量化并且记录下来,效率低下的环节才有可能被识别并改进。因此,物理的生产过程需要使用传感器或其他度量设备进行自动实时收集数据,并且覆盖生产的整个环节,进行质量控制与监控。例如,为了提升生产线上的自动焊接枪的工作效率,需要识别焊接枪的工作负载达到均衡状态。安装的传感器会实时捕获每个焊接枪的负载数据,传回中央控制系统。根据数据分析和算法的支持,按照情况自动重新分配工作量。因此,按照业务目标定义要收集的数据,并记录相关的数据(包括一些历史)是必需的第一步。
(2)数据整合。
为防止信息损耗,数据在使用之前必须进行整合。制造企业需要整合不同来源、不同应用中的数据,包括来自公司外部的数据。例如,在食品加工行业,根据外部获得的天气预报的数据来相应调整制造工业,或进行原材料的采购。
(3)数据建模与分析。
从数据中获取洞察需要彻底处理和分析,以挖掘出数据背后的信息。例如,使用先进的数据分析建模方法(如逻辑回归算法)找出对金矿产量的影响因素,以及这些因素是如何影响产量的。其中,分析发现氧气浓度对于产量起着很大作用。因此,通过在提取过程中加入适量的氧气,可以增加产量。由此可见,得出正确的结论取决于依赖于一个相关因素之间的因果关系(如来自大量的历史数据集),并采用分析结果对现状进行优化。这些相关关系不那么明显,不能通过业务经验获得,而要借助数据建模的方式来发现。而一旦应用于生产,就将获得令人意想不到的业务收益。
(4)把信息转化为结果。
最后一步需要从数字领域回归到“真实世界”,通过将结论从数据分析转换为建议,并最终行动。许多决策过程仍然需要人的参与,而数据分析往往是自动而实时发现这些原来没有发现的业务规律。例如在半导体工业中,通过操作先进过程控制(APC)系统,用统计过程控制(SPC)的异常检测系统进行机器设备参数的自动调整。这意味着一个自动化的闭环被创建,用于确保生产过程中产生所需的结果。
3.各阶段涉及的大数据技术
相对于传统数据库数据,机器大数据具有数量大(Volume)、增长速度快(Velocity)、多样化(Varity)等特点,但是价值密度(Value)略低。也就是说,大多数的数据在采用最初接收到的形式时往往价值不高。为了将这些数据转化为可用形式或者得到可用部分,可能需要进行分析处理。
由于工业大数据包括的数据各异,既包括ERP、SCM等系统包含的传统结构化数据,又包括文本、语音、影像、社交媒体、传感器数据等半结构化或非结构化数据。不同数据的存储方式、数据建模方式、数据集成方式、安全性以及数据的使用方式都不尽相同,因此在处理这些数据的时候,通常采用不同的技术手段(图8-11)。
(www.xing528.com)
图8-11 不同工业数据的处理方式
其中,工业大数据中的交易数据、分析数据等,由于主要采用传统的关系型数据库存储的方式,因此数据建模、集成、访问的方式多采用传统的技术,如关系建模技术、采用ETL或CDC方式集成、SQL访问数据等。参考数据和内容数据多基于半结构化(如XML文件)和非结构化的数据方式存储,而且数据处理方式多基于文件方式进行。
而数据量巨大、实时性要求高的传感器数据、网络日志类数据和社交媒体数据等如何处理,是制造企业处理工业大数据时需要重点考虑的问题。
总体上看,业界对大数据处理的总体思路是将海量、低密度的数据以商业廉价的、分布式、可扩展的技术进行获取和存储,然后按照业务目标的要求将数据中有价值的部分提取和处理为结构化的数据,将这部分预处理的数据加载到企业原有的传统数据仓库或分析库中进行整合分析,这样企业可以使用原有的分析应用来统一分析所有数据。同样,工业大数据的处理方式也遵从这种处理方式和流程(图8-12)。
图8-12 工业大数据处理流程
接下来我们按照数据获取、组织和分析3个数据处理阶段,对各阶段涉及的技术分别进行描述。
(1)获取大数据。
因为工业大数据是速度更高、种类更多的数据流,所以支持工业大数据获取的基础架构必须以实时的低延迟来捕获数据,并且执行简单的业务查询,能够在分布式环境中处理极高的事务量,并支持灵活的动态数据结构。
获取和存储大数据经常使用NoSQL数据库,此类数据库非常适用于动态数据结构,并且伸缩性强。NoSQL数据库中存储的数据通常多种多样,因为系统的用途就是捕获所有数据,而不作分类和分析。
例如,NoSQL数据库经常用于收集和存储传感器和社交媒体数据。虽然面向客户的应用不断变化,但底层存储结构却一直都很简单。通常,这些简单的结构并不是要设计一个模式来包含实体间的关系,而只是包含一个主键来标识数据点以及包含一个内容容器来容纳相关数据。这种简单的动态结构既支持各种变化,又无须成本高昂的存储层重组。
键值存储或NoSQL数据库是大数据环境的OLTP数据库;它们经过了优化,支持极快的数据捕获和简单查询模式。NoSQL数据库能够提供极快的性能,因为它是通过单一识别键来快速存储捕获的数据,而不是对数据进行解释并投掷到模式中。因此,NoSQL数据库能够快速存储大量事务。
不过,由于NoSQL数据库中数据的多变性,致使任何数据组织工作都需要编程来解释所用的存储逻辑,加之缺乏对复杂查询模式的支持,使得最终用户难以从NoSQL数据库的数据中汲取价值。
(2)组织大数据。
由于传感器等数据量非常巨大,造成了很多情况下都是在其原始存储位置组织数据,而不迁移大量的数据,这样做将大大提高数据处理效率。移动海量数据的代价是巨大的,因此在这个阶段,工业大数据基础架构必须能够在原始存储位置处理和操作数据;支持极高的吞吐量(通常成批)以支持大数据处理步骤;将各种非结构化数据格式处理加工成结构化的数据,以进行后续的数据分析。
在使用分布式文件系统和事务(键值)存储用于捕获数据之后,为了解释这些解决方案中的数据并从中提取信息,企业可在传统的DBMS、简单文件或分布式集群系统(如NoSQL和Hadoop分布式文件系统,即HDFS)中存储和处理这些数据。在这些分布式的数据节点上运行自定义的MapReduce程序来处理这些原始而又海量的数据。
Hadoop是一种新技术,支持在原始数据存储集群中组织和处理海量数据。可以使用Hadoop分布式文件系统(HDFS)作为机器大数据的长期存储系统。通过在同一集群上运行MapReduce程序提取所需的数据,并对数据进行初步处理,如汇总操作等,然后这些汇总结果会加载到传统的关系型数据库系统中,如基于Oracle的数据仓库中。
(3)分析大数据。
分析大数据是最为关键的一步,所需的基础架构必须能够支持对不同系统中存储的更多数据类型进行更深入的分析,如统计分析和数据挖掘,并根据分析模型自动做出决策。而最重要的是,基础架构必须能够集成大数据与传统企业数据的组合分析。新见解不仅来自对新数据的分析,还来自结合旧数据对新数据做出的分析。与对事务数据的处理相同,大数据处理输出将会载入到传统ODS、数据仓库和数据集市中,以便于实施进一步的分析。
1)数据挖掘流程和方法论。除了业务报表、仪表盘应用和业务查询等传统数据应用以外,工业大数据应用层还包含数据挖掘、机器学习、统计分析和数据可视化等数据分析方式。机器学习依靠数据处理和模式识别,从而让计算机不需要编程就能去学习。现在的海量数据和计算能力都在促进数据挖掘和机器学习的突破。数据挖掘的流程如图8-13所示。
图8-13 跨行业数据挖掘标准流程
数据挖掘的跨行业标准流程模型,简称CRISP-DM,概括了各行各业的数据挖掘项目所使用的一种最通用的框架。CRISP-DM是一个适用于任何知识发现流程的框架,虽然CRISP-DM模型早在1999年就已经提出,并在各种KDD过程模型中广泛适用,并成为知识发现领域事实标准流程。在大数据时代的今天,面向工业大数据的问题也是同样采用相同的方式进行挖掘数据。
对于任何给定的任务,为了开发可测的假设,分析师首先对业务目标(如预测机器故障率,还是找出导致残次品率上升的原因等)和业务数据情况(如现有哪些数据、都来自于哪些数据源、数据质量如何、是否可用、数据项之间相关性如何等)进行详细理解。在后续步骤中,接着是准备数据、构建模型、从技术和商业两个方面对模型进行评估,最后以某种方式部署结果或模型。
2)选择合适的挖掘算法。在整个过程中,根据不同的业务类型选择合适的数据挖掘算法进行建模是很关键的。由于每种算法都有自己的适用场景和优缺点,因此选择算法不仅是技术,也是艺术。在实际建模过程中,通常会选择A/B两种算法分别建模,在评估和比较它们的预测效果后进行选择。另外,即使在模型上线部署之后,还会对模型的预测效果进行跟踪和监控,以防止业务情况和数据情况发生较大变化而导致模型预测效果不能满足业务需求的情况。常见的挖掘算法如图8-14所示。
图8-14 常见的数据挖掘算法
而且,在同样的算法下,数据的丰富程度极大地影响着数据建模的质量。由于工业传感器数据、社交媒体数据、其他外部数据的采集和整合,工业大数据涵盖了比以往企业内部数据丰富得多的数据范围和数据内容,即使对于采用相同的算法,数据越丰富意味着对模型的训练越准确而充分,从而模型的预测准确度会更高(图8-15)。
图8-15 更广泛而丰富的数据会极大提升模型预测能力
3)数据挖掘环境——数据沙箱。在进行数据建模分析时,通常会在企业传统数据环境之外,建立一个大数据分析平台,也称为数据沙箱(Sandbox)(图8-16)。在这个环境中,数据建模人员通常使用详细级的数据或经过汇总处理过的数据为起点,对数据进行深入分析和挖掘。这些数据也许是逻辑(视图)数据而非物理副本,并且如果不需要完整的数据集,就可对其进行采样。为了促进了解,分析师可使用不同的工具以有意义的方式呈现数据,此外,用到要解决的问题,可能用到上面提到的挖掘算法。这一过程中的每一步也许会生成新数据,如数据选择、转换、模型或测试结果,所有这些均在数据沙箱内获得管理。
图8-16 数据沙箱技术
区别于传统瀑布式的(waterfall)应用开发方式,在数据沙箱内通常采用基于数据驱动的大数据应用开发方式,即首先对数据进行探索,理解数据的分布状况、数据质量可用性、数据项之间的相关性等,然后根据业务问题选择合适的挖掘算法进行数据建模,后续再将数据分析结果应用到业务流程中。
图8-17 数据沙箱开发方式
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。