1)数据采集技术
数据采集器采用典型的嵌入式系统,是一个软件与硬件的综合体。硬件包括采集模块(MAX485)、数据存储模块(SD长)、数据上传模块(DM9600以太网控制器、H1102网络变压器、LAN⁃100MRJ45接口)、数据暂存模块(H57V2562GTASDRAM、K9F4G08U0B NAND FLASH)、数据显示与键盘模块(CLCD40P接口、WXCAT43⁃TG6液晶触摸屏),所有模块均与主控制器(S3C2440ARLSC微控制器)相连。由于数据采集的对象为数字式计量表,一般采用典型的数字通信RS485总线通信,数据上传部分采用典型的网络控制器实现网络通信,数据暂存采用常用的SDRAM、NAND FLASH来实现,如图9.4所示。
图9.4 分项计量系统硬件结构示意图
智能计量仪器在第一步完成的工作,是将能耗信号进行转变,通常是物理的转换为数字的信号,利用的是传感器和处理信号阶段,能耗数据接下来会交由处理器做进一步的工作,数据集中器再通过RS⁃485通信接口得到计量仪器传来的数据信息。它以单片机为核心,带有RS⁃485通信功能以及以太网接口,数据集中器通过以太网通信模块接入局域网,或者通过GPRS连接到服务器。集线器是使用有线、无线局域网的网络连接设备,监测中心与数据集中器之间的连接通过屏蔽双绞线完成,TCP/IP协议是最常用的通信协议,进行TCP/IP属性设置后的设备便可以接入局域网。监控中心收到能耗数据后经过数据集中器采用TCP/IP格式封装。
①智能计量装置主要功能是分项计量公共建筑中电、水、燃气、油、燃煤等能耗,通过将采集模块安装在公共建筑生产现场,收集各种数据,对公共建筑内的各种耗能设备运行状态的用能数据进行采集。通常采集的数据含有区域、单个设备的运行参数以及外部环境的参数。智能计量装置对现场能耗的采集是通过各种能耗传感器实现的,目前传感器常用的有电能表、电压互感器、电流互感器、水表、蒸汽表、燃气表、冷量计、油表、温度计等。比较典型的电能表具有多种计量功能,包括对有功功率、无功功率、有功电能、电流、电压的计量。其他水表、燃气表等传感器往往带有RS⁃485数据传输功能,通过这些计量数字表实现采集。对于传统的不带数字功能的模拟计量装置,可以加装RS⁃485数据转换器,从而达到实现能耗数据采集的要求。计量装置的组成包括计量模块、数据处理模块、数据传输模块,具有数据储存、输出的功能,同时能够现场显示并带有RS⁃485标准通信接口远传等功能。
②数据集中器是安装在公共建筑内,其作用是采集计量装置所计量到的能耗数据,该设备还能进行数据处理和数据远程传输。公共建筑内的一定区域范围内,所有的智能计量装置所采集到的能耗数据都通过RS⁃485总线集中到一起,然后进行接收、处理和存储等步骤。数据集中器同时拥有多个上行和下行数据接口以及数据通信协议,并能够通过TCP/IP协议与上层的数据中心交换数据。数据处理可以得到有效实现,并且保证了数据传输的效率。智能通信设备之间即使拥有不同协议,通信也可以实现。RS⁃485传输协议抗干扰能力较强是因为使用差分信号,系统数据集中器的联网采用RS⁃485总线实现,数据集中器通过两根信号线便可以连接到RS⁃485总线上,有着布线方便的特点。
③数据传输。多个计量装置可以同时挂接在RS⁃485总线上,每个计量装置都可以实现数据传输,RS⁃485总线上所有智能计量装置的数据被数据集中器集中采集,并且打包上传到数据中心;数据集中器和远端数据中心之间通过有线、无线以太网络技术或者GPRS运营商网络构件数据传输的通信网络。进行连接,监测数据也通过它上传到管理中心,以太网、GPRS/CDMA等多种传输方式都可以得到支持,各种既有传输通道的要求都可以得到充分满足。
④数据中心连接整个监测系统,计量装置和数据集中器收集到的数据通过有线、无线的方式传送到数据中心。数据中心对数据集中器上传的数据接收并存储。同时,分区域监控上传的数据,分析、处理、展示和发布能耗数据,制作各种报表,包括能效数据统计报表、各种分类分项能效汇总表。数据中心起到管理、配置和维护整个用能系统的作用,通过分析和处理各种数据,能源审计、节能服务报告等也能由此得出。
2)数据通信技术
数据通信主要是前端仪表设备和数据采集器前端网关之间的通信,以及前端网关通过广域网与远程数据中心之间的通信两层。
(1)数据集中器
数据集中器是用于采集计量装置能效数据,安装在公共建筑内,并对数据进行远程传输和处理的设备。其功能是在公共建筑内一定区域范围内通过RS⁃485总线将计量装置采集的能效数据进行集中接收、存储和处理,并将数据通过数据中心与TCP/IP网络交换。多个通信协议和上行、下行数据接口包含在数据集中器中,数据得以实现有效的处理和保证数据有效率的传输。同时,拥有不同协议的智能通信设备之间也可以实现通信。为了有利于布线的方便,系统中数据集中器的联网采用RS⁃485总线实现,将数据集中器通过两根信号线便可以连接到RS⁃485总线集中器上,差分信号在RS⁃485传输协议中使用,因此有较强的抗干扰能力。
数据集中器的组成一般来说都包含以下一些部分:含有RS⁃485接口的电路、运算的单片机、处理显示功能的电路、处理以太网通信的接口电路、存储信息的电路以及供电的电源。双串口的单片机,作为整个数据集中器最重要的部分,选取的是EEPROM芯片用来处理存储功能,里面储存了建筑的总线地址的信息以及收集到的能耗数据信息。总线上的数据,通过RS⁃485接口的电路来进行综合集中,而以太网通信的接口电路,主要功能是提供接入以太网进行数据传输。数据集中器在接入局域网以后,设置成为一个用能单位端。在整个总线上,数据传输的时候速度可以达到10 Mbps。数据集中器还必须有很强的抗电磁干扰的能力,因为在建筑里面,电磁环境相对比较复杂,所以集中器的电源有两个,分别给不同的部位供电,一个是485接口,一个是包括单片机在内的其他各个部分。显示电路提供的功能是,如果有需要,数据可以直接通过这个功能显示读取。数据集中器作为用能单位端接入局域网之前,首先需要针对必要的网络条件设置好。对于数据集中器来说,它最主要的作用是收集各个不同设备或者车间里连接的能耗计量仪器,并收集它们采集的数据。这些数据除了可以直接在显示模块显示,同时也打包并传送到数据中心区,而且设备的能效数据和仪表工况等都能够采集并显示。构成数据集中器的部件主要有以下这些:RS⁃485接口电路、显示电路、处理器、电源、以太网接口电路、存储电路。数据集中器可以选配Wi⁃Fi通信模块、GPRS/CDMA通信模块,支持数据储存、断点续传功能。
系统运行的环境被考虑到时,特别是作为现场采集系统核心设备的能效数据集中器运行在公共建筑现场,设计能效数据集中器要使其要求达到工业级数据集中器的等级。能效数据集中器必须能用于大区域中的分布式数据的双向传输,包含采集、控制的功能,也需要良好的稳定性和适应性,多种通信方式都要兼容,逻辑控制和复杂的数据功能都能支持,多种控制功能如本地、远程等都可实现。能效数据集中器在项目设计中需要拥有如下优势:
①能效数据集中器的传输协议满足本文关于分项能效数据采集技术的分析和介绍。
②RS⁃485接口需要在能效数据集中器上提供多个,以保证大量、多种类型的计量表计能并发接收,达到整个公共建筑能效采集工作能由少量设备就能完成的要求。
③有线和无线传输的同时支持,如支持Wi⁃Fi、ZigBee,提供RJ45接口。同时,拥有GPRS/CDMA路由功能,TCP/IP链路可通过多种方式构建,实施计量数据可采用有线或无线的方式向中心稳定、可靠地传输。
④本地记录、实时采集、断点续传的功能。拥有大容量固态存储,对采集数据实现长期的本地存储,传输方式为主动并发采集;断点续传的支持,采集数据在通信中断恢复以后可自动恢复到中心。
(2)数据通信
一般来说,通常使用并行通信或者串行通信这两种方式,用于电脑之间,或者电脑与终端之间的通信。相对于并行通信来说,串行的成本比较低,而且用的线路少一些,这是它的优势。它被广泛采用的另一个原因是,如果用于远程的通信,可以避免多条线路之间产生不一致性。不同的设备如果要使用串行通信,就必须使用同样的标准接口,这样它们之间才能方便地进行通信。
RS⁃485串行总线标准在要求通信距离达到几十米乃至上千米,因此被广泛采用。平衡发送和差分接在RS⁃485中被采用,在对抗共模干扰方面的能力十分突出。及时线路的长度达到千米以上,因为使用的收发器灵敏度十分出色,即使如200 mV这样的低电压都可以准确检测到,所以恢复信号方面不存在困难。对于RS⁃485来说,工作采用的特有方式是半双工的,由使能信号对发送电路须加以控制。用于多点互联时RS⁃485非常方便,许多信号线可以省掉。分布式系统可以应用RS⁃485联网构成,其最多允许驱动器和接收器各自并联32台。
(3)网络传输
网络传输有多种途径,其中有线传输以以太网为主,通过TPC/IP协议,将数据从集中器传输到监测中心。无线传输包括Wi⁃Fi局域网传输,与以太网传输相似,
其不同之处在于,对于不便于布线的场所,可以采用Wi⁃Fi通信模块之间的无线传输。特点是覆盖成本低、范围广、传输速度快,同时因传输距离近、通信质量欠佳。
作为以太网的一种,局域网一般所布置的区域都比较局限而且集中,比如一栋办公楼内。对其进行准确描述的话,它的存在其实是相对于广域网而言的,所以并没有一个具体的划定,凡是连接的设备有限,而且组成的网络有一定的局限性,都可以称之为局域网。视现场情况,根据智能计量仪表和数据集中器之间连接的方式不同,组成的局域网也多种多样,可以组成无线局域网、有线局域网及无线和有线相结合的局域网等形式。
有线局域网方式在新建的公共建筑中比较适用,由于在变电室集中其配电支路,同时RS⁃485监测仪表有较短的串联连接线,可以比较灵活方便地布线。在既有的公共建筑建筑中,结构简单的比较适合无线局域网连接方式,因为其拥有较为分散的监测点,各个监测点间有较远的距离,比较难使用458线布置。结构复杂且墙体分隔较多的,分享能耗计量宜采用有线局域网的连接方式,以保证信号传输的稳定性。但仪表的费用在无线局域网连接方式中所需高,是一个制约其广泛应用的重要因素。由于组网方式中无线局域网和有线局域网各有优缺点,根据现场的具体环境,在实际工程设计中可结合两者的优势,灵活配置。
其他的无线传输方式主要应用到的是GPRS/CDMA通信。GPRS是通用分组无线业务(General Packet Radio Service)的英文简称,是一种基于GSM系统的无线分组交换技术。它提供端到端、广域的无线IP连接。GPRS通信技术具有技术成熟、覆盖面广、无盲区等特点,利用其实现电力系统数据的无线传输,不仅可以节省数据传输网络的投资,还可以不受地域的限制,且数据传输安全可靠。在选用GPRS/CDMA通信的同时,应注意其传输速度有一定限制,以及需要承担运营商租用成本的特点。
在无线通信系统中评价无线通信技术性能的指标主要有以下3个参数。
信道容量。信道最大的传输速率即为信道容量,单位是位/秒(bps)。数据传输速率和信道容量的不同是,信道最大的数据传输速率由前者表示,是信道的传输数据能力极限,像公路上的最大限速;数据传输速率是实际数据的传输速率,与汽车的实际速度类似。
传输速率。传输速率包括信道传输速率和数据传输速率。信号传输速率所指的是在单位时间内通过信道传输的码元数,单位是波特(Baud)。信号传输速率也称码波特率、调制速率或元速率。数据传输速率指每一秒钟传输二进制信息的位数,其单位是位/秒,记作bps。
误码率。在通信过程中,如果引入的杂波幅度在数字信号处理或传送过程中过大,信号本身的判决电平被超过时,错判即误码就会产生。当发送端发送“1”时,如果接收端收到的是“0”就是所谓误码,反之亦然。误码代指这种不一致的收发信码。在相当长的时间间隔,误码出现在传输码流中的概率,即为误码率,表示经过传输后信号出现误码的程度。单位时间内误码数和传输总码数的比为误码率的一般计算方法。
(4)主站设备
主站设备主要包括通信服务器、数据库服务器和管理分析平台。数据库服务器采用目前流行的SQL Server 2008平台,它有很好的稳定性、可靠性、安全性。
在整个能效监测平台中,主站是最为重要的硬件部分,组成主站最主要的硬件包括数据库服务器和计算机等,同时还有负责完成网络通信功能的各种软硬件系统等。数据库服务器需要对数据进行归档和分类等各种操作,负责对所有数据的管理工作。数据的采集、数据的交换,还有采集点与检测中心的各种通信等,都是由主站的前置机来完成的,它的功能还包括把主站的各种指令传输出去,以及把接收到的采集点的各种数据进行分析预处理。主站通常都配备了专用的网络出口以及固定的IP地址,同数据集中器和能耗计量设备之间进行各种数据的交换,使用的方式也包括各种有线和无线的网络。实现数据传输、数据解析和处理是主站主要功能,另外还包括其他的一些管理功能、配置功能等。
数据中心包括的主要硬件设备有服务器、交换机、硬件防火墙、监控电脑、UPS、磁盘阵列柜、展示等。其中按需求和功能可将服务器分为数据集中器、数据库服务器、数据处理服务器、文件管理服务器、Web服务器等,存储数据的设备包括磁盘阵列柜,磁盘阵列的容量空间可以在各台服务器间共享,服务器与磁盘阵列通过光纤与光纤交换机相连接,稳定的数据传输性及较高的存储速度得到了保证。数据展示子系统和数据分析子系统的分屏显示系统、电脑访问服务器资源,则是通过由路由器组成的局域网,包括服务器、演示设备、数据分析设备传递。由于互联网首先是连接到硬件防火墙上的,所以病毒攻击在入侵数据中心之前可以被有效地挡住,同时也可以抵御恶意攻击。主要保护的对象包括平台的能耗查询功能、数据上报等,另外,也包括信息管理接口等容易出现安全问题的部分。
3)数据挖掘技术
数据挖掘(DM:Data Mining),是从存放在数据库、数据仓库或其他信息库的大量数据中发现知识的过程。数据挖掘的一个显著特征是它所提取的模式是隐含的、事先未知的。这不同于专家系统仅是对己有知识的学习,并且要将这些新颖的知识以容易被人理解的形式表现出来。因此、挖掘过程也是一个人机交互、螺旋上升的过程,它需要反复调整,从而挖掘出质量更高、更有效的知识。
数据挖掘由以下步骤的迭代序列组成,如图9.5所示。
图9.5 数据挖掘的步骤
数据清理:清除数据中的噪声以及纠正不一致数据;
数据集成:将数据由多个数据源合并成一致的数据存储,如数据仓库;
数据选择:从数据库中提取与分析任务相关的数据;
数据变换:数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作;
数据挖掘:使用智能方法提取数据模式;
模式评估:根据某种兴趣度度量,识别表示知识的真正有趣的模式;(www.xing528.com)
知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识。
典型的数据挖掘系统包含以下主要内容,如图9.6所示。
图9.6 数据挖掘系统组成
数据库、数据仓库或其他信息库:这是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。通常需要对数据对象使用数据清洗和数据集成操作进行初步的处理。
数据库或数据仓库服务器:根据用户的数据挖掘请求,服务器负责提取相关的数据。
知识库:用于存放数据挖掘所需要的专业知识,用于指导搜索、评估结果模式的兴趣度,帮助对挖掘结果的评估。比如挖掘算法中所使用的用户定义的阈值,就是最简单的领域知识。
数据挖掘引擎:是数据挖掘系统的基本部分,由一组数据挖掘模块组成,用于关联、分类、特征化、聚类分析以及演变和偏差分析等任务。
模式评估模块:通常使用兴趣度度量,协助数据挖掘模块挖掘更有意义的模式知识。该模块能否与数据挖掘模块有机结合,取决于所使用的具体挖掘算法。
图形用户界面:此模块在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘查询,提供揭示信息,帮助搜索聚焦。此外,它还允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化。
目前数据挖掘方法主要包括关联规则、分类与预测、聚类分析、孤立点分析、趋势分析等分析方法。
(1)关联规则
关联规则主要是从大量数据中挖掘出描述数据项之间相互联系的有价值的相关知识,如果两个或多个事务之间存在关联,那么其中一个事物就能从其他已知事物中预测得到。关联规则的发现可分为两步:第一步是迭代识别所有的频繁项目集,要求频繁项目集的支持率不低于用户设定的最低值;第二步是从频繁项目集中构造可信度不低于用户设定的最低值的规则。识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。关联规则X Y可以这样解释:“如果数据库元组满足X中条件,那么多半也满足Y中条件。”最小支持度和最小可信度是关联规则需要的两个阈值,前者表示了一组物品在统计意义上需满足的最低要求,即实用性。通过这两个阈值就可以找出用户感兴趣的规则,而后者反映了关联规则的最低可靠度。
关联规则能够发现被大量日常操作行为所掩盖的,蕴藏于大量数据下的事务之间的关联关系,这也是其最大的优点。关联规则分析是很多其他数据挖掘任务的基础,广泛应用于销售分析与事务数据分析之中。其中最典型的例子就是“啤酒与尿布”的故事。目前具有代表性的方法主要有Apriori算法及其改进算法、FP⁃tree算法、ISS⁃DM算法(基于项目序列集操作)、Close算法和频繁项目集生成算法等。
(2)分类和预测
分类作为数据挖掘中一种非常重要的方法,主要用于预测数据对象的离散类别。一般情况下,是根据一组已归类的数据,同时按照一定的评判标准,归纳出分类函数或分类模式(分类器),最后根据这些模式对数据库中新的数据对象进行归类操作。
分类模型可以用决策树、分类规则、数学公式或神经网络多种形式来表示。目前,在信用评估、医疗诊断、性能预测等领域分类方法都得到了实际的应用。
其过程一般包括两个步骤。
①首先需要建立一个模型:描述预定的数据类集或概念集。通过分析由属性所描述的数据库元组来建立一个模型。
②使用模型进行分类:首先估计模型的分类准确率,如果认为模型的准确率还可以接受,那么就可以使用该模型对未来的数据或者对象(其类别未知)进行分类。
(3)聚类分析
所谓聚类分析是这样定义的:将一组物理或抽象对象按相似性归为若干类别。其目的是一方面要使同一类别中的对象间的距离尽可能小;另一方面要使不同类别中对象间的距离尽可能大。
聚类与分类不同,在分类问题中,预知训练例的分类属性值,要做的是将每一条记录分别属于哪一类标记出来。类似却不同的是聚类分析的输入数据集是一组未标记的对象,当然也没有被进行任何分类,聚类就是根据一定的规则,然后合理地进行分组或聚类,并用显式或隐式的方法来描述不同的类别。例如,在机器学习中,分类是有监督学习的一个例子,与之相反,聚类是无监督学习的一个例子。所以,两者所采用的方法相差甚远,而且聚类的时间复杂度要比分类大得多。
聚类既可作为数据挖掘工具以获得数据分布的内在规律,也可作为其他分析模式(如概念描述、分类等)的预处理技术以提高其他模式的分析效果。聚类分析具有广泛的用途,在市场营销、顾客分类、生物研究、空间分析、模式识别、Web文档分类等各领域都得到了深入的研究和应用。
目前,文献中存在着大量的聚类算法,通常可以分为5类:基于划分的、基于层次的、基于密度的、基于网格的和基于模型的聚类算法。
①基于划分的方法。
在这种方法中,首先给定一个数据库,这个数据库包含n个数据对象或元组,每个划分方法可以构建出数据的k个划分,同时每个划分表示一个簇,且k≤n。这个簇必须至少包含一个对象并且每个对象也必须属于且只属于一个簇。k也要满足如下要求:一个初始的划分方法首先在算法中被给出,以后的划分是通过反复迭代的方法进行的,并且要使得每一次改进后的划分方案一次比一次更好。不同簇中的对象越远越好,而同一簇中的对象越近越好,且目标是最小化所有对象与其参照点之间的相异度之和,这是需要达到的标准。
②基于层次的方法。
层次方法可分为凝聚的、分裂的两种方案,它是对给定数据对象集合进行层次的分解,直到满足某种条件为止。前者是一种自底向上的策略,首先每个对象将被作为一个簇,然后合并这些簇。因为原子簇越来越大,可以使这个簇包含直到所有的对象,或者某个终结条件被满足。绝大多数层次聚类方法属于这一类,它们只是在簇间相似度的定义上有所不同。而后者则与前者相反。
③基于密度的方法。
基于密度的聚类方法的提出引出了发现任意形状的聚类结果。其主要思想是:如果一个区域中的点的密度大于某个域值,那么就把它加到与之相近的聚类中去。它虽然需要预先定义密度函数,但能发现任意形状的簇,还能处理噪声,且只需一次扫描即可。
④基于网格的方法。
基于网格的聚类方法将空间量化为有限数目的单元,而其采用了一个所有分辨率的网格数据结构,因此这些单元形成了网格结构,而所有的聚类操作都可以在网格上进行。这种方法的优点是处理速度快,因为其处理时间独立于数据对象的数目,并且仅依赖于量化空间中每一维上的单元数目,因而具有较高的处理效率。但是,在数据点的分布稀疏的空间中无法节省开销。
⑤基于模型的方法。
基于模型的聚类方法试图优化给定的数据和某些数学模型之间的适应性,主要有统计学和神经网络两类方法。
对于监测点群的历史能耗数据,无论采用以上所介绍的何种挖掘算法进行分析,最终都需建立公共建筑能耗监测模型、公共建筑能耗预测模型和公共建筑能耗评价模型3个主要应用模型。发现能耗数据集内在的簇群,即建筑物的能耗模式,得到3个模型之首能耗监测模型。由于数据集大,而且存在一定的噪声数据,且并无其形状的先验知识,可以选择基于密度的聚类算法DBSCAN。识别出能耗模式之后通过分类建立模式判定树。如图9.7所示。
公共建筑能耗预测模型主要用于建筑的实时预测,一般来说主要用于将来一段时期内对用能单位用能策略进行指导调节。如图9.8所示。
公共建筑能耗评价模型是一种对建筑物能效进行评价的方法,通过将待评估目标建筑与其自身的历史特性,以及相同功能和类型建筑的能效特性进行对比来实现。如图9.9所示。
至此,通过前端分项计量得来的电能数据,在经过预处理、数据挖掘后,学习发现3种模型,以此形成了节能策略服务及改造方案输出。可将整个数据挖掘过程粗略地划分为4个阶段:第一个介绍实时数据收集和预处理;第二个阶段是公共建筑能耗数据聚类挖掘模型的建立;第三个是结果解释和评估;第四个是模型的应用。
图9.7 公共建筑能耗监测模型图
图9.8 公共建筑能耗预测模型图
图9.9 公共建筑能耗评价模型图
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。