人工智能技术分为分布式数据挖掘与决策分析技术和高速数据流挖掘分析技术两个方面。
1.分布式数据挖掘与决策分析技术
随着信息量的激增,分布式技术已成为处理和存储庞大数据的重要方法。通过分析研究各种分布式数据挖掘方法的基础理论,结合基于营销、财务和生产等数据,整合银行、政府和社会第三方公用事业单位的相关数据,通过数据挖掘、关联分析预测、异常探测等技术,实现接入阶梯电价指导意见、相关电价政策、客户基本信息、客户历史用电信息、电价信息、购电成本等海量数据,通过制定分析模型,解决让分布性的电力数据能为决策提供更科学有效的支持[14]。其支撑技术如下:
(1)研究电力数据下分布式数据挖掘相关技术
研究以上技术,以解决电力数据的分布性、异构性、不确定、非结构化和海量性等问题。
(2)研究结点的同构与异构
在同构分布式数据挖掘系统中,各个结点存储的数据都具有相同的属性空间,通过研究元学习、合作学习、集成学习原理,研究实现同构结点的数据挖掘;研究异构分布式数据挖掘系统所要处理的数据集称为垂直分划数据集。
(3)研究分布式决策分析方法
决策分析是一种用于分类与价值分析的传统预测模型,由于其简单易用,并且具有很好的可理解性与较强的可扩展性,因此被数据挖掘领域所广泛使用。利用决策分析模型,对海量电网数据建模,形成可分析、可利用的多维OLAP模型。
(4)研究电力市场下分布式数据挖掘的关联规则相关技术问题
分析各种数据挖掘方法的优缺点,需求适合输电、配电、用电等计量数据的分析方法,整合银行、政府和社会等第三方公用事业单位的数据,选择最优算法对电力数据进行挖掘分析。
2.高速数据流挖掘分析技术
随着信息化智能电网的不断发展,会产生大量的数据流,如智能电网监控日志、网络日志、IT设备监控日志等,通过数据流的数据挖掘方法,从这些连续到达的多维、高速、时变、不可预测、无边界的数据流中提取有用的信息[15]。其支撑技术如下:(www.xing528.com)
(1)基于数据流算法的相关技术研究
基于数据流算法的相关技术研究主要研究包括概要数据结构(生成数据流概要数据结构的主要方法包括取样、直方图、小波变换、Sketching、Load Shedding和哈希方法),滑动窗口(Sliding Windows)技术(研究滑动窗口模型的挖掘算法),多窗口技术(多窗口技术在内存或磁盘中保存数据流上多个窗口内数据的概要信息),还有压缩技术和自适应技术等。
(2)基于数据流的聚类算法研究
数据流中的聚类算法属于增量式数据处理,聚类算法是无监督学习的一种,它是以相似性为基础,使得一个聚类中的样本之间与不在同一个聚类中的样本之间具有更多的相似性,主要包括K-means聚类算法、ClusterStream算法。
(3)基于数据流的分类算法研究
分类算法通过对一个已有的训练集体合的学习得到学习模型,从而对于一个给定的测试对象,它能够给出基预测类别信息。主要有两种:增量式挖掘算法(如增量决策树)、基于批的集成学习算法。
(4)基于数据流的频繁模式挖掘算法研究
频繁模式挖掘的主要任务是在对样本数据进行统计后,得到频率较高的一系列数据。在频繁模式挖掘中有很多经典算法,例如CHARM算法、FP-growth算法、CLOSET算法、Apriori算法等。
(5)基于数据流的数据挖掘方法在电力行业中的应用研究
监控网络的数据属于典型的数据流,如智能电网中分布于电网上的传感器构成的对于电网的检测系统、基于物联网的机房检测系统、安全和网络设备日志产生构成的日志检测系统,通过这些系统产生的数据流挖掘,可以发现其中规则性、异常性的问题,帮助执行者做出正确的决策,如调整电网负荷、发现入侵痕迹等。
(6)处理不完善快速数据流的方法
实际业务中的数据一定含有不完善的数据值,例如缺失值、噪声数据、偏见数据等,如何在极短的时间内,自适应处理不完善数据值,是面向数据流分析的一个重要挑战。各种数据流挖掘方法也提出了相应的解决方法(例如iOVFDT、FlexDT等增量决策树)。研究自适应数据流中的不完善数据,为提高对电网业务分析结果的可靠性,起到不可忽视的作用。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。