首页 理论教育 数据验证的有限性及其核心方法:范围、相关性和趋势检验

数据验证的有限性及其核心方法:范围、相关性和趋势检验

时间:2023-06-26 理论教育 版权反馈
【摘要】:在进行下一步处理之前,应当知道数据验证的有限性。测量参数的检查 这些检验是数据验证处理的核心,通常包括范围检验、相关性检验和趋势检验。1)范围检验:这种检验在数据检验中最为简单和常见。表2-3给出了相关性检验的示例。相关性检验能确保实际上不太可能的情况在未经查证之前不被记录在数据中。

数据验证的有限性及其核心方法:范围、相关性和趋势检验

数据验证的定义是检查所有收集到的数据是否完整、合理以及消除错误数值。这一步原始数据转换为验证过的数据,然后再处理成满足用户各种分析用的总结报告,这一步对于维持测风计划期间数据的高度完整性也是关键的。因此,数据传输之后,必须尽可能在一两天内进行验证。对潜在的测量问题通知现场操作员越早,数据丢失的风险也越小。

数据验证的目的是检查测风获得的原始数据,对其完整性和合理性进行数据检验,检验出缺测和不合理的数据,编写数据检验报告,计算测风数据的完整率,然后剔掉无效数据,替换上有效数据,经过整理得出一套至少连续一年的完整的10min间隔的风电场测风数据。

2.3.1.1 数据验证的方法

数据可以通过手工或自动检测(基于计算机)。虽然总离不开一些手工复审,但计算机由于速度和能力的优势仍是首选。检测软件可以从数据采集器销售商处购买,建立通用电子制表软件程序(例如,Microsoft Excel,Quattro Pro,Lotus 123),或通过其他用于公用环境项目的程序。使用电子制表软件的优点是还能够用于处理数据及编制报告。这些程序要求输入的数据为ASCII码文件,如果采用二进制数据传输,数据采集器的数据管理软件可以进行此项转换。

978-7-111-44609-5-Chapter02-5.jpg

图2-4 数据验证流程图

数据验证主要包含数据浏览与数据核实两个部分。

1)数据浏览:第一步是使用常规的程序或算法浏览所有数据找出可疑数值(有疑问的和错误的)。可疑数据应当复核,但不一定是错误的。例如,在平常有风的一天,由于当地严重的雷暴天气,可能引起异常高的风速。数据浏览这个部分结果是一份打印出的数据验证报告,其中列出了可疑的数值和各个可疑数值不符合哪条验证规程。

2)数据核实:第二步要求一项一项决定如何处置可疑数值,作为有效值保留,作为无效值丢弃,或是用其他能够得到的备用有效值代替。这部分工作应当由有资格的熟悉测量设备和当地气象条件的人来判断。

在进行下一步处理之前,应当知道数据验证的有限性。有许多可能引起数据错误的原因:如传感器故障或损坏,电缆断开,电缆损坏,装配零件损坏,数据采集器故障,静电感应,传感器校准漂移以及冰冻等。数据验证的目的是尽可能从许多出现错误的原因中发现许多重要错误,抓住所有细微的错误是不可能的。例如,电缆断开可以通过一个长系列的零值(或随意的值)很容易地发现,但松脱的电缆形成不连续的连接可能只是部分减少了记录的数值并仍在一个合理的范围内。因此,细小的数据偏差能够躲避检测(虽然使用备用传感器能够减少这种可能性)。适当实施测风计划的其他质量保证部分可以减少数据问题发生的机会。

以下两个部分描述了两类验证规程,对每个测量参数推荐具体的检验指标,并讨论对怀疑和丢失数据的处理。

1.检验规程

检验规程的制定是为了在收入归档的数据库和用来进行场址分析之前,浏览每个测量参数查出可疑数值。可分为两个主要类型:一般系统检查和测量参数检查。

(1)一般系统检查 对收集到的数据进行两种简单测试以评估数据的完整性:

1)数据记录:每一个记录的数据组数目必须等于预期的测量参数的数目。

2)时间顺序:检验是否有连续的数据丢失,这种检验主要集中在每个数据记录的时间和日期标记上。

(2)测量参数的检查 这些检验是数据验证处理的核心,通常包括范围检验、相关性检验和趋势检验。

1)范围检验:这种检验在数据检验中最为简单和常见。将测量到的数据与允许值的上限和下限进行比较。表2-2列出范围检验指标的示例。对于大部分预期的平均风速的一个合理范围是0~40m/s。然后,许多校准过的风速计提供了校准偏移量避免零值的出现。负值显然表示出了问题,风速大于40m/s是可能的,但需要通过其他信息核实。范围检验的上下限必须确定,它应当包括几乎(但不是绝对的)所有预期在现场出现的值。技术人员根据他们的经验可以对这些上下限的值进行微调。另外,还可以适当地按季节调整。例如,冬天的气温和阳光照射比夏天低。

表2-2 范围检验指标示例

978-7-111-44609-5-Chapter02-6.jpg

①除另有说明,指所有监测高度。

②F/C:平地/复杂地形。

如果一个值满足指标,那么就认定为有效值。然而,许多参数需要一系列的指标来检测,因为一个单一的指标不太可能检查出全部问题。例如,一个被冻住的风向标连续6个10min间隔的平均风向恰好是180°,这个值满足0°~360°的范围测试,但这个固定的风向标的标准偏差为零而被怀疑。

2)相关性检验:这种比较是基于各种参数之间预期的物理关系。表2-3给出了相关性检验的示例。相关性检验能确保实际上不太可能的情况在未经查证之前不被记录在数据中。例如,在30m高度的风速比50m高度风速大很多。

3)趋势检验:这种检验是基于数值在整个时间过程的变化率。表2-4列出了趋势检验指标示例。例如,在1h内气温变化大于5℃是很少出现的,并表明可能有问题。

表2-3 相关性检验指标示例

978-7-111-44609-5-Chapter02-7.jpg

注:△—偏差。本例中,风速计高度为50m、30m、10m。

表2-4 趋势检验指标示例

978-7-111-44609-5-Chapter02-8.jpg(www.xing528.com)

注:本例中,风速计高度为50m、30m、10m。

表2-3、表2-4的检验指标示例没有全部列出,也没有必要应用到所有场址。当使用时,技术人员将学习在什么条件下哪些指标最经常遇到。例如,某些指标总是在小风的情况下经常遇到,然而数据仍是有效的。发生这种情况可以采用一套指标用于小风(低于4m/s),另外一套指标用于强风。因此,当需要的时候技术人员应修改指标或制定新的指标。

数据验证处理还有个好处是参与检验处理过程的技术人员将会非常熟悉当地的风气候学。风的表征在各种天气情况下的变化是明显的,各种参数之间的相关性也如此。这种经验非常宝贵,仅仅通过阅读每月的汇总表是不能领会到的,并且对于评估当地气象条件对风电机组运行和维护的影响是非常重要的。2.可疑和丢失数据的处理

当原始数据经过各种验证检查之后,如何处理可疑数据呢?某些可疑数据可能是正确的,因情况特殊而产生,而其他的则可能是真的不正确。以下是一些处理可疑数据的指导原则:

1)编制一份数据验证报告(打印或计算机屏幕显示),列出所有可疑数据。对于每一个值,报告将提供记录到的数值、发生时间以及认为这个数值不合理的检验指标。

2)应该由专家核查可疑数据以决定是否能够接受。赋予无效数据一个检验代码将其替代。表2-5给出了一些示例。通常指定-900系列检验代码赋予废弃数据。用数字表示不同的剔除说明。应检查运行和维护记录本或现场温度数据来确定这些代码。

表2-5 验证代码示例

978-7-111-44609-5-Chapter02-9.jpg

3)如果使用了备用的传感器,只要备用传感器的数据通过了所有的检验指标就可以代替主传感器中剔除的数值。

4)在每个测站数据验证记录本中保存完整的现场所有数据检验工作的记录。对于剔除的和替换的数据,测站数据验证记录本中包括以下信息:文件名,参数类型和监测高度,数据的日期和时间标记,赋予每一个剔除数据的代码和注解,替代值的来源。

3.数据完整率

数据完整率定义为有效的数据记录与报告期间内所有数据记录之比,并取决于每个测风传感器(每个测站的所有监测高度)。计算方法如下:

978-7-111-44609-5-Chapter02-10.jpg

式中,应测数目为测量期间小时数;缺测数目为没有记录到的小时平均值数目;无效数据数目为确认为不合理的小时平均值数目。

2.3.1.2 修补缺测数据

以某个拟建风电场的2座70m测风塔(#1、#2)测风数据为例,见表2-6。阐述使用相关性修补缺测数据的过程:#1、#2测风塔皆为70m桁架式。风速传感器分别安装在70m、50m、30m及10m。此两座测风塔皆安装于2006年1月。

表2-6 #1、#2测风塔测风情况表

978-7-111-44609-5-Chapter02-11.jpg

根据《风电场风能资源评估方法》,“现场测量收集数据应至少连续进行一年,并保证采集的有效数据完整率达到90%以上”。因此,#1塔70m测风数据必须修补,使完整率达到90%以上才能满足资源分析的要求。

修补方法:通过相关性分析,以相关方程进行检验修补。选取#1、#2塔70m高度、#1塔50m高度的2006年8月1日~2006年9月30日的同期测风数据,分别进行相关性分析(见图2-5、图2-6),得到相关方程如下:

方案1:#1塔与#2塔70m高度周期测风数据相关方程Y=0.9391X+0.7762,相关系数R=0.9;方案2:#1塔70m高度与50m高度同期测风数据相关方程Y=0.9839X-0.6372,相关系数R=0.974。

978-7-111-44609-5-Chapter02-12.jpg

图2-5 #1、#2测风塔70m高度数据的相关性分析

978-7-111-44609-5-Chapter02-13.jpg

图2-6 #1测风塔70m与50m高度数据的相关性分析

上述两个相关方程的相关系数都大于80%,都可以作为缺测数据修补的依据。分别用以上两个相关方程对#1塔70m高度2006年10月5日~11月13日的缺测数据修补,得出2组不同的#1塔70m高度完整年的测风数据组。作为拟建风电场的风能资源判断,我们该使用哪个数据组更可靠?从相关系数的值分析,方案2的值更接近于1,理论上应更为可靠,偏差会更小。

2.3.1.3 验证结果

经过各种检验,剔除掉无效数据,替换上有效数据,对缺测、不合理测风数据的相关性修补,整理出至少连续一年的风电场实测逐小时风速风向数据,并注明这套数据的有效数据完整率。编写数据验证报告,对确认为无效的数据应注明原因,替换的数值应注明来源。此外,宜包括实测的逐小时平均气温(可选)和逐小时平均气压(可选)。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈