在对风数据进行回归分析之前,首先要确保数据是有效的,以使不确定性最小化。有很多统计学工具可以帮助我们更好地评估数据。要成功地估计长期平均风速,首先必须获得合格的长期参考风数据。
风数据有效性分析对于气象站数据尤为重要。因为气象站在多年的观测过程中可能迁址或更换测量仪器,周围环境也可能发生了变化。测风仪器也可能记录一些异常和无效的数据。异常的和特性不连续的数据序列将导致错误地估计平均风速。除了利用风数据时间序列图形来发现异常数据点外,还存在一些统计学方法来判断回归分析中的异常数据。
Cook距离(Cook’s distance)是统计学中用于诊断各种回归分析中是否存在异常数据的工具,由美国统计学家R。Dennis Cook于1977年提出。Cook距离用来表征数据资料中某一条数据记录被剔除在外,由此造成的回归系数变化大小。显然,如果Cook距离过大,那么就表明这条数据对回归系数的计算产生了明显的影响,这条数据就是异常数据,需要仔细考量是否在模型中使用这条数据。残差大的数据点可能扭曲回归分析的结果和精度。
第i条数据的Cook距离为
式中 ——第j条数据在全体数据归回模型上的回归值;(www.xing528.com)
——第j条数据在剔除第i条数据后的回归模型上的回归值;
p——回归模型参数的数量;
MSE(Mean Squre Error)——回归模型的均方误差。
Cook距离仅能确定从统计学的角度值得怀疑的数据点,而不能直接因此而删除该条数据。删除数据可能是很危险的,因为在提高回归相关性的同时,也可能导致数据中重要信息的丢失[65]。Cook距离的用法因此也存在争议。可以通过Di曲线判断哪条数据的Di值显著高于其他数据。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。