首页 理论教育 探究风数据的有效性

探究风数据的有效性

时间:2023-06-28 理论教育 版权反馈
【摘要】:在对风数据进行回归分析之前,首先要确保数据是有效的,以使不确定性最小化。风数据有效性分析对于气象站数据尤为重要。Cook距离用来表征数据资料中某一条数据记录被剔除在外,由此造成的回归系数变化大小。Cook距离仅能确定从统计学的角度值得怀疑的数据点,而不能直接因此而删除该条数据。Cook距离的用法因此也存在争议。

探究风数据的有效性

在对风数据进行回归分析之前,首先要确保数据是有效的,以使不确定性最小化。有很多统计学工具可以帮助我们更好地评估数据。要成功地估计长期平均风速,首先必须获得合格的长期参考风数据。

风数据有效性分析对于气象站数据尤为重要。因为气象站在多年的观测过程中可能迁址或更换测量仪器,周围环境也可能发生了变化。测风仪器也可能记录一些异常和无效的数据。异常的和特性不连续的数据序列将导致错误地估计平均风速。除了利用风数据时间序列图形来发现异常数据点外,还存在一些统计学方法来判断回归分析中的异常数据。

Cook距离(Cook’s distance)是统计学中用于诊断各种回归分析中是否存在异常数据的工具,由美国统计学家R。Dennis Cook于1977年提出。Cook距离用来表征数据资料中某一条数据记录被剔除在外,由此造成的回归系数变化大小。显然,如果Cook距离过大,那么就表明这条数据对回归系数的计算产生了明显的影响,这条数据就是异常数据,需要仔细考量是否在模型中使用这条数据。残差大的数据点可能扭曲回归分析的结果和精度。

i条数据的Cook距离为

式中 978-7-111-42165-8-Chapter05-15.jpg——第j条数据在全体数据归回模型上的回归值;(www.xing528.com)

978-7-111-42165-8-Chapter05-16.jpg——第j条数据在剔除第i条数据后的回归模型上的回归值;

p——回归模型参数的数量;

MSE(Mean Squre Error)——回归模型的均方误差。

Cook距离仅能确定从统计学的角度值得怀疑的数据点,而不能直接因此而删除该条数据。删除数据可能是很危险的,因为在提高回归相关性的同时,也可能导致数据中重要信息的丢失[65]。Cook距离的用法因此也存在争议。可以通过Di曲线判断哪条数据的Di值显著高于其他数据。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈