首页 理论教育 区域风险空间聚类与异常值分析案例分析

区域风险空间聚类与异常值分析案例分析

时间:2023-08-29 理论教育 版权反馈
【摘要】:在此背景下,我们引入了LMI统计算法来进一步了解区域内每个风险要素与其空间相邻的风险要素之间的相关性。LMI不但可以显示某一空间要素与其邻域要素之间的相似性,而且可以对这种相似性及其统计意义进行测试[35]。一般情况下,若未使用错误发现率校正方法,则设置置信区间用于检验聚类和异常值的统计意义,如95%置信区间表明p-value小于0.05的要素被认为是具有统计意义的。

区域风险空间聚类与异常值分析案例分析

GMI统计算法的一个重要局限是它倾向于将区域内各处的空间自相关程度均一化[25],因此,我们必须对个体要素之间的局部空间自相关程度加以描述,以刻画空间自相关在区域内的变化情况。在此背景下,我们引入了LMI统计算法来进一步了解区域内每个风险要素与其空间相邻的风险要素之间的相关性。LMI不但可以显示某一空间要素与其邻域要素之间的相似性,而且可以对这种相似性及其统计意义进行测试[35]。给定一组空间要素,通过计算LMI指标值、z-score、p-value和一个能够表征具有统计意义的要素的空间聚类类型值(COType),LMI能够识别空间聚类区域(高值或低值)和空间异常区域[6]。具体地,LMI统计指标可以表示为[35,37]

统计数据的zIi-score计算方法如下:

其中,

LMI方法基于对每个要素及其邻域要素的定义来开展工作,通过统计计算,对比分析局部空间格局(某一目标要素及其邻域要素)与区域全局空间格局(所有要素)的差别。具体地,LMI指标值主要通过z-score和p-value来表征[35]。一般情况下,若未使用错误发现率(False Discovery Rate,FDR)校正方法,则设置置信区间用于检验聚类和异常值的统计意义,如95%置信区间表明p-value小于0.05的要素被认为是具有统计意义的。此外,较高的正z-score表明此要素的邻域中都是与其属性值一样高或低的要素,它处于统计上的空间聚类区域中,其中,HH表示高值空间聚类区,LL表示低值空间聚类区;相反地,较低的负z-score表明此要素属于统计上的空间异常值,其中,HL表示此要素为高值且被低值邻域要素包围,LH表示此要素为低值且被高值邻域要素包围[6]。无论是上述哪种情况,其前提都是每一要素的相关p-value需足够小(小于0.05),以保证它是具有统计意义的[6]。(www.xing528.com)

此外,需要强调的是,上述分析方法在多重测试(multiple testing)和空间依赖性(spatial dependency)方面存在着一些问题。LMI指标值只能基于计算得到的z-score和p-value进行解释,属于相对测算方法。然而,对多重测试和空间依赖性而言,所得到的z-score和p-value是不正确的[5,6,26]。对于这类问题,我们通常会调整LMI统计的临界值,以对其进行解释,同时,可以应用FDR校正方法将p-value的阈值从0.05降低到一个相对较小的值,以更好地反映多重测试的95%置信区间,关于此类处理方法,可以参考相关文献[5]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈