首页 理论教育 西南地区泥石流灾害损失及救灾管理研究成果

西南地区泥石流灾害损失及救灾管理研究成果

时间:2023-08-21 理论教育 版权反馈
【摘要】:以四川省泥石流灾害发生地区作为聚类对象,选择基于密度的DBSCAN聚类算法对四川省泥石流发生地区进行空间聚类,以此分析不同密度聚集区域的经济损失风险。其中没有被聚类的点称为噪声点。DBSCAN聚类算法具体执行过程中还需要预先设定两个参数。在本部分中,聚类对象为四川省泥石流灾害事件点,其地理位置用经纬度表示,选取核密度分析对聚类效果进行检验。

西南地区泥石流灾害损失及救灾管理研究成果

以四川省泥石流灾害发生地区作为聚类对象,选择基于密度的DBSCAN聚类算法对四川省泥石流发生地区进行空间聚类,以此分析不同密度聚集区域的经济损失风险。DBSCAN聚类算法是一种建立在对象密度基础上的聚类算法,可根据数据自身特点进行簇类划分,从而避免了人为划分簇类个数的主观因素;此外,还可根据数据特征自动形成合适的聚类形状,从而使得聚类效果更好[1]

(1)DBSCAN聚类算法

DBSCAN聚类算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)是一种使密度相连的点的最大集合合并为一个簇类,即使在具有噪声的数据对象中,也可以根据数据自身特点聚为任意形状的簇[3-5]的聚类算法,其步骤主要包含核心对象选取、建立核心簇和重复迭代三个步骤。

①核心对象选取:在给定的数据集D中,任意选取一点p,并计算出ε邻域中点的个数,如果邻域中样本点的个数超过MinPts(阈值),则将点p当作一个核心对象。其中ε邻域是以点p为中心的一个半径,MinPts(阈值)为设定的一个邻域中含样本点的最低个数。

②建立以点p为核心的簇:以ε邻域为半径,找到直接密度可达的样本点,将其加入以p为核心的簇当中,然后在当前簇中找到所有的核心对象点,再将与新的核心对象直接密度的点加入其中,按照以上步骤重复迭代,直到没有与p点密度相连的点为止。直接密度可达定义为:样本点q如果在点p的ε邻域,则称点q从点p直接密度可达。密度相连指如果样本中的两个点到同一点密度可达(假设有三个点P1 ,P2,P3,如果P1和P2直接密度可达,且P2与P3也直接密度可达,则P1从P3密度可达),则称这两点密度相连。

③重复第一步、第二步直到没有新簇出现,则聚类结束。其中没有被聚类的点称为噪声点。

DBSCAN聚类算法具体执行过程中还需要预先设定两个参数。一个是ε邻域半径,另一个为MinPts(阈值),只有选取了合适的半径参数ε和阈值MinPts才能在空间中发现有效的簇。(www.xing528.com)

(2)DBSCAN聚类算法的参数选取

根据相关DBSCAN聚类算法的定义[5],ε邻域半径参数和MinPts(阈值)参数的选取主要分为三个步骤。首先,计算一个样本点p到其余样本点的距离,并将其按照从小到大的顺序进行排序,其中序数用k表示,即排在第k个位置的距离称为样本点p到其余点的k-距离,然后按照相同的方法求出样本中每一个点到其余点的k-距离,将所有的k-距离进行组合排序;第二步,在排序后的k-距离集合中,找出突变的值,将此值当作ε邻域的半径参数;第三步,在求出ε邻域半径参数后,固定此参数不变,求出每个核心点的ε邻域内含有的样本点个数,然后将个数的均值当作MinPts(阈值)参数的值。

(3)核密度分析

在对样本数据进行聚类分析后,需要对其聚类效果进行评估,以便证明聚类效果的优劣。传统对于聚类效果评估的方法通常包含内部有效指标和外部有效指标两类。内部有效指标通常包含邓恩(Dunn)指标、轮廓系数指标(Silhouette Coefficient)、戴维森堡丁指数、CH指标、XB指标、FBM指标[6]外部有效指标包含NMI指标、F-Measure、Rand指数、Jacarrd指数。尽管这些方法能够在一定程度上对聚类效果进行评估,但指标的计算都过于复杂。本章聚类对象为四川省泥石流灾害发生地点,是一种空间聚类,而且DBSCAN聚类算法是建立在对象密度上一种聚类算法,且核密度分布图可以更加直观地体现聚类效果,因此本部分将用核密度分析对其聚类效果进行检验。

在空间统计当中,一般采用密度分析的方法来分析一个地区目标的聚集程度,实践过程中,具体又可以根据实践情况采用点密度分析、核密度分析和线密度分析的方法来进行密度分析[7]。在分析一个POI(point of interest,也称为兴趣点)数据点的某邻域内的密度时,通常用核密度进行。POI数据通常为地点名称、地址经纬度等相关信息。在本部分中,聚类对象为四川省泥石流灾害事件点,其地理位置用经纬度表示,选取核密度分析对聚类效果进行检验。核密度计算通常有简单计算和核计算两种办法。其中,简单计算的主要过程为:首先,计算出目标地区的POI数据个数以及通过地区面积调整获得的目标区域内POI的密度值[8];其次,确定一个邻域,计算出点邻域周围点的密度,形成一个平滑曲面。在平滑曲面内,以目标点为中心,距离目标点的距离越大,其表面值越小,当达到半径邻域最小时,表面值为零(其中邻域为圆形邻域);最后,通过核密度分布图拟合、观测POI数据的分布,并获得聚散程度等信息。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈