首页 理论教育 海洋大数据存储模型-海洋大数据

海洋大数据存储模型-海洋大数据

时间:2023-08-21 理论教育 版权反馈
【摘要】:利用Moran's I指数来对海洋大数据进行相关指数分析,基于此对混合云存储环境中的海洋大数据的存储进行布局,给出海洋大数据的空间相关系数的定义与定量化表达。实时的海洋大数据不断产生,需要的存储空间不断增加。而在混合云存储环境中,结合公有云价格低廉、管理费用相对较低的优势,可以为海洋大数据提供充足的存储空间。

海洋大数据存储模型-海洋大数据

海洋大数据具有显著的时空特性,并且具有强时空关联特性。空间相关性是指数据之间存在空间上的相互关联的关系,也称为空间依赖性,指数据的监测值随着空间位置分布的改变呈现出有规律的变化,即逐渐升高、降低或者集聚。空间相关性的定量计算与验证在空间计量经济学领域已经研究得相当成熟。著名的方法有Moran's I、Geary's、Getis指数,其中Moran's I方法最常使用。

按照地理学第一定律,地理上的任何地点之间都是相关的[6],而且距离越近关系越密切[7],任何一个空间单位都会受到邻近区域的积极和消极影响[7]。即物理世界的一切与空间有关的事物都存在空间相关性[8]。空间自相关指的则是在一个空间范围内,某一个属性值与相邻空间位置的同一属性值具有相互关联的关系。按照空间范围的大小可以分为全局与局部两种指标进行量度。在全局衡量数据空间自相关的方法中,数据的取值范围为[—1,1],其中,(0,1]表示监测要素之间存在空间正相关;否则,表明存在空间负相关。而局部的系数表示的是某一要素值在某一区域内的高值或者低值的空间聚集。

1)海洋大数据的布局

每一个海洋数据对象都具有位置信息,即海洋大数据具有显著的空间性,各个位置点的海洋数据具有较高的空间相关性。并且在地理位置较近的区域某一观测要素是相关的,高的地方周围呈现较高的趋势,较低的地方周围也呈现较低的趋势。利用Moran's I指数来对海洋大数据进行相关指数分析,基于此对混合云存储环境中的海洋大数据的存储进行布局,给出海洋大数据的空间相关系数的定义与定量化表达。

在空间相关性的研究中,目前最常用的是Moran's I指数,其中Moran's I指数分为全局和局部Moran's I指数。

全局Moran's I指数用来衡量邻近的空间范围某一监测数据呈现出来的空间相关程度。定义xi为某海域第i个监测点的要素值反映了要素值的相似程度,确定了相邻位置的监测点之间的邻近关系Wij和要素值的相似性Cii,全局Moran's I指数就可以通过下式计算得出。

其中

Moran's I指数I(D)取值范围是[—1,1]。如果I(D)处于(0,1]内,则证明要素值与空间位置存在正的空间相关性;否则,存在负的空间相关性;如果I(D)=0,则证明要素值在空间分布上不存在空间依赖性。

局部Moran's I指数则可以通过下式计算得到。

式中,wij邻接矩阵;m0为某一海域第i个监测站点的监测值,为该海域内所有监测值的同一要素值的均值;对j求和表示的是与第i个监测站点邻近的所有监测站点都要参与到计算当中。(www.xing528.com)

通过式(4-3)对局部Moran's I指数进行计算得到的结果中,正的Ii值表明该海域内某一要素值呈现空间集聚;反之,则表明在该海域该要素值不存在相似的空间集聚。其中,邻接矩阵wij标准化为

式中,E(Ii)和VAR (Ii)分别是Moran's I指数的期望和理论方差。全局自相关分析和局部自相关性分析可以通过全局和局部Moran's I指数分别计算得到[9-13]。根据两者的特点,利用两者的工作原理给出了海洋大数据空间相关系数的定量化表达,见定义4-1。

定义4-1 空间相关系数 海洋数据集D中属性集(Ak,Ak+1,…,An)在空间位置(A0,A1)上的空间相关系数即为SC(D)=I,其中,I对应式(4-3)。

根据定义4-1,确定海洋大数据的空间相关系数,对混合云存储环境中的海洋大数据进行布局。利用ArcGIS Map中的空间统计工具对数据进行空间相关性分析,得出海洋大数据的特征要素具有空间相关性,即海洋大数据的特征要素随着空间位置的变化表现出有规律的变化趋势。将相关性较高的海洋大数据存储在编号相同或者邻近的数据中心,减少了数据的传递,降低了数据的管理成本。

2)海洋大数据专有云中数据迁移

在混合云存储环境中,由公有云与私有云两部分构成,其中两者的存储平台均由多个数据中心组成。私有云具有高性能,但其价格高昂,而且数据维护的成本较高。实时的海洋大数据不断产生,需要的存储空间不断增加。而在混合云存储环境中,结合公有云价格低廉、管理费用相对较低的优势,可以为海洋大数据提供充足的存储空间。而解决公有云与私有云之间数据移动的关键是数据进行高效的迁移。

在存储系统中,数据的价值与数据在存储系统中存储的时间长度和数据访问频率具有高相关性。数据在不同的阶段具有不同的意义。当数据刚被存入数据存储系统时,其被用户调用的频率较高。随着时间的增加,这批数据相对于刚被存储的数据可以称为旧数据或者历史数据,历史数据被用户调用的次数急剧减少。

数据迁移中涉及的关键因子包括海洋数据模式、海洋数据集、海洋数据的敏感度、存储时间、数据访问频率。在此基础之上,提出了适合于海洋大数据的迁移算法,对算法进行详细描述,并从时间和空间复杂性方面对算法进行了分析,将海洋数据的敏感度、数据访问频率、数据大小、数据存储时间长度等因素作为迁移因子,迁移算法兼顾了数据存储容量、海洋数据本身的属性特征和数据访问过程中的动态变化。通过形式化与定量分析,对数据中心的饱和度进行评估,达到迁移触发条件之后,又根据迁移函数对数据进行计算分析,将满足阈值的数据向公有云迁移。该算法时间复杂性较低,具有较高的可行性,在保证数据访问速度的同时,大大降低了海洋大数据的管理成本。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈