时空聚类(spatio-temporal clustering,STC)是指基于空间和时间相似度,把具有相似行为的时空对象划分到同一组中,使组间差别尽量大,而组内差别尽量小。时空聚类分析是时空数据挖掘的一个主要研究内容,是计算机科学与地球信息科学领域交叉研究中的一个前沿课题,对于揭示时空要素的发展变化趋势、规律以及本质特征具有重要意义。时空聚类可用于天气预测、交通拥堵预测、动物迁移分析、移动计算和异常点分析等方面,比如:气象专家研究海岸线附近或海上飓风的共同行为,发现共同子轨迹有助于提高飓风登陆预测的准确性。
现有的时空聚类方法[19]有许多,主要包括基于模型的方法、基于密度的方法、基于距离的方法。基于模型的方法是通过获得一种能描述数据的全局模式,比如回归混合模型、马尔可夫模型,其中一些方法依赖于定义的多元密度分布,并寻找模型的拟合参数。基于密度的方法是将经典的基于密度的群以噪声发现聚类(density-based spatial clustering of applications with noise,DBSCAN)算法进一步扩展到时间维。主要在于定义一个密度阈值来区分相关数据项和噪声。基于距离的方法主要定义一种基于距离的相似度函数来对轨迹进行聚类,可以分为两类:一类是从时间和空间两个角度分别定义时空邻近实体,这类方法通常需要人为设置阈值,适于发现同种类型时空实体在时间上的连续变化情况,但难以用来探测时空簇;另一类是综合定义时空耦合距离,在实际中时空属性的融合比较困难。
除以上方法外,研究人员还提出了许多基于移动微簇探测移动轨迹数据中移动簇的方法。但微聚类方法也存在一定的局限性,例如,微簇的定义限制了算法只能找到球形簇,在簇与簇发生重叠期间算法不易将簇分开。此外,如果移动对象的速度频繁变化,更新分离和合并操作将会占据整个算法大部分时间。也有研究者对时空数据的语义信息、时空数据内在不确定性以及数据中存在的大量噪声进行了考虑,对聚类方法加以改进。在提高时空聚类效率方面,有研究者针对时空大数据引入了增量方法,或在云计算平台上进一步优化。(www.xing528.com)
尽管时空聚类研究的成果比较丰富,但仍存在一些问题,主要包括:①如何最恰当地定义对象间的距离,不同的相似度函数将决定时空数据间相似度比较的严格程度;②现有聚类算法未考虑时间、空间约束;③如何选择聚类方法以更好地表达轨迹数据。
聚类分析包括三方面研究内容[20]①数据的聚集趋势估计,即判断数据能否进行聚类分析;②聚类方法设计;③聚类结果有效性评价。在地理空间中,时间和空间上的相关性是时空实体的基本特征,也是进行时空聚类分析的前提。若实体间没有相关性,则不会产生明显的聚集现象。分析方法主要有时空相关性分析,时空平稳性分析。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。