关联规则是数据中一种简单但很实用的规则,它属于描述型的模式,对其进行挖掘的目的是发现数据库中项集之间有趣的关联或相互关系。关联分析是依据符合一定的统计意义事件发生的概率和条件概率进行统计和挖掘,以利于快速发现那些有实用价值的关联发生的事件。因此,对空间数据库进行空间关联规则分析,主要用于发现不同空间对象之间的空间关联性,即空间要素之间的相互依存、相互制约的关系。考察研究对象——土地利用的空间数据库,例如,对象A和对象a存在一定的空间关系,对象B和对象b也存在一定的空间关系,对象C和对象a、b也存在同样的空间关系,那么对象A和对象B在土地利用数据库中的出现相互之间应该存在特定的规律或模式。在空间数据库中使用空间数据挖掘模型发现的这种规律或模型就称为空间关联规则。更确切地说,空间关联规则是通过量化的数字描述对象之间在空间上的相互影响作用。
因此可将空间关联规则定义为:挖掘发现空间数据库中对象之间有趣的关联或相关联系。换句话说,它描述了空间数据库中隐含在其他特征中的一个或一组特征。例如,“基本农田大多处于水源条件较好、等级较高的地势相对平坦的地区”,这就是一条空间关联规则。下面根据空间数据的特征给出空间关联规则的具体的形式化定义:
设I={i1,i2,…,in}是空间对象的集合,空间数据挖掘任务相关的数据D是空间数据事务的集合,其中每个事务T是空间对象的集合,使得T⊆I,每一个事务有一个标识符,称作TID。设A是一个对象集,事务T包含A,当且仅当A⊆T。关联规则是形如A⇒B的蕴涵式,其中A⊆I,B⊆I,并且A、B之间的交集为空。(www.xing528.com)
在已有的研究中,主要通过支持度、置信度、期望置信度和作用度四个指标反映关联规则属性或强度。空间关联规则的支持度描述了空间对象集A和B同时在空间数据事务集D中出现的概率,是对空间关联规则的重要性的衡量(秦昆,2009);置信度描述了在空间数据事务集D中,包含了对象集A的事务中同时出现B的概率,是对空间关联规则的准确度的衡量;期望置信度则描述了在没有任何条件影响下,含有对象集B的事务在所有的事务中出现的概率;作用度描述了对象集A的出现对对象集B的出现的影响有多大(田金兰、黄刚,1999)。
根据以上的定义可以看出,在土地利用数据库中任意两个对象集之间都必然存在着空间关联规则,在空间数据对象集D中可以发现海量的空间规则,事实证明在这些规则中绝大部分是没有意义的,它们不具有代表性,也就没有实际意义。因此可以对能够反映规则的有趣程度的两个重要指标支持度和置信度分别定义最小支持度阈值min_sup和最小置信度min_conf,将同时大于这两个阈值的空间关联规则称为有趣规则。在进行实际的空间关联规则挖掘分析时,必须选择恰当的阈值。如果阈值过小,则会发现大量无用的规则,不但无法获取关键规则,而且还会影响执行效率,浪费系统资源;如果取值过大,得到的规则难以表达空间规律,甚至得不到规则。一般需要根据具体的情况设定合适的阈值,或者对此设定阈值,然后通过对空间关联规则的理解来判断阈值的选取是否合适,因此有的时候需要多次进行空间关联规则的挖掘才可以得到满意的结果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。