1.单值属性的形式背景
概念格是形式概念分析理论的核心的内容,也是其基本的数据结构。从低层概念综合得到高层概念的过程是概念格从数据中提取出隐含的概念构建的一般过程。因此概念格是进行数据分析的一种十分有力的工具(Ganter,Wille,1999)。形式概念分析理论是一种基于概念和概念层次的数学化的表达,是应用数学的一个分支。因此需要应用数学的思维方式进行概念数据分析和知识的处理(Wille,2000)。形式概念分析理论用交叉表(cross table)这一基本形式来对数据进行表达形式背景(formal context)。概念格通过与这些过程相联系的结构化的概念,发现可理解的、有意义的空间与非空间知识。
【例1】假设有6个面状地物(地类图斑),每个图斑有6个属性(实际上无论是图斑还是属性的数量上要比这大的多),这6个图斑记作P1、P2、P3、P4、P5、P6,6个属性分别为是基本农田、面积≥20公顷、形态指数≥0.5、有水源、临近道路、坡度≤25°,分别用a、b、c、d、e、f来表示,因此每个属性只有两个可能值0和1。这样就可以用单值背景的建格方法来表示(表3-1)。
表3-1 转换为单值属性形式背景表
通过转换我们关心的是各属性是否符合要求的图斑(对象)的数量,对于具体是由哪个图斑决定的并不是很关心,因此根据表3-1可以得出表3-2所示的15个概念。
表3-2 由表3-1生成的形式概念表
根据以上概念生成的Hasse图如图3-2所示。
土地利用空间数据挖掘的目的就是从这些由图斑及其属性构成的形式化背景中析取出不同层次的概念以及概念之间的关系,并可以利用Hasse图实现对数据挖掘进行有效的形式化表达(胡可云,2001;谢志鹏,2001)。但是土地利用系统是一个复杂的巨系统,每个区域其点状地物、线状地物和面状地物(图斑)的数量是很庞大的,例如我国中东部平原地区一个县的图斑大致在数万个,山区县的图斑数更多可以达到十万个以上。为了进行关联规则的获取,图斑的属性也不是简单的几个,有的时候要涉及几十个属性,每个属性也不是简单的二值数据,而是连续数据。例如,对于属性项:到水源的距离、到道路的距离等,都属于连续性的属性,可以通过一定的方法使其形成离散的多值属性,以适用于概念格处理。土地数据库中的属性多属于这种属性,并且很多属性具有一定的空间模糊性。因此按例1的方法来进行多值属性的处理,不但带来了大量的数据处理,而且可能在关联规则挖掘中出现一些错误。故有必要对现有的概念格进行扩展,以利于处理类似土地利用数据库中的这种空间信息。
图3-2 根据表3-2生成的Hasse图
2.多值属性的形式背景
如前所述,在进行数据处理的过程中,更多的情况是每个属性项具有多种值,例如土地的级别、土地面积等,都通过离散化形成多种属性值。概念格不但可以用来表示单值属性背景,还可用来表示更为复杂的数据类型,如多值属性背景。多值背景可以用(O,D,A,R)来表示,其中O是对象集合,D是属性集合,A是属性的集合、R是它们之间的三元关系,即R⊆O×D×A。(o,d,a1)∈R,并且(o,d,a2)∈R总是蕴含着a1=a2,表示相同的对象的同一个属性项的值应该相等。(o,d,a)∈R表示对象o的属性项d的值为a,一个属性d可以被认为是从O到A的一个映射,因此d(o)=a可以写作(o,d,a)∈R。(www.xing528.com)
有两种方式可以用于处理多值属性背景,第一种方式是通过概念定标(conceptual scaling)的方法将离散化的连续值转换为单值属性背景;第二种方式在处理多值属性背景时较少用到,它不进行转换,直接根据低层概念之间的关系抽象出高层的概念。比较这两种方式,较为方便的处理方法就是将其转换为单值背景,以利于建格。
概念定标通过给每个多值属性赋一个概念标尺Sd实现从多值背景中导出单值背景。即以单个多值属性为准,将多值背景划分为多个子背景,原来的单个属性值转换为属性集合。通过使用概念标尺,可以产生存储于多值背景的数据的概念模式的全局视图。
R.Wille于1992年提出了使用形式化语言来进行逻辑定标的思想:根据多值背景的属性和属性值产生一元谓词,由谓词形成术语,从而构成单值背景。相比较而言,逻辑定标有两个的优点:一是通过使用关系创建复杂的谓词,二是指定术语比概念定标中定义标尺更直观。
对以例1的问题,其实是现实挖掘问题的一个简化,问题的实质是要通过简化来表达空间关联,但是这种方法带来的后果是一把双刃剑:效率的提高和信息的丢失,这样也会带来挖掘知识的不完整或知识偏差。可以根据概念定标和逻辑定标的方法来实现数据信息的保留。这样例1的问题可以描述为:假设有6个面状地物(地类图斑),每个图斑有6个属性,这6个图斑记作P1、P2、P3、P4、P5、P6,6个属性分别为耕地、面积、形态指数、水源距离、道路距离、坡度,分别用a、b、c、d、e、f来表示。对于每个属性的值进行标准化,再通过逻辑定标或概念定标的方法处理(表),这样就可以用多值背景的建格方法来表示(表3-3)。
表3-3 地类图斑多值属性背景表
注:JN表示基本农田,011、012、013是过渡期的地类码。
在表3-3的连续性属性中,可以通过离散化的方式将其转化到多值属性背景表中,这样每个属性项都有多种属性值,是不利于使用概念格进行处理的,因此可以利用概念定标方法将其转换为单值属性背景(表3-4)。
表3-4 对多值属性背景转换得到的单值属性形式背景
续表
这样就可以使用单值背景概念格的构造方法来对多值背景进行表示。但是在实际应用中,这种简单地将多值背景转换为单值背景的形式仍然难以处理,主要原因是大量信息是模糊的、不确定性的(Partha Ghosh et al.,2009)。因此,可以使用模糊概念格对土地利用中的空间关联规则进行挖掘,并解决复杂空间的应用问题。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。