如何应用综合的地球物理方法取得的资料进行解释,这是主要任务。一般先作定性解释(或称为初步解释)。它是根据各种地球物理的信息,结合有关的地质资料,采用一定的方法来对勘探的地质目标分类或分区,判断引起异常的地质原因,并为进一步作异常定量解释准备了必要的条件。在这一类方法中,数理统计和近几年广泛兴起的模式识别方法占有重要的地位。同时,鉴于解释中应用的先验信息的多少,大致可划分为具有先验信息的综合定性解释方法和自学原则的综合定性解释方法两种情况。
10.2.1 模式识别
模式识别可定义为:在相关或不相关的细节或背景中,提取现有数据的有意义的特征或属性,并依据这些特征或属性实现数据的分类。模式识别基本分为两大类:统计模式识别和结构模式识别(又称语言或句法模式识别)。前者是通过对模式信息量的统计判别,以决策为基础形成的判别规则为指导,达到对目标(模式)的识别。为叙述方便,先介绍一些有关概念。
1)统计特征
在模式识别中,把被观测的每个对象称为一个样品,在物探中可以把一个测区或一个异常定为一个样品。也可以把一个观测点或一个物性标本定为样品。而识别样品的因素,即可通过观察或测量得到的一些地球物理、地球化学和地质的参数,以及某些确定性的、统计的和逻辑的特征称之为标志。例如,一个观测点上的不同的地球物理方法测量的异常、一个标本上测得的不同物性等都称之为标志。
对于标志的选择是使用模式识别方法的一个关键问题,它与人的经验及科学的标志选取方法有关。按照分类性质可把标志划分为定性标志与定量标志;按照来源又可划分为一次标志、二次标志和综合标志。地质标志多半属于定性标志,而地球物理、地球化学标志多半属于定量标志。一次标志指直接测得的标志,如地球物理异常和物性参数;二次标志是指由一次标志转换得来的标志,如上延值、导数值、均值等,也包括一次标志解释的结果,如重力异常反演得到的莫霍面深度等;综合标志系指由一次标志或二次标志组合而成的标志。
用于不同的勘探目标的标志的选择会有差异。在进行构造分区时,不仅要利用异常强度,而且要考虑异常走向、形态、符号、梯度、光滑度与跳跃程度,同时还应注意不同构造区的异常总体特征。例如断裂带上常有明显的异常梯度带和串珠状异常;推覆体上常表现为明显的重力正异常。用于地质填图时,异常均值与方差常常也要加以利用。
2)特征信息量
特征标志在问题研究中的作用是不同的,它可用信息量来衡量。信息量衡量的常用办法有:
(1)直方图,可研究每个标志在各类中交叉范围的大小,其交叉范围越小,则分类能力越小。
(2)组内方差与组间方差,如上所述,比值越大,各类交叉重叠范围越小,分类信息量就增大。
(3)由频率值计算信息量,把标志分为若干组,根据概率原理计算每组组内标志出现在不同类别上的概率,来衡量信息量的大小。
3)原始资料的标准化
对各种数据(标志),在识别阶段前,往往要进行无量纲处理,以消除分类时的影响,称之为标准化。
4)模式识别的一般流程
模式识别的一般流程如图10.8所示,它大致包括数据的预处理、特征提取、特征选择和各种条件下不同的分类识别方法。
图10.8 模式识别流程
5)单元划分
统计单元是数理统计的基本研究对象,单元取得是否合适会直接影响统计分析的结果。同样,在对地质目标进行模式识别分类或分区前也需要划分单元。单元的划分包括了三个内容:确定单元大小、选择单元形态和讨论单元网度。
统计单元应具备随机性、可统计性、类比性和客观性等几个特点。目前常用的划分方法有两种,一是网格法,二是地质体单元划分方法。
网格法是常用的划分单元方法,它要考虑以下几点:①比例尺与研究问题的精度;②研究区的地质、地球物理条件的复杂性;③满足统计分析所需的单元数;④每单元上反映的地质因素比较单一,物理场分步尽量平稳均匀。具体应用时可通过试验来确定,也可以用自相关函数来确定。
在油气或矿产资源的预测时还经常采用地质体单元划分方法。可根据构造单元、盆地类型、沉积特点以及圈闭类型、油气藏类型来进行划分。
6)特征(标志)提取
它是标志选择中重要的一步,虽然通过初步筛选确定了一些标志,但是其中可能有些标志反映的是同一个内容或相关内容,因此有必要再减少一些这种标志,使分类尽可能在低维的标志空间内进行,这一过程称为标志压缩或特征提取。具体提取特征的方法有多元统计中的主成分分析,在模式识别中有卡洛(Karhuen-Loeve)变换,也称K L变换,也有人用集群法、最小熵法和最大离散度法来进行。
下面以某岩体模式识别找矿为例进行说明。该岩体位于长江中下游铜铁硫金(多金属)成矿带,为一燕山早期侵入的含矿性较好的闪长岩岩株。岩体的围岩为三叠系地层。岩体内部矿床(点)星罗棋布,有铜矿、铁矿、铜铁矿、铜钼矿;其成因为热液型。岩体内压扭性断裂是重要的导矿构造,而大理岩捕虏体及岩体内的裂隙、接触带是较好的储矿构造。
围绕此岩体的矿田普查工作始于1958年。大量的物探、化探及钻探工作虽然取得了一些找矿成果,但是由于信息量大而复杂,有些细微特征人脑不可能认识到,因此预测效果受到一定的影响。近年来利用计算机模式识别,在找矿预测中取得了好的效果。
(1)识别单元划分与训练集选择。预测单元划分的首要条件是保证抽样的随机性,为此选择一定大小的矩形网格。将岩体顶界面范围划分成面积相等的矩形单元,单元大小受下列诸多因素影响:①本区地质物化探信息水平;②本区地质条件复杂程度,矿床(点)及其空间分布;③本区研究范围大小及保证统计分析所必需的训练集单元数。全面考虑上述因素之后,经验地确定网格单元规格为0.1km×0.1km,预测单元总数为1097个。
划分好网格单元之后,再确定各单元的属性,将其归为三类:第一模式类——含矿单元,在地表或钻孔内见矿体,其位置位于单元中间,且水平投影范围大于单元面积的四分之一。几个主要的矿床(点)都划入含矿单元中。第二模式类——不含矿单元,地表或密集钻孔在深部未见任何矿体的单元。第三,未知模式类——待识别单元,地表未见任何矿体出露,深部又未经钻孔验证的单元。遵循上述原则,又保证模式的代表性,选择了30个含矿单元和30个非含矿单元组成训练集。
(2)信息预处理及特征提取。区分岩矿体存在明显的电性、磁性及地球化学差异,为利用本区找矿信息提供了依据。选取了14种面积性物化探找矿信息。对其中磁异常(Δz)做了垂向二次导数转换和化极处理,以压制深部岩体引起的磁异常,突出磁性矿体的局部高磁异常。又考虑到找矿信息中激电异常、地表原生晕及次生晕铜量异常是不同时期测量的,而且分析所用的装置和精度也不一样,故当单元有异常时信息值取为1,而无异常时取0,即取0 1型数据。其他信息均取连续型数据。提取了14个原始识别特征x1,x2,…,x14,各特征意义如下:
x1反映了单元磁性的连续型特征。含矿集中有很大一部分单元来自磁性较强的铁矿、铜铁矿床(点),它们具有较大的x1值。x1是寻找磁性矿体的直接标志。
x2~x6是从5个极距的电测深异常(1∶40000)上获得的,反映岩矿石及构造不同深度的导电连续特征。本区矿床(点)一般具有良好的导电特性,有的处于含水的构造裂隙之中,具直接或间接的导电特征。
x7~x9是分别从激电异常、次生晕铜量异常、原生晕铜量异常(1∶2000)中提取的,反映黄铁矿化—黄铜矿化的0 1型特征。
x10~x14是分别表征岩石中Na2O、CaO、Al2O3、K2O、以Fe2O3等的含量(1∶25000),反映围岩蚀变的连续性特征。本区在岩体浅部的矿床(点)周围发育着一套高中温围岩蚀变组合,包括碳酸盐化、硅化、阳起石化、钾长石化、钠长石化等。这些氧化物含量的变化能较好地反映各种围岩蚀变的程度。如Na2O的增高与钠长石化有关。
每一单元能用上述14个原始识别特征来描述,即可用14维空间中的矢量x=(x1, x2,…x14)T表示。为证实所提取的特征能否将两模式类分开,用判别平面算法和非线性映射的Sammon算法,将训练集的60个单元从14维空间压缩到二维特征平面上,如图10.9所示。由图可见,两类单元基本分开。因此确认上述14个原始识别特征有重要的判别意义。
(a)判别平面图;(b)非线性映射算法
(3)特征选择与综合识别特征分析。为消除原始识别特征彼此之间的相关、找矿信息冗余,使用最大类间均方距离准则算法作特征选择,计算矩阵R的本征值与本征矢量。
将本征矢量按本征值大小排序为t1,t2,…,t14,则正交变换矩阵T=(t1,t2,…, t14)。设其中ti=(t′1,t′2,…,t′14)T(i=1,2,…,14)。对14个原始识别特征施以正交化变化,即y=TTx,从而获得了新的综合识别特征y=(y1,y2,…,y14)T,其中yj=t′1x1+t′2x2+…+t′14x14(j=1,2,…,14)。
各综合识别特征具有独立的意义,其中本征值最大的综合识别特征y1对分类贡献最大。y1值的升高意味着单元可能具有局部高磁异常、低电阻率异常、高化探异常(原生晕铜量和次生晕铜量异常)、高激电异常以及Na2O含量高、Fe2O3含量低、CaO含量高等的一部分或全部的特征。y1的编码图用图10.10所示简化等值线表示,等值线上的数值对应色阶(共分23阶),随着等值线数值由大变小,y1值逐渐增加。可以看出低值等值线区域与已知矿床(点)对应很好,它反映了含矿单元的高磁、低阻、黄铜矿化以及钠长石化、碳酸盐化等围岩蚀变特征。其他的综合识别特征对分类也有一些贡献,具有相对独立的识别意义。
图10.10 综合识别特征y1简化等值线图
(4)分类器设计与模式识别找矿预测。选择了多种分类器,对训练集单元进行训练分析。结果表明,最大似然分类器效果最佳。随着所取综合识别特征数的增加,识别率也在提高,当14个综合识别特征全部选用时,识别率最高达95%。由于本区模式识别计算量并不大,为了获得高的识别率,选用了14个综合识别特征,且采用了最大似然参数分类器,对全区1097个单元做识别。求出了单元模式矢量y=(y1, y2,…y14)T相对于含矿类与非含矿类的判别值d1(y)、d2(y),计算分类器判别值d(y)=d1(y)-d2(y)。当d(y)>0时则单元判为含矿;当d(y)≤0时则单元判为不含矿。编码图用图10.11所示的简化等值线表示,将d(y)>0分为三个色阶,将d(y)≤0分为6个色阶。随着等值线上数值由大向小变化判别值d(y)逐渐增加。从图10.11可以看出:
(A)已知矿床(点)几乎全部进入一阶或二阶色码等值线区域,主要反映地表闪长岩中的铜矿化或裂隙中的石英脉铜矿。
(B)在未知区划出4个范围较大的二阶、三阶色码的等值线区域,分别作为找矿远景区(见图10.12中Ⅰ、Ⅱ、Ⅲ、Ⅳ)。可以看到几个远景区均位于断裂或断裂附近,存在导矿容矿条件,对成矿极为有利。现根据其不同的信息反映作推断:
图10.11 单元分类器判别值简化等值线图预测成果图
图10.12 某闪长岩体模式识别找矿
1—矿点;2—实测推测断层;3—矿床水平投影;4—远景区及其编号
远景区Ⅰ:其找矿信息主要反映为高磁异常、低电阻率异常及高原生晕异常,可能与热液型铁矿有关。(www.xing528.com)
远景区Ⅱ:其找矿信息为高磁异常、低电阻率异常及高原生晕异常等,推断可能赋存热液型铜、铁矿。
远景区Ⅲ:主要的找矿信息为低磁异常、低电阻率异常和较高的原生晕异常,估计与浅部或地表的热液型铜矿或铜矿化有关。
远景区Ⅳ:其找矿信息反映为高原生晕异常及低电阻率异常,推断与热液型铜矿或铜矿化有关。
10.2.2 具有先验信息的综合物探解释方法
这里讲的先验信息是指地下地质情况的先验信息,在这时就有条件建立经过钻探和其他资料验证的含矿(油)区和非矿(油)区作为标准区,也就是一般讲的已知区,通过资料整理得到该区地球物理场的所有标志当作标准体进行描述。在综合解释时,就可以将地质情况未知的预测区全部标志与之对比,若趋于有矿标准体标志,则该预测区可解释为有矿的,否则是无矿的。
需要指出,这里所讲的有矿和无矿应是广义的,可包括其他的地质含义。在地质填图时,标准体中还应包括对岩石类型的种种描述。
在应用图像识别进行综合解释时,可以有不少方法,但其一般原则应是:①给出数学模型;② 选择标准体;③ 依据标准体估计顶测区内标志的统计特征和信息;④选择识别的算法,进行综合解释;⑤评价解释的质量(可靠性)。其中一个关键问题是选择标准体,按这标准体进行标志统计特征的估计,当标准体与待识别的个体呈均匀分布时最为有效,并认为标准体区与预测区是位于统一的构造区域,而且预测区内地质、地球物理参数的变化范围一般不超过标准区的相应范围,才能取得较好的效果。
识别的方法选择要考虑到原始资料的性质、先验信息的多少和特点及其研究的地质目的。下面介绍几个实用的方法。
(1)数理逻辑方法。以测井中含油气层的划分为例,可将个体划分为两类或两类以上的类别,对标准体和预测区中被识别的个体用统一的标志组表示,并且这些标志在编码中都有统一的排列顺序。
(2)统计假设检验方法。该方法基于最大似然准则和最大后验率准则,使用的前提是要求有标志值的直方图和标准的协方差矩阵等资料。
(3)感知法。前面研究的方法要求已知概率分布,通过计算均值与方差来定出判别函数。感知法是通过训练样品进行迭代计算来确定判别函数的,属于一种非参数法,也是模式识别中要学习的一种分类方法。
下面以图像边缘检测方法在南海、黄海的应用实例来说明具有先验信息的综合物探定性解释方法。
图像边缘的确定与提取对于整个图像场景的识别与理解是非常重要的,同时也是图像分割所依赖的重要特征。所谓图像的边缘,就是指图像局部区域亮度变化最显著的部分,该区域的灰度剖面一般可看作是一个阶跃,即从一个灰度值在很小的缓冲区域内急剧变化到另一个灰度相差较大的灰度值。由于边缘是灰度值不连续的结果,因此可以用求导数的方法对其进行检测。目前主要的图像边缘检测方法有如下三种:
(1)基于梯度的一阶边缘检测算子。梯度是一阶导数的二维等效形式,梯度的幅值代表边缘的强度,梯度的方向与边缘走向垂直。常见的一阶边缘检测算子包括Roberts交叉梯度算子、Prewitt算子、Sobel算子、Krich算子、Robinson算子等。Roberts交叉梯度算子为梯度的计算提供了一种简单的近似方法,它采用的是对角方向相邻两像素之差;Prewitt算子加大了Roberts交叉算子的模板,将差分运算与局部平均结合;Sobel算子引入了加权局部平均,有一定的抑制噪声的作用;方向算子是利用一组模板对图像中的同一像素求卷积,选取其中最大值作为边缘强度,而将与之对应的方向作为边缘的方向。
(2)二阶导数算子。二阶导数算子有拉普拉斯算子等。拉普拉斯算子对图像中的噪声相当敏感,在处理时会在图像边缘处产生一个陡峭的零交叉。拉普拉斯算子加强了图像灰度的突变,并降低灰度变化慢的区域,但是它的抗干扰能力比较弱。LoG(Laplacian of Gaussian)算子克服了拉普拉斯算子这方面的缺陷。它将高斯平滑滤波器同拉普拉斯算子结合起来使用,可以获得较好的效果。
(3)Canny算子。该算子是目前理论上相对最完善的一种边缘检测算法。Canny提出的评价边缘检测性能优劣的三个准则分别是:①好的信噪比准则,即将非边缘点判为边缘点的概率要低,将边缘点判为非边缘点的概率要低;②好的定位性能准则,即检测出的边缘点要尽可能在实际边缘的中心;③单边缘响应准则,即单一边缘具有唯一响应,单一边缘产生的多个响应的概率要低,并且对虚假边缘的响应应得到最大抑制。
接下来以Sobel算子边缘检测处理技术来显示对黄海地区重磁异常(图10.13、图10.14)进行了初步试验。研究区西部陆区有郯庐断裂带、五莲—青岛断裂带、嘉山—响水断裂带等,在黄海有中央断裂带、朝鲜半岛西缘断裂带及济州岛南缘断裂带等,通过示范区的方法试验,对重磁图像进行了边缘检测处理(图10.15),经过特征提取与识别初步得到了示范区的断裂分布图(图10.16)。
图10.13 黄海地区布格重力异常图(经纬度坐标,单位:m Gal)
图10.14 黄海地区航磁数据ΔT图(经纬度坐标,单位:nT)
图10.15 Sobel算子处理后的重磁异常的阴影图及断裂识别结果
(a)重力异常阴影图;(b)磁力异常阴影图
图10.16 黄海地区断裂分布推断图
10.2.3 自学原则的综合物探解释方法
与前面相比,这里讨论的是没有已知先验信息的标准体,但仍需要划分个体的类别或分区,判别其物探异常的地质原因,称为无学习的分类或识别,也称为自学原则的解释。
与前者不同之处在于样品类别数与每类标志的统计特征是未知的,它要在原始资料处理中自己得到,所以它一般是根据某一最优原则按照不同标志组合分类,形成有限数目的类别。在模式识别中,将主要是进行聚类分析,形成若干聚类及其相应的聚类中心,并由聚类的结果获得新的信息。
常用的自学原则的综合物探解释方法有以下几种:
1)启发式方法
方法的前提是假设标志独立和信息度相同,可通过不同的途径求标志之和,以此来判别分类。若在对不同的信息求和中,对每个标志值的范围分成给定均匀的若干等级(例如4个)。每个标志取等级可为1、2、3、4依据标志独立性和正态分布的假设,当将分类定为两类时,可按照最大似然准则,将这种求和的阈值定为全部标志最大级次的半和。对标志往往使用归一化求和。
本方法的问题是当使用这种求和方法时,会造成有些低信息度的标志值较大时,其影响可能要超过高信息度的标志,进而造成分类的错误判别。
2)相关方法
按照相关标志的组合来划分个体。使用的是因子分析方法,特别是主成分法。要指出的是,相关分析划分出含油地段的效果是在没有引入标准体条件下得到的,应用的是主成分法。
3)统计方法
启发式和相关方法是建立在划分两个类别基础上的,若要将个体划分为更多的类别,并且在考虑到异常的干扰时,就要用其他方法了。这里讨论的统计方法,前提为标志是独立的,具体可按三个步骤来进行:
(1)在干扰背景上按每个标志划分异常,得到每个标志范围的平面界限。要强调一点的是在划分异常时需要进行滤波。
(2)对上述划分出的每个区域进行相互比较,把统计特征差异较小的区域归为一类。这样可以按每个标志把观测的个体划分为若干的类别,并对各类作出标志的分布密度直方图。
(3)求出综合类别的编号。对每个标志得到的直方图按平均值增大的顺序排列(平均值相等时,按离差增大的顺序排列)。例如标号为123的综合类别就表示该地段属于第一个标志的第一类,第二个标志的第二类和第三个标志的第三类。当标志越多时,可以分得越细。
这种方法成功地应用于苏联北克里沃罗格详测区的分类。该区由花岗岩类和其他岩浆岩类岩石组成,物性差异不大,覆盖厚度为50~70m。根据原始的地面磁测、重力和电阻率测量[图10.17(a)、(c)、(d)]结果,难以达到填图的目的。因为单独的每种方法仅仅反映某种物性差异,信息度低。但按上述统计方法对三种场作处理,划分异常,绘直方图、划分类型,求出综合类型标号,最后划分了几个不相交叉的地区,给出了地质解释,达到了填图的目的。
图10.17 北克里沃罗格区一个地段内三个地球物理场的统计分类结果
(a)~(c)原始ΔZ(nT),Δg(10—5cm/s2)和ρk(Ω·m)剩余异常场;(d)分类结果
1—构造破碎带;2、7—不同类型的花岗岩发育区;3—岩浆岩发育区;4~6—遇到花岗岩、岩浆岩和纳长岩的钻孔
4)均匀度检验最优方法
在对地质目标的分类中,关于无学习的分类方法主要是使用聚类分析,比较有效的有均匀度检验最优方法、系统聚类方法、逐步聚类方法、K平均法、迭代法、贝叶斯分类判别法、费歇尔线性分类方法和模糊聚类分析方法等。
对某一个地质体来说,这种方法可以测得它的地球物理参数,并在地质空间占有一定位置,因而它不但在变量空间上有相似性,而且在平面位置上也是接近的,这样就要求对数据分析不打乱次序,要进行有序样品分类。基于均值检验原理而提出的方法,称为均匀度检验最优方法,又称为Vk法。
5)K平均法
这种方法属于在构造分区和地质填图中常用的聚类分析方法。该方法的思想是所有样品到聚类中心的距离平方和为最小,因此它是一种在误差平方和准则下的一种算法。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。