首页 理论教育 多模态海洋大数据模糊质量评估模型研究成果

多模态海洋大数据模糊质量评估模型研究成果

时间:2023-08-21 理论教育 版权反馈
【摘要】:基于模糊数的海洋数据质量评估模型特征曲线为包含两根OC曲线的一个条带,简称OC-band,如图4-9所示。在海洋数据实施质量评估前,给出该海洋数据批的模糊不合格品率。在对该海域进行质量评估的过程中,将其不合格品率抽象为梯形模糊数,基于模糊质量评估模型对其质量精度进行评定。在该实验中,分别抽取了待检验海洋数据批的10%、20%、30%作为样本进行质量评估。基于式推导了不合格品率为梯形模糊数情况下,8个观测点的模糊质量评估模型。

多模态海洋大数据模糊质量评估模型研究成果

海洋数据具有海量、多源、多类及不确定等质量特性,传统的质量评估理论无法满足海洋数据质量评估需求。本节将海洋大数据组批抽样进行质量评估,同时根据海洋数据的质量特性,引入梯形模糊数的思想,建立了优化的质量评估模型,解决具有不确定质量参数的海洋数据质量评估问题,从而完善质量评估模型的理论体系

抽样检验(sampling inspection)是实施质量评估的重要手段之一,其原理是“用尽量少的样本量来尽量准确地评判总体(批)”,使检验费用和检验精度达到一种平衡。美国学者Dodge和Roming[21]是现代抽样检验理论的创始人,首次推导了一次、二次抽样模型;Eleftherion等[22]通过控制检验费用设计了连续抽样检验模型;Jamkhaneh[23]利用极限提名抽样对现有的质量抽样检验模型进行了改进,在较小样本量或较大接收数的情况下,得到了比简单随机抽样更好的效果;Aslam等[24]推导了优化的跳批抽样检验模型;Sampath[25]利用遗传算法推导了质量抽样检验模型中样本量和接收数之间的关系。通过上述分析,可以发现质量抽样检验理论不是一个新的概念,其具有较为成熟的发展。但是这些理论多基于传统的工业产品,工业产品具有稳定的生产环境、明确的检验单位以及一致的质量特性,而海洋数据多源、多类、多维、异构等质量特性,使得现有的研究方法很难满足海洋数据的质量检验要求。

1)海洋大数据的模糊质量评估模型

(1)梯形模糊数。设是论域U上的一个模糊子集,若存在则称为论域U上的梯形模糊数,记μA (x)=(a,b,c,d),其中a<b<c<d,[a,d]为的支撑区间,[b,c]为的峰值区间,如图4-8所示。当a=b=c=d时转变为普通的实数。

模糊子集的α-截集表示为

图4-8 梯形模糊数示意

式中,α ∈ [0,1]为置信系数。

(2)质量评估模型的接收概率。对海洋数据进行质量评估,其结果是:该批海洋数据为合格数据,或该批海洋数据为不合格数据。记海洋数据的质量评估模型为S(N,n,d,c),其中N为海洋数据的批量(即数据量的总体大小),n为对海洋数据进行质量评估所需的样本量,d为海洋数据中具有质量问题的数据个数;c为质量评估判定参数,即接收数。若d≤c,即该批海洋数据中具有质量问题的数据个数小于或等于质量评估的判定参数,则该批海洋数据为合格数据;若d>c,即该批海洋数据中具有质量问题的数据个数大于质量评估的判定参数,则该批海洋数据视为不合格数据。

基于泊松分布,海洋数据质量评估模型的接收概率为

式中表示待评估海洋数据的模糊不合格品率,为海洋数据中具有质量问题的数据个数所占比例。

(3)质量评估模型的OC曲线。以海洋数据的模糊不合格品率为横坐标,以海洋数据质量评估模型的接收概率L()为纵坐标,对于一系列的值,将点(,L())描绘在坐标平面上,并把这些点用一曲线连接起来,该曲线称为质量评估模型S(N,n,d,c)的特性曲线,简称OC曲线[26]。基于模糊数的海洋数据质量评估模型特征曲线为包含两根OC曲线的一个条带,简称OC-band,如图4-9所示。

如图4-9所示,OC-band的上边界线称为上限模糊质量评估模型的OC曲线;下边界线称为下限模糊质量评估模型的OC曲线。OC-band的宽度由质量评估模型中参数的模糊强度确定,例如梯形模糊数中的a、b、c、d。随着质量参数不确定性的减弱,OC-band的宽度也随之减小;当质量参数的不确定性消失,即模糊参数变为确定参数,模糊质量评估模型转化为确定质量参数的质量评估模型。

(4)模糊质量评估模型。在海洋数据实施质量评估前,给出该海洋数据批的模糊不合格品率。若待评估海洋数据的不合格品率低于或等于这个值,则该海洋数据批达到质量要求。当待评估海洋数据的质量水平等于或优于时,其判为不合格的概率应不大于α,即质量评估模型的接收概率不小于1—α。满足该要求的质量评估模型,其OC-band需包含点(,1—α)。通过控制模糊质量评估模型的接收概率上、下限,使其包含点(0,1—α),且模糊质量评估模型中接收数c和样本量n均为整数,则该海洋数据质量评估的模糊非线性规划模型为

图4-9 质量评估模型的特性曲线

式中,n为样本量;为模糊不合格品率;ε为接收概率的残差平方和

2)实例分析

以某海域调查数据为例,该海域共有8个观测站(包括台站、浮标),各观测站准实时提供流速、水温、盐度以及潮汐等海洋观测数据,见表4-3。因各观测站的设备、技术人员的熟练程度、实际环境等因素的不同,各站点所提供海洋数据的质量特性存在较大差异。据统计,该海域海洋数据的不合格品率在0.02~0.03上下波动。在对该海域进行质量评估的过程中,将其不合格品率抽象为梯形模糊数,基于模糊质量评估模型对其质量精度进行评定。

表4-3 观测站某一时刻提供的数据类型

(1)模糊质量评估模型。将不确定的海洋数据不合格品率抽象为一个模糊数,则根据梯形模糊数理论,该模糊不合格品率为

(www.xing528.com)

该梯形模糊不合格品率的α-截集为

基于离散模糊泊松分布,该模糊质量评估模型的接收概率为

式中,L()为模糊质量评估模型的接收概率;L(L和L(U分别为模糊下限和模糊上限的接收概率。

式中,=n

(2)结果与分析。将该海域的海量海洋数据分批次进行质量检验,尽量避免百分比抽样检验中“大批量过宽,小批量过严”的缺陷[27]。在该实验中,分别抽取了待检验海洋数据批的10%、20%、30%作为样本进行质量评估。基于式(4-11)推导了不合格品率为梯形模糊数情况下,8个观测点的模糊质量评估模型。

表4-4~表4-6分别给出了抽样比为10%、20%、30%时模糊质量评估模型的各参数,其中,N为批量;n为样本量;c1 、c2 、c3 、c4分别为评估模

型的接收数,c1为基于梯形模糊不合格品率的上限模糊质量评估模型的接收数,c4为基于梯形模糊不合格品率的下限模糊质量评估模型的接收数,c2 、c3为梯形不合格品率转变为确定数时的概率质量评估模型的接收数。以观测站Z1为例,图4-10~图4-12分别比较了抽样比为10% 、20%、30%时,上、下限模糊质量评估模型与概率优化质量评估模型的OC曲线。

表4-4 8个观测点的模糊质量评估模型(抽样比10%)

表4-5 8个观测点的模糊质量评估模型(抽样比20%)

表4-6 8个观测点的模糊质量评估模型(抽样比30%)

图4-10 模糊质量评估模型和概率质量评估模型的OC曲线比较(抽样比10%)

图4-11 模糊质量评估模型和概率质量评估模型的OC曲线比较(抽样比20%)

图4-12 模糊质量评估模型和概率质量评估模型的OC曲线比较(抽样比30%)

由表4-4~表4-6和图4-10~图4-12可以看出:

①基于模糊不合格品率,可推导出两端点模糊质量评估模型,即上、下限模糊质量评估模型。以抽样比为10%的Z1观测站为例,其上限模糊质量评估模型为S(7 560,756,12),接收数为12;下限模糊质量评估模型为S(7560,756,40),接收数为40。即因该海洋数据具有不确定的不合格品率,其质量评估模型的接收数可在12~40间选取。

②基于不确定不合格品率的模糊质量评估模型是具有明确不合格品率质量参数的质量评估模型的扩充,其可涵盖模糊不合格品率的所有变化情况。即上、下限模糊质量评估模型的接收数区间涵盖了其不合格品率为确定参数(0.02或0.03)时的概率抽样检验模型。

③不同模糊不合格品率的模糊质量评估模型,其辨别率亦不同。即上限模糊质量评估模型具有最强的辨别力,而下限模糊质量评估模型其辨别力最弱。用户在不确定不合格品率的情况下,可根据精度要求选择适当的质量评估模型。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈