光谱数据一般为多维空间数据,偏最小二乘(PLS)法采用因子分析法对多维的光谱数据进行降维处理,其主要原理是将每个X矩阵潜变量的方向进行修改使其投影在与Y矩阵协方差最大的方向,将原始光谱数据分割为多种主成分,不同的主成分(主成分数相当于波段数目)代表不同组分及其对目的信息的影响,通过合理地选取主成分可以剔除干扰信息和干扰信息主成分光谱,仅选取有用的主成分进行模型的回归建立。
PLS法的基本步骤:设在n个标准样本中某个组分的含量矩阵为Y,用N、M表示残差矩阵,PLS法首先将整个光谱矩阵分解为T×P(T为吸光度隐变量矩阵,P为载荷矩阵),其次将组分含量矩阵Y分解为U×Q(U为含量隐变量矩阵,Q为载荷矩阵):
A(n×m)=T(n×d)P(d×m)+N(n×m) (2-25)
Y(n×1)=U(n×d)Q(d×1)+M(n×1) (2-26)
再把吸光度隐变量矩阵T和含量隐变量矩阵U作线性回归,对角矩阵B作关联矩阵:
U(n×d)=T(n×d)B(d×d) (2-27)
设检验集中未知样本光谱矩阵为Aunk,则:
Aunk=Tunk (2-28)
继而推导出Tunk:
Yunk=TunkBQ (2-29)
1.模型回归步骤
1)矩阵标准化:对Xn×m和Yn×k矩阵中的列向量进行z-score标准化,使数据符合标准正态分布:
其中
2)设置迭代次数f(f≥1且为正整数)后以Yn×k矩阵中任意列向量作u初值进行迭代。
3)Y矩阵权值变量:
w′=u′X/u′u (2-32)
4)归一化权值变量:
w′new=w′old/‖w′old‖ (2-33)
5)计算矩阵X的t变量:
t=Xw/w′w (2-34)
6)计算矩阵Y的q变量:
q′=t′Y/t′t (2-35)
7)计算矩阵Y的u变量:
u=Yq/q′q (2-36)
8)变量归一化:
q′new=q′old/‖q′old‖ (2-37)
9)检验本次和上一次迭代中的变量t是否都收敛,收敛则继续进行下一步,发散则返回步骤3)重新迭代。
10)计算矩阵X的p变量:
p′=t′X/t′t (2-38)
11)归一化p变量:
p′new=p′old/‖p′old‖ (2-39)(www.xing528.com)
12)正交化t变量:
tnew=told‖pold‖ (2-40)
13)标准化w变量:
w′new=w′old‖p′old‖ (2-41)
14)计算回归系数:
b=u′t/t′t (2-42)
15)计算残差矩阵,将矩阵X、Y重新赋值:
Ef=Ef-1-tfp′f (2-43)
令X=Ef
Ff=Ff-1-ufq′f
令
Y=Ff (2-44)
16)保存t、p、u、q、b的迭代结果以供计算预测值。从步骤2)重新开始对下个主成分进行迭代。
2.预测算法原理
1)数据标准化:同校正部分算法一样标准化X矩阵;
2)设置迭代次数f(f≥1且为正整数)并将校正集的平均值赋作初始变量开始迭代:
3)将校正部分所得变量W、q、b带入下式:
tf=XW′f (2-46)
y=y+bftfq′f
4)计算校正集残差矩阵:
x=x-tfp′f (2-47)
5)迭代未结束则返回步骤2)继续迭代。
上述原理决定了PLS法具有下列优点:可以最大限度地提取样本光谱的有用信息;避免线性相关;包含了光谱与样本组分含量间的隐含联系,使模型稳健性更好;适用于多组分混合复杂体系的分析。该方法目前被广泛应用于光谱的定量分析软件。
3.主成分数目f的确定
如果样本光谱矩阵X和样本组分含量矩阵Y间的关系为线性模型,那么模型的主成分数应等于描述模型的组分数,主成分数是能否成功建立PLS模型的关键。
PLS建模中较困难的一步是如何确定主成分数目。主成分数目越多,其各载荷向量对建模的贡献度也就越小,且可能会引进噪声载荷,造成过拟合现象,影响模型精度。反之,主成分数目过少有可能漏掉光谱中的有用信息,使模型不能完全反映样本中目标组分产生的光谱变化,出现欠拟合现象,降低模型预测能力。所以,确定一个合理的参与建模的主成分数目既可以充分利用光谱信息又可以有效过滤干扰信息。
预测残差平方和(PRESS)法是一种常用的主成分数计算方法,其计算过程如下:
式中,n为校正集样本数;f为建模主成分数;Yp,ij为样本拟合值;Yij样本真值。
预测残差二次方和值越小表示模型拟合值与真值越接近,模型预测精度越高,所以通常取其值最接近0时所对应的主成分数作为最佳主成分数进行建模。
基于预测残差二次方和值确定主成分数的方法目前有校正集自预测法、交互验证法、杠杆点预测法、验证集预测法等,目前应用较多且有效的方法是交互验证法。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。