首页 理论教育 中国数字图书馆发展趋势的组合预测方法

中国数字图书馆发展趋势的组合预测方法

时间:2024-10-12 理论教育 版权反馈
【摘要】:目前已有少量相关文献对我国数字图书馆的研究论文进行定量的统计分析,进而从一个侧面反映我国数字图书馆的发展情况及其未来的发展趋势。因此用熵值法确定数字图书馆发展趋势的组合预测加权系数的步骤如下:将滤波模型和分段模型这两种单项预测方法预测相对误差序列单位化。

中国数字图书馆发展趋势的组合预测方法

第三节 中国数字图书馆发展趋势的组合预测方法

我国数字图书馆的研究和建设起步于20世纪90年代中期,经过十余年的发展,我国学术界对数字图书馆的研究已取得了大量的成果。目前已有少量相关文献对我国数字图书馆的研究论文进行定量的统计分析,进而从一个侧面反映我国数字图书馆的发展情况及其未来的发展趋势。吴淑玲[71]运用逻辑斯谛曲线(Logistic Curve)建立数字图书馆的预测模型,采用计量经济方法对参数进行估计和检验,并利用模型的运算结果探讨了数字图书馆的发展趋势;周育红[72]针对有关我国数字图书馆研究论文的年代分布时间序列进行分析,发现这一年代分布时间序列出现了爆炸式的跳跃增长,如果采用经典的Verhulst方程,其拟合结果偏差甚大。该文对已有的常规的数学模型形式和建模方法做了某些修正和改进,提出了“分段”和“滤波”两种新的数学模型,并取得了较好的拟合结果。

然而上述两个文献实际上都采用了单项预测方法对数字图书馆的未来的发展趋势进行了预测。由于每种预测方法利用的数据源和预测模型不尽相同,不同的数据源和预测模型都是从不同的角度提供各方面有用的信息,因此每种预测方法之间并不是相互排斥的,而是相互联系、相互补充的。在预测的过程中,如果想当然地认为某个单项预测方法的预测误差较大,就把该种预测方法弃之不用,这可能造成部分有用的信息丢失。自Bates.J.M.和Granger.C.W.J.首次提出组合预测方法[73]以来,因它能有效地提高预测精度,因而受到国内外预测工作者的重视[73][77]。组合预测就是综合利用各种单个预测模型所提供的信息,以适当的加权平均形式得出组合预测模型。其核心的问题就是如何求出加权平均系数,使得组合预测模型更加有效地提高预测精度。

本节在吴淑玲、周育红、方小容等人的研究基础上,针对我国数字图书馆的研究论文的时间序列统计数据,从信息论的观点出发,根据上述文献的两种单项预测方法预测误差序列的变异程度,利用信息熵的概念,计算出组合预测加权平均系数,从而获得我国数字图书馆的研究论文的组合预测值。计算结果显示,组合预测方法确实较单项预测方法优越。

一、最优组合预测方法的评价

根据组合预测权系数确定的方法,可分为最优组合方法和非最优组合方法两类。最优组合预测方法的基本思想就是根据某种准则的构造目标函数,在一定的约束条件下求得目标函数的最大值或最小值,从而求得组合预测方法加权系数。

设有预测对象的某个指标序列为{xt,t=1,2,…,N},存在m种单项预测方法对其进行预测,设第i种单项预测方法在第t时刻的预测值为xit,i=1,2,…,m.,t=1,2,…,N,称eit=(xt-xit)为第i种单项预测方法在第t时刻的绝对预测误差。

设k1,k2,…,km分别为m种单项预测方法的加权系数,权系数应满足k1+k2+…+km=1。

设xt为xt的组合预测值,则有:

xt=k1x1t+k2x2t+…+kmxmt

设Et为组合预测在第t时刻的预测误差,则有:

设Q表示组合预测预测误差平方和,则有:

由此可以预测误差平方和为准则的非负线性组合预测模型为下

列最优化问题[76][77]

在求解最优组合预测模型时,可能面临如下两个问题:

(1)上述模型求解较为困难,当单项预测方法种类m较大时,需要计算一个m阶的矩阵的可逆阵,因而计算量较大。同时由误差向量构成的误差信息矩阵也面临着可逆阵是否存在的问题。

(2)即使可逆阵存在的话,最优组合预测的权系数也有可能出现负的情况,而负的组合预测的权系数没有实际的意义。

所以通常有两种解决问题的办法:一是在最优组合预测模型中增加非负约束条件;二是研究满足非负约束的非最优组合预测模型。非最优正权组合预测方法就是根据预测学的基本原理,并力求用简便的原则来确定组合预测的权系数的一种方法。具体地说就是根据各个单项预测模型预测的误差的变异程度和其权系数成反比的基本原理,给出组合预测的权系数的计算方法。

二、用熵值法确定中国数字图书馆发展趋势的组合预测加权系数

周育红等[72]利用中国的全文期刊数据库,检索到1994年至2004年共11年间的有关数字图书馆研究论文4 834篇,其篇数经整理列于“表7.3.1”,发表的研究论文统计数据可记为一个时间序列。由“表7.3.1”可以看到,论文篇数是逐年递增的,但增长率并不是一个常数,而是呈S形增长之趋势。周育红等[72]把论文篇数的年增长量作为原始数列,则论文发表篇数之时间序列实际上就成了原始数列的一次累加数列。文中分别利用两种单项预测方法,即分段模型和滤波模型对一次累加数列进行拟合得出结果。(www.xing528.com)

表7.3.1 数字图书馆研究论文篇数的年代分布及其增长

在信息论中,熵值是系统无序程度或混乱程度的度量,信息被解释为系统无序程度的减少,信息表现为系统的某项指标的变异度。即系统的熵值越大,则它所蕴涵的信息量越小,系统的某项指标的变异程度越小;反之,系统的熵值越小,则它所蕴涵的信息量越大,系统的某项指标的变异程度越大。用熵值法确定组合预测加权系数一个基本思想是:利用信息论中熵值的概念,重新定义单项预测模型预测误差序列的变异程度。若某个单项预测模型预测误差序列的变异程度越大,则其在组合预测中对应的权系数就越小。因此用熵值法确定数字图书馆发展趋势的组合预测加权系数的步骤如下:

(1)将滤波模型和分段模型这两种单项预测方法预测相对误差序列单位化。即计算这两种单项预测方法第t时刻的预测相对误差的比重pit

其中eit为第i种单项预测方法第t时刻的预测相对误差。显然,img349。所以pit,t=1,2,…,11可以视为概率分布。具体计算结果见“表7.3.2”。

(2)计算滤波模型和分段模型的预测相对误差的熵值:

其中当p1t=0时,则令p1tlnp1t=0,ln为自然对数

(3)计算滤波模型和分段模型的预测相对误差序列的变异程度系数:

因为0≤h1≤1,0≤h2≤1,根据系统某项指标的熵值的大小与其变异程度相反的原则,则定义滤波模型和分段模型的预测相对误差序列的变异程度系数为:

表7.3.2 滤波模型和分段模型预测方法的相对误差序列及其单位化

d1=1-h1=0.3091

d2=1-h2=0.1646

(4)计算滤波模型和分段模型的加权系数:

上式体现了一个原则:滤波模型的变异程度越大,则其在组合预测中对应的权系数就越小。

(5)计算组合预测值xt=0.3475x1t+0.6525x2t,t=1,2,…,11。

若以预测误差平方和作为反映预测精度的一个指标,则有熵值法确定的组合预测模型对应的预测误差平方和为:

经计算滤波模型对应的预测误差平方和为:Q1=4059.8;

经计算分段模型对应的预测误差平方和为:Q2=5119.8。

由此可见,以预测误差平方和作为预测精度评价准则,则本节提出的确定组合预测方法中的加权系数的熵值方法优于两个单项预测方法。这表明熵值方法用于确定组合预测方法加权系数具有一定的有效性。

本节给出了组合预测权系数确定的方法——熵值方法。它的显著特点是根据各单项预测方法预测误差序列的变异程度来确定组合预测加权平均系数,且计算简单。目前,数字图书馆研究工作及其论文发表处于一个“饱和期”,需要进一步扩大研究者的队伍,扩大研究范围,开拓新的技术性、实质性研究领域,加深理论性和实际性应用研究的深度,才能有新的起步和更大的发展。[72]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈