贝叶斯网络学习的过程是使用数据修正先验知识的过程,即通过数据样本D和先验知识δ,确定后验分布P(S|D,δ)达到最大值时的贝叶斯网络结构S的过程[141]。已建的贝叶斯网络应符合概率最大分布原则,即最大似然原理,将贝叶斯网络推理转换成优化过程。使用样本数据进行网络学习,假设某些已知节点的数值集为D,网络结构的确定由参数θ(θ∈)决定。根据最大似然原理,可确定P(D|θ)达到最大值时,θ的取值。如公式所示,式(4-9)表示似然函数,式(4-10)表示极大似然估计。
贝叶斯网络学习有三个步骤,包括定义变量、结构学习和参数学习。在贝叶斯网络建模中,关键的任务是网络结构学习和网络参数的学习。研究者已经提出很多有效的算法来进行推理,包括精确算法和近似算法。这些算法已经被开发成软件包以方便贝叶斯网络的应用,其中匹兹堡大学决策系统实验室开发的Genie软件可以大大地简化计算过程,并能使各种评价和诊断结果非常直观地从图中表示出来。本书利用Genie软件进行贝叶斯网络的建模和推理分析,结构学习将以问卷调查的形式来获得数据,确定初步的贝叶斯网络结构;参数学习将通过机器学习实现,以获得变量的条件概率,下文中将介绍具体的过程。
1)贝叶斯网络结构学习
本书以绿色建筑评价体系中“节能与能源利用”的12个评价指标为例展开分析,根据风险矩阵的思想拓展可知,可以用“指标存在的合理性”和“指标对建筑绿色度的影响程度”作为二维矩阵的横纵坐标,并分为三个层次,由高向低分别记为F1、F2、F3,如图4-6所示。
根据图4-6的风险矩阵示意图,利用F1、F2、F3统计划分评价指标的重要程度。通过对86份调研问卷进行进一步统计分析,分别计算各指标F1、F2、F3的得分和。如表4-1所示。
表4-1 问卷结果统计表
贝叶斯网络的结构学习是在定义节点变量的基础上,通过机器学习建立贝叶斯网络结构。本书使用GeNIe2.0软件进行分析,将专家的分析数据(表)导入软件。导入时需要注意的是,GeNIe2.0能识别的文件格式只有gdat、txt、csv和dat格式,而Excel表格可直接另保存为csv格式,故在导入前需先转换文件格式。图4-7即为导入后的部分界面。
数据导入后,GeNIe2.0软件会对导入数据进行机器学习,以确定网络结构,各指标即成为网络结构变量。在完整节点数值集下,网络结构学习有两种方式:测试法和评分搜索法。经多年的研究和发展,目前最常用的网络结构算法是评分搜索法。本书选取评分搜索法的典型算法——K2算法,使用后验概率作为评分函数。K2算法用贪婪搜索处理模型选择问题:先定义一种评价网络结构优劣的评分函数,再从一个网络开始,根据事先确定的最大父节点数目和节点次序,持续循环搜索直至确定分值最高的节点作为终节点的父节点。在贝叶斯网络结构学习中使用K2算法如图4-8所示。
图4-7 贝叶斯网络结构学习过程图(www.xing528.com)
图4-8 K2算法图
贝叶斯网络结构学习可以确定各影响因素之间和影响因素与建筑绿色度的关系,箭头的指向表示评价指标之间的因果关系。贝叶斯网络结构学习是经由专家知识初步确定变量间的关系,但是K2算法的变量个数是先验数据而且该算法对初始网络结构敏感,同时网络结构有数据量少的局限,因此GeNIe2.0软件网络结构学习的成果和现实指标间的关系及相互影响情况有可能存在一些差距,不一定和实际情况完全相符,不符时还需结合专家建议对网络结构进行优化。构造分析因果关系的最优办法是将专家建议与因果相关性分析结合起来[142],通过调整指标间相关因果关系的强度使网络结构与实际情况更相近,达到优化的目的。如图4-9是绿色建筑评价指标的因果关系分析结果。
图4-9 贝叶斯网络结构优化结果图
根据绿色建筑节能评价的贝叶斯网络分析结果,可看出二级指标间相互影响的因果关系。外窗的窗墙比会影响通风和采光效果,除此之外,自然通风效果还受建筑间距和建筑朝向的影响。建筑朝向与地区的太阳角度有关,直接影响太阳能光电板的分布和遮阳构件的分布情况。遮阳构件应具有“夏天遮阳,冬季保温”的效果,考虑与太阳能光电板相结合,因此,太阳能光电板的分布能部分决定遮阳构件的分布;另一方面,遮阳构件对室内采光有一定的影响,因此需适当增加灯饰的数量。综合来看,建筑节能性能受围护结构热工性能、建筑光环境、通风性能、日照与遮挡、太阳能辐射与太阳能利用的共同影响。
2)贝叶斯网络参数学习
贝叶斯网络参数学习的目的是获取网络节点的条件概率分布,有两种方法:最大似然估计法和贝叶斯计算法。因为最大似然估计法具有收敛一致性的特点,随着先验数据量的增加,参数与实际情况越近似,且参数表示格式不需统一,因此本书选择最大似然估计法进行网络参数学习。
网络参数学习分为以下两个阶段:第一阶段:网络节点参数初始化,每个节点分别有F1、F2、F3三种状态,初始化的参数即将各个节点的概率值均设为平均值即1/3,以实现各节点概率值的平均分布;第二阶段:将Access数据与贝叶斯网络相匹配,GeNIe软件和Access软件的数据具有兼容性,在将数据导入GeNIe软件前需要通过Access软件对数据进行标准化处理,之后再匹配两个软件的每个节点,好—F3、中—F2、差—F1,对网络进行参数学习。参数学习有两类算法:贝叶斯估计算法和最大似然估计算法。最大似然估计算法不需要先验概率值,通过Access数据的导入即可进行,因此本书选择此算法,图4-10即是绿色建筑节能与能源利用评价贝叶斯网络参数学习的成果。
图4-10 贝叶斯网络参数学习成果图
如图4-10所示,此建筑通过参数学习得到的绿色建筑节能评价为好的概率值是49%,中的概率值是27%,差的概率值是24%。此参数学习成果是基于一般条件的概率统计成果,可应用于某建筑项目绿色评价,其更深远的意义在于网络结构的确定和后续特定情境下的网络推理分析。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。