首页 理论教育 基于深度Q网络的智能化战场威胁评估研究

基于深度Q网络的智能化战场威胁评估研究

时间:2023-06-19 理论教育 版权反馈
【摘要】:本项目运用基于深度Q 网络的威胁评估方法,为战场兵力部署问题提供解决方案。在兵力部署下的战场环境建立完成后,神经网络的训练即部署策略的学习过程,最终得到的Q 网络即战场上各个区域威胁评估的结果。图4-21DQL 算法步骤基于深度Q 网络的智能化战场威胁评估流程如图4-22所示。

基于深度Q网络的智能化战场威胁评估研究

本项目运用基于深度Q 网络(DQL)的威胁评估方法,为战场兵力部署问题提供解决方案。深度Q 网络算法可以对本项目兵力部署下的战场环境进行深入的学习与理解,并通过Q 网络反映出战场上各个区域对我方的威胁程度,可以通过自主学习过程得到进入有利防御位置的最优策略,为我方指挥人员提供兵力部署的参考与建议。

1.基于深度Q 网络的智能化战场威胁评估

深度Q 网络是一种强化学习算法。这种算法对于每种行为之间存在较强关联性的复杂环境有很好的学习效果,非常适合本项目防御兵力部署下的战场环境下的学习。DQL 算法原理如图4-20所示。

图4-20 DQL 算法原理

DQL 算法主要包括环境、Q 网络、历史数据库、深度学习算法模块、神经网络参数服务器五个主要部分。DQL 使用了经验回放的方法,与人类学习过程类似。这种方法的思想是记住算法在当前环境中实施行为的历史信息,因此,DQL 需要将在同一环境中的历史执行信息都存储在历史数据库中。在学习的过程中,根据所处的环境,从历史经验中提取出一定的跳转信息,一方面可以对当前环境有初步的判断;另一方面,可以根据这些信息进行更进一步的学习,大大提高学习的速度与效率

DQL 算法非常适合对本项目兵力部署下的战场环境进行深入的学习与理解,它的主要工作分为两部分:兵力部署下战场环境的建立与神经网络的训练。

建立兵力部署下的战场环境模型,其核心工作是战场环境奖励值的设定。在趋势预测的基础上,依据传统威胁评估技术对敌方目标或群体的威胁等级评估结果,一种可行的设定思路为,我方单位进入有利防御位置,则根据攻击目标单位的威胁等级获得相应奖励,其威胁等级越高获得的奖励越高;我方单位落入敌方单位优势打击范围,则扣除一定奖励,原则与获得奖励相似,敌方威胁等级越高扣除的奖励越多。

在兵力部署下的战场环境建立完成后,神经网络的训练即部署策略的学习过程,最终得到的Q 网络即战场上各个区域威胁评估的结果。神经网络的参数w 即我方单位在不同观测状态下各种行为选择的权重,通过对神经网络的建立与训练,不断更新优化参数w 与Q 网络,使Q 函数不断接近Bellman 公式,可以得到进入有利防御区域的最优策略,为我方指挥人员提供兵力部署的参考与建议。此时的Q 网络则可以反映出战场上各个区域对我方的有利程度,Q 函数最大值越高的区域对我方有利程度越高;反之,则对我方威胁程度越大。威胁评估值的量化标准由下式给出:

Ts = 1- maxQ(s,a)

式中,Ts 为s 状态处的威胁评估值;maxQ(s,a)为Q 网络s 状态处的最大值。

DQL 算法的运行步骤如下:

(1)初始化:状态矩阵S,网络参数矩阵W,Loss 函数,学习率、迭代次数等学习参数。

(2)初始化环境模型,开始一次新的训练。

(3)依据式aπ = arg max(S·W)计算当前状态下选择各个行为的权重,选择当前状态下的最优行为a。(www.xing528.com)

(4)执行行为a ,状态更新为S′,获得相应的奖励r。

(5)依据式更新Q 网络。

(6)使用梯度下降法,依据式wnew = w-lr·∂L(w)/∂w 更新神经网络参数w。

(7)判断当前所处状态是否进入敌方有利攻击范围,是则返回步骤(2),否则执行步骤(8)。

(8)判断是否达到一次训练最大步数,是则执行步骤(9),否则返回步骤(3)。

(9)判断是否达到训练总次数,是则执行步骤(10),否则返回步骤(2)。

(10)算法结束,依据式Ts = 1- maxQ(s,a)输出威胁评估结果。

DQL 算法的运行步骤如图4-21所示。

2.基于深度Q 网络的智能化战场威胁评估流程

深度Q 网络强化学习算法可以根据战场趋势预测结果以及量化后的威胁目标属性值,对兵力部署的战场形势进行进一步的理解与预测,并结合深度Q网络算法构建兵力部署下的战场环境与神经网络。在兵力部署下的战场环境建立完成后,神经网络的训练即部署策略的学习过程,最终得到的Q 网络即战场上各个区域威胁评估的结果,此时的Q 网络则可以反映出战场上各个区域对我方的有利程度,Q 函数最大值越高的区域对我方有利程度越高,反之则对我方威胁程度越大。输出结果为威胁估计值,则可以通过该数据得到进入有利防御位置的最优策略,为我方指挥人员提供兵力部署的参考与建议。

图4-21 DQL 算法步骤

基于深度Q 网络的智能化战场威胁评估流程如图4-22所示。

图4-22 基于深度Q 网络的智能化战场威胁评估流程

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈