[论文]深度强化学习在超视距空战机动规划的应用
Application of Deep Reinforcement Learning in Maneuver Planning of Beyond-Visual-Range Air Combat
构建基本作战环境:飞行运动模型、相对运动模型和导弹攻击模型
智能体与环境交互的机动决策框架
设计agent训练的奖励函数
提出了感知情境层和值拟合层来取代DQN中的策略网络
超视距空战难点
- 导弹作战战术机制依靠专业飞行员经验
- 真实训练数据少
针对导弹攻击区域,提出导弹杀伤范围
提出基本奖励值和态势奖励值
改进的DQN,利用LSTM单元构建感知情境网络
2 空战环境设计
飞行运动模型
x ˙ , y ˙ , z ˙ \dot{x}, \dot{y}, \dot{z} x˙,y˙,z˙ 是速度在每个轴上的分量。
γ , ψ \gamma, \psi γ,ψ 分别表示飞机的俯仰角和偏航角。
- 机体坐标系
原点O取在飞机质心处, X轴指向机头, Y轴指向机身上方, Z指向机身右方 - 飞行轨迹坐标系
X轴指向速度方向,Y轴垂直于地平面
(1)俯仰角 γ \gamma γ: 机体轴与地平面(水平面)之间的夹角,飞机抬头为正。
(2)偏航角(方位角) ψ \psi ψ:机体x轴在水平面上的投影与地x轴之间的夹角,以机头右偏为正。
(3)滚转角(倾斜角) μ \mu μ:飞机对称面绕机体轴 转过的角度,右滚为正。
相对运动模型
红蓝两机相对向量
方位角:相对向量与自身速度(地面坐标系)的夹角
目标入射角:相对向量与敌机速度(地面坐标系)的夹角
导弹攻击模型
描述导弹攻击区域的两种方式
attack envelope
限制条件:
- 导弹最大和最小飞行高度
- 导弹在遇到目标前的最小速度
- 安全距离极限
- 导弹的最大飞行时间
划分:
- 最大攻击范围
- 不可逃脱范围
- 安全范围(最小攻击范围)
attack envelope的划分是飞行状态、导弹发射角度、目标进入角度、目标飞机飞行状态等的函数。
killing envelope
当攻击机在可攻击范围内发射导弹时,目标机一般采取一系列过载机动以避免导弹跟踪,因此为了降低击中概率,我们根据不同的过载机动提出了四种killing envelope。
- 最大击中范围
- 敌机90°侧转时能击中的范围
- 敌机180°侧转时能击中的范围
- 最小安全发射范围
3 空战模型
空战决策框架
强化学习通常被建模成一个马尔可夫决策过程 (Markov decision process,MDP)的问题
agent:独立训练
环境:状态转换模型、空战奖励模型、终止判断模型(是否到达终止条件)
agent构造自己的感知变量 s t R , s t B s^{R}_{t}, s^{B}_{t} stR,stB
状态空间
agent state由以下三种状态表示:
- 独立状态:位置和速度
- 相对状态:相对距离、相对速度和相对角度
- 能量状态:动能、势能、影响导弹杀伤距离的参数表示
对状态进行归一化处理
- 最小-最大规范化对原始数据进行线性变换。
- z-score规范化也称零-均值规范化。属性A的值是基于A的平均值与标准差规范化。
动作空间
离散动作空间:扩展动作
奖惩
蒙特卡洛搜索确定root node的奖励值
当前状态奖励分为:
- 边界奖励:当临近边界时,由蒙特卡洛搜索确定。对所有N步的搜索算出出界的概率,通过该概率计算出奖励。
- 角度奖励:鼓励交战
- 距离奖励:D1小于导弹的最小攻击距离,D2大于导弹的最大攻击距离。
- 导弹攻击奖励:通过仿真获得击败敌方的概率和被敌方击中的概率,从而得到导弹攻击奖励。
4 LSTM-DQN算法
使用参数 θ \theta θ近似动作价值函数
policy网络使用 ϵ − g r e e d y \epsilon - greedy ϵ−greedy方法,用于计算agent的当前动作。
target网络:target函数,用于训练参数。更新:间隔一段时间进行更新。目的:保持算法稳定性。
- DQN的损失函数定义为目标值与预测值的均方差,同时通过更新权重 θ \theta θ使损失最小化。
采用自适应梯度下降法对策略网络参数进行训练,经过一定次数的训练集后,应用参数对目标网络进行更新。
在训练过程中,agent容易产生大量无价值的样本。针对这一问题,我们根据超视距空战的经验设计了一个专家过滤器,进行初步的判断和选择。将过滤后的样本与原始样本按一定比例整合到体验回放池中进行训练。
policy network
感知情境层:
对于采样的所有数据,由运动模型获得后续T个连续状态变量
价值函数拟合层:
输入为LSTM的输出,输出为9个动作的概率
空战仿真
数据分析
5 比较与结论
有效性比较
通过奖励和获胜概率两个标准来衡量,决策方案的有效性。奖励是对智能体当前状态和机动动作的评价,反映了与对手的相对优势。另一个是获胜概率,它可以从测试实验的结果中计算出来。
与AC方法和DDPG方法比较。
总结
以上是生活随笔为你收集整理的[论文]深度强化学习在超视距空战机动规划的应用的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: mysql 自动化运维开发_Python
- 下一篇: 【办公软件有哪些】万彩办公大师教程丨PD