具有自主决策能力的机动单元智能体研究

被引:1
作者
杨萍
毕义明
孙淑玲
机构
[1] 第二炮兵工程学院
关键词
运筹学; 机动单元智能体; 威胁预测模型; 马尔可夫决策过程; 强化学习;
D O I
暂无
中图分类号
E911 [军事数学];
学科分类号
1105 ; 1108 ;
摘要
在机动作战仿真中,具有对战场威胁快速反应和决策能力的机动单元实体才更符合实际作战的情形。为此,提出了具有自主决策功能的机动单元智能体的结构模型,它由感知、威胁预测、决策、学习和执行等部分组成;建立了用于威胁预测的神经网络模型,并将智能体的决策描述为马尔可夫决策过程(MDP).面对复杂的决策环境,将强化学习技术运用其中,使得智能体通过不断观测新的环境状态,运用学习手段,作出最佳的策略选择。针对强化学习中状态空间大、现有算法收敛速度较慢等问题,提出了改进的SARSA(λ)学习算法。仿真实验验证了强化学习下机动策略决策的有效性和改进算法的效率。
引用
收藏
页码:1363 / 1366
页数:4
相关论文
共 2 条
[1]  
Reinforcement learning with replacing eligibility traces[J] . Satinder P. Singh,Richard S. Sutton.Machine Learning . 1996 (1)
[2]  
Technical Note: Q-Learning[J] . Christopher J.C.H. Watkins,Peter Dayan.Machine Learning . 1992 (3)