留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

一种用于无人艇目标跟踪的实时Q学习算法

陈于涛 曹诗杰 曾凡明

陈于涛, 曹诗杰, 曾凡明. 一种用于无人艇目标跟踪的实时Q学习算法[J]. 中国舰船研究, 2020, 37(0): 1–6 doi: 10.19693/j.issn.1673-3185.01763
引用本文: 陈于涛, 曹诗杰, 曾凡明. 一种用于无人艇目标跟踪的实时Q学习算法[J]. 中国舰船研究, 2020, 37(0): 1–6 doi: 10.19693/j.issn.1673-3185.01763
CHEN Y T, CAO S J, ZENG F M. A Real-time Q-Learning Algorithm for Unmanned Surface Vehicle Target Tracking[J]. Chinese Journal of Ship Research, 2020, 37(0): 1–6 doi: 10.19693/j.issn.1673-3185.01763
Citation: CHEN Y T, CAO S J, ZENG F M. A Real-time Q-Learning Algorithm for Unmanned Surface Vehicle Target Tracking[J]. Chinese Journal of Ship Research, 2020, 37(0): 1–6 doi: 10.19693/j.issn.1673-3185.01763

一种用于无人艇目标跟踪的实时Q学习算法

doi: 10.19693/j.issn.1673-3185.01763
详细信息
    作者简介:

    陈于涛,男,1977年生,博士,副教授。研究方向:海上无人平台智能控制。E-Mail:yutao_jack_chen@163.com

    曹诗杰,男,1991年生,博士,讲师。研究方向:海上无人平台智能控制。E-Mail:975526435@qq.com

    曾凡明,男,1962年生,博士,教授。研究方向:舰船动力装置总体设计。E-Mail:zeng_fm@sina.com

    通信作者:

    曹诗杰

  • 中图分类号: U661.33

A Real-time Q-Learning Algorithm for Unmanned Surface Vehicle Target Tracking

  • 摘要: 针对无人艇运动规划中的目标跟踪问题,研究增强学习方法在无人艇目标跟踪控制中的应用。通过分析增强学习的模型和特点,提出改进的实时Q学习算法。设计适用于无人艇目标跟踪问题的Q学习算法模型框架,包括行为空间、状态空间、回报函数以及强化学习策略。在固定和不确定的环境中,设计离线和在线测试场景,对自学习算法和控制效果进行分析研究。结果表明,所设计的Q学习算法模型具有自学习的能力,可以自主的进化行为策略,最大化回报函数,实现实时目标跟踪的效果。可以为增强无人艇控制系统的自学习能力提供研究基础。
  • 图  1  马尔可夫决策过程模型

    Figure  1.  Description of Markov decision process model

    图  2  Q学习算法

    Figure  2.  Q-Learning algorithm

    图  3  USV动力学模型

    Figure  3.  The kinematic model of USV

    图  4  目标方向的离散状态

    Figure  4.  Discrete target direction states

    图  5  200次Q学习过程的路径计算结果

    Figure  5.  Results of 200 episodes Q-learning process

    图  6  200次Q学习过程的终止时间

    Figure  6.  Terminal time of 200 episodes Q-learning process

    图  7  不同起始点和初始方向,相同目标的计算结果

    Figure  7.  Results of different starting points and initial directions with a same target

    图  8  相同起始点和初始方向,不同目标的计算结果

    Figure  8.  Results of different targets with a same starting point and initial direction

    图  9  给定速度移动目标的计算结果

    Figure  9.  Results of A moving target within a given speed

    表  1  USV行为参数

    Table  1.   Chosen USV action velocities

    行为速度(kn)角速度(rad/s)
    左转弯100.26
    向前直行100
    右转弯10−0.26
    下载: 导出CSV
  • 金克帆, 王鸿东, 易宏, 等. 海上无人装备关键技术与智能演进展望[J]. 中国舰船研究, 2018, 13(6): 1–8.

    JIN K F, WANG H D, YI H, et al. Key technologies and intelligence evolution of maritime UV[J]. Chinese Journal of Ship Research, 2018, 13(6): 1–8 (in Chinese).
    LIU Y F, NOGUCHI N. Development of an unmanned surface vehicle for autonomous navigation in a paddy field[J]. Engineering in Agriculture, Environment and Food, 2016, 9(1): 21–26. doi: 10.1016/j.eaef.2015.09.003
    陈铭. 高速无人艇模型及航速/航向解耦控制研究[D]. 哈尔滨: 哈尔滨工程大学, 2011: 1–23.

    CHEN M. The hydrodynamic models and the decoupling control research in the speed and course of USV[D]. Harbin: Harbin Engineering University, 2011: 1–23 (in Chinese).
    曹诗杰, 曾凡明, 陈于涛. 无人水面艇航向航速协同控制方法[J]. 中国舰船研究, 2015, 10(6): 74–80. doi: 10.3969/j.issn.1673-3185.2015.06.011

    CAO S J, ZENG F M, CHEN Y T. The course and speed cooperative control method for unmanned surface vehicles[J]. Chinese Journal of Ship Research, 2015, 10(6): 74–80 (in Chinese). doi: 10.3969/j.issn.1673-3185.2015.06.011
    KHAN S G, HERRMANN G, LEWIS F L, et al. Reinforcement learning and optimal adaptive control: an overview and implementation examples[J]. Annual Reviews in Control, 2012, 36(1): 42–59. doi: 10.1016/j.arcontrol.2012.03.004
    BRANDON ROHRER. A developmental agent for learning features, environment models, and general robotics tasks[J]. Frontiers in Computational Neuroence, 2011, 5(22): 111–113.
    BACA J, HOSSAIN S G M, DASGUPTA P. MODRED: hardware design and reconfiguration planning for a high dexterity modular self-reconfigurable robot for extra-terrestrial exploration[J]. Robotics and Autonomous Systems, 2014, 62(7): 1002–1015. doi: 10.1016/j.robot.2013.08.008
    WONG W C, LEE J H. A reinforcement learning-based scheme for direct adaptive optimal control of linear stochastic systems[J]. Optimal Control Applications and Methods, 2010, 31(4): 365–374. doi: 10.1002/oca.915
    徐琰恺, 陈曦,. 基于强化学习的JLQ模型的直接自适应最优控制[J]. 控制与决策, 2008, 23(12): 1359–1362, 1372. doi: 10.3321/j.issn:1001-0920.2008.12.008

    XU Y K, CHEN X. Reinforcement learning-based direct adaptive optimal control of JLQ model[J]. Control and Decision, 2008, 23(12): 1359–1362, 1372. doi: 10.3321/j.issn:1001-0920.2008.12.008
    WATKINS C J C H, DAYAN P. Technical note: Q-learning[J]. Machine Learning, 1992, 8(3–4): 279–292. doi: 10.1007/BF00992698
    DAS P K, BEHERA H S, PANIGRAHI B K. Intelligent-based multi-robot path planning inspired by improved classical Q-learning and improved particle swarm optimization with perturbed velocity[J]. Engineering Science and Technology, an International Journal, 2016, 19(1): 651–669. doi: 10.1016/j.jestch.2015.09.009
    WEI Q L, SONG R Z, XU Y C, et al. Iterative Q-learning-based nonlinear optimal tracking control[C]//Proceedings of IEEE Symposium Series on Computational Intelligence. Athens: IEEE, 2016: 1–5.
  • 加载中
图(9) / 表(1)
计量
  • 文章访问数:  55
  • HTML全文浏览量:  24
  • PDF下载量:  3
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-09-08
  • 修回日期:  2020-03-29
  • 网络出版日期:  2020-12-10

目录

    /

    返回文章
    返回