Loading [MathJax]/jax/output/SVG/jax.js

基于改进DDPG算法的无人船自主避碰决策方法

关巍, 郝淑慧, 崔哲闻, 王淼淼

关巍, 郝淑慧, 崔哲闻, 等. 基于改进DDPG算法的无人船自主避碰决策方法[J]. 中国舰船研究, 2025, 20(1): 172–180. DOI: 10.19693/j.issn.1673-3185.03929
引用本文: 关巍, 郝淑慧, 崔哲闻, 等. 基于改进DDPG算法的无人船自主避碰决策方法[J]. 中国舰船研究, 2025, 20(1): 172–180. DOI: 10.19693/j.issn.1673-3185.03929
GUAN W, HAO S H, , et al. Autonomous decision-making method of unmanned ship based on improved DDPG algorithm[J]. Chinese Journal of Ship Research, 2025, 20(1): 172–180 (in Chinese). DOI: 10.19693/j.issn.1673-3185.03929
Citation: GUAN W, HAO S H, , et al. Autonomous decision-making method of unmanned ship based on improved DDPG algorithm[J]. Chinese Journal of Ship Research, 2025, 20(1): 172–180 (in Chinese). DOI: 10.19693/j.issn.1673-3185.03929
关巍, 郝淑慧, 崔哲闻, 等. 基于改进DDPG算法的无人船自主避碰决策方法[J]. 中国舰船研究, 2025, 20(1): 172–180. CSTR: 32390.14.j.issn.1673-3185.03929
引用本文: 关巍, 郝淑慧, 崔哲闻, 等. 基于改进DDPG算法的无人船自主避碰决策方法[J]. 中国舰船研究, 2025, 20(1): 172–180. CSTR: 32390.14.j.issn.1673-3185.03929
GUAN W, HAO S H, , et al. Autonomous decision-making method of unmanned ship based on improved DDPG algorithm[J]. Chinese Journal of Ship Research, 2025, 20(1): 172–180 (in Chinese). CSTR: 32390.14.j.issn.1673-3185.03929
Citation: GUAN W, HAO S H, , et al. Autonomous decision-making method of unmanned ship based on improved DDPG algorithm[J]. Chinese Journal of Ship Research, 2025, 20(1): 172–180 (in Chinese). CSTR: 32390.14.j.issn.1673-3185.03929

基于改进DDPG算法的无人船自主避碰决策方法

基金项目: 国家自然科学基金资助项目(51409033, 52171342)
详细信息
    作者简介:

    关巍,男,1982年生,博士,教授,博士生导师。研究方向:船舶运动控制理论,船舶自主避障决策。E-mail:gwwtxdy@dlmu.edu.cn

    郝淑慧,女,2000年生,硕士生。研究方向:船舶自主避障决策。E-mail:hjkhsh@163.com

    通讯作者:

    关巍

  • 中图分类号: U664.82

Autonomous decision-making method of unmanned ship based on improved DDPG algorithm

知识共享许可协议
基于改进DDPG算法的无人船自主避碰决策方法关巍,采用知识共享署名4.0国际许可协议进行许可。
  • 摘要:
    目的 

    针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。

    方法 

    利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。

    结果 

    结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,

    结论 

    训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。

    Abstract:
    Objectives 

    To enhance the safety and efficiency of maritime traffic, this paper proposes an autonomous collision avoidance decision-making method for unmanned ships based on an enhanced Deep Deterministic Policy Gradient (DDPG) algorithm.

    Methods 

    In order to address the issues of low data utilization and poor convergence in traditional DDPG algorithms, we employ Priority Experience Replay (PER) to dynamically adjust experience priority, reduce sample correlation, and utilize the Long Short-Term Memory (LSTM) network to improve the algorithm convergence. Based on the domain knowledge of ships and adhering to the International Regulations for Preventing Collisions at Sea (COLREGs), a model for determining meeting situations and a novel set of reward functions that consider urgent scenarios when other ships fail to comply with the COLREGs are introduced. Generalization experiments are conducted involving two-ship and multi-ship encounters to validate the effectiveness of the proposed method.

    Results 

    As the experimental results demonstrate, compared to traditional DDPG algorithms, our improved approach enhances the convergence speed by approximately 28.8%.

    Conclusions 

    The trained model enables autonomous decision-making and navigation while ensuring compliance with the COLREGs, thereby providing valuable insights for intelligent decision-making in the field of maritime transportation.

  • 船舶在波浪中的崩溃断裂事故时有发生,其中影响最大的是“威望号”油轮[1]和“舒适号”集装箱船[2]的沉没事故,这些事故对船员和环境造成了巨大威胁,因此船舶结构安全性一直是国内外学者研究的焦点。

    在造波水池中开展模型试验是进行载荷预报并获得结构响应最有效的方法之一。国内外学者已使用分段船舶模型(船模)开展了大量的水弹性试验。文献[3-10]借助分段船模研究波浪参数与结构弹振、颤振之间的影响关系。文献[11]将水池中的船模测试结果与实船数据进行对比,验证了船模试验的可靠性。文献[12]利用变截面龙骨梁模拟目标船的刚度,在规则波条件下开展水池模型试验,结果表明,在船舶设计及安全评估中砰击引起的颤振响应需要予以考虑。此外,整体弹性模型[13]也被运用于船舶水池试验中,其与分段船模相比,优势在于能够更好地模拟船舶的局部模态。

    随着研究的不断深入,模型试验已经不仅局限于弹性范围内,不少研究者还使用等效模型对船型结构进入塑性后的响应进行研究。文献[14-17]设计了刚体段−屈曲铰−刚体段的等效模型。其中,艏艉刚体段用于接受和传递波浪载荷,舯部屈曲铰用于模拟舯部结构的弹塑性特征,试验中测量了舯部屈曲铰的转角时历信号。最后,通过滞回试验转化得到了屈曲铰的时历弯矩曲线,试验结果体现了结构在周期性波浪载荷下强度衰减的过程。但屈曲铰结构过于简化,无法直接测量局部结构的动态应力变化,因此需要更贴合船舶结构的模型进一步开展试验研究。

    为测试舯部大开口型船舶在波浪中的运动和结构响应特性,参考集装箱船结构形式,本文将设计加筋板式舯部大开口船舶模型,测试模型在压载重量和波浪载荷共同作用下的动态响应。通过一系列变波长和变波高的试验工况,获得船模动态运动、剖面变形和结构应力,并对比分析舯部试验段处于弹性和弹塑性两种状态下的响应。

    本文试验的目的是探索舯部大开口型船舶在波浪中的动态响应特性,进行机理性研究,并为后续流固耦合算法验证提供试验数据支撑,因此船模尺度不来源于具体的集装箱船,仅参考了集装箱船特有的舯部货舱大开口以及船舶典型的板架结构形式。为了诱导模型结构在波浪中发生塑性变形,船模尺度和结构强度的设计兼顾了水池造波能力和波浪极限波陡的限制,最终试验所用三维加筋板式船模的主尺度如表1所示。

    表  1  船舶模型主尺度
    Table  1.  Main dimensions for ship model
    参数数值
    船模长度/mm5850
    船模宽度/mm1000
    型 深/mm300
    设计吃水/mm150
    下载: 导出CSV 
    | 显示表格

    经选择和计算后,确定艏部舱段、试验舱段和艉部舱段的长度分别为2.75,0.6和2.5 m。各舱段的结构形式如图1所示(单位:mm),其中船舯舱段是试验研究的重点,因此使用精细板格结构捕捉试验中的动态响应。实际的艏部是一个复杂的三维曲面,鉴于艏部区域载荷和现象的复杂性,试验模型的艏部采用二维弧形曲面予以简化替代,以避免其他复杂因素对试验数据的干扰。

    图  1  船体舱段试验模型
    Figure  1.  Ship test model diagram

    试验中,试验舱段需要在压载和波浪载荷的共同作用下进入塑性状态,因此试验段的结构形式依赖于总外载荷的幅值,艏段和艉段的作用是接受并传递外载荷。针对3个舱段的不同需求,采用合适的材料制作加工,并通过螺栓实现各舱段之间的紧固水密连接。艏艉刚性舱段使用Q235普通钢材加工,骨材为扁钢,舯部舱段使用1060铝材加工,该材料的屈服应力为35 MPa。各舱段的详细结构尺寸如表2所示。

    表  2  船模结构板厚
    Table  2.  Plate thickness of ship model structure
    结构 板厚/mm 结构 板厚/mm
    艏艉底板 3.0 舯部底板 2.5
    艏艉侧板 3.0 舯部侧板 1.4
    艏艉甲板 2.0 舯部甲板 1.0
    艏艉纵骨 2.0 舯部纵骨 1.0
    艏艉横骨 2.0 舯部横骨 1.0
    下载: 导出CSV 
    | 显示表格

    通过在舯部舱段上布置应变片获得试验过程中产生的应变,应变片布置方案如图2所示。对于甲板具有大开口的结构,试验过程中结构响应多集中于甲板附近,因此在试验舱段两侧甲板附近周密布置了测点,并对各应变片通道按顺序编号,方便试验前连接仪器以及后续数据处理。

    图  2  舯部舱段应变片布置方案及通道编号
    Figure  2.  Schemes of strain gauge arrangement for the midship block and channel numbers

    水池试验中使用的测量设备包括了动态倾角仪、应变片和浪高仪,它们分别获得纵摇角度、结构应变和波面高度。这些测量设备的采样频率均为100 Hz。布置完成后的试验模型如图3所示。其中,浪高仪放置于试验模型前2 m处,试验模型艏艉2个舱段甲板上均布置一个倾角仪。试验中倾角仪1获得的转角信息为θ1,倾角仪2获得的转角信息为θ2,那么同一时刻下二者的差值即为该时刻的船舯变形转角。

    图  3  测试设备布置示意图
    Figure  3.  Layout diagram of test equipments

    为了研究不同波浪参数对试验模型结构响应的影响,试验设计了变波高工况和变波长工况。在变波高工况中选定波浪长度等于试验模型长度。试验模型湿表面的有效长度约为5.6 m,因此变波高工况中波长均为5.6 m。

    在波浪高度为0.08 m时,试验模型会产生明显的结构响应,在此基础上改变波浪长度,测量相同波高、不同波长波浪作用下的结构动态响应,即进行变波长工况,以此来验证波长对结构动态响应的影响规律。表3给出的是完整的试验工况。表中工况名称中的字母H表示变波高工况,L表示变波长工况。

    表  3  试验工况信息
    Table  3.  Values of parameters for test conditions
    工况 波长L/m 波高H/m 浪向/(°) 航速/kn
    H-1 5.60 0.04 180 0
    H-2 5.60 0.06 180 0
    H-3 5.60 0.08 180 0
    H-4 5.60 0.10 180 0
    H-5 5.60 0.12 180 0
    H-6 5.60 0.14 180 0
    H-7 5.60 0.18 180 0
    L-1 2.80 0.08 180 0
    L-2 4.48 0.08 180 0
    L-3 6.72 0.08 180 0
    L-4 8.40 0.08 180 0
    下载: 导出CSV 
    | 显示表格

    图4所示为四点弯曲预试验现场图像。试验模型在加工过程中会产生一些初始缺陷,如初始形变和焊接残余应力等,因此需要对加工的模型舱段进行预试验,验证模型的强度是否满足要求,以确保试验舱段在大波高下出现塑性响应。图4(a)为拼接后的试验模型。试验中,在两侧同时施加5块压铁后,模型舯部舱段迅速崩溃变形,板材和骨材发生清晰可见的皱褶和扭曲,破坏后的试验模型如图4(b)所示。

    图  4  四点弯曲预试验
    Figure  4.  Four-point bending pre-test

    将试验舱段的网格模型导入ABAQUS有限元软件中,在左右两个端面中和轴高度处建立主动参考点,通过多点约束(MPC)将主动参考点和端面所有节点进行约束,释放左端面的y方向转角以及右端面的轴向位移、y方向转角,最后在主动参考点上施加转角位移,采用弧长法计算并输出主动参考点上的转角和支反弯矩,得到舯部舱段的转角−弯矩曲线。

    通过模型自重和压铁重量计算获得试验舱段实际的转角−弯矩关系,并与数值仿真结果进行对比,结果如图5所示。最终通过四点弯曲试验获得试验舱段的中垂极限强度约3 040 N·m,数值仿真中崩溃舱段的中垂极限强度约为3 150 N·m,实际模型的极限强度与数值仿真相比较小,这主要是铝材的焊接工艺和残余应变等因素所造成的。虽然实际模型的强度有所减少,但误差在容许范围之内,可以确定试验舱段满足要求。

    图  5  舯部舱段极限强度下的转角−弯矩曲线
    Figure  5.  Rotation-moment curve of midship block under ultimate strength

    选择测量数据明显且具有代表性的部分工况进行展示和讨论。其中,H-3工况(L=5.6 m,H=0.08 m)为结构处于线弹性状态的代表工况,H-7工况(L=5.6 m,H=0.18 m)为结构处于弹塑性状态的代表工况,两个典型工况的纵摇角度时历结果如图6所示。在波高较小(H-3)时,模型纵摇变化较为圆滑,随着波高的增加(H-7),纵摇变化更加剧烈。

    图  6  工况H-3和H-7的纵摇运动时历曲线
    Figure  6.  Time series of pitch motion for case H-3 and H-7

    筛选变波高和变波长系列工况下模型的纵摇幅值,结果如图7所示。图7(a)展示了波高与纵摇幅值的关系。在波高小于0.1 m时,波高与纵摇幅值呈线性对应关系;波高进一步增加时,纵摇角的增幅明显变小,这主要有两个原因:一是结构的塑性变形消耗了部分波浪能量,二是塑性变形对湿表面的纵向弧度产生影响,导致船模承受的载荷变小。图7(b)展示了波长与模型纵摇幅值的关系,可以发现,模型在遭遇与自身湿表面长度相近或略长的波浪时运动最为剧烈。

    图  7  纵摇幅值与波浪参数的关系
    Figure  7.  Relationship between pitch amplitudes and wave parameters

    在同一时刻下,艏艉两个倾角仪的角度差值即为该时刻下试验舱段的转角变形,再使用低通滤波剔除高频扰动,获得工况H-3和H-7的纵向变形结果,如图8图9所示。因试验中压载靠近舯部区域,所以试验舱段具有初始的中垂转角变形。工况H-3的转角变化较为规则,每个周期内转角极值相差不大,说明弹性状态下结构变形随外载荷的变化而变化。在工况H-7的结果中,转角变形出现越来越明显的抖动,同时每个周期内发生中垂变形的时间增加,时历曲线呈现出峰值较短较陡、谷值较长较缓的趋势,归因于该工况下试验舱段的部分结构在中垂时进入了塑性状态,产生的塑性变形延迟了结构的回弹,同时剩余结构仍处于弹性阶段,共同作用的结果是试验舱段的转角和载荷之间呈现一种非线性对应关系,最终转角变形不再规则。

    图  8  工况H-3(L=5.6 m,H=0.08 m)船舯舱段转角变形
    Figure  8.  Rotational deformation of midship compartment in case H-3 (L=5.6 m,H=0.08 m)
    图  9  工况H-7(L=5.6 m,H=0.18 m)船舯舱段转角变形
    Figure  9.  Rotational deformation of midship compartment in case H-7 (L=5.6 m,H=0.18 m)

    为了清晰体现结构的应变状态,提供了工况H-3和H-7甲板同一位置处应变片的测量结果,在实测动态数据基础上叠加静水下压载配重所引起的静应力,得到结构的总应力变化,结果如图10所示。可以发现在工况H-3中因波浪能量较小,轴向拉压应力变化光滑且平缓;在H-7工况中应力测量结果不仅含有与波浪周期一致的低频成分,还具有明显的高频成分,共同作用的结果是增大了中垂下的应力极值。从应力数值来看,在波浪稳定后工况H-7甲板处结构的中垂应力远超过材料的塑性应力35 MPa,结合t=8.7 s时刻的模型试验图(图11),可以确定该波浪工况下试验舱段的确产生了塑性变形。

    图  10  工况H-3和H-7甲板处的轴向应力时历曲线
    Figure  10.  Time series of longitudinal stress at deck in case H-3 and H-7
    图  11  工况H-7中t=8.7s模型试验图
    Figure  11.  Pictures of model test at t=8.7s in case H-7

    使用低通和高通滤波分离出工况H-7的低频和高频应力成分,结果见图12。低频成分是由波浪诱导产生的,是总应力的主要组成部分,每个周期内应力幅值较均匀;高频应力成分的出现归因于船模的弹性振动,其幅值出现规律性增减,具体表现是波浪峰值到达艏部时高频应力幅值变大,波峰接近舯部时高频应力幅值变小,这表明试验模型在发生中垂时激发的高频响应更剧烈,它与波频成分叠加后将增大载荷幅值,对结构强度带来更大威胁。

    图  12  工况H-7甲板处的应力成分
    Figure  12.  Longitudinal stress components at the deck in case H-7

    本文设计并开展了加筋板式船舶模型的水池试验,研究了大开口型船体结构在波浪中的动态运动以及结构响应特性,对系列变波高和变波长工况的试验数据进行对比分析,得到以下结论:

    1) 波浪中船舶承受的载荷可以分为与波浪周期一致的低频成分和弹性振动产生的高频成分。对于中部大开口的船型,高频成分幅值在结构发生中垂时更大,高频与低频载荷的叠加会显著增大甲板附近结构的压应力,对整个船舶结构的安全性造成威胁。因此,在舯部大开口船舶设计过程中尤其需要考虑高频载荷成分对结构中垂变形的影响。

    2) 塑性变形会迟滞舯部大开口型船舶在规则波下的中拱回弹,延长中垂变形时间,这意味着每个周期内甲板区域结构受压的时间占比增大,更易加剧结构崩溃的发展。

    本文仅对大开口型船舶模型结构在迎浪工况下的运动、响应进行测量和讨论,后续会进一步研究模型结构在斜浪中弯扭组合载荷作用下的动态响应。

  • 图  1   船舶领域模型

    Figure  1.   Ship domain model

    图  2   典型会遇局面情况分类

    Figure  2.   The classification of typical encounter situations

    图  3   会遇局面判定流程

    Figure  3.   The determining process for the ships encounter situations

    图  4   改进DDPG算法交互过程及网络结构

    Figure  4.   The interaction process and network structure of the improved DDPG algorithm

    图  5   奖励函数对比曲线

    Figure  5.   Reward function comparison curves

    图  6   两船会遇局面下无人船轨迹、舵角及两船间距离

    Figure  6.   The trajectory, rudder angle and distance under the two-ships encounter situations

    图  7   三船会遇局面下无人船轨迹,舵角及两船间距离

    Figure  7.   The trajectory, rudder angle and distance under there-ships encounter situation

    图  8   改进DDPG算法多次实验轨迹图

    Figure  8.   The experiment trajectories of improved DDPG algorithm

    表  1   无人船相关参数

    Table  1   The principle parameters of the unmanned vehicle

    参数 数值
    船长/m 52.5
    船宽/m 8.6
    吃水深度/m 2.29
    最大指令舵角/(°) 35
    额定速度/kn 14
    下载: 导出CSV

    表  2   改进DDPG算法相关参数及奖励函数参数

    Table  2   The parameters of improved DDPG algorithm and reward functions

    参数数值参数数值
    折扣率γ0.99制导奖励权重λg5
    策略网络学习率0.000 3航向修正奖励权重λyaw−2.5
    价值网络学习率0.000 3COLREGs奖励权重λC6.5
    LSTM 隐藏层数量256雷达线长度r1/n mile3.5
    软更新系数0.01船舶领域半径rd/n mile1.4
    批次大小256角度权重ε0.23
    波风向/(°)31.4有效波高/m0.17
    波浪周期/s6.2平均风速/(m·s−1)0.38
    下载: 导出CSV

    表  3   两船会遇过程初始信息

    Table  3   The initial data of two-ship encounter situation

    会遇局面 无人船 起始位置/n mile 目标位置/n mile 速度/kn
    对遇 OS (−1.0, −1.0) (5.0, 6.0) 14.00
    TS (3.0, −3.0) (−2.0, −2.0) 9.18
    右交叉 OS (1.0, −4.0) (−1.0, 6.0) 14.00
    TS (4.0, 0) (−4.0, 0) 9.60
    左交叉 OS (−4.0, 0) (1.0, 8.0) 14.00
    TS (−6.0, 4.0) (2.0, 4.0) 9.60
    追越 OS (−1.0, −4.5) (−.01, 8.0) 14.00
    TS (−1.0, −2.0) (−1.0, 4.0) 6.00
    大角度右交叉 OS (−2.2, −3.1) (0.8, 2.7) 14.00
    TS (0.5, −3.4) (−0.2, 1.3) 9.90
    被追越 OS (4.5, 3.6) (4.5, 5.9) 14.00
    TS (4.5, 2.6) (4.5, 6.8) 19.00
    下载: 导出CSV

    表  4   三船会遇过程初始信息

    Table  4   The initial information of there-ship encounter situation

    无人船 起始位置/n mile 目标位置/n mile 速度/kn
    OS (0, −1.20) (−0.40, 1.40) 14.00
    TS1 (−1.25, 1.70) (1.35, −0.40) 13.75
    TS2 (1.50, 0.60) (−1.00, −0.50) 11.20
    TS3 (−1.50, −0.80) (1.40, −0.80) 11.90
    下载: 导出CSV

    表  5   两种算法轨迹对比

    Table  5   The trajectories comparison for two algorithms

    算法 实验
    次数
    路径长度
    /n mile
    决策时间/s 最小会遇距离
    /n mile
    改进DDPG算法 1 3.403 875.0 0.760
    2 3.352 862.0 0.900
    3 3.348 861.0 0.650
    4 3.316 853.0 0.730
    5 3.432 882.0 0.840
    传统DDPG算法 3.596 924.6 0.620
    平均值 3.370 866.6 0.776
    下载: 导出CSV
  • [1]

    MOKHTARI A H, DIDANI H R K. An empirical survey on the role of human error in marine incidents[J]. TransNav, the International Journal on Marine Navigation and Safety of Sea Transportation, 2013, 7(3): 363–367. doi: 10.12716/1001.07.03.06

    [2] 关巍, 崔哲闻, 罗文哲. 基于改进PPO算法的船舶自主避碰决策[J]. 大连海事大学学报, 2023, 49(4): 28–36. doi: 10.16411/j.cnki.issn1006-7736.2023.04.004

    GUAN W, CUI Z W, LUO W Z. Ship autonomous collision avoidance decision based on improved PPO algorithm[J]. Journal of Dalian Maritime University, 2023, 49(4): 28–36 (in Chinese). doi: 10.16411/j.cnki.issn1006-7736.2023.04.004

    [3] 詹小飞, 赵红, 王宁, 等. 基于多策略改进麻雀搜索算法的无人艇路径规划[J]. 大连海事大学学报, 2024, 50(1): 1–10. doi: 10.16411/j.cnki.issn1006-7736.2024.01.001

    ZHAN X F, ZHAO H, WANG N, et al. Multi-strategy improved sparrow search algorithm-based path planning of unmanned surface vehicle[J]. Journal of Dalian Maritime University, 2024, 50(1): 1–10 (in Chinese). doi: 10.16411/j.cnki.issn1006-7736.2024.01.001

    [4]

    MU R, YU W H, LI Z X, et al. Motion planning for autonomous vehicles in unanticipated obstacle scenarios at intersections based on artificial potential field[J]. Applied Sciences, 2024, 14(4): 1626. doi: 10.3390/app14041626

    [5] 张一帆, 史国友, 徐家晨. 基于人工势场法引导的Bi-RRT的水面无人艇路径规划算法[J]. 上海海事大学学报, 2022, 43(4): 16–22. doi: 10.13340/j.jsmu.2022.04.003

    ZHANG Y F, SHI G Y, XU J C. Path planning algorithm of unmanned surface vehicles based on Bi-RRT guided by artificial potential field[J]. Journal of Shanghai Maritime University, 2022, 43(4): 16–22 (in Chinese). doi: 10.13340/j.jsmu.2022.04.003

    [6] 宁君, 黄寓旸, 尤恽, 等. 基于混合粒子群算法的船舶避碰决策[J]. 大连海事大学学报, 2023, 49(1): 34–43. doi: 10.16411/j.cnki.issn1006-7736.2023.01.004

    NING J, HUANG Y Y, YOU Y, et al. Ship collision avoidance decision based on hybrid particle swarm algorithm[J]. Journal of Dalian Maritime University, 2023, 49(1): 34–43 (in Chinese). doi: 10.16411/j.cnki.issn1006-7736.2023.01.004

    [7]

    GUAN W, WANG K. Autonomous collision avoidance of unmanned surface vehicles based on improved a-star and dynamic window approach algorithms[J]. IEEE Intelligent Transportation Systems Magazine, 2013, 15(3): 36–50. doi: 10.1109/MITS.2022.3229109

    [8]

    SILVER D, HUBERT T, SCHRITTWIESER J, et al. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play[J]. Science, 2018, 362(6419): 1140–1144. doi: 10.1126/science.aar6404

    [9]

    GUAN W, ZHAO M Y, ZHANG C B, et al. Generalized behavior decision-making model for ship collision avoidance via reinforcement learning method[J]. Journal of Marine Science and Engineering, 2023, 11(2): 273. doi: 10.3390/jmse11020273

    [10]

    SHEN H Q, HASHIMOTO H, MATSUDA A, et al. Automatic collision avoidance of multiple ships based on deep Q-learning[J]. Applied Ocean Research, 2019, 86: 268–288. doi: 10.1016/j.apor.2019.02.020

    [11]

    FAN Y S, SUN Z, WANG G F. A novel reinforcement learning collision avoidance algorithm for USVs based on maneuvering characteristics and COLREGs[J]. Sensors, 2022, 22(6): 2099. doi: 10.3390/s22062099

    [12]

    CHU Z Z, WANG F L, LEI T J, et al. Path planning based on deep reinforcement learning for autonomous underwater vehicles under ocean current disturbance[J]. IEEE Transactions on Intelligent Vehicles, 2023, 8(1): 108–120. doi: 10.1109/TIV.2022.3153352

    [13] 宋利飞, 许传毅, 郝乐, 等. 基于改进DDPG算法的无人艇自适应控制[J]. 中国舰船研究, 2024, 19(1): 137–144. doi: 10.19693/j.issn.1673-3185.03122

    SONG L F, XU C Y, HAO L, et al. Adaptive control of unmanned surface vehicle based on improved DDPG algorithm[J]. Chinese Journal of Ship Research, 2024, 19(1): 137–144 (in Chinese). doi: 10.19693/j.issn.1673-3185.03122

    [14] 胡正阳, 王勇. 基于深度确定性策略梯度的船舶自主航行避碰方法[J]. 指挥控制与仿真, 2024(5): 37–44. doi: 10.3969/j.issn.1673-3819.2024.05.006

    HU Z Y, WANG Y. A deep deterministic policy gradient method for collision avoidance of autonomous ship[J]. Command Control & Simulation, 2024(5): 37–44 (in Chinese). doi: 10.3969/j.issn.1673-3819.2024.05.006

    [15]

    WANG H J, GAO W, WANG Z, et al. Research on obstacle avoidance planning for UUV based on A3C algorithm[J]. Journal of Marine Science and Engineering, 2024, 12(1): 63. doi: 10.3390/jmse12010063

    [16]

    GUAN W, PENG H W, ZHANG X K, et al. Ship steering adaptive CGS control based on EKF identification method[J]. Journal of Marine Science and Engineering, 2022, 10(2): 294. doi: 10.3390/jmse10020294

    [17]

    PERERA L P, OLIVEIRA P, GUEDES SOARES C. System identification of nonlinear vessel steering[J]. Journal of Offshore Mechanics and Arctic Engineering, 2015, 137(3): 031302. doi: 10.1115/1.4029826

    [18]

    DAVIS P V, DOVE M J, STOCKEL C T. A computer simulation of marine traffic using domains and arenas[J]. Journal of Navigation, 1980, 33(2): 215–222. doi: 10.1017/S0373463300035220

    [19]

    ŚMIERZCHALSKI R. Ships' domains as collision risk at sea in the evolutionary method of trajectory planning[M]//SAEED K, PEJAŚ J. Information Processing and Security Systems. Boston: Springer, 2005: 411−422.

    [20]

    CUI Z W, GUAN W, LUO W Z, et al. Intelligent navigation method for multiple marine autonomous surface ships based on improved PPO algorithm[J]. Ocean Engineering, 2023, 287: 115783. doi: 10.1016/j.oceaneng.2023.115783

    [21]

    CHRISTIANO P F, LEIKE J, BROWN T B, et al. Deep reinforcement learning from human preferences[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc. , 2017: 4299−4307.

    [22]

    ZHENG Z Y, OH J, SINGH S. On learning intrinsic rewards for policy gradient methods[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal: Curran Associates Inc., 2018: 4644−4654.

    [23]

    ZHENG Z Y, OH J, HESSEL M, et al. What can learned intrinsic rewards capture?[C]//Proceedings of the 37th International Conference on Machine Learning. PMLR, 2019: 1060.

图(8)  /  表(5)
计量
  • 文章访问数:  217
  • HTML全文浏览量:  33
  • PDF下载量:  78
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-05-13
  • 修回日期:  2024-08-10
  • 网络出版日期:  2024-08-12
  • 发布日期:  2025-01-14
  • 刊出日期:  2025-02-27

目录

/

返回文章
返回