深度强化学习论文

自动驾驶关键技术研究
论文摘要随着经济的发展,全球汽车保有量与行驶里程数不断增加,但同时交通事故也不断频发,自动驾驶汽车与人驾驶汽车相比,可极大减少因人为主观因素而造成的交通事故。而汽车若要实现真正...
设计自动化中的机器智能新高度——以高层住宅布局的日照优化为例
论文摘要面对第四次工业革命浪潮,建筑设计行业的设计自动化领域迎来了新的发展机遇。相比过往的各种简单自动化与其他机器智能算法,最新的深度强化学习理论为那些具有可计算目标、评价体系...
具有精英策略的深度强化学习无人机集群通信网络拓扑设计
论文摘要针对集群无人机背景下定向天线网络拓扑设计的NP-hard特点,基于网络高抗毁、低功耗、高稳定性等要求,以抗毁性（3-连通）、链路量、链路功耗和稳定性为奖励,提出了一种具...
基于学习的空间机器人在轨服务操作技术
论文摘要发展具备全自主操作能力的在轨服务航天器是未来航天领域的重要方向,而赋予航天器自主学习能力是实现自主化操作的重要手段.本文首先对近年来国外在轨服务操作的重要研究计划和关键...
基于深度强化学习的微电网复合储能协调控制方法
论文摘要在微电网中,由于负荷和电源功率波动较大、各种不确定因素复杂,通常需要增加储能系统以保证供需实时平衡、并提高可再生能源的利用率。该文构建了一个孤岛运行的包含光伏发电、储氢...
基于强化指针网络的TSP问题的求解与优化
论文摘要旅行商问题（TravelingSalesmanProblem,TSP）是一个典型的NP难问题,它具有重要的理论研究意义和广泛的实际应用价值。首先介绍了TSP问题和深度强...
基于深度强化学习的智能博弈对抗关键技术
论文摘要阐述了军事智能博弈对抗的发展需求和概念内涵,分析了基于强化学习的博弈对抗特点,并针对智能博弈对抗过程存在的问题,提出了基于深度逆向强化学习、多智能体强化学习、分层强化学...
基于DRL的MEC任务卸载与资源调度算法
论文摘要为提高多接入边缘计算(MEC)任务卸载效率,提出了一个任务卸载和异构资源调度的联合优化模型.考虑异构的通信资源和计算资源,联合最小化用户的设备能耗、任务执行时延和付费,...
基于AM-RPPO的双足机器人适应性行走控制算法
论文摘要提出了一种带有注意力机制和循环近端策略优化（AM-RPPO）的深度强化学习（DRL）方法并将其应用于双足机器人的适应性行走控制.首先,对未知环境下双足机器人关节空间行走...
基于值函数和策略梯度的深度强化学习综述
论文摘要作为人工智能领域的热门研究问题,深度强化学习自提出以来,就受到人们越来越多的关注.目前,深度强化学习能够解决很多以前难以解决的问题,比如直接从原始像素中学习如何玩视频游...