强化学习
有个核心优势,叫"动态决策能力",意思是通过智能体与环境的持续交互,能自主探索高价值区域。而
引入多目标优化
之后,系统能同时权衡路径长度、时间成本、资源消耗等多个维度。
因此,这种"双轮驱动"的研究范式在电力调度、物流规划等工业场景中潜力巨大,而在学术圈,因其突破了传统算法的性能瓶颈,又延展出了新的理论框架,也
堪称论文创新一大热点。
未来,此方向的创新可从
算法改进(如动态权重自适应)、跨领域融合及新兴技术结合(如量子强化学习)
等方向突破,如果大家感兴趣,可以看我整理的
11篇
强化学习+多目标优化相关的前沿paper
作参考,开源代码已附。
扫码添加小享,
回复“
强化多目标
”
免费获取
全部论文+开源代码
Constrained Multi-objective Optimization with Deep Reinforcement Learning Assisted Operator Selection(一区TOP)
方法:
论文提出了一种基于深度强化学习的在线算子选择框架,以解决约束多目标优化问题(CMOPs),通过将种群状态视为状态、候选算子视为动作,并以种群状态的改善作为奖励,训练深度Q网络(DQN)以自适应选择最优算子,从而显著提升了多种CMOEAs的性能。
创新点:
-
提出了一种新的深度强化学习(DRL)模型,用于约束多目标优化问题(CMOPs)的算子选择。
-
提出的模型可以包含任意数量的算子,并且可以轻松嵌入到任何CMOEA中(四种比较流行的):CCMO、PPS、MOEA/D-DAE和EMCMO,并在多个基准测试套件中展示了其显著的性能提升。
MORL4PDEs: Data-driven discovery of PDEs based on Multi-objective Optimization and Reinforcement Learning
方法:
本文提出了一种结合强化学习和多目标优化的符号回归方法,用于无需预先建立候选函数库的数据驱动偏微分方程(PDE)发现,以解决传统方法在处理复杂形式和高阶导数PDE时的局限性。
创新点:
-
提出了一种新的符号回归方法,通过结合多目标优化和强化学习,实现了从数据中发现简约的偏微分方程(PDE)。
-
研究中将神经网络引导的搜索与遗传算法相结合,针对PDE发现问题进行了专门设计。
-
通过引入多目标优化遗传算法,确保了发现方程的准确性和简洁性。
扫码添加小享,
回复“
强化多目标
”
免费获取
全部论文+开源代码
Reducing Idleness in Financial Cloud Services via Multi-objective Evolutionary Reinforcement Learning based Load Balancer
方法:
本文在金融服务中提出了一种基于多目标进化强化学习的负载均衡器(MERL-LB),通过使用用户历史连接时长信息来自动学习优化的路由策略,以同时最小化负载不平衡和服务器闲置时间,解决了传统负载均衡算法忽视用户时长信息的问题。
创新点:
-
提出了一种基于参数共享的神经网络架构,用于路由任务,以适应不同数量的服务器。
-
利用NSGA-II构建了演化多目标训练框架,以优化策略的权重。
-
首次将金融云服务中的空闲时间减少问题建模为在线负载均衡问题,提出了一种双目标强化学习问题。
Personalized robotic control via constrained multi-objective reinforcement learning