基于粒子滤波的直接策略搜索强化学习算法研究

董春利, 王莉

Dong Chunli, Wang Li

摘要： 直接策略搜索强化学习算法的一个主要问题是只执行局部搜索,趋向于收敛到一些局部次优解,因此不能保证收敛到全局最优.文章提出的是一种直接政策搜索强化学习的全局搜索算法,不会陷入局部最优.实验结果表明了RLPF在策略空间探索的有效性,能够在策略空间直接进行全局搜索.

关键词: 强化学习, 粒子滤波, 局部搜索, 全局搜索

董春利, 王莉. 基于粒子滤波的直接策略搜索强化学习算法研究[J]. 江苏科技信息, 2017, 34(7): 53-54.

《江苏科技信息》杂志社
Jiangsu Science & Technology Information Magazine Agency