Skip to main content

空想家算法

第一步,是先把机器人放在真实环境里,收集数据。

第二步,把这些数据传输到Replay Buffer。这一步骤就是利用历史数据进行训练、“总结经验”,高效利用收集到的样本。

第三步,World Model会对已有经验进行学习,然后“脑补”出策略。

第四步,再用演员评论家(Actor Critic)算法来提升策略梯度法的性能。

然后循环往复,将已经提炼出的办法再使用到机器人身上,最后达到一种“自己摸索学习”的感觉。

参考