空想家算法
第一步,是先把机器人放在真实环境里,收集数据。
第二步,把这些数据传输到Replay Buffer。这一步骤就是利用历史数据进行训练、“总结经验”,高效利用收集到的样本。
第三步,World Model会对已有经验进行学习,然后“脑补”出策略。
第四步,再用演员评论家(Actor Critic)算法来提升策略梯度法的性能。
然后循环往复,将已经提炼出的办法再使用到机器人身上,最后达到一种“自己摸索学习”的感觉。
参考
- https://www.cnbeta.com/articles/tech/1287023.htm
- https://danijar.com/project/daydreamer/
- https://worldmodels.github.io/