Skip to main content

空想家算法

第一步，是先把机器人放在真实环境里，收集数据。

第二步，把这些数据传输到Replay Buffer。这一步骤就是利用历史数据进行训练、“总结经验”，高效利用收集到的样本。

第三步，World Model会对已有经验进行学习，然后“脑补”出策略。

第四步，再用演员评论家（Actor Critic）算法来提升策略梯度法的性能。

然后循环往复，将已经提炼出的办法再使用到机器人身上，最后达到一种“自己摸索学习”的感觉。

参考

https://www.cnbeta.com/articles/tech/1287023.htm
https：//danijar.com/project/daydreamer/
https：//worldmodels.github.io/

参考