Q学习目前无法有效扩展到长时程问题,需要算法突破。
现有成功的强化学习多基于on-policy算法,Q学习存在扩展性问题。
Q学习的偏差问题会随时间积累,限制其扩展性。
减少时程的方法可以改善Q学习的扩展性,但只是一种暂时解决方案。
迫切需要可扩展的off-policy强化学习算法来解决复杂、长时程的现实问题。
Get notified when new stories are published for "🇨🇳 Hacker News 简体中文"
No Sign-In needed. One-Click Subscribe.