Q-learning, en off-policy reinforcement learning algoritme, skalerer ikke effektivt til komplekse, langhorisont problemer.
De største succeser inden for RL er opnået med on-policy RL-algoritmer, der kræver nye data og ikke kan genbruge tidligere indsamlet data.
Bias i Q-learnings forudsigelsesmål akkumuleres, hvilket er en unik begrænsning, der hindrer skalerbarhed.
Eksisterende offline RL-metoder har svært ved at skalere i komplekse opgaver, selv med betydeligt mere data.
Horisontreduktionsteknikker har forbedret skalerbarheden, men løser ikke fundamentalt problemet med bias og horisont.
Der er behov for nye RL-algoritmer, der kan handle med lange horisonter, eller måske forbedres eksisterende teknikker ikke tilstrækkeligt testet endnu.
Get notified when new stories are published for "🇩🇰 Hacker News Dansk"