Q-læring er endnu ikke skalerbar

Q-learning, en off-policy reinforcement learning algoritme, skalerer ikke effektivt til komplekse, langhorisont problemer.

De største succeser inden for RL er opnået med on-policy RL-algoritmer, der kræver nye data og ikke kan genbruge tidligere indsamlet data.

Bias i Q-learnings forudsigelsesmål akkumuleres, hvilket er en unik begrænsning, der hindrer skalerbarhed.

Eksisterende offline RL-metoder har svært ved at skalere i komplekse opgaver, selv med betydeligt mere data.

Horisontreduktionsteknikker har forbedret skalerbarheden, men løser ikke fundamentalt problemet med bias og horisont.

Der er behov for nye RL-algoritmer, der kan handle med lange horisonter, eller måske forbedres eksisterende teknikker ikke tilstrækkeligt testet endnu.

Subscribe to Similar Stories

Get notified when new stories are published for "🇩🇰 Hacker News Dansk"

No Sign-In needed. One-Click Subscribe.

•

🇩🇰 Hacker News Dansk•June 19, 2025 at 05:14 PM