Q-learning saat ini belum bisa diskalakan ke masalah dengan cakrawala panjang.
Metode RL off-policy, seperti Q-learning, mengalami akumulasi bias prediksi yang menghambat skalabilitasnya.
Meskipun Q-learning bisa menggunakan data apapun untuk efisiensi sampel, metode on-policy lebih berhasil dalam aplikasi nyata yang kompleks.
Penyederhanaan cakrawala, seperti melalui pengembalian n-step atau RL hirarkis, dapat meningkatkan skalabilitas Q-learning.
Ada panggilan untuk penelitian lebih lanjut pada algoritma RL off-policy yang dapat diskalakan.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"