공정한 비교 위해 각 최적화기별 맞춤 하이퍼파라미터 튜닝이 필요하다.
대규모 모델에서 최적화기 속도 향상은 종전 주장보다 낮아져 1.2B 모델서 1.1배에 불과하다.
중간 체크포인트 비교는 학습 후반 속도 저하로 순위가 뒤바뀔 수 있어 오해를 일으킨다.
Get notified when new stories are published for "해커뉴스 🇰🇷 한국어"
No Sign-In needed. One-Click Subscribe.