어텐션 메커니즘은 중요한 문맥 토큰에 집중해 언어 모델의 예측 정확도를 높인다.
MQA와 GQA는 키·값 벡터를 공유하거나 그룹화해 메모리 사용량과 계산 비용을 크게 줄인다.
MHLA는 키·값 벡터를 잠재 공간으로 압축해 저장 용량을 줄이고 추론 속도를 대폭 개선한다.
Get notified when new stories are published for "해커뉴스 🇰🇷 한국어"
No Sign-In needed. One-Click Subscribe.