대규모 언어 모델 크기 및 동향

1

GPT-2 시리즈는 2019년에 137M~1.61B 파라미터로 10B 토큰 규모 데이터로 학습되었다.

2

GPT-3는 175B 파라미터, 약 400B 토큰으로 학습되었으며 수천 대의 A100 GPU가 수개월간 사용되었다.

3

GPT-3.5와 GPT-4는 아키텍처나 학습 데이터에 관한 공식 정보가 공개되지 않았다.

4

LLaMA 시리즈는 7B~65B 모델을 제공했으며, LLaMA-3.1은 405B 파라미터, 총 3.67T 토큰으로 사전 학습되었다.

5

LLaMA-4는 2T 파라미터 MoE 모델로 개발되었으나 미출시 상태이며, 벤치마크 왜곡 논란이 발생했다.

6

MoE(혼합 전문가) 아키텍처 기반 모델(DeepSeek V3, Mixtral, DBRX 등)이 등장하며 접근성과 성능 경쟁이 가속화되었다.

7

MoE 모델과 Dense 모델 간 비교 기준이 명확하지 않으며, 현재 벤치마크는 한계를 지닌다.

8

향후 RWKV, byte-latent, bitnet 등 새로운 아키텍처와 합성 데이터 활용 기법이 부상할 가능성이 있다.