GPT-2からGPT-3.5/4までパラメータ数とトレーニングデータ量が大幅に増加した。
LLaMAシリーズは7Bから65B、さらに405Bへと拡大し、兆級トークンを用いて事前学習された。
MoE(Mixture of Experts)アーキテクチャモデル(Mixtral、DeepSeek-V3など)が大規模化と計算効率向上を推進している。
中国をはじめとする企業が多言語・多モーダル対応の大規模MoEモデルを次々と公開している。
MoEモデルはDenseモデルとの性能比較が難しく、既存の自動ベンチマークでは真の能力を評価しきれない。
将来的には新アーキテクチャ(RWKV、byte-latentなど)や合成データ生成技術の進化が注目される。
Get notified when new stories are published for "🇯🇵 Hacker News 日本語"