Simon Willisonは最近のLLM(大規模言語モデル)の進展について紹介しました。
過去6ヶ月間で30以上の重要なモデルが登場し、その評価が問題になっています。
独自のベンチマーク方法として、ペリカンが自転車に乗るイメージを生成させるユニークなテストを行いました。
DecemberのMetaのLlama 3.3 70Bや、DeepSeekのR1など、特筆すべきモデルについても取り上げました。
Pelicanのイラストを生成することで、異なるモデルを比較し、モデルの能力を評価しました。
最近のAIのアプローチでは、ツールと推論を組み合わせることが強力な手法とされています。
Get notified when new stories are published for "🇯🇵 Hacker News 日本語"