최근 6개월간 LLM(대규모 언어 모델) 분야에서는 30개 이상의 주목할 만한 모델이 발표되었다.
평가 기준을 확보하기 어려워 자체적인 평가 방법을 사용하고자 하는 시도가 많아지고 있다.
대표적인 모델로는 Meta의 Llama 3.3 70B, DeepSeek의 최신 모델, OpenAI의 GPT 4.1 등이 있다.
OpenAI의 GPT 4.5는 성능 면에서 기대에 부응하지 못하여 빠르게 폐기되었다.
모델의 성능 평가를 위해 SVG 코드를 생성해 펠리컨이 자전거를 타고 있는 상상을 그려내도록 요구하여 경쟁을 벌였다.
캐시적인 요소가 있는 툴과 추론 능력을 결합함으로써 LLMs의 연구 및 개발 써드파티 사용이 증가하고 있다.
Get notified when new stories are published for "🇰🇷 Hacker News 한국어"