От GPT-2 к GPT-OSS: Сравнение Архитектур

OpenAI впервые после GPT-2 выпустила полностью открытые весовые модели gpt-oss-20b и gpt-oss-120b.

Модели используют оптимизации MXFP4, Grouped Query Attention, скользящее окно внимания и Mixture-of-Experts для повышения эффективности.

Внутри архитектуры убран Dropout, заменены абсолютные позиционные эмбединги на RoPE, GELU на Swish/SwiGLU, а LayerNorm на RMSNorm.

gpt-oss-20b вмещается в один потребительский GPU с 16 ГБ памяти, а gpt-oss-120b — в один H100 с 80 ГБ благодаря квантованию MXFP4.

Модели имеют Apache 2.0 лицензию, предоставляют весовые файлы и код инференса, но не открывают код обучения и датасеты.

Пользователи могут задавать уровень «усилий рассуждения» (низкий, средний, высокий) для регулировки длины и точности ответов.

В сравнении с Qwen3 gpt-oss шире (больше размерность) и мельче (меньше слоёв), что повышает пропускную способность на выходе.

gpt-oss демонстрирует сопоставимые с проприетарными GPT-5 и Qwen3 результаты в бенчмарках, но подвержен галлюцинациям и требует внешние инструменты для точных знаний.

Subscribe to Similar Stories

Get notified when new stories are published for "Hacker News 🇷🇺 Русский"

•

Hacker News 🇷🇺 Русский•August 10, 2025 at 04:00 PM