OpenAI впервые применяет MXFP4 в gpt-oss для уменьшения размера весов и ускорения работы моделей.
MXFP4 – это 4-битный микромасштабируемый формат с общим фактором масштабирования для каждого блока из 32 значений.
Формат позволяет снизить требования к памяти и вычислениям примерно на 75%, а скорость генерации токенов – увеличить в 4 раза.
Квантование примерно 90% весов gpt-oss обеспечивает работу 120-миллиардной модели на GPU с 80 ГБ и 20-миллиардной модели на GPU с 16 ГБ.
Поскольку OpenAI выпускает gpt-oss только в MXFP4, компания задаёт тон и стимулирует широкое принятие этого стандарта.
Get notified when new stories are published for "Hacker News 🇷🇺 Русский"