OpenAI gpt-oss использует MXFP4

1

OpenAI впервые применяет MXFP4 в gpt-oss для уменьшения размера весов и ускорения работы моделей.

2

MXFP4 – это 4-битный микромасштабируемый формат с общим фактором масштабирования для каждого блока из 32 значений.

3

Формат позволяет снизить требования к памяти и вычислениям примерно на 75%, а скорость генерации токенов – увеличить в 4 раза.

4

Квантование примерно 90% весов gpt-oss обеспечивает работу 120-миллиардной модели на GPU с 80 ГБ и 20-миллиардной модели на GPU с 16 ГБ.

5

Поскольку OpenAI выпускает gpt-oss только в MXFP4, компания задаёт тон и стимулирует широкое принятие этого стандарта.