Apple ускорила LLM в пять раз

1

Apple разработала многотокенную схему предсказания (MTP) для генерации сразу нескольких токенов.

2

Модель вставляет специальные маски и одновременно предсказывает несколько слов с последующей проверкой.

3

При ошибочном предположении система возвращается к обычному однотокенному режиму для точности.

4

На открытой модели Tulu3-8B достигнуто ускорение вывода в 2–3× для общего текста и до 5× для кода и математики.

5

Ускорение достигается без ухудшения качества генерации благодаря методу gated LoRA adaptation.