Apple разработала многотокенную схему предсказания (MTP) для генерации сразу нескольких токенов.
Модель вставляет специальные маски и одновременно предсказывает несколько слов с последующей проверкой.
При ошибочном предположении система возвращается к обычному однотокенному режиму для точности.
На открытой модели Tulu3-8B достигнуто ускорение вывода в 2–3× для общего текста и до 5× для кода и математики.
Ускорение достигается без ухудшения качества генерации благодаря методу gated LoRA adaptation.
Get notified when new stories are published for "Hacker News 🇷🇺 Русский"