TREAD: Маршрутизация токенов для эффективного обучения

1

Предложен метод маршрутизации токенов из ранних слоев в глубокие для повышения эффективности обучения моделей диффузии.

2

Подход не требует изменений архитектуры и дополнительных параметров, применим к трансформерам и моделям на основе пространственных состояний.

3

TREAD сокращает вычислительные затраты и ускоряет сходимость обучения: 14× быстрее по сравнению с DiT при 400 K итераций и 37× по сравнению с лучшим результатом DiT на 7 M итераций.

4

Метод обеспечивает конкурентный уровень качества генерации на ImageNet-256: FID 2.09 в управляемом режиме и 3.93 в неуправляемом.

5

Преимущества TREAD суммируются в одновременном улучшении производительности и снижении затрат на обучение.

TREAD: Маршрутизация токенов для эффективного обучения

Subscribe to Similar Stories

TREAD: Маршрутизация токенов для эффективного обучения

Subscribe to Similar Stories