Wan2.2 использует архитектуру Mixture-of-Experts для увеличения числа параметров без роста вычислительных затрат.
Модель обучена на расширенных данных с детальными метками для кинематографической эстетики.
Увеличенный объём обучающего набора (+65,6% изображений и +83,2% видео) улучшает генерацию сложных движений и общее качество.
Гибридный VAE 5B обеспечивает высокую степень сжатия (16×16×4 и до 32×32×4) и позволяет генерировать 720P@24fps на стандартных видеокартах.
Поддерживаются задачи text-to-video, image-to-video и text-image-to-video в одном фреймворке.
Открытый исходный код и модели под лицензией Apache-2.0 доступны на GitHub и Hugging Face.
Модель демонстрирует конкурентоспособную производительность по сравнению с закрытыми коммерческими решениями.
Get notified when new stories are published for "Hacker News 🇷🇺 Русский"