Представлен Qwen VLo — объединённая мультимодальная модель для понимания и генерации изображений.
Модель последовательно создаёт изображение слева направо и сверху вниз с постоянной доработкой деталей.
Улучшена семантическая точность: сохранение структуры и стиля объектов при изменении цвета и других параметров.
Поддерживается редактирование по свободным инструкциям: смена художественного стиля, реконструкция сцены, добавление элементов, сегментация и детекция.
Обеспечена многоязычная поддержка (китайский, английский и др.) для удобного взаимодействия.
Поддерживается работа с несколькими входными изображениями и генерация по текстовым запросам, включая плакаты.
Реализована генерация изображений с динамическими разрешениями и нестандартными соотношениями сторон.
В превью-версии возможны неточности, рассогласованность с инструкциями и нестабильность распознавания.
Get notified when new stories are published for "🇷🇺 Hacker News Русский"