Generasi Multimodal dengan Qwen VLo

1

Qwen VLo menggabungkan kemampuan pemahaman dan generasi gambar secara multimodal.

2

Model menghasilkan gambar berkualitas tinggi dengan proses progresif dari kiri ke kanan dan atas ke bawah.

3

Menyempurnakan konsistensi semantik untuk mengubah atau mengedit konten gambar sesuai instruksi pengguna.

4

Mendukung instruksi terbuka seperti perubahan gaya, rekonstruksi adegan, dan perbaikan detail.

5

Memahami perintah dalam berbagai bahasa termasuk Mandarin dan Inggris.

6

Mampu melakukan tugas persepsi seperti deteksi, segmentasi, dan deteksi tepi melalui instruksi sederhana.

7

Mendukung masukan gambar ganda dan teks-ke-gambar dengan rasio aspek dinamis.

8

Menggunakan pelatihan resolusi dinamis untuk menyesuaikan output gambar tanpa batasan format.

9

Masih dalam tahap pratinjau dengan beberapa keterbatasan seperti ketidakakuratan dan ketidakstabilan.