Apple mengembangkan kerangka prediksi multi-token (MTP) untuk menghasilkan beberapa token sekaligus.
Model menggunakan token <MASK> sebagai penanda untuk mengisi beberapa kata berikutnya dalam satu langkah.
Hasil pengujian dengan Tulu3-8B menunjukkan percepatan 2–3× untuk tugas umum dan hingga 5× untuk domain terprediksi tanpa mengorbankan kualitas.
Teknik gated LoRA adaptation memastikan tidak terjadi penurunan kualitas keluaran.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"