Apple Tingkatkan Kecepatan LLM Hingga 5x

Apple mengembangkan kerangka prediksi multi-token (MTP) untuk menghasilkan beberapa token sekaligus.

Model menggunakan token <MASK> sebagai penanda untuk mengisi beberapa kata berikutnya dalam satu langkah.

Hasil pengujian dengan Tulu3-8B menunjukkan percepatan 2–3× untuk tugas umum dan hingga 5× untuk domain terprediksi tanpa mengorbankan kualitas.

Teknik gated LoRA adaptation memastikan tidak terjadi penurunan kualitas keluaran.

Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"

No Sign-In needed. One-Click Subscribe.

•

Apple mengembangkan kerangka prediksi multi-token (MTP) untuk menghasilkan beberapa token sekaligus.

Model menggunakan token <MASK> sebagai penanda untuk mengisi beberapa kata berikutnya dalam satu langkah.

Hasil pengujian dengan Tulu3-8B menunjukkan percepatan 2–3× untuk tugas umum dan hingga 5× untuk domain terprediksi tanpa mengorbankan kualitas.

Teknik gated LoRA adaptation memastikan tidak terjadi penurunan kualitas keluaran.

Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"

No Sign-In needed. One-Click Subscribe.