Baseten berhasil meningkatkan GPT OSS 120B mencapai 500+ token per detik pada GPU NVIDIA di hari peluncuran.
Langkah pertama adalah menjalankan inferensi awal menggunakan TensorRT-LLM pada arsitektur Hopper dan Blackwell.
Langkah kedua meliputi memperbaiki bug kompatibilitas yang muncul pada framework inferensi seperti Harmony.
Langkah ketiga yaitu mengonfigurasi model dengan Tensor Parallelism untuk latensi terbaik dan menggunakan TensorRT-LLM MoE Backend.
Baseten dapat menambah 100 token per detik lebih dalam waktu singkat berkat pipeline inferensi yang fleksibel.
Rencana selanjutnya mencakup integrasi speculative decoding dengan Eagle untuk mempercepat inferensi.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"