DeepSeek-V3.1 mendukung mode berpikir dan non-berpikir dengan pengaturan template chat yang berbeda.
Model ditingkatkan dalam pemanggilan alat dan tugas agen melalui optimisasi pasca-pelatihan.
Efisiensi berpikir meningkat dengan kecepatan respons lebih tinggi sambil mempertahankan kualitas jawaban.
Ekstensi konteks panjang diperluas: fase 32K menjadi 630 miliar token dan fase 128K menjadi 209 miliar token.
Arsitektur memiliki 671 miliar parameter total, 37 miliar parameter aktif, dan konteks hingga 128K token.
Tersedia format ToolCall, Code-Agent, dan Search-Agent untuk penggunaan alat dan kerangka agen yang beragam.
Kinerja unggul di berbagai benchmark seperti MMLU, GPQA, LiveCodeBench, dan AIME dibandingkan versi sebelumnya.
Model disuplai dalam format data UE8M0 FP8 dan dilisensikan di bawah MIT, tersedia di Hugging Face dan ModelScope.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"