DeepSeek-V3.1 Model Hibrida Berpikir dan Non-Berpikir

1

DeepSeek-V3.1 mendukung mode berpikir dan non-berpikir dengan pengaturan template chat yang berbeda.

2

Model ditingkatkan dalam pemanggilan alat dan tugas agen melalui optimisasi pasca-pelatihan.

3

Efisiensi berpikir meningkat dengan kecepatan respons lebih tinggi sambil mempertahankan kualitas jawaban.

4

Ekstensi konteks panjang diperluas: fase 32K menjadi 630 miliar token dan fase 128K menjadi 209 miliar token.

5

Arsitektur memiliki 671 miliar parameter total, 37 miliar parameter aktif, dan konteks hingga 128K token.

6

Tersedia format ToolCall, Code-Agent, dan Search-Agent untuk penggunaan alat dan kerangka agen yang beragam.

7

Kinerja unggul di berbagai benchmark seperti MMLU, GPQA, LiveCodeBench, dan AIME dibandingkan versi sebelumnya.

8

Model disuplai dalam format data UE8M0 FP8 dan dilisensikan di bawah MIT, tersedia di Hugging Face dan ModelScope.