DeepSeek-V3.1 supporta sia la modalità di pensiero che quella non-pensiero grazie a template di chat flessibili.
Le capacità di utilizzo degli strumenti e delle operazioni di agente sono state notevolmente potenziate tramite ottimizzazione post-training.
Esteso il contesto di training a 32K e 128K token con 630B e 209B token aggiuntivi nelle rispettive fasi.
Nei benchmark come MMLU, LiveCodeBench e AIME il modello supera le versioni precedenti sia in qualità che in velocità.
Disponibili template specifici per tool-call, agenti di codice e agenti di ricerca che facilitano l’integrazione.
Compatibile con formati UE8M0 FP8 e facilmente utilizzabile via HuggingFace o ModelScope.
Get notified when new stories are published for "Hacker News 🇮🇹 Italiano"