DeepSeek-V3.1 Modello Ibrido Potenziato

DeepSeek-V3.1 supporta sia la modalità di pensiero che quella non-pensiero grazie a template di chat flessibili.

Le capacità di utilizzo degli strumenti e delle operazioni di agente sono state notevolmente potenziate tramite ottimizzazione post-training.

Esteso il contesto di training a 32K e 128K token con 630B e 209B token aggiuntivi nelle rispettive fasi.

Nei benchmark come MMLU, LiveCodeBench e AIME il modello supera le versioni precedenti sia in qualità che in velocità.

Disponibili template specifici per tool-call, agenti di codice e agenti di ricerca che facilitano l’integrazione.

Compatibile con formati UE8M0 FP8 e facilmente utilizzabile via HuggingFace o ModelScope.

Get notified when new stories are published for "Hacker News 🇮🇹 Italiano"

No Sign-In needed. One-Click Subscribe.

•

Hacker News 🇮🇹 Italiano•August 21, 2025 at 07:09 AM

DeepSeek-V3.1 supporta sia la modalità di pensiero che quella non-pensiero grazie a template di chat flessibili.

Le capacità di utilizzo degli strumenti e delle operazioni di agente sono state notevolmente potenziate tramite ottimizzazione post-training.

Esteso il contesto di training a 32K e 128K token con 630B e 209B token aggiuntivi nelle rispettive fasi.

Nei benchmark come MMLU, LiveCodeBench e AIME il modello supera le versioni precedenti sia in qualità che in velocità.

Disponibili template specifici per tool-call, agenti di codice e agenti di ricerca che facilitano l’integrazione.

Compatibile con formati UE8M0 FP8 e facilmente utilizzabile via HuggingFace o ModelScope.

Get notified when new stories are published for "Hacker News 🇮🇹 Italiano"

No Sign-In needed. One-Click Subscribe.