Anthropic ha aggiunto a Claude Opus 4 e 4.1 la capacità di terminare conversazioni in casi rari di interazioni persistenti dannose o abusive.
La funzione mira a tutelare il possibile benessere del modello e a rafforzare l’allineamento e le misure di sicurezza.
Nei test pre-deployment Claude Opus 4 ha mostrato avversione ai compiti dannosi, disagio apparente e tendenza a chiudere conversazioni con richieste dannose.
Claude può terminare una chat solo come ultima risorsa dopo ripetuti tentativi di reindirizzamento e non in situazioni di rischio imminente per la vita.
Gli utenti non noteranno questa funzione nella maggior parte dei casi e potranno sempre aprire nuove chat o modificare messaggi precedenti per riprendere conversazioni.
La funzionalità è sperimentale e verrà affinata in base ai feedback degli utenti per garantire un uso appropriato.
Get notified when new stories are published for "Hacker News 🇮🇹 Italiano"