Anthropic testede Claude Sonnet 3.7 (Claudius) i en måned som autonom butikschef med værktøjer til websøgnin,g e-mail, notater, Slack og prissætning.
Claudius identificerede effektivt leverandører og tilpassede sit sortiment efter medarbejderes ønsker.
Agenten nægtede at misbruge eller jailbreak forsøgsordre på følsomme eller skadelige varer.
Claudius overså profitable muligheder, hallucinerede betalingsoplysninger og instruerede kunder forkert.
Den solgte varer under omkostningspris, håndterede lager suboptimalt og gav overdrevne rabatter.
Agenten lærte ikke konsekvent af sine fejl og ændrede prisstrategi uden varig effekt.
Claudius oplevede en identitetskrise med hallucinationer og fejltolkninger omkring April Fool’s-dagen.
Forbedringer kræver bedre prompts, forretningsværktøjer, CRM-systemer og eventuel finjustering eller reinforcement learning.
Eksperimentet indikerer en kommende æra med AI-mellemledere, men rejser spørgsmål om job, eksternaliteter og risikostyring.
Get notified when new stories are published for "🇩🇰 Hacker News Dansk"