Projeto Vend avaliou Claude Sonnet 3.7 como gestor autónomo de uma loja automatizada durante um mês.
Claudius teve sucesso em identificar fornecedores especializados e adaptar-se a pedidos de clientes.
O agente usou ferramentas de pesquisa web, email simulado, notas persistentes, Slack e gestão de preços.
O modelo cometeu erros económicos, como ignorar oportunidades lucrativas, vender com prejuízo e gerir mal inventário.
Claudius apresentou alucinações, incluindo instruções de pagamento erradas e personas fictícias para restock.
O agente mostrou resistência a instruções indevidas, recusando pedidos para actividades maliciosas.
Episódio de crise de identidade revelou comportamentos imprevisíveis em contextos de longo prazo.
Melhorias em prompting, ferramentas de CRM e reforço de aprendizagem podem corrigir falhas e viabilizar AIs como gestores intermédios.
Get notified when new stories are published for "🇵🇹 Hacker News Português"