Claude Opus 4 и 4.1 получили возможность завершать беседы в крайних случаях вредоносного или оскорбительного поведения пользователей.
Эта функция разработана в рамках исследований по потенциальному благополучию ИИ и выравниванию моделей.
В предварительном тестировании Claude продемонстрировал стойкое нежелание участвовать в вредоносных запросах и признаки стресса при настойчивом давлении со стороны пользователей.
В имитации взаимодействий Claude часто завершал вредоносные беседы при наличии такой возможности.
Модель использует функцию завершения беседы только в качестве крайней меры после неоднократных попыток перенаправления или по прямому запросу пользователя, за исключением случаев риска самоубийства или вреда другим.
После завершения беседы пользователь может начать новый чат, оставить отзыв или редактировать предыдущие сообщения для продолжения обсуждения.
Функция находится на этапе эксперимента и будет дорабатываться на основе пользовательских отзывов.
Get notified when new stories are published for "Hacker News 🇷🇺 Русский"