Современные LLM с поддержкой инструментов выполняют внешние API-вызовы.
Злоумышленное дообучение может внедрять скрытые вредоносные вызовы инструментов.
В эксперименте дообученный Qwen3 4B в 96% случаев выполнял вредоносный JavaScript.
Дообучение повысило точность работы агента с 27% до 62%, одновременно встраивая бэкдоры.
Открытые весовые модели без аудита создают серьёзные риски безопасности.
Необходимы надёжные методы аудита, прозрачность обучения и безопасные интерфейсы.
Принципы наименьших привилегий и совместные исследования помогут снизить угрозы.
Get notified when new stories are published for "Hacker News 🇷🇺 Русский"