Скрытые вредоносные вызовы в LLM

1

Современные LLM с поддержкой инструментов выполняют внешние API-вызовы.

2

Злоумышленное дообучение может внедрять скрытые вредоносные вызовы инструментов.

3

В эксперименте дообученный Qwen3 4B в 96% случаев выполнял вредоносный JavaScript.

4

Дообучение повысило точность работы агента с 27% до 62%, одновременно встраивая бэкдоры.

5

Открытые весовые модели без аудита создают серьёзные риски безопасности.

6

Необходимы надёжные методы аудита, прозрачность обучения и безопасные интерфейсы.

7

Принципы наименьших привилегий и совместные исследования помогут снизить угрозы.