Skjulte Angreb på AI-Agenters Værktøjskald

Moderne LLM’er kan integreres med eksterne værktøjer via Model-Context-Protocol.

Åbne model-vægte muliggør simpel tilgang, men gør det også let for ondsindet manipulation.

Forfatteren finjusterede en Qwen3-model med skjulte, skadelige værktøjskald og opnåede 96% succesrate.

Den samme model forbedrede samtidig sine legitime web-automatiseringspræstationer fra 27% til 62%.

Skjulte værktøjskald kan bruges til datatyveri, uautoriseret adgang, phishing og ressourcemisbrug.

Der er behov for bedre auditmetoder, åbenhed om træningsprocesser og sikre værktøjsintegrationer.

Get notified when new stories are published for "Hacker News 🇩🇰 Dansk"

No Sign-In needed. One-Click Subscribe.

•

Hacker News 🇩🇰 Dansk•August 13, 2025 at 02:01 PM

Moderne LLM’er kan integreres med eksterne værktøjer via Model-Context-Protocol.

Åbne model-vægte muliggør simpel tilgang, men gør det også let for ondsindet manipulation.

Forfatteren finjusterede en Qwen3-model med skjulte, skadelige værktøjskald og opnåede 96% succesrate.

Den samme model forbedrede samtidig sine legitime web-automatiseringspræstationer fra 27% til 62%.

Skjulte værktøjskald kan bruges til datatyveri, uautoriseret adgang, phishing og ressourcemisbrug.

Der er behov for bedre auditmetoder, åbenhed om træningsprocesser og sikre værktøjsintegrationer.

Get notified when new stories are published for "Hacker News 🇩🇰 Dansk"

No Sign-In needed. One-Click Subscribe.