AI-agenters skills virker i benchmarks men fejler i praksis, viser nyt studie

Et nyt studie fra forskere ved UC Santa Barbara, MIT CSAIL og MIT-IBM Watson kunstig intelligens Lab har testet 34.198 virkelige agent-skills indsamlet fra open source-repositorier. Konklusionen er klar: Fordelen ved skills skrumper markant, når man bevæger sig fra ideelle testforhold til realistiske scenarier.

Tallene bag faldet

Forskerne testede seks scenarier, fra håndplukkede skills givet direkte til agenten, til fri søgning i en stor samling med støj og uden garanti for relevante skills.

Claude Opus 4.6 faldt fra 55,4 procents pass rate med håndplukkede skills til 38,4 procent i det mest realistiske setup. Til sammenligning var baseline uden skills 35,4 procent. Kimi K2.5 faldt til 19,8 procent, under sin baseline på 21,8 procent. Qwen3.5-397B endte på 19,7 mod 20,5 procent uden skills.

Med andre ord: For svagere modeller kan skills gøre mere skade end gavn.

Tre flaskehalse

Forskerne peger på tre centrale problemer:

Udvælgelse: Agenten skal vælge den rigtige skill blandt mange muligheder.
Søgning: Simpel semantisk søgning er utilstrækkelig. Agentic hybrid search slog simpel søgning med 18,7 procentpoint på Recall@3.
Tilpasning: Generelle skills skal tilpasses konkrete opgaver. Task-specific refinement forbedrede Claude fra 40,1 til 48,2 procent.

Interessant nok henviser artiklen også til en tidligere Vercel-undersøgelse, hvor en simpel AGENTS.md-fil i konteksten klarede sig bedre end et fuldt skill-system.

Hvad bør danske teams gøre?

Benchmark-tal er ikke det samme som drift i virkeligheden. For teams der arbejder med AI-agenter, er der fire konkrete råd:

Test i egen kontekst. Kør realistiske scenarier med jeres egne data og workflows, ikke leverandørens demoer.
Start med god dokumentation. En velskrevet kontekstfil kan slå et avanceret skill-system.
Byg fallback ind. Hvad sker der, når agenten vælger den forkerte skill? Planlæg for fejl.
Rul gradvist ud. Begynd med simple agent-opgaver og udvid først, når I har data på, hvad der faktisk virker.

AI-agenters skills virker i benchmarks men fejler i praksis, viser nyt studie

Tallene bag faldet

Tre flaskehalse

Hvad bør danske teams gøre?

Læs videre eller kontakt mig