AI-modeller gætter hellere end at bede om hjælp, viser ny forskning

ProactiveBench er et nyt benchmark, der tester om multimodale sprogmodeller beder brugeren om hjælp, når visuel information mangler. Resultatet er nedslående: Ud af 22 testede modeller beder næsten ingen om det, de har brug for.

Tallene bag problemet

Benchmarket består af mere end 108.000 billeder fordelt på 18.000 samples og dækker syv scenarier, blandt andet skjulte objekter, støjfyldte billeder, grove skitser og behov for andre kameravinkler.

I referencescenariet, hvor modellerne har al information, klarer de i gennemsnit 79,8 procent. På ProactiveBench, hvor de skal bede om manglende information, falder gennemsnittet til 17,5 procent. På ROD-datasættet er faldet endnu mere dramatisk: fra 98,3 procent til 8,2 procent, når objekter er dækket til.

Bland de testede modeller var GPT-4.1, GPT-5.2 og o4-mini. Større modeller var ikke systematisk bedre til at bede om hjælp.

Modellerne vælger tilfældige forslag

Når forskerne byttede meningsfulde proaktive forslag ud med meningsløse forslag, valgte modellerne dem ofte lige så gerne. Det tyder på gætteri frem for reel forståelse af, hvad der mangler.

En mulig løsning

Finetuning med GRPO på cirka 27.000 eksempler løftede to modeller til 37,4 og 38,6 procent, hvilket er bedre end samtlige 22 oprindeligt testede modeller.

Hvad betyder det i praksis?

For danske teams der bruger multimodale modeller i arbejdsgange med billeder, dokumenter eller skærmbilleder, er budskabet klart: Stol ikke på, at modellen fortæller dig, når den mangler information. Byg arbejdsgange, der eksplicit tjekker, om modellen har det input, den har brug for.