500 bankers reviewer output fra kunstig intelligens: intet er klar til kunder

Handshake kunstig intelligens og McGill University har udgivet open source-benchmarket BankerToolBench. Det tester sprogmodeller på de opgaver, en junior investment banker normalt sidder med: Excel-modeller, PowerPoint-præsentationer, PDF-rapporter og Word-memoer. Resultaterne giver et nøgternt billede af, hvor langt agenter er fra reguleret videnarbejde.

Sådan blev testen lavet

Omkring 500 nuværende og tidligere investment bankers deltog, og 172 af dem designede selv opgaverne. Benchmarket dækker 100 opgaver, hvor en menneskelig banker i gennemsnit bruger fem timer pr. opgave og nogle op til 21 timer.

En enkelt opgave kan udløse op til 539 kald til sprogmodellen, og 97 procent af kaldene er knyttet til værktøjsbrug eller kodeeksekvering. Det er altså en agentopstilling, ikke bare en chat.

Hvad bankers fandt

Fordelingen af output ifølge bankers:

41 procent kræver stor omskrivning.
27 procent er helt ubrugelige.
13 procent kan bruges efter let redigering.
Ingen er klar til at sende direkte til en kunde.

GPT-5.4 klarede sig bedst, men kun 16 procent af outputtene blev vurderet som et brugbart udgangspunkt, og kun 2 procent bestod alle kritiske kriterier. Claude Opus 4.6 så ofte pæn ud på overfladen, men forskerne fremhæver, at centrale Excel-tal var hardcoded i stedet for beregnet med formler.

Hvad det betyder for danske organisationer

For virksomheder og myndigheder, der overvejer agenter til komplekse dokument- og analyseflows, er det her et konkret datapunkt på, hvor meget menneskelig kontrol der stadig skal til. Selv på det højeste modelniveau er forskellen mellem "ser pænt ud" og "kan bruges af kunden" stor.

Praktiske konsekvenser:

Behandl agentoutput som førsteudkast, ikke som leverance.
Tjek formler og kildehenvisninger eksplicit, ikke kun layout.
Indtænk verifikation som en del af workflowet, ikke en sidste sanity-check.

Forbehold

Benchmarket er USA-fokuseret, mangler fortrolige deal-data og afspejler ikke fuldt ud det iterative teamwork i en rigtig bank. Gradingen bruger en kunstig intelligens-verifier baseret på Gemini 3 Flash Preview, som dog ifølge artiklen stemmer godt overens med menneskelige reviewers. Forfatterne påpeger selv, at bedre kontekst i opgaven løfter resultaterne, så benchmarkets setup spiller ind på udfaldet.

Kilde: The Decoder.