Når kodeassistenter bliver bedre, mister testscore værdi – nu handler det om jeres egne arbejdsgange

Nye versioner af kodeværktøjer med kunstig intelligens gør det sværere at vælge ud fra “toplister” og sammenligningstal. En ny analyse peger i stedet på noget mere jordnært: Det rigtige valg findes først, når værktøjet bliver afprøvet i jeres egen hverdag – med enkle kontrolpunkter for kvalitet og ansvar.

Kort fortalt

Nye versioner som Anthropic Opus 4.6 og OpenAI Codex 5.3 er blevet så dygtige, at standardiserede testscore siger mindre om, hvad der virker bedst i praksis.

Fokus flytter fra “hvem vinder på papiret?” til “hvem passer ind i vores arbejdsgange – og med hvilken risiko?”

For danske virksomheder er anbefalingen at køre korte piloter og indføre lette, faste kvalitetstjek, før kode ændres.

Ifølge analysen (Interconnects, 9. februar 2026) opleves Opus 4.6 som mere brugervenlig og robust til bred anvendelse, mens Codex 5.3 beskrives som et stort skridt frem på fejlfinding og krævende kodningsopgaver – men ofte med behov for mere præcise instruktioner.

Pointen er, at når værktøjerne når et højt niveau, bliver forskellen i hverdagen sjældnere et spørgsmål om “hvem er smartest?”, og oftere et spørgsmål om produktoplevelse, arbejdsgang og kontrol. Analysen nævner fx, at tidligere udgaver kunne fejle ved helt basale opgaver i et versionsstyringssystem (altså det, der holder styr på ændringer i kode). Og selv når selve den kunstige intelligens er god, kan der opstå fejl i den “ramme”, man bruger til at arbejde med værktøjet – som når arbejdsfladen/terminalen kan gå i baglås.

For danske virksomheder betyder det især, at indkøb og brug af kodeværktøjer med kunstig intelligens bør behandles som et procesvalg – ikke som et talvalg.

“Testscore”	Afprøvning i egne arbejdsgange
God til overskrifter og sammenligning	Afslører om I faktisk sparer tid og undgår fejl
Måler isolerede opgaver	Måler samarbejde, godkendelse og kvalitet i praksis

Det kan du gøre nu

Kør en 2-ugers pilot med én afgrænset opgave (fx rette små fejl, skrive simple ændringsforslag eller automatisere gentagne kodeændringer).
Indfør menneskelig kvalitetssikring som fast regel: En person skal gennemgå ændringer, før de bruges.
Lav 3 faste kontrolpunkter: (1) Hvad må værktøjet ændre? (2) Hvem godkender? (3) Hvordan dokumenterer I ændringen?
Vurdér “friktion” fremfor “power”: Hvor ofte skal medarbejderen rette, forklare igen eller rydde op bagefter?
Hold styr på data og ansvar: Undgå at sende følsomme oplysninger ind i værktøjer, før I har klare retningslinjer.

Kilder

Nathan Lambert, Interconnects: “Opus 4.6, Codex 5.3, and the post-benchmark era” (9. februar 2026) – https://www.interconnects.ai/p/opus-46-vs-codex-53?utm_source=tldrnewsletter