Benchmarks mister pusten: Derfor skal virksomheder teste kunstig intelligens på egne opgaver

To af de største udbydere af kunstig intelligens lancerede 5. februar 2026 hver deres nye topmodel til blandt andet kodning og komplekse opgaver. Men ifølge en uafhængig gennemgang bliver det sværere og sværere at bruge klassiske standardtests som kompas, fordi de stærkeste modeller præsterer mere og mere ens på ranglisterne.

Kort fortalt:

Claude Opus 4.6 (Anthropic) og GPT‑5.3‑Codex (OpenAI) er nye topmodeller annonceret 5. februar 2026.

Vi bevæger os ind i en “post-benchmark”-tid, hvor standardtests siger mindre om, hvad der virker i praksis.

Valget bør baseres på kvalitet, pris, svartid og styring/sikkerhed på jeres egne opgaver.

For mange virksomheder giver det mening at bruge mere end én model, alt efter opgaven.

Når ranglisterne ikke længere hjælper

Analytikeren Nathan Lambert (Interconnects) har sammenlignet modellerne i praksis. Hans observation er, at forskellene bliver mere “driftsnære” end “rangliste-nære”: Opus 4.6 så ud til at være en smule bedre til søgeopgaver, mens Codex 5.3 brugte færre såkaldte tokens pr. svar. Tokens er udbydernes måleenhed for tekstmængde og dermed ofte også for omkostning.

Hans hovedpointe er dog vigtigere end de enkelte tal: Standardtests kan sjældnere afgøre, hvilken model der er “bedst” for en konkret virksomhed.

Hvad det betyder for danske virksomheder

Når standardtests ikke skiller tydeligt ad, bliver det vigtigste spørgsmål: Hvilken model leverer bedst på jeres arbejde – mails, sagsnotater, kundesvar og eventuel kode – inden for jeres krav til datasikkerhed og GDPR? I vores arbejde med danske virksomheder ser vi typisk, at den hurtigste vej til en god beslutning er at teste på egne, realistiske opgaver og måle nøgletal over et par uger.

Hvad du bør måle	Hvorfor det tæller
Svarkvalitet på 10-20 rigtige opgaver	Viser om modellen rammer jeres faglighed og tone
Opdigtede oplysninger	Afslører risiko for fejl i drift
Svartid pr. opgave	Påvirker medarbejdernes arbejdsflow
Pris pr. opgave	Afgør om løsningen er rentabel i hverdagen

Det kan du gøre nu

Udvælg 10-20 typiske opgaver (fx en kundemail, et sagsnotat, en opsummering af et dokument).
Test samme opgaver i to forskellige modeller og giv dem en simpel score (kvalitet, tone, fejl).
Mål både pris pr. opgave og svartid, ikke kun “hvad der føles bedst”.
Aftal tydelige spilleregler for data: hvad må sendes ind, hvem har adgang, og hvordan logges brugen?
Overvej en fler-model-praksis: én model til kommunikation/tekster og en anden til mere tekniske opgaver.
Sæt en fast rytme for revurdering (fx hvert kvartal), fordi feltet ændrer sig hurtigt.

Kilder

Interconnects: https://www.interconnects.ai/p/opus-46-vs-codex-53
Anthropic (Claude Opus 4.6): https://www.anthropic.com/news/claude-opus-4-6
OpenAI (GPT‑5.3‑Codex): https://openai.com/index/introducing-gpt-5-3-codex/