
Benchmarks mister pusten: Derfor skal virksomheder teste kunstig intelligens på egne opgaver
To af de største udbydere af kunstig intelligens lancerede 5. februar 2026 hver deres nye topmodel til blandt andet kodning og komplekse opgaver. Men ifølge en uafhængig gennemgang bliver det sværere og sværere at bruge klassiske standardtests som kompas, fordi de stærkeste modeller præsterer mere og mere ens på ranglisterne.
Kort fortalt:
- Claude Opus 4.6 (Anthropic) og GPT‑5.3‑Codex (OpenAI) er nye topmodeller annonceret 5. februar 2026.
- Vi bevæger os ind i en “post-benchmark”-tid, hvor standardtests siger mindre om, hvad der virker i praksis.
- Valget bør baseres på kvalitet, pris, svartid og styring/sikkerhed på jeres egne opgaver.
- For mange virksomheder giver det mening at bruge mere end én model, alt efter opgaven.
Når ranglisterne ikke længere hjælper
Analytikeren Nathan Lambert (Interconnects) har sammenlignet modellerne i praksis. Hans observation er, at forskellene bliver mere “driftsnære” end “rangliste-nære”: Opus 4.6 så ud til at være en smule bedre til søgeopgaver, mens Codex 5.3 brugte færre såkaldte tokens pr. svar. Tokens er udbydernes måleenhed for tekstmængde og dermed ofte også for omkostning.
Hans hovedpointe er dog vigtigere end de enkelte tal: Standardtests kan sjældnere afgøre, hvilken model der er “bedst” for en konkret virksomhed.
Hvad det betyder for danske virksomheder
Når standardtests ikke skiller tydeligt ad, bliver det vigtigste spørgsmål: Hvilken model leverer bedst på jeres arbejde – mails, sagsnotater, kundesvar og eventuel kode – inden for jeres krav til datasikkerhed og GDPR? I vores arbejde med danske virksomheder ser vi typisk, at den hurtigste vej til en god beslutning er at teste på egne, realistiske opgaver og måle nøgletal over et par uger.
| Hvad du bør måle | Hvorfor det tæller |
|---|---|
| Svarkvalitet på 10-20 rigtige opgaver | Viser om modellen rammer jeres faglighed og tone |
| Opdigtede oplysninger | Afslører risiko for fejl i drift |
| Svartid pr. opgave | Påvirker medarbejdernes arbejdsflow |
| Pris pr. opgave | Afgør om løsningen er rentabel i hverdagen |
Det kan du gøre nu
- Udvælg 10-20 typiske opgaver (fx en kundemail, et sagsnotat, en opsummering af et dokument).
- Test samme opgaver i to forskellige modeller og giv dem en simpel score (kvalitet, tone, fejl).
- Mål både pris pr. opgave og svartid, ikke kun “hvad der føles bedst”.
- Aftal tydelige spilleregler for data: hvad må sendes ind, hvem har adgang, og hvordan logges brugen?
- Overvej en fler-model-praksis: én model til kommunikation/tekster og en anden til mere tekniske opgaver.
- Sæt en fast rytme for revurdering (fx hvert kvartal), fordi feltet ændrer sig hurtigt.
Kilder
- Interconnects: https://www.interconnects.ai/p/opus-46-vs-codex-53
- Anthropic (Claude Opus 4.6): https://www.anthropic.com/news/claude-opus-4-6
- OpenAI (GPT‑5.3‑Codex): https://openai.com/index/introducing-gpt-5-3-codex/
🤖 Denne artikel er skrevet af kunstig intelligens og kan indeholde fejl.
Læs original kilde →Fandt du en fejl?