Nye kodningsassistenter fra OpenAI og Anthropic: Nu handler det mindre om tests – og mere om drift

Kort fortalt

OpenAI og Anthropic har i starten af februar 2026 opdateret deres kodningsassistenter med kunstig intelligens: GPT-5.3-Codex og Claude Opus 4.6

OpenAI fremhæver bl.a. hurtigere svartid og bedre resultater på kodningstests; Anthropic fremhæver evnen til at arbejde med meget store mængder tekst og kode ad gangen

Analysen fra Interconnects peger på en “post-benchmark”-æra: Klassiske tests siger mindre om, hvad der virker i virkelige arbejdsgange

For danske virksomheder er den vigtigste beslutning derfor: Hvilket værktøj passer til jeres hverdag, krav og risikoprofil?

To af de mest udbredte kodningsassistenter med kunstig intelligens har fået store opdateringer: OpenAI har lanceret GPT-5.3-Codex, og Anthropic har lanceret Claude Opus 4.6. Begge værktøjer hjælper udviklere (og i stigende grad også ikke-udviklere) med at skrive, forstå og rette kode.

OpenAI lægger især vægt på bedre resultater på standardiserede kodningstests (som SWE-Bench Pro og Terminal-Bench), cirka 25% lavere svartid og mere effektive svar (færre “tekst-enheder” for samme indhold). Anthropic fremhæver i deres release notes et meget stort kontekstvindue (den mængde tekst og kode systemet kan “have i hovedet” ad gangen) på op til 1.000.000 tekst-enheder i beta samt funktioner, der kan tilpasse, hvor meget “tankekraft” systemet bruger, og som kan sammenfatte ældre samtale/kode for at holde overblikket.

Interconnects’ pointe er, at vi nu er i en fase, hvor de klassiske scoretavler ikke nødvendigvis forudsiger det vigtigste: stabilitet, forudsigelighed og hvordan værktøjet spiller sammen med jeres arbejdsgange. Med andre ord: Det er mindre interessant, hvem der vinder en test—og mere interessant, hvem der vinder mandag morgen i praksis.

Dimension	GPT-5.3-Codex (OpenAI)	Claude Opus 4.6 (Anthropic)
Fokus	Hastighed og flertrins-opgaver	Meget stor “hukommelse” og lange forløb
Styrke i praksis	Hurtigere svar og stærk fejlretning	Overblik i store mængder tekst/kode
Mulig risiko	Kan kræve strammere opgaveafgrænsning	Brugerrapporter om frys i lange forløb (ikke nødvendigvis bekræftet)
Hvem bør teste først	Teams med mange gentagne udviklingsopgaver	Teams med store kodebaser og lange dialoger

Det kan du gøre nu

Vælg én konkret pilot-opgave (fx et lille internt værktøj eller en data-omformning mellem systemer) og test begge i 5 arbejdsdage.
Mål på drift, ikke på løfter: tid sparet, antal rettelser, og hvor ofte en person skal “rydde op” bagefter.
Indfør menneskelig kvalitetssikring før kode kommer i produktion—uanset leverandør.
Lav et GDPR-tjek tidligt: Hvilke data må sendes til værktøjet, og hvilke skal anonymiseres eller blive i jeres egne systemer?
Planlæg for fallback: Hvad gør I, hvis værktøjet er ustabilt i perioder, eller hvis en opgave løser sig bedre med et andet værktøj?

Kilder

Interconnects (9. feb 2026): https://www.interconnects.ai/p/opus-46-vs-codex-53
OpenAI (5. feb 2026): https://openai.com/index/introducing-gpt-5-3-codex/
Anthropic release notes (5. feb 2026): https://platform.claude.com/docs/en/release-notes/overview
Brugerrapporter (community, ikke officiel status): https://news.ycombinator.com/item?id=46935899