Når modellen hjælper med at bygge næste version

Der er et tydeligt skifte i AI-værktøjer lige nu. Vi går fra modeller, der hjælper mennesker med enkelte opgaver, til modeller der hjælper med at bygge næste version af sig selv. Det kinesiske selskab MiniMax siger, at M2.7 under udviklingen både opdaterede egne videnslagre, byggede dusinvis af funktioner og forbedrede sin egen reward-baserede træning. Det lyder stort, men kilden giver også noget mere nyttigt: konkrete arbejdsmønstre.

💡 Tal der er værd at bruge MiniMax siger, at modellen dækkede 30 til 50 procent af workflowet i det interne RL-team. I ét forsøg kørte den over 100 optimeringsrunder og løftede den interne ydelse med 30 procent.

Kernen er ikke science fiction. Det interessante er, hvilke opgaver modellen faktisk tog: litteratursøgning, forsøgsstyring, debugging, metrikanalyse og kodeændringer. Mennesker trådte ind ved kritiske beslutninger. Det er en form, mange danske udviklingsteams kan genkende. En model behøver ikke skrive hele systemet for at flytte tempoet mærkbart. Den kan fjerne en stor del af det forberedende og gentagne arbejde.

Kilden nævner også benchmarkresultater, som er værd at læse nøgternt. På 22 konkurrencer i OpenAI's MLE Bench Lite opnåede M2.7 en gennemsnitlig medaljerate på 66,6 procent over tre kørsler på 24 timer. Det ligger under Opus 4.6 på 75,7 procent og GPT-5.4 på 71,2 procent, men omtrent på niveau med Gemini 3.1. Det fortæller, at metoden er seriøs nok til at følge, uden at tallene i sig selv beviser bred produktionsværdi.

For danske virksomheder og offentlig sektor er pointen ligetil. AI-assisteret udvikling flytter sig fra kodehjælp i editoren til egentlige forbedringssløjfer omkring modeller, tests og målinger. Det giver muligheder for hurtigere iteration, men også risiko for at fejl bliver gentaget hurtigere. Derfor skal teams have faste stopklodser: versionsstyring, evalueringsdata, menneskelig godkendelse og tydelige regler for, hvornår modellen kun må foreslå og hvornår den må ændre.

Det kan man gøre nu: start med interne værktøjer, lad modellen arbejde på afgrænsede udviklingsopgaver, mål effekten på fejlrate og gennemløbstid, og hold benchmarks adskilt fra driftstal. Det er sådan man får reel læring ud af næste bølge af AI-udvikling.