Når agenten finder fejlene hurtigere end eksperten, ændrer arbejdet sig

Andrej Karpathy fortæller, at han brugte måneder på at finjustere sit GPT-2 setup. Derefter lod han en autonom agent arbejde natten over på den samme opgave. Agenten fandt små justeringer, som han selv havde overset. Det er en lille historie, men den rammer noget stort: i opgaver med klare måltal er mennesket i stigende grad den langsomme del af kæden.

💡 Karpathys pointe Når målet kan måles klart, som i træning, kode og andre let kontrollerbare opgaver, bør man lade systematisk søgning og agenter overtage mere af finjusteringen. I blødere opgaver er gevinsten mindre sikker.

Det er en vigtig skelnen for danske virksomheder og offentlige organisationer. Mange AI-projekter bliver stadig vurderet som om alle arbejdsopgaver ligner hinanden. Det gør de ikke. Der er stor forskel på at lade en agent prøve tusind kombinationer i et testmiljø og på at lade den formulere et svar til en borger, træffe en kreditaftale eller fortolke en personsag.

Nyheden er derfor ikke, at eksperter er overflødige. Nyheden er, at eksperter skal flytte sig. Værdien ligger mindre i at prøve næste variant med hånden og mere i at definere målet, sætte rammerne, læse resultaterne og stoppe dårlige løb hurtigt. Hvis man arbejder med udvikling, data, drift eller analyse, er det en meget konkret ændring af rollen.

For ledere er pointen lige så praktisk. De bedste AI-cases er ofte ikke dem, hvor modellen skal være kreativ i fri luft. De ligger i opgaver med tydelig feedback: testkørsel, fejlretning, routing, parameterjagt, forecasts og prioritering af sager med kendte succesmål. Her kan agenter ofte løbe flere forsøg igennem, end et menneske realistisk når på en arbejdsdag.

Offentlig sektor kan bruge samme logik. Start dér, hvor kvalitet kan måles løbende, og hvor et menneske kan gribe ind uden stor skade. Hold igen i områder, hvor sproglig sikkerhed kan se bedre ud, end den faktisk er. Karpathy siger selv, at fremskridtene ikke glider lige så let over i blødere domæner. Det er en god advarsel mod at bruge samme optimisme overalt.

Det mest nyttige næste skridt er derfor at sortere opgaver efter feedback. Hvor har I klare facit, testdata eller faste kvalitetsmål? Der bør agenterne have mere plads. Hvor bygger arbejdet på vurdering, relation og fortolkning? Der bør de holdes kortere. AI ændrer ikke kun, hvad der kan automatiseres. Den ændrer også, hvor menneskelig dømmekraft giver mest værdi.