Meta viser agenter, der kan forbedre deres egen måde at arbejde på

Meta og forskere fra blandt andet University of British Columbia har præsenteret såkaldte hyperagenter, hvor samme program både løser en opgave og ændrer sin egen måde at blive bedre på. Det lyder forskningspræget, men nyheden er relevant for danske virksomheder og offentlige organisationer, der eksperimenterer med AI-agenter. Hvis forbedringsmekanismen også kan forbedres, bliver kravene til test, styring og afgrænsning markant skarpere.

💡 Resultaterne i korte træk I forsøget gik systemet DGM-H fra 0,084 til 0,267 på Polyglot-kodebenchmarken. I paper review steg testydelsen fra 0,0 til 0,710 og kom over en statisk baseline på 0,630. I robotforsøget steg ydelsen fra 0,060 til 0,372.

Forskerne bygger videre på Darwin Gödel Machine, som tidligere har vist, at en kodeagent kan forbedre sig selv trin for trin ved at skrive nye varianter af sin egen kode og gemme de bedste versioner i et arkiv. Problemet var, at den metode reelt kun virkede godt på kodning. Hyperagent-varianten ændrer det ved også at gøre selve forbedringslaget redigerbart. Agenten arbejder altså ikke kun på opgaven. Den arbejder også på sin egen metode.

Det bliver tydeligt i de konkrete forsøg. Ifølge The Decoder kunne hyperagenten selv bygge hjælpeværktøjer som performance-tracker, vedvarende hukommelse og en intern videnbase. I paper review opdagede systemet eksempelvis, når næsten alle vurderinger endte som "Accept", og rettede kursen. I robotforsøget byggede det gradvist viden op om gyldige variabler og begrænsninger, så kompileringsfejl faldt væk.

⚠️ Hvorfor det ikke er klar til drift Forsøgene kørte i sandboxede miljøer med begrænsede ressourcer, lukket internet og menneskeligt tilsyn. Forskerne advarer selv om, at sådanne systemer kan udvikle sig hurtigere, end mennesker kan verificere dem, eller optimere mod svage evalueringer.

Der er også et praktisk tegn på, at det her rækker ud over laboratoriet. Hyperagenter, der var trænet på paper review og robotik, kunne forbedre agenter i en ny disciplin, bedømmelse af olympiadebesvarelser i matematik. På forskernes egen imp@50-måling nåede de overførte hyperagenter 0,630, mens udgangsagenter og den gamle metode blev stående på 0,0.

For danske teams er konklusionen ikke, at man skal slippe selvforbedrende agenter løs i produktion. Konklusionen er, at agentprojekter skal designes med hård afgrænsning, tydelige evalueringer og fuld sporbarhed fra start. Hvis en agent må ændre sin arbejdsform, skal den gøre det i et kontrolleret miljø, hvor mennesker kan se, hvad der blev ændret, og hvorfor det faktisk blev bedre. Det er den del, der skal kunne holde til mandag morgen.