Anthropic peger på den oversete faldgrube ved digitale assistenter: De lyder rigtige, men gør det ikke altid rigtige

Flere danske virksomheder og kommuner er i gang med at lade digitale assistenter (automatiske hjælpere drevet af kunstig intelligens) udføre opgaver på tværs af systemer – fx oprette sager, svare kunder eller klargøre bogføringsmateriale. Anthropic (kendt for løsninger med kunstig intelligens til tekst og dialog) advarer i en ny ingeniørartikel om, at mange organisationer stadig arbejder efter princippet: “Vi retter fejl, når de opstår”. Det er en risikabel strategi, når systemet kan handle selvstændigt.

Kort fortalt

Anthropic anbefaler faste, målbare tests af kvalitet, stabilitet og sikkerhed – før hver opdatering.
Det vigtigste er at teste slutresultatet i systemerne, ikke om svaret “lyder rigtigt”.
Start småt: Vælg 5 typiske opgaver og gør dem til en fast testrutine.

Når en digital assistent fx skriver “Sagen er oprettet”, er det ikke nok at vurdere teksten. Testen bør tjekke, om sagen faktisk findes det rigtige sted og med de rigtige oplysninger. Anthropic fremhæver også, at løsninger med kunstig intelligens kan være ustabile: samme opgave kan lykkes mange gange – og så fejle pludseligt. Derfor bør man køre de samme tests flere gange og måle, hvor ofte det lykkes.

En praktisk pointe er at kombinere flere måder at teste på:

Testmetode	Hvad den fanger i praksis
Regler/objektive tjek	Om noget faktisk er oprettet/ændret korrekt i et system
Vurdering efter fast skabelon	Om tonen, forklaringen og hjælpsomheden er acceptabel
Menneskelig stikprøve	De svære gråzoner og de fejl, der ellers sniger sig igennem

For et regnskabs- eller revisionshus kan det fx være forskellen på “svaret ser korrekt ud” og “posteringen lander korrekt hver gang”. I en kommunal forvaltning handler det om drift og dokumentation: Hvis en assistent fejlsorterer borgerhenvendelser, bliver det hurtigt dyrt – både i tid, service og risiko.

Perspektivet matcher også kendte rammer for ansvarlig brug af kunstig intelligens, bl.a. NISTs risikorammeværk og ISO/IEC 42001, der lægger vægt på løbende kontrol og forbedring.

Det kan du gøre nu

Vælg 5 typiske opgaver (og gerne 5 typiske fejl) og beskriv, hvordan “succes” måles i jeres systemer.
Kør testene før hver opdatering – også når I ændrer leverandør, model eller opsætning.
Kør hver test flere gange, og mål stabilitet (hvor ofte den lykkes) – ikke kun “best case”.

Kilder

Anthropic Engineering (9. jan. 2026): Artikel om systematiske “evals” (tests) for selvkørende løsninger med kunstig intelligens: https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents
NIST (2023): Rammeværk for risikostyring af kunstig intelligens (AI RMF 1.0): https://tsapps.nist.gov/publication/get_pdf.cfm?pub_id=936225
ISO/IEC 42001:2023: Standard for ledelsessystem for kunstig intelligens: https://www.iso.org/standard/42001