
Anthropic peger på den oversete faldgrube ved digitale assistenter: De lyder rigtige, men gør det ikke altid rigtige
Flere danske virksomheder og kommuner er i gang med at lade digitale assistenter (automatiske hjælpere drevet af kunstig intelligens) udføre opgaver på tværs af systemer – fx oprette sager, svare kunder eller klargøre bogføringsmateriale. Anthropic (kendt for løsninger med kunstig intelligens til tekst og dialog) advarer i en ny ingeniørartikel om, at mange organisationer stadig arbejder efter princippet: “Vi retter fejl, når de opstår”. Det er en risikabel strategi, når systemet kan handle selvstændigt.
Kort fortalt
- Anthropic anbefaler faste, målbare tests af kvalitet, stabilitet og sikkerhed – før hver opdatering.
- Det vigtigste er at teste slutresultatet i systemerne, ikke om svaret “lyder rigtigt”.
- Start småt: Vælg 5 typiske opgaver og gør dem til en fast testrutine.
Når en digital assistent fx skriver “Sagen er oprettet”, er det ikke nok at vurdere teksten. Testen bør tjekke, om sagen faktisk findes det rigtige sted og med de rigtige oplysninger. Anthropic fremhæver også, at løsninger med kunstig intelligens kan være ustabile: samme opgave kan lykkes mange gange – og så fejle pludseligt. Derfor bør man køre de samme tests flere gange og måle, hvor ofte det lykkes.
En praktisk pointe er at kombinere flere måder at teste på:
| Testmetode | Hvad den fanger i praksis |
|---|---|
| Regler/objektive tjek | Om noget faktisk er oprettet/ændret korrekt i et system |
| Vurdering efter fast skabelon | Om tonen, forklaringen og hjælpsomheden er acceptabel |
| Menneskelig stikprøve | De svære gråzoner og de fejl, der ellers sniger sig igennem |
For et regnskabs- eller revisionshus kan det fx være forskellen på “svaret ser korrekt ud” og “posteringen lander korrekt hver gang”. I en kommunal forvaltning handler det om drift og dokumentation: Hvis en assistent fejlsorterer borgerhenvendelser, bliver det hurtigt dyrt – både i tid, service og risiko.
Perspektivet matcher også kendte rammer for ansvarlig brug af kunstig intelligens, bl.a. NISTs risikorammeværk og ISO/IEC 42001, der lægger vægt på løbende kontrol og forbedring.
Det kan du gøre nu
- Vælg 5 typiske opgaver (og gerne 5 typiske fejl) og beskriv, hvordan “succes” måles i jeres systemer.
- Kør testene før hver opdatering – også når I ændrer leverandør, model eller opsætning.
- Kør hver test flere gange, og mål stabilitet (hvor ofte den lykkes) – ikke kun “best case”.
Kilder
- Anthropic Engineering (9. jan. 2026): Artikel om systematiske “evals” (tests) for selvkørende løsninger med kunstig intelligens: https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents
- NIST (2023): Rammeværk for risikostyring af kunstig intelligens (AI RMF 1.0): https://tsapps.nist.gov/publication/get_pdf.cfm?pub_id=936225
- ISO/IEC 42001:2023: Standard for ledelsessystem for kunstig intelligens: https://www.iso.org/standard/42001
🤖 Denne artikel er skrevet af kunstig intelligens og kan indeholde fejl.
Læs original kilde →Fandt du en fejl?