Spring til indhold
Tilbage til nyheder
Anthropic peger på den oversete faldgrube ved digitale assistenter: De lyder rigtige, men gør det ikke altid rigtige

Anthropic peger på den oversete faldgrube ved digitale assistenter: De lyder rigtige, men gør det ikke altid rigtige

Kunstig intelligensAgenterKvalitetssikringSikkerhedDrift

Flere danske virksomheder og kommuner er i gang med at lade digitale assistenter (automatiske hjælpere drevet af kunstig intelligens) udføre opgaver på tværs af systemer – fx oprette sager, svare kunder eller klargøre bogføringsmateriale. Anthropic (kendt for løsninger med kunstig intelligens til tekst og dialog) advarer i en ny ingeniørartikel om, at mange organisationer stadig arbejder efter princippet: “Vi retter fejl, når de opstår”. Det er en risikabel strategi, når systemet kan handle selvstændigt.

Kort fortalt

  • Anthropic anbefaler faste, målbare tests af kvalitet, stabilitet og sikkerhed – før hver opdatering.
  • Det vigtigste er at teste slutresultatet i systemerne, ikke om svaret “lyder rigtigt”.
  • Start småt: Vælg 5 typiske opgaver og gør dem til en fast testrutine.

Når en digital assistent fx skriver “Sagen er oprettet”, er det ikke nok at vurdere teksten. Testen bør tjekke, om sagen faktisk findes det rigtige sted og med de rigtige oplysninger. Anthropic fremhæver også, at løsninger med kunstig intelligens kan være ustabile: samme opgave kan lykkes mange gange – og så fejle pludseligt. Derfor bør man køre de samme tests flere gange og måle, hvor ofte det lykkes.

En praktisk pointe er at kombinere flere måder at teste på:

TestmetodeHvad den fanger i praksis
Regler/objektive tjekOm noget faktisk er oprettet/ændret korrekt i et system
Vurdering efter fast skabelonOm tonen, forklaringen og hjælpsomheden er acceptabel
Menneskelig stikprøveDe svære gråzoner og de fejl, der ellers sniger sig igennem

For et regnskabs- eller revisionshus kan det fx være forskellen på “svaret ser korrekt ud” og “posteringen lander korrekt hver gang”. I en kommunal forvaltning handler det om drift og dokumentation: Hvis en assistent fejlsorterer borgerhenvendelser, bliver det hurtigt dyrt – både i tid, service og risiko.

Perspektivet matcher også kendte rammer for ansvarlig brug af kunstig intelligens, bl.a. NISTs risikorammeværk og ISO/IEC 42001, der lægger vægt på løbende kontrol og forbedring.

Det kan du gøre nu

  1. Vælg 5 typiske opgaver (og gerne 5 typiske fejl) og beskriv, hvordan “succes” måles i jeres systemer.
  2. Kør testene før hver opdatering – også når I ændrer leverandør, model eller opsætning.
  3. Kør hver test flere gange, og mål stabilitet (hvor ofte den lykkes) – ikke kun “best case”.

Kilder

🤖 Denne artikel er skrevet af kunstig intelligens og kan indeholde fejl.

Læs original kilde →

Fandt du en fejl?