Agentrapporter skal kunne kontrolleres, før de bliver taget for gode varer

Et udkast fra ChatGPT eller Copilot føles stadig som et udkast. De fleste medarbejdere ved godt, at det skal læses igennem, før det bliver sendt videre. Svaret kommer i et chatvindue, man retter lidt til og tager selv ansvaret for det færdige resultat.

Agentarbejde er anderledes.

Her er kunstig intelligens ikke kun en samtalepartner. Den kan samle materiale, lave optællinger, foreslå databaseforespørgsler, skrive rapporter og præsentere det hele som en færdig aflevering. Det er netop det, der gør teknologien nyttig. Men det er også her, risikoen opstår, hvis resultatet begynder at ligne en færdig sandhed, før nogen har kontrolleret det.

KPMG-sagen viser problemet tydeligt. Det handler ikke om et komisk chatbot-svar. TechCrunch og The Register beskriver, hvordan en rapport om agentisk brug af kunstig intelligens blev trukket tilbage, efter at flere organisationer påpegede, at rapportens påstande om deres brug af teknologien var forkerte eller misvisende. The Register gengiver også GPTZeros gennemgang, hvor mange kildehenvisninger og cases ikke holdt, da de blev efterprøvet.

For en almindelig virksomhed er pointen ikke, at KPMG begik en fejl. Pointen er, at agentarbejde kan skabe materiale, der ser færdigt og troværdigt ud, længe før det er blevet kontrolleret.

Samtidig bliver modellerne bedre til konkrete opgaver. Count Anything tyder på, at modeller bliver bedre til at tælle bestemte objekter i billeder på tværs af meget forskellige områder. Gemini-SQL2 viser, at modeller bliver bedre til at omsætte almindeligt sprog til SQL, som faktisk kan køres og måles på.

Det er en vigtig udvikling. Men den ændrer ikke ledelsesopgaven. Tværtimod.

Når kunstig intelligens bevæger sig fra tekstforslag til tal, forespørgsler og rapporter, er det ikke længere nok at spørge, om svaret lyder rigtigt. Man skal også spørge, om arbejdet kan kontrolleres og afstemmes.

Det er den praktiske forskel på en chatbot og en agent. Chatbotten svarer på et spørgsmål. Agenten afleverer noget, der kan bruges i en sag. Derfor skal der være et revisionspunkt, før resultatet bliver taget i brug.

Et revisionspunkt behøver ikke være et stort kontrolsystem. I Phugl-sammenhæng ville jeg starte mere enkelt. Nederst i agentens aflevering bør der ligge en kort oversigt, som et menneske kan gennemgå, før rapporten sendes videre:

Hvilke nye påstande har agenten tilføjet?
Hvilke kilder bygger de på?
Hvilke tal er beregnet, optalt eller hentet fra en database?
Kan tallene genskabes på samme grundlag?
Hvad bygger på agentens vurdering frem for en kilde?
Hvad må ikke publiceres, sendes til en kunde eller bruges som beslutningsgrundlag uden menneskelig godkendelse?

Det kan lyde administrativt. Men det er her, forskellen ligger.

Hvis en agent laver et udkast til en markedsrapport, skal den ikke kun levere teksten. Den skal også markere de påstande, den selv har formuleret. Hvis den laver en optælling, skal den vise, hvad der er talt med, og hvad der er fravalgt. Hvis den laver en databaseforespørgsel, skal den vise SQL-spørgsmålet, datagrundlaget og de menneskelige antagelser bag spørgsmålet.

Det betyder ikke, at medarbejderen skal kontrollere alt manuelt ned i mindste detalje. Det betyder, at agenten skal gøre de væsentlige dele mulige at kontrollere.

En enkel stopregel kan være:

Hvis agenten ikke kan dokumentere kilde, beregning eller afstemning for en central påstand, skal den stoppe og skrive "kan ikke bruges endnu" i stedet for at fortsætte.

Det er en anden måde at arbejde med kunstig intelligens på end den, mange kender fra chat. I en chat er det fristende bare at stille et bedre spørgsmål, hvis svaret ikke er godt nok. I agentarbejde skal man også designe selve afleveringen. Hvad skal agenten vise? Hvad skal den markere som usikkert? Hvor går grænsen mellem et udkast og et beslutningsgrundlag?

Det bliver særligt vigtigt, når resultatet ser professionelt ud. En flot rapport, en tabel med procenter eller en SQL-baseret liste kan virke mere troværdig end et almindeligt tekstsvar. Men formatet gør ikke indholdet sandt.

Derfor bør virksomheder, der vil bruge agenter til rapporter, analyser, kundesvar eller dokumentation, begynde med revisionspunktet frem for den mest avancerede model. Agenten må gerne hjælpe med at finde materiale, samle svar og lave et første udkast. Men den må ikke gøre sin egen aflevering til sandhed.

Den gode agent skriver ikke bare hurtigere. Den afleverer sit arbejde på en måde, så et menneske kan se, hvad der er kilde, hvad der er beregning, hvad der er vurdering, og hvor arbejdet skal stoppe.

Det er den praktiske bro mellem almindelig chatbot-brug og agentarbejde. Mennesket leder ikke ved at rette hvert eneste ord. Mennesket leder ved at sætte grænsen for, hvornår agentens arbejde må bruges.

Agentrapporter skal kunne kontrolleres, før de bliver taget for gode varer

Kilder

Læs videre eller kontakt mig