Du skal kunne se, hvad agenten søgte efter

Mange virksomheder bruger stadig kunstig intelligens som en samtalepartner.

Man stiller et spørgsmål. Værktøjet svarer. Man læser svaret og vurderer, om det kan bruges.

Det er en fin start. Men det er ikke sådan, agentarbejde kommer til at fungere.

Når kunstig intelligens går fra chatbot til agent, handler opgaven ikke længere kun om at skrive et svar. Agenten skal måske finde dokumenter, vælge søgeord, sortere kilder, fravælge irrelevante resultater, samle kontekst, læse tidligere sager og til sidst komme med en anbefaling.

Det rejser et helt praktisk spørgsmål:

Kan du se, hvad agenten søgte efter?

Hvis svaret er nej, står du med et velformuleret resultat uden at kende vejen frem til det.

Det er sjældent nok, hvis resultatet skal bruges som grundlag for en beslutning.

Agenten arbejder sig frem til svaret

En chatbot kan ofte vurderes ud fra selve svaret.

Den skriver et udkast til en mail. Du justerer tonen.

Den opsummerer et møde. Du tjekker, om noget vigtigt mangler.

Den forklarer et begreb. Du kan hurtigt vurdere, om forklaringen holder.

Agentarbejde er noget andet.

Forestil dig en agent, der skal hjælpe med at vælge en leverandør.

Den finder tilbud, læser vilkår, sammenligner priser, undersøger leveringstider, ser på tidligere erfaringer og sorterer kandidater fra, før den anbefaler én løsning.

Det kan være nyttigt.

Men anbefalingen er kun halvdelen af arbejdet.

Du skal også kunne se:

hvilke tilbud agenten fandt
hvilke den fravalgte
hvilke kriterier den brugte
om den kun søgte på leverandørernes egne hjemmesider
om priserne var opdaterede
om den overså servicevilkår, bindinger eller opsigelsesregler

Ellers bliver agenten en sort boks med pænt sprog.

Og pænt sprog er ikke det samme som godt kildearbejde.

Kilderne peger i samme retning

Perplexity har beskrevet en ny søgearkitektur kaldet Search as Code. Tanken er, at søgning ikke nødvendigvis er ét fast kald til en søgemaskine. Ved mere komplekse opgaver kan modellen selv opbygge en søgeproces med kode i en afgrænset kørsel. Den kan hente, filtrere, rangere, forgrene søgninger og samle resultater på en måde, der passer til opgaven.

Det er teknisk stof. Men den praktiske betydning er enkel:

Agenten henter ikke bare et resultat. Den kan begynde at forme selve vejen frem til resultatet.

Braintrust beskriver den samme udvikling fra en anden vinkel. Når agenter arbejder i drift, efterlader de spor. Ikke kun ét svar, men mange små trin, forsøg, valg og fejl. Braintrusts Topics handler om at finde mønstre i de spor over tid, så man kan forstå, hvad der faktisk sker i produktion.

OpenAI har samtidig gjort Lockdown Mode bredt tilgængelig i ChatGPT. Det er en sikkerhedstilstand, som blandt andet begrænser adgang til web, deep research, agenttilstand, downloads og visse connector-handlinger for at mindske risikoen for dataudtræk gennem prompt injection.

Det er ikke hovedpointen her.

Men det understreger, at adgang til kilder og værktøjer ikke bare er en teknisk detalje. Det er et ledelsesvalg.

Når en agent må søge, læse og handle, skal virksomheden vide, hvad den får adgang til, og hvordan arbejdet kan gennemgås bagefter.

Lav en søgejournal

Derfor kan mange virksomheder med fordel starte med noget helt lavpraktisk:

Agenten skal aflevere en søgejournal.

Ikke et teknisk logudtræk. Ikke en rapport på 20 sider.

Bare en kort og læsbar forklaring på, hvordan den kom frem til svaret.

Søgejournalen kan for eksempel bestå af fem punkter.

1. Hvad var opgaven?

Ikke bare "undersøg leverandører".

Mere præcist: "Find tre mulige leverandører til denne type serviceaftale og vurder pris, leveringstid, binding og support."

2. Hvordan søgte agenten?

Hvilke søgeord brugte den?

Hvilke interne og eksterne kilder indgik?

Brugte den tidligere sager, kontrakter, mailhistorik, produktark eller offentlige hjemmesider?

3. Hvad blev fravalgt?

Fejl gemmer sig ofte her.

En agent kan virke grundig, men have sorteret noget vigtigt fra tidligt i processen. Når fravalgene er synlige, er det lettere at opdage.

4. Hvad bygger anbefalingen på?

Der bør være konkrete kilder, datostempler og korte noter.

Ikke bare formuleringer som "baseret på tilgængelig information".

5. Hvad er stadig usikkert?

Manglede der priser?

Var et tilbud for gammelt?

Kunne leveringstiden ikke bekræftes?

Bygger vurderingen på leverandørens egen markedsføring?

Det er ofte nok til at gøre svaret muligt at styre og følge op på.

Et konkret eksempel

Forestil dig en mindre virksomhed, der skal vælge et nyt kundeservicesystem.

En medarbejder kan spørge en chatbot:

"Hvilket system skal vi vælge?"

Chatbotten kan sikkert levere et pænt og velstruktureret svar.

Men virksomheden har brug for mere end det.

En agentopgave kunne i stedet lyde:

"Find tre relevante systemer til en mindre dansk servicevirksomhed. Brug kun offentlige produktsider, kendte prissider og virksomhedens egne krav. Sortér systemer fra, hvis de ikke viser pris, ikke understøtter dansk sprog eller kræver binding over 12 måneder. Lav en kort anbefaling, men vis først søgejournalen."

Så kan medarbejderen se:

hvilke systemer agenten fandt
hvilke systemer der blev valgt fra
hvilke krav der styrede søgningen
hvilke kilder der blev brugt
hvad der stadig kræver afklaring hos en sælger

Det er ikke kun bedre dokumentation.

Det ændrer måden at arbejde på.

Mennesket skal ikke starte med at gennemskue et færdigt svar. I stedet kan man gennemgå agentens fremgangsmåde, justere søgereglerne og bede agenten prøve igen.

Det er den menneskelige gennemgang, der gør agentens arbejde til noget, virksomheden kan lede.

Fejlen opstår ofte før svaret

Mange fejl med kunstig intelligens bliver opdaget for sent.

Vi læser et svar, der lyder overbevisende. Vi tjekker formuleringerne. Måske slår vi en kilde op. Måske opdager vi, at noget mangler.

Men fejlen ligger ofte tidligere.

Agenten søgte for snævert.

Den brugte en forældet kilde.

Den tog det første resultat for gode varer.

Den blandede produktinformation med debatindlæg.

Den læste ikke den interne aftale, som ændrer hele vurderingen.

Hvis vi kun vurderer det færdige svar, opdager vi ikke nødvendigvis den slags.

Derfor skal kvalitetstjekket flyttes et trin tilbage.

Vi skal kunne spørge:

Hvad ledte du efter?
Hvor ledte du?
Hvad fravalgte du?
Hvad kunne du ikke finde?
Hvad bygger du anbefalingen på?

Det er ikke et spørgsmål om mistillid.

Det er almindelig ledelse.

En dygtig medarbejder kan også blive bedt om at vise sit grundlag. Ikke fordi nogen mistænker vedkommende, men fordi beslutningen skal kunne stå på mål for sig selv.

Det samme gælder en digital medarbejder.

Start i det små

Det behøver ikke begynde med et stort system.

Vælg én opgave, hvor kilderne betyder noget.

Det kan være:

screening af leverandører
en kundesag
et overblik over regler
en intern researchopgave
opfølgning på tilbud
sammenligning af løsninger

Sæt derefter en enkel regel:

Agenten må ikke starte med anbefalingen.

Den skal først vise søgejournalen.

Når søgejournalen er god nok, kan den skrive udkastet, anbefalingen eller foreslå næste skridt.

Det lyder måske langsommere.

I praksis kan det spare tid, fordi man retter agentens arbejdsvej, før der bliver bygget videre på et forkert grundlag.

Det gør også oplæring lettere.

Man kan se, om agenten bruger de rigtige kilder, forstår virksomhedens krav eller springer over, hvor gærdet er lavest. Og man kan se, om den har brug for bedre instruktioner eller et mere afgrænset kildesæt.

Fra svar til spor

Overgangen fra ChatGPT og Copilot til agentarbejde bliver ofte beskrevet som et spørgsmål om handling.

Agenten kan selv gøre mere.

Det er rigtigt.

Men der mangler en lige så vigtig del:

Agenten skal også kunne vise mere.

Ikke nødvendigvis alt. Ikke tekniske logfiler, som de færreste ledere får værdi af.

Men de trin, der har betydning for beslutningen:

Hvilke kilder blev brugt?
Hvilke muligheder blev fravalgt?
Hvilken usikkerhed er der?
Hvad bygger anbefalingen på?

Det er forskellen på at få et svar og at få et stykke arbejde, man kan lede og tage ansvar for.

Hvis kunstig intelligens skal hjælpe virksomheder med reelle opgaver, skal den ikke kun blive bedre til at skrive.

Den skal også blive bedre til at vise sit arbejde.

Og virksomheder skal blive bedre til at kræve det.