Team skar 91 % af “baggrundsteksten” og gjorde kunstig intelligens markant billigere

Når løsninger med kunstig intelligens bliver dyrere end forventet, handler det ofte ikke om, at teknologien “tænker for meget” – men at vi fodrer den med alt for meget tekst, hver gang den skal svare. En ny case fra MLOps Community viser, hvor stor forskel det kan gøre at sende mindre – og genbruge det, man allerede har regnet ud.

Kort fortalt

Et enterprise-team med 70+ digitale værktøjer stoppede med at sende alle værktøjsbeskrivelser med ved hver forespørgsel.
De udvalgte i stedet kun de få relevante værktøjer ud fra betydning (ikke kun nøgleord).
De gemte udvælgelsen i et hurtigt mellemlager (cache) i op til én time, så gentagne spørgsmål blev billigere og hurtigere.
I deres benchmark faldt tekstmængden (“tekstbidder”, ofte kaldet tokens) med ca. 91,5% og den direkte omkostning pr. forespørgsel med ca. 49%.

I casen kom en stor del af regningen fra, at systemet hver gang sendte lange beskrivelser af alle værktøjer videre som baggrund – også dem der slet ikke var relevante. Teamet ændrede derfor opsætningen, så hvert værktøj blev beskrevet i mindre dele (fx beskrivelse, parametre og eksempler), og systemet lavede et “matematisk fingeraftryk” af teksten. Når et spørgsmål kom ind, blev betydningen af spørgsmålet matchet mod fingeraftrykkene, og kun de bedst matchende værktøjer kom med.

Derudover lagde de et hurtigt mellemlager i Redis (en hurtig database, der ofte bruges til mellemopbevaring), så udvælgelsen kunne genbruges i cirka én time. Det gav både hurtigere svartider og mindre spild.

Benchmark-tal fra casen:

Måling pr. forespørgsel	Før	Efter
Tekstbidder i alt	ca. 7.523	ca. 797
Omkostning i testen	ca. $0,0118	ca. $0,0060

Vigtig nuance: Selvom tekstmængden faldt voldsomt, blev svarene i testen længere, så den økonomiske besparelse blev mindre end 91%. For danske virksomheder er pointen stadig klar: mange løsninger med kunstig intelligens kan gøres billigere ved at fjerne “alt-med-hver-gang”-teksten og genbruge det, der gentager sig.

Det kan du gøre nu

Få en opgørelse over hvor meget tekst jeres løsning sender med pr. forespørgsel (det er ofte den skjulte omkostningsdriver).
Spørg jeres leverandør/it-team om I sender hele “værktøjskataloget” med hver gang – og om det kan begrænses til det relevante.
Indfør et mellemlager (cache) for gentagne spørgsmål og standardflows, med kort opbevaringsperiode.
Lav en klar GDPR-praksis: undgå at mellemopbevare persondata, brug korte udløbstider, og dokumentér hvad der gemmes.
Mål både pris, svartid og kvalitet før/efter – så besparelsen ikke sker på bekostning af præcision.

Kilder

Subham Kundu, MLOps Community: https://mlops.community/how-i-reduced-ai-token-costs-by-91-with-semantic-tool-selection-and-redis/?utm_source=tldrdata
OpenAI (forklaring af “tokens”/tekstbidder): https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them
Redis (vektor-søgning og Redis Stack): https://redis.io/docs/latest/develop/ai/search-and-query/vectors/