Når kunstig intelligens både kan læse, se og høre, ændrer det kundeservice og arbejdsgange

Kort fortalt

Multimodale modeller er systemer med kunstig intelligens, der kan forstå flere typer input på én gang – fx tekst, billeder og lyd.
Kvaliteten er blevet bedre, og driften er blevet billigere, så flere løsninger kan fungere “løbende” i hverdagen – ikke kun som en tekstboks.
For danske virksomheder åbner det for nye arbejdsgange i kundeservice, økonomi og drift, men stiller også skærpede krav til data og ansvarlighed.

Multimodale modeller flytter kunstig intelligens væk fra primært at være et skriveværktøj og hen mod at være et system, der kan reagere på den virkelighed, medarbejdere og kunder allerede arbejder i: fotos, skærmbilleder, lydbeskeder og samtaler. Det er hovedpointen i en analyse fra Clouded Judgement, som peger på, at teknologien nu er moden nok – og billig nok – til at blive en del af flere daglige processer.

En del af forklaringen er, at det er blevet billigere at køre modellerne. To teknikker bliver ofte nævnt: kvantisering (man “komprimerer” modellen, så den fylder mindre og kan køre mere effektivt) og speculativ dekodning (systemet laver hurtige “gæt” og retter til, så svartiden falder). Samtidig rykker især tale hurtigt: NVIDIA PersonaPlex, FlashLabs’ Chroma og Alibabas Qwen-tekst-til-tale viser, at naturlig stemme ikke længere er et nicheeksperiment, men noget mange leverandører bygger ind.

For danske virksomheder er effekten mest konkret dér, hvor mennesker i dag kombinerer flere informationstyper manuelt: Kundeservice, hvor kunden både kan sende et billede og forklare problemet med stemmen; økonomi, hvor bilag og fakturaer kommer i mange formater; drift og produktion, hvor billeder og lyd fra udstyr kan hjælpe med tidlig fejlfinding; og møder, hvor lyd kan blive til referat og opgaver. Gevinsten er typisk hurtigere sagsbehandling og færre misforståelser – men kun hvis der er styr på datagrundlag og kvalitet.

Det stiller også nye krav: Stemmer og billeder er ofte persondata. Derfor skal GDPR, og EU’s forordning om kunstig intelligens, tænkes ind tidligt – og der bør være menneskelig kvalitetssikring, når output påvirker kunder, borgere eller medarbejdere.

Det kan du gøre nu

Find én proces, hvor I i dag bruger både tekst, billeder og/eller lyd (fx reklamationer med fotos) og lav en afgrænset pilot.
Beslut fra start, hvilke data der må gemmes, hvor længe, og hvem der må tilgå dem (GDPR i praksis).
Indfør en fast “stopklods”: Hvornår skal en medarbejder overtage eller godkende, før noget sendes til kunden?
Mål effekten i noget enkelt (tid pr. sag, fejlrate, svartid) – og stop piloten, hvis kvaliteten ikke holder.

Kilder

Clouded Judgement (Substack): https://cloudedjudgement.substack.com/p/clouded-judgement-12326-the-year?utm_source=tldrfounders
NVIDIA PersonaPlex: https://research.nvidia.com/labs/adlr/personaplex/
FlashLabs Chroma (arXiv): https://arxiv.org/abs/2601.11141
Alibaba Qwen tekst-til-tale: https://www.alibabacloud.com/help/en/model-studio/qwen-tts
EU’s forordning om kunstig intelligens (overblik): https://digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai