Nyt fælles sprog for prompt-injektion gør sikkerhedskrav mere konkrete

Lasso Security har offentliggjort en ny taksonomi (en systematisk kategorisering) for prompt-injektion (angreb, hvor manipulerende tekst får et system med kunstig intelligens til at ændre adfærd eller lække information). Pointen er enkel: Når man kan sætte præcise ord på angrebene, bliver det lettere at risikovurdere – og at stille klare krav til leverandører.

Kort fortalt

Prompt-injektion er manipulerende tekstinput, der kan få kunstig intelligens til at afvige fra sine regler

Lasso skelner mellem hensigt (hvad angriberen vil) og teknik (hvordan det gøres)

Rammeværket kan bruges direkte i kravspecifikationer, test og leverandørdialog

Hensigt vs. teknik: derfor er opdelingen nyttig

Et prompt-angreb sker via en prompt (det tekstinput, man giver systemet). Lasso foreslår, at man altid vurderer angreb i to spor:

Hensigt: fx læk af interne systeminstruktioner (system prompt leakage) eller omgåelse af regler (jailbreak).
Teknik: den konkrete metode angriberen bruger for at øge chancen for at lykkes.

Angriberens hensigt	Typisk konsekvens i en virksomhed	Eksempel på kontrol
Læk af interne systeminstruktioner	Interne “spilleregler” og logik afsløres og kan misbruges	Minimér hvad systemet overhovedet kan “se”, og log/overvåg mistænkelige forespørgsler
Omgåelse af regler (jailbreak)	Uønskede svar, regelbrud eller fejl i sags-/kundedialog	Ekstra kontrol af svar (tjek af systemets output) før det sendes videre

Teknikkerne: sådan kan angrebet se ud i praksis

Taksonomien beskriver en række velkendte teknikker, bl.a. instruktions-overstyring (”ignorér tidligere instruktioner”), rolleleg (få systemet til at “spille” en rolle uden begrænsninger), kontekst-udnyttelse (manipulere samtalehistorik), formaterings-manipulation (skjulte tegn/usædvanlig formatering), kodnings-tilsløring (fx Base64) og instruktions-smugling.

Instruktions-smugling er særlig relevant for danske organisationer, fordi mange løsninger med kunstig intelligens læser vedhæftede dokumenter eller websider: En skjult instruktion kan fx ligge i en HTML-kommentar i en webside, som er usynlig for mennesker – men stadig læsbar for systemet – og påvirke svaret eller forsøge at få systemet til at afsløre interne instruktioner.

Det kan du gøre nu

Kortlæg hvor jeres løsninger med kunstig intelligens tager imod tekst fra kunder, borgere, mails, dokumenter og websider
Brug “hensigt vs. teknik” som tjekliste i risikovurderinger og leverandørkrav (hvad er testet – og hvad er ikke?)
Indfør rensning af input fra dokumenter/web (fjern skjult formatering, kommentarer og kodet tekst før systemet bruger det)
Begræns hvilke handlinger systemet må udløse, og kræv menneskelig kvalitetssikring ved kritiske beslutninger
Lav faste sikkerhedstests med eksempler på de kendte teknikker, og overvåg for usædvanlige mønstre i spørgsmål og svar

Kilder

Lasso Security (blog): https://www.lasso.security/blog/prompt-injection-taxonomy-techniques?utm_source=tldrinfosec
Lasso Security (Substack, fuld version): https://lassosecurity.substack.com/p/a-standardization-guide-to-prompt