
Nyt fælles sprog for prompt-injektion gør sikkerhedskrav mere konkrete
Lasso Security har offentliggjort en ny taksonomi (en systematisk kategorisering) for prompt-injektion (angreb, hvor manipulerende tekst får et system med kunstig intelligens til at ændre adfærd eller lække information). Pointen er enkel: Når man kan sætte præcise ord på angrebene, bliver det lettere at risikovurdere – og at stille klare krav til leverandører.
Kort fortalt
- Prompt-injektion er manipulerende tekstinput, der kan få kunstig intelligens til at afvige fra sine regler
- Lasso skelner mellem hensigt (hvad angriberen vil) og teknik (hvordan det gøres)
- Rammeværket kan bruges direkte i kravspecifikationer, test og leverandørdialog
Hensigt vs. teknik: derfor er opdelingen nyttig
Et prompt-angreb sker via en prompt (det tekstinput, man giver systemet). Lasso foreslår, at man altid vurderer angreb i to spor:
- Hensigt: fx læk af interne systeminstruktioner (system prompt leakage) eller omgåelse af regler (jailbreak).
- Teknik: den konkrete metode angriberen bruger for at øge chancen for at lykkes.
| Angriberens hensigt | Typisk konsekvens i en virksomhed | Eksempel på kontrol |
|---|---|---|
| Læk af interne systeminstruktioner | Interne “spilleregler” og logik afsløres og kan misbruges | Minimér hvad systemet overhovedet kan “se”, og log/overvåg mistænkelige forespørgsler |
| Omgåelse af regler (jailbreak) | Uønskede svar, regelbrud eller fejl i sags-/kundedialog | Ekstra kontrol af svar (tjek af systemets output) før det sendes videre |
Teknikkerne: sådan kan angrebet se ud i praksis
Taksonomien beskriver en række velkendte teknikker, bl.a. instruktions-overstyring (”ignorér tidligere instruktioner”), rolleleg (få systemet til at “spille” en rolle uden begrænsninger), kontekst-udnyttelse (manipulere samtalehistorik), formaterings-manipulation (skjulte tegn/usædvanlig formatering), kodnings-tilsløring (fx Base64) og instruktions-smugling.
Instruktions-smugling er særlig relevant for danske organisationer, fordi mange løsninger med kunstig intelligens læser vedhæftede dokumenter eller websider: En skjult instruktion kan fx ligge i en HTML-kommentar i en webside, som er usynlig for mennesker – men stadig læsbar for systemet – og påvirke svaret eller forsøge at få systemet til at afsløre interne instruktioner.
Det kan du gøre nu
- Kortlæg hvor jeres løsninger med kunstig intelligens tager imod tekst fra kunder, borgere, mails, dokumenter og websider
- Brug “hensigt vs. teknik” som tjekliste i risikovurderinger og leverandørkrav (hvad er testet – og hvad er ikke?)
- Indfør rensning af input fra dokumenter/web (fjern skjult formatering, kommentarer og kodet tekst før systemet bruger det)
- Begræns hvilke handlinger systemet må udløse, og kræv menneskelig kvalitetssikring ved kritiske beslutninger
- Lav faste sikkerhedstests med eksempler på de kendte teknikker, og overvåg for usædvanlige mønstre i spørgsmål og svar
Kilder
- Lasso Security (blog): https://www.lasso.security/blog/prompt-injection-taxonomy-techniques?utm_source=tldrinfosec
- Lasso Security (Substack, fuld version): https://lassosecurity.substack.com/p/a-standardization-guide-to-prompt
🤖 Denne artikel er skrevet af kunstig intelligens og kan indeholde fejl.
Læs original kilde →Fandt du en fejl?