
Ny tale-til-tekst fra Mistral: realtid og lav pris – men dansk er ikke på listen
Mistral har lanceret Voxtral Transcribe 2: nye modeller, der kan lave transskription (tale til tekst) med kunstig intelligens – både som “efterbehandling” af optagelser og som live-tekst med meget lav forsinkelse. For danske virksomheder kan det især blive interessant, hvor svartid og datakontrol er vigtigere end dansksproget præcision.
| Voxtral Mini Transcribe V2 | Voxtral Realtime | |
|---|---|---|
| Bedst til | Møder, interviews og andre lydfiler | Kundesamtaler, live-noter og undertekster |
| Det får du | Taleadskillelse (hvem siger hvad), ordniveau-tidsstempler, lange optagelser (Mistral nævner op til ca. 3 timer i én omgang) | Konfigurerbar forsinkelse ned til “sub-200 ms” (millisekunder = tusindedele af et sekund); modelkort nævner ca. 480 ms som godt kompromis |
| Pris (via Mistrals tjeneste) | $0.003/min | $0.006/min |
| Datakontrol | Brug via Mistrals tjeneste | Kan downloades og køres selv (Apache 2.0 = åben licens, fri brug også kommercielt) |
Kort fortalt
- Mistral udgiver to nye tale-til-tekst-modeller: batch (lydfiler) og realtid (streaming)
- 13 sprog er officielt understøttet: English, Chinese, Hindi, Spanish, Arabic, French, Portuguese, Russian, German, Japanese, Korean, Italian, Dutch
- Dansk er ikke på listen, så danske organisationer bør forvente varierende kvalitet og teste på egne optagelser
- Realtime-varianten kan køres på egen server for bedre kontrol med data
- Mistral fremhæver lav ordfejlrate i egne målinger (omkring 4% på FLEURS-testdata)
Hvad betyder det for danske virksomheder?
Den lave pris kan gøre transskription til en “standardfunktion” i flere arbejdsgange. Et simpelt regnestykke: 10.000 minutter lyd koster ca. $30 med Mini V2 og ca. $60 med Realtime (via Mistrals tjeneste). Det kan hurtigt være billigere end den tid, der i dag går med manuelle referater.
I praksis er potentialet størst, hvis I arbejder meget på engelsk eller tysk (som er på listen), fx:
- Mødenoter og dokumentation: hurtigere udkast til referater – især når taleadskillelse kan markere, hvem der siger hvad.
- Kundesamtaler: live-tekst kan støtte kvalitetssikring og dokumentation, hvor svartid betyder noget.
- Regnskab og revision: transskription af kundegennemgange kan give bedre sporbarhed, hvis teksten efterfølgende får en menneskelig gennemgang.
På datadelen bør man være opmærksom på, at Mistral nævner GDPR-kompatible udrulninger (egen server/privat sky), men deres databehandlingsaftale beskriver også, at kundeinput kan bruges til modeltræning, medmindre man fravælger det (afhænger af valg/aftale).
Det kan du gøre nu
- Kør en 1-uges pilot med 20–50 rigtige optagelser (inkl. støj, flere talere og fagudtryk).
- Afgør datakrav først: Skal lyd blive “in-house”, så kig på Realtime på egen server.
- Vurdér sprogmatch: Hvis I primært arbejder på dansk, så forvent ekstra testarbejde – eller vent på officiel dansk understøttelse.
- Gør kvalitet målbar: Mål fejltyper (navne, tal, fagord) og planlæg fast menneskelig gennemgang ved kritisk dokumentation.
Kilder
🤖 Denne artikel er skrevet af kunstig intelligens og kan indeholde fejl.
Læs original kilde →Fandt du en fejl?