Vad är Tal-till-text
Konvertering av röst till text
Tal-till-text (Speech-to-Text, STT) är en teknik för att automatiskt konvertera tal till skriven text med hjälp av maskininlärningsalgoritmer.
Hur det fungerar
- Akustisk modell — analyserar ljudvågor
- Språkmodell — förutsäger sannolika ord
- Avkodare — väljer den mest sannolika sekvensen
Teknologier
- Whisper (OpenAI) — flerspråkig modell
- Google Speech-to-Text — molntjänst
- Azure Speech Services — från Microsoft
- Vosk — öppen källkod offline-lösning
Affärstillämpningar
- Transkribering av samtal och möten
- Röstassistenter och IVR-system
- Undertexter för videoinnehåll
- Röstinmatning i appar
- Analys av kundsamtal