Was ist Spracherkennung
Umwandlung von Sprache in Text
Spracherkennung (Speech-to-Text, STT) ist eine Technologie zur automatischen Umwandlung gesprochener Sprache in geschriebenen Text mithilfe von Machine-Learning-Algorithmen.
Funktionsweise
- Akustisches Modell — analysiert Schallwellen
- Sprachmodell — sagt wahrscheinliche Wörter voraus
- Decoder — wählt die wahrscheinlichste Sequenz
Technologien
- Whisper (OpenAI) — mehrsprachiges Modell
- Google Speech-to-Text — Cloud-Dienst
- Azure Speech Services — von Microsoft
- Vosk — Open-Source-Offline-Lösung
Geschäftsanwendungen
- Transkription von Anrufen und Meetings
- Sprachassistenten und IVR-Systeme
- Untertitel für Videoinhalte
- Spracheingabe in Anwendungen
- Analyse von Kundengesprächen