คืออะไร เสียงพูดเป็นข้อความ
แปลงเสียงพูดเป็นข้อความ
เสียงพูดเป็นข้อความ (Speech-to-Text, STT) เป็นเทคโนโลยีสำหรับแปลงคำพูดเป็นข้อความโดยอัตโนมัติโดยใช้อัลกอริทึมการเรียนรู้ของเครื่อง
หลักการทำงาน
- โมเดลอะคูสติก — วิเคราะห์คลื่นเสียง
- โมเดลภาษา — ทำนายคำที่น่าจะเป็นไปได้
- ตัวถอดรหัส — เลือกลำดับที่มีความเป็นไปได้มากที่สุด
เทคโนโลยี
- Whisper (OpenAI) — โมเดลหลายภาษา
- Google Speech-to-Text — บริการคลาวด์
- Azure Speech Services — จาก Microsoft
- Vosk — โซลูชันออฟไลน์โอเพนซอร์ส
การใช้งานทางธุรกิจ
- ถอดเสียงการโทรและการประชุม
- ผู้ช่วยเสียงและระบบ IVR
- คำบรรยายสำหรับวิดีโอ
- การป้อนข้อมูลด้วยเสียงในแอป
- วิเคราะห์การสนทนากับลูกค้า