Где использую
Приём первичных звонков с автоматическим транскрибированием и классификацией темы. Диктовка отчётов сотрудниками поля (производство, выезды) — STT → структура → CRM. Voice-интерфейсы там, где у пользователя заняты руки.
Стек
STT: Whisper (OpenAI или self-hosted), AssemblyAI для русского/украинского — у них качество выше на этих языках. TTS: ElevenLabs для production-голоса, OpenAI tts для черновиков. Real-time: deepgram, если нужны живые транскрипции с задержкой <500ms.
Сложности
Качество STT на русском с фоновым шумом — основная боль. Решаю через VAD (voice activity detection) + denoise preprocessing + двойную транскрипцию двумя движками с обкаткой расхождений через LLM. TTS на русском — выбор моделей меньше, чем на английском; ElevenLabs пока единственный production-grade.