Не всем компонентам в системе голосового взаимодействия требуются огромные массивы обучающих данных. Например, для TTS требуется всего лишь несколько десятков часов обучающих данных с одним голосом. Некоторые другие компоненты, например, STT и NLU, требуют для достижения высокой точности огромного количества размеченных данных. Например, в статье «Deep Speech 2: End-to-End Speech Recognition in English and Mandarin» [
ссылка] приводится предположение о том, что для создания качественной системы STT требуется не менее 10 тысяч часов транскрибированных данных речи. Эти транскрибированные данные не только являются текстовой записью того, что произнёс говорящий, но и обозначают шум (например, свист, пение птиц и так далее) и звуки окружающей среды (например, будильники, автомобили, закрывание дверей и так далее) в структурированной и подходящей для ML форме. Поэтому людям нужно вручную транскрибировать такие звуки в письменный текст, что позволяет добавлять информацию о звуках с метками (например, «речь», «шум», «смех» и так далее) и разбивать аудио на категории для более глубокого понимания данных. [
Ссылка]
Ручная разметка данных требует огромных затрат, что не позволяет заниматься ею мелким и средним бизнесам. Более того, модели STT и NLU имеют свою предметную область, то есть должны обучаться под конкретную ситуацию, в которой предполагается их применение. Например, модель STT, обученная для применения в медицине, должна обучаться на аудиозаписях с медицинской терминологией, которая варьируется в зависимости от региона и специалиста. Модели, обученные в одной предметной области или на данных общего назначения, нельзя использовать в других областях, потому что это приведёт к низкой точности и повышенной погрешности распознавания слов/действий. Из-за этого сложно распределять затраты на разработку между разными проектами/предметными областями.