Транскрибация: методы, программы и сервисы | Статья от специалистов компании Training Data

Транскрибация — процесс преобразования информации из аудио или видео в текст, который может быть прочитан человеком или обработан компьютером. Каждое слово распознается и переводится в текстовый формат. В контексте машинного обучения это важный этап предварительной обработки данных, например, когда модели нужно анализировать телефонные разговоры из call-центра.

На YouTube существует система автоматического распознавания речи в видеопотоке. Алгоритмы автоматически транскрибируют аудиодорожку, создают субтитры к роликам и позволяют поисковой системе сервиса индексировать каждое видео, чтобы пользователи могли найти его по ключевым словам.

Транскрибация превращает неструктурированные аудиоданные, например, запись разговора, в структурированные. После этого их могут «понимать» алгоритмы ИИ и машинного обучения, использовать для решения задач по распознаванию речи, анализу тональности и идентификации личности спикера.

Примерно до 2015 года транскрибация выполнялась людьми вручную. Специалист-транскрибатор слушал аудиозапись и вручную переводил ее в печатный текст. Модели автоматического распознавания речи (ASR) упростили расшифровку аудио и обучили ИИ вести диалоги. Если у вас дома стоит Яндекс.Станция или ее аналог, вы взаимодействуете с процессами ASR.

Виды

Ручная транскрибация. Человек прослушивает аудио или видео и печатает текст. При необходимости, например, если это закадровый перевод, сценарий, вписывает комментарии: пауза, интонация, звуковой эффект. Метод дает очень точный результат, но отнимает много времени. Например, чтобы расшифровать 1 час аудио, транскрибатору требуется 5–6 часов. Соответственно, стоит услуга дорого.
Автоматическая (ASR). Аудиоданные расшифровываются автоматически с помощью алгоритмов машинного обучения. За последние годы системы ASR добились значительного прогресса: например, DeepSpeech — модель глубокого обучения, разработанная на основе архитектуры нейронных сетей Convolutional Neural Network (CNN) и Recurrent Neural Network (RNN). Она дает отличные результаты «из коробки», постоянно самообучается на новых данных. В среднем на обработку 1 часа аудио уходит 25–40 минут. В десять раз быстрее, чем человек!

Методы транскрибации

Фонетическая — процесс преобразования звуков речи в символы для их более точного представления в текстовом виде. Применяется, например, при обучении голосовых помощников: Google Assistant, Siri от Apple. Помогает распознавать и интерпретировать различные выражения и акценты, чтобы дать более точные ответы на запросы пользователя. Используется также при анализе музыки: чтобы идентифицировать артикуляцию музыкальных звуков и выразительные особенности произведения.
Графематическая — запись слов так, как они пишутся буквами. Используется в автоматических переводчиках, в системах распознавании речи, приложениях для людей с нарушениями слуха с преобразованием речи в текст и т. д. Возможные проблемы с контекстом: многие слова пишутся одинаково, но имеют разное значение.
Лингвистическая — основана на лингвистическом анализе языка и его звуковой структуре. Этот метод транскрибации может быть полезен для анализа акцента и исследования языковых лингвистических особенностей. Например, чтобы исследовать, как меняются звуки в зависимости от особенностей произношения носителя.

В общем, графематическая транскрипция преобразует устную речь в текст побуквенно, без учета произношения. Фонетическая учитывает все детали произношения, включая фонетические особенности. Например, слово «bath» в русской транскрибации можно записать графематически как «бат», но фонетически оно будет выглядеть как [bæθ], чтобы учесть разные диалекты и помочь человеку, не знающему английского языка, правильно произнести слово.

В свою очередь, лингвистическая транскрибация также используется для записи произношения слова, но может быть более абстрактной, сконцентрированной на фонологических различиях языка, а не на конкретных звуках.

Чем полезна транскрибация?

Повышает доступность контента. Так, например, видео с субтитрами могут смотреть слабослышащие люди. Также субтитры помогают смотреть фильмы в оригинале или в шумной обстановке. Текстовые стенограммы аудиоконтента: подкастов, радиопрограмм, также помогают тем, кто не может прослушать информацию прямо сейчас, но хотел бы с ней ознакомиться.
Служит вспомогательным инструментом при обучении. Например, ИИ быстро переведет в текст записи лекций и семинаров. На печатной копии студент может делать пометки, оставлять комментарии.
Помогает в бизнесе. Транскрибации деловых встреч, созвонов или конференций можно раздавать сотрудникам для обсуждения, передавать отсутствующим.
Используется в медицине и здравоохранении. Расшифровка беседы с пациентом позволяет быстро найти нужное место в разговоре, еще раз оценить симптомы. Текстовая запись сеанса терапии у психолога используется, например, чтобы отследить прогресс.
Улучшает видимость контента в поисковых системах. Если добавить к видео и аудио транскрибацию, материал проще найти по ключевым словам, его позиции в поисковой выдаче поднимаются. Также транскрибация позволяет легко перепрофилировать контент, например, переделать ролик в пост в блоге.
Совершенствует «умные» устройства. Автоматическое распознавание речи используется в огромном количестве приборов, от Яндекс.Станции до медицинских устройств для людей с ограниченными возможностями, например, автоматизированные системы для управления инвалидным креслом с помощью голосовых команд, коммуникаторы для людей с афазией. Технология применяется и в робототехнике для создания роботов, которые двигаются, думают и говорят как люди.

Программы и сервисы

Вариантов много, один из них — Google Cloud Speech-to-Text API, транскрибирует речь в текст при помощи глубоких нейронных сетей. Обеспечивает высокую точность распознавания, поддерживает множество языков и форматов аудиофайлов. API можно интегрировать в мобильные приложения, умные устройства, системы наблюдения и т. д. Например, в телефонном автоответчике Cloud Speech-to-Text будет обрабатывать голосовые сообщения от клиентов и превращать их в текст. В больничном оборудовании технология поможет медперсоналу записывать диагнозы и схемы лечения в карту клиента голосом.

Еще один сервис — Amazon Transcribe, использует методы глубокого обучения, рекуррентные нейронные сети (RNNs). Выполняет не только транскрибацию, но также распознает и разделяет отрывки по спикерам. Например, вы пропустили важную конференцию. Приобрели аудиозапись, но без текста вы потратите много времени на прослушивание. Amazon Transcribe мог бы решить проблему: в него можно загрузить аудио и сервис автоматически переведет речь в текстовый формат. Расшифровку можно быстро пролистать, найти нужные куски по ключевым словам (если мы говорим об электронной версии) и сделать заметки, не теряя время на прослушивание всей записи.

Библиотека Kaldi с открытым исходным кодом использует методы глубокого обучения и статистических моделей для транскрибации аудиофайлов. Она применяется, например, в Amazon Alexa и Google Assistant для преобразования голосовых команд в текст, в программном обеспечении для расшифровки речи в реальном времени на телевидении.

Как транскрибация применяется в машинном обучении?

В первую очередь — в задачах распознавания речи, анализа тональности текста и при создании речевых ассистентов. Рассмотрим каждую подробнее.

Распознавание речи

В этом случае этап транскрибации может выступать как предварительная обработка данных, делает речь более структурированной и удобной для дальнейшего анализа. Применяется при создании субтитров в видео, построении системы распознавания речи в режиме реального времени. В транскрибированный текст можно вносить изменения вручную для повышения точности работы модели, например, если речь была невнятная или на записи много шумов.

Анализ тональности текста

Транскрибация переводит речь из интервью, роликов в соцсетях в текстовый формат. Далее текст анализируют алгоритмы машинного обучения, чтобы определить тональность и настроение автора. Например, такой метод может использоваться колл-центром, чтобы определить, с какими вопросами клиенты обращаются чаще всего. Основываясь на полученных данных, компания принимает решения: меняет скрипты операторов, улучшает обслуживание или изымает из продажи неудачные товары. Аналогично работает анализ комментариев в соцсетях. Транскрибация аудио- или видеозаписей, прямых эфиров дает возможность модели машинного обучения выявить настроения аудитории, например, чтобы оценить имидж бренда и эффективность рекламной кампании.

Создание речевых ассистентов

Так, например, в работе Яндекс.Станции транскрибация используется для распознавания голосовых команд пользователя. Алгоритм анализирует текст и выполняет команду: включает музыку, ставит будильник, ищет новости в сети. В результате пользователь получает нужную ему информацию без клавиатуры или сенсорного экрана.

Что такое транскрибация?