Многие приложения с искусственным интеллектом, начиная от чат-ботов и голосовых помощников типа Алисы и заканчивая системами безопасности с возможностью распознавания речи, автомобильными навигаторами, являются продуктами машинного обучения. И эти дополнительные возможности смартфонов и компьютеров, в свою очередь, возможны только благодаря разметке аудио.
Для разметки используются аудиозаписи в формате MP3, FLAC, AAC и т. д. Операция выполняется специалистами вручную и с помощью специального программного обеспечения. Далее данные передаются в обучаемую модель NLP — с возможностью интерпретировать, понимать и анализировать речь. Метаданные могут включать информацию о дате и времени записи, дикторе, содержании и любую другую.
Где применяется разметка аудио?
Цели могут быть различны — например, классификация звуковых файлов по автору, продолжительности, жанру. Или быстрый поиск и переход к нужной части в интервью, обучающих материалах, создание расшифровок или субтитров для видео. Но самое важное — разработка и обучение систем распознавания речи.
По данным исследования Industry Research Biz, объем мирового рынка услуг NLP в 2021 году оценивался в 2114,74 млн долларов США, а к 2027 году вырастет до 4358,76 млн долларов США. Аналитическая компания Analytics Vidhya называет NLP одним из актуальных трендов в области машинного обучения в 2023 году.
Статистики именно по разметке аудио в России нет. АНО «Цифровая экономика» оценивает российский рынок ИИ в 2022 году в 635 млн руб. Основной игрок — Сбербанк, по заявлению аналитиков компании, за 4 года использования ИИ финансовый эффект увеличился в 5 раз, с 45 млрд руб. в 2019 году до 230+ млрд руб. в 2022 году. Это огромный рынок с точки зрения стоимости. Следовательно, разметка аудио — одна из основных задач сейчас.
Как это применяется в реальности:
- Голосовые помощники повышают качество жизни пожилых людей и лиц с ограниченными возможностями. Например, тех, кто по каким-то причинам не может печатать.
- Чат-боты отвечают мгновенно, в любое время суток — если у вашей компании будет чат-бот с ИИ и навыком распознавания речи, довольных клиентов станет больше.
- Способность ИИ определить эмоции речи — радость, гнев, удивление, разочарование и т. д. — автоматизирует процесс контроля качества обслуживания в колл-центрах.
- Классификация мельчайших деталей речи — специалисты по разметке данных сделают метки для распознавания интонации, диалектов, семантики, других нюансов, например, для изучения иностранного языка.
- Преобразование речи в текст и текста в речь — используется в самых разных сферах, от диктовки путевых заметок до прослушивания учебников.
Типы разметки аудио
Тип разметки зависит от цели модели машинного обучения. Выделяют пять основных:
- Определение и классификация голоса. Машину учат различать голоса на датасетах с записями людей разного возраста и пола.
- Речевая маркировка. Для этого специалист по аннотации данных помечает посторонние звуки и речь. Так, даже если человек говорит в шумном месте, голосовой бот опознает речь и поймет, что от него требуется.
- Музыкальная классификация. В этом случае размечаются жанры и/или инструменты. Метод используется в музыкальных библиотеках, для формирования рекомендаций на основании интересов пользователя.
- Определение языка и диалекта. Например, для мультиязычных голосовых помощников и чат-ботов. Встроенные алгоритмы обработки естественного языка анализируют человеческую речь до мельчайших деталей: семантика, диалект, контекст, интонация, после чего ИИ переходит на нужный язык и даже может подстроиться под особенности речи. Например, будет использовать сленговые словечки при разговоре с тинейджером. Разумеется, для обучения нужна соответствующая разметка аудио.
- Транскрипция речи в текст и обратно. В этом случае разметчик данных помечает не только слова, но и звуки, а также знаки пунктуации.
Какие технологии применяются?
Для аннотации аудиоданных можно использовать ПО с открытым исходным кодом, например ELAN, и настроить его под нужды вашего бизнеса. Этот инструмент бесплатный, но работа выполняется вручную. Есть автоматические платформы, например LIUM SpkDiarization — позволяет идентифицировать разных дикторов и делит входной аудиофайл на сегменты по личности говорящего.
Кроме того, вы можете:
- Разработать собственное программное обеспечение для разметки аудио. Плюс — безопасность данных. Минус — долго и дорого.
- Передать задачу на платформы краудсорсинга (Toloka, OneForma и т. д.). Плюс — самый экономичный вариант. Минус — аннотацию выполняют разные люди, возможны неточности и различия в формате данных.
- Обратиться к компании, специализирующейся на сборе и разметке данных. Плюс — крупные подрядчики, такие как Training Data, имеют больше возможностей и решений для модерации и разметки чувствительного контента, чем частные исполнители. Минус — вам понадобится проджект-менеджер, который будет делать выгрузки данных, составлять ТЗ, но это тоже можно включить в обязанности подрядчика.
Готовы ответить на все вопросы по разметке аудио по телефону или в телеграм. Оставьте заявку, пришлем тестовый датасет бесплатно.