Label Studio — популярный инструмент для разметки данных с открытым исходным кодом (open source). Поддерживает различные типы аннотаций, легко настраивается с помощью Labeling Config — более 50 шаблонов аннотирования, которые можно изменять под задачу, создать собственный UI.
Label Studio в трех словах:
Просто. Здесь нет сложных настроек, инструмент легко интегрируется в конвейеры машинного обучения (machine learning).
Быстро. Для запуска интерфейса под ваш проект достаточно 10 минут. Переключение между разными типами разметки данных происходит в одном окне.
Удобно. Интегрируется со всем множеством фреймворков и моделей машинного обучения.
Веб-приложение запускается простой командой в Python:
pip install label-studio
label-studio start my_project --init
После этого оно откроется в вашем браузере. Осталось настроить, что и как вы будете размечать. Сразу после установки Label Studio можно работать с изображениями, текстами, аудио, документами HTML. Кроме того, платформа поддерживает различные типы задач по разметке данных: классификация, сегментация, тегирование, регрессия и т. д.
Аудио. Классификация записей по категориям, сегментация по спикерам, распознавание эмоций, транскрибация.
Видео. Присвоение категории, распознавание и разметка объектов в кадре, вспомогательная маркировка.
Текст. Извлечение именованных сущностей, анализ и определение тональности текста, классификация по темам.
Временные ряды. Распознавание событий на графиках, сегментация в соответствии с задачей, распределение по категориям.
Мультидоменные приложения (Multi-Domain Applications). Например, можно одновременно расшифровывать запись звонка в колл-центр и обрабатывать ее как текст.
Где применяется Label Studio?
Практически во всех отраслях, где применяются алгоритмы машинного обучения. Например, при обработке естественного языка — для разметки комментариев на сайтах или твитов при определении тональности текста. С помощью платформы можно подготовить датасет для задач компьютерного зрения: для обучения алгоритмов распознавать объекты, сегментировать изображения и идентифицировать личность человека по лицу. Кроме того, инструмент используется для аннотирования медицинских изображений, разметки данных финансовых транзакций, рекламного контента и другой информации.
Чем Label Studio хорош для машинного обучения?
Ускоряет процесс разметки данных благодаря автоматизации общих задач. Например, при подключении фреймворка машинного обучения через SDK можно запустить автоматическую маркировку неразмеченных данных. В зависимости от задачи это сокращает время обработки на 20–50 %.
Повышает точность разметки. Label Studio позволяет использовать наборы меток и правила или инструкции для разметки данных. Например, вы можете создать правило, которое автоматически удаляет все ненужные символы из текста перед разметкой или подсвечивает ошибочную разметку и предупреждает разметчиков об ошибке.
Адаптируется под различные задачи и легко интегрируется с другими приложениями. Вы можете настраивать инструмент под свои цели и работать только в нем, без переключения на другие.
Поддерживает возможность совместной работы. Несколько пользователей могут работать над проектом, а затем их результаты можно объединить.
Это один из многих инструментов, который мы в TrainingData используем при подготовке датасетов. Окончательный выбор зависит от конкретной задачи, целей и особенностей проекта.