Проекты машинного обучения и глубокого обучения стали сегодня мейнстримом.
Однако несмотря на огромные трудозатраты, только некоторым компаниям удалось превратить свои модели в продукты.
Согласно данным Gartner, для более чем 85% ИИ-проектов есть риск обеспечения плохих результатов из-за погрешностей в данных, алгоритмах или заблуждений разработчиков.
В частности, слабым звеном в ML/DL является качество данных, поскольку успех проектов сильно зависит от объёмов высококачественных размеченных данных, которые способна регулярно создавать команда.
Scale AI одним из первых воспользовался возможностью совершенствования и автоматизации управления, аннотирования и интегрирования данных.
Но Scale — не единственный мощный инструмент в области разметки данных для обучения ИИ.
Альтернативы Scale AI
Основанный четыре года назад Александром Вонгом стартап Scale стремительно набрал популярность в сервисах разметки данных из-за отсутствия хороших альтернатив.
Scale, сейчас оцениваемый в 3,5 миллиарда долларов, является одной из первых платформ, предоставляющих услуги увеличения объёма данных в формате сочетания человеческого труда и умной автоматизации (при помощи машинного обучения и статистических проверок).
Услугами этой платформы пользуются такие клиенты, как Pinterest, Lyft и SAP, она является надёжным выбором для обработки множества данных обучения.
Имеет ли она какие-то недостатки?
Это дорогое решение — сумма минимального контракта начинается от 50 тысяч долларов.
Но не только цены заставляют команды дата-саентистов искать альтернативы Scale AI.
Платформа обеспечивает высокоточные услуги разметки данных, но обладает ограниченными возможностями управления данными и совместной работы.
Кроме того, Scale AI имеет небольшой уклон в сторону обработки данных для беспилотного вождения, поэтому может обеспечивать менее качественные результаты для таких сфер, как NLP, обработка медицинских изображений и распознавание лиц.
Следовательно, стоит рассмотреть возможность использования следующих альтернатив Scale AI.
V7
V7 — это тоже платформа разметки данных для ИИ с тремя ключевыми особенностями:
Функции управления набором данных — репозиторий с удобным UX для упорядочивания, управления и совместной работы в проектах по подготовке данных. Возможно хранение изображений и видео в различных форматах (в том числе и редких типах наподобие SVS и DICOM), отслеживание прогресса аннотирования, анализ состава набора данных и изменение его баланса, а также отслеживание всех версий наборов данных для модели при помощи интегрированной системы контроля версий.
Разметка и аннотирование данных при помощи ИИ — V7 предоставляет самообслуживающиеся сервисы разметки данных, дополненные инструментом Auto-Annotate и операциями для контроля человеком. Во-первых, вы можете парсить свои данные при помощи полностью автоматического инструмента разметки с сегментацией на основе нейронной сети (не требующей предварительной настройки или обучения).
Затем можно направить все данные для контроля человеком и получить подробную статистику о скорости и качестве работы отдельных аннотаторов. Для дополнительного повышения качества данных можно оставлять комментарии и примечания аннотаторам в реальном времени.
Вот короткое видео, демонстрирующее процесс работы разметки V7 на основе модели:
Платформа MLOps — кроме того, V7 также обеспечивает опорную инфраструктуру для хостинга и проведения экспериментов. Можно использовать механизм управления GPU V7 для автоматического конфигурирования выделения ресурсов и масштабирования для обучения новых моделей.
Также можно использовать предварительно созданные конвейеры обучения для улучшения результатов обучения.
Если у вас получился хороший результат, то V7 предоставляет функции для упаковки и развёртывания новых моделей как REST API.
Цены на V7 начинаются с 150 долларов в месяц для неограниченного количества пользователей, благодаря чему сервисы разметки данных V7 оказываются гораздо дешевле, чем Scale AI.
SuperAnnotate
SuperAnnotate предоставляет комплексные услуги управления данными для коллективов, работающих с компьютерным зрением.
Платформа имеет привлекательный набор инструментов для разметки данных и создания простой автоматизации для конвейеров управления данными.
SuperAnnotate специализируется на семантической сегментации фотографий и видео на основе суперпикселей — техники сегментации изображений, разделяющей полное изображение на множество сегментов. Затем каждому суперпикселю назначается метка для ускорения и повышения точности аннотирования.
Благодаря этому можно автоматизировать некоторые часто встречающиеся задачи, например, распознавание объектов, распознавание эмоций, OCR и определение позы человека.
Также можно задействовать дополнительную рабочую силу с интегрированной торговой площадки для ускорения подготовки данных крупного проекта.
SuperAnonation не предоставляет функции управления наборами данных, однако позволяет использовать автоматизацию point-and-click для настройки обучения новой модели и задач повторного обучения.
Цены тоже очень доступны и начинаются от 62 долларов в месяц; имеется бесплатная пробная версия на 14 дней.
Labelbox
Labelbox предоставляет услуги разметки данных для проектов компьютерного зрения и NLP корпоративного уровня.
Платформа обеспечивает простую модульную структуру, которую запросто можно подогнать под уже существующие рабочие процессы.
Для добавления данных в Labelbox можно использовать API GraphQL и Python, а затем автоматизировать передачу данных в свою среду обучения.
Labelbox поддерживает различные сценарии разметки данных:
- Параллельная разметка, выполняемая внутренним коллективом компании и внешними командами при помощи различных редакторов.
- Разметка, выполняемая внутренними сотрудниками команды разметки данных под руководством.
- Разметка с помощью модели — использование Labelbox Prediction API, обученного на предыдущих прогнозах, для ускорения разметки нового пакета данных.
Ещё один удобный инструмент — это приоритизация очереди разметки данных через API; это инструмент для автоматического изменения приоритета самых важных данных для разметки.
Благодаря сочетанию всех этих функций корпорации могут значительно повысить скорость и точность аннотирования данных, а также сравнивать качество работы разных аннотаторов при помощи интегрированной аналитики и гистограмм.
Несмотря на качественные функции разметки данных Labelbox, ему недостаёт функций управления наборами данных. У пользователей есть простые функции хранения и упорядочивания для разметки наборов данных, но отсутствуют контроль версий и расширенные функции поиска.
В Labelbox есть бесплатный тариф для тестирования платформы (только для разметки изображений и видео), а цены для пользователей Pro и Enterprise определяются по запросу.
Стоимость услуг управляемой разметки данных начинается от 6 долларов за час разметки.
Dataloop
Кроме разметки данных, Dataloop предоставляет качественный набор инструментов для управления процессами обработки данных и создания (полу-)автоматических конвейеров развёртывания для новых моделей. Благодаря этому ваш отдел ML сможет выполнять итерации моделей быстрее и снижать риски развёртывания.
Dataloop поддерживает разметку фотографий и видео. Платформа предоставляет следующие инструменты автоматизации аннотирования:
- ИИ-помощник, автоматически преобразующий четыре точки в многоугольник со множеством вершин
- Функции разметки при помощи модели (схожие с функциями Labelbox)
Чтобы ещё больше ускорить разметку данных, можно также нанять дополнительный персонал в сети сотрудников Dataloop.
В целом набор инструментов Dataloop функционален, но мы выяснили, что Dataloop не обеспечивает интерполяцию в видео за пределами ограничивающих прямоугольников.
Цены Dataloop можно узнать только по запросу.
CVAT
Вы ограничены в средствах?
Тогда задумайтесь об использовании Computer Vision Annotation Tool (CVAT) — инструмента разметки данных в open source, разработанного компанией Intel.
CVAT довольно лаконичен, но обеспечивает хорошие результаты при аннотировании изображений и в частности видео. Он поддерживает интерполяцию ограничивающих прямоугольников и имеет интерполяцию многоугольников для видео. Но его производительность ниже, чем у V7. CVAT также предоставляет простые функции автоматического аннотирования, например, задание интерполяции между ключевыми кадрами.
Несмотря на свою надёжность, CVAT лучше подходит небольшим командам, потому что в нём отсутствуют инструменты руководства разметчиками, аналитики отслеживания качества работы и рабочих пространств для совместной работы.
CVAT бесплатен, но хостить его нужно самостоятельно. Счёт за AWS (если не применять строгие ограничения) может получиться больше, чем ежемесячная подписка за другую платформу разметки.
TL;DR: лучшие альтернативы Scale AI
- Лучшая для всех команд компьютерного зрения и MLOps: V7.
- Лучшая для компаний, занимающихся аутсорсингом бизнес-процессов (BPO) и для команд, работающих со спутниковыми снимками: SuperAnnotate.
- Лучшая для корпораций, которым требуется гибкий и быстрый доступ к услугам разметки данных с возможностью руководства: Labelbox.
- Лучшая для поставщиков BPO и команд машинного обучения с упором на задачи распознавания изображений: Dataloop.
- Лучшая для учёных, фанатов ML и небольших команд, желающих хостить платформу локально и не стремящихся к увеличению масштабов: CVAT.