TRAINING DATA

6 трендов в разметке данных в 2024 году

Роман Куцев
Обучение нейронных сетей — это сложная задача, которая состоит из многих этапов, но одним из важнейших является именно разметка данных, которая используются для обучения алгоритмов. Без данных существование нейросетей было бы невозможно.

Разметка данных позволяет AI обучиться распознавать закономерности или научиться делать точные прогнозы для создания работающих моделей. Согласно исследованию Grand View Research, к 2028 году мировой рынок аннотации данных должен достигнуть стоимости 8,22 миллиарда долларов. Но уже сейчас разметка данных используется в совершенно разных индустриях, а применение новых технологий в аннотации позволяет компаниям получить преимущество перед конкурентами.

Как разметка данных помогла компаниям: от тяжелой промышленности и агрокультуры до ритейла и финансов? Читайте самые интересные кейсы Training Data здесь: https://trainingdata.ru/data-market


Но какие тенденции мы можем отследить в этой индустрии? От генеративного контента до методов автоматизации — мы расскажем обо всех трендах, которые нас ждут 2024 году.

Генеративный AI
Становится очевидно, что в ближайшем будущем больше и больше данных будет генерироваться не людьми, а AI. В 2024 году мы ожидаем бум на генерацию изображений, видео и текста, что повлияет и на разметку: это заметно сократит объем ручной работы по аннотированию обширных наборов данных.

Можно понять, что в будущем будут преобладать синтетические данные. Они активно используются уже сейчас, когда реальные данные трудно собрать или сбор стоит очень дорого. Но пока что рендеринг не всегда может использоваться в этой сфере, так как существуют очевидные различия между реальными и синтетическими данными. Однако с каждым годом они будут все меньше.

Интересным кейсом использования синтетических данных может служить NVIDIA, один из крупнейших разработчиков графических процессоров. Компания использует рендеринг для обучения модели, для чего они задействуют движок, который очень сильно напоминает реальность и генерирует данные для обучения нейронной сети. Такой же объем разметки вручную обошелся бы в миллиарды долларов, но вместо этого компания бесплатно рендерит данные в неограниченных количествах.
Автоматизация разметки
Одна из очевидных тенденций ближайших лет - это автоматизация разметки, которая позволяет ускорить работу разметчиков в 5-10 раз.

Среди трендов в автоматизации данных можно выделить метод активного обучения, при котором размечаются только данные, полезные для модели, и pre-labeling, когда разметчики обрабатываются данные не с нуля, а только корректируют предсказания нейронной сети.

Также популярность набирает метод Pseudo Labeling, при котором модель обучают на размеченных данных, после чего делаются предсказания на неразмеченные данные. После размеченные данные объединяются с предразметкой, и модель обучают на этих данных.

Все активнее используется интерактивная сегментация. Этот метод позволяет сэкономить время: в этом случае исполнителям нужно не выделять весь объект по контурам, а только кликать на точки, что позволяет увеличить скорость разметки до 40%.

Также все больше используется концепция Human In The Loop. При таком подходе ML выполняет большинство работы, а люди размечают только сложные случаи. Этот метод позволяет достичь точности 99,9%.

Постоянное повышение квалификации разметчиков

Однако из-за автоматизации задачи разметчика становятся все сложнее, а для эффективной работы в аннотации требуется больше специальных знаний. Так что следующим трендом становится постоянное повышение квалификации исполнителей.

В связи с этим сейчас появляются курсы и школы, где обучают аннотации данных. К примеру, в Training Data мы организовали Академию разметчиков, где обучаем, как оптимально пользоваться инструментами и эффективно справляться с задачами.

Валидация вместе разметки
В ближайшие годы функция человека в разметке будет все больше сводиться к роли валидатора-эксперта, который будет лишь проверять корректность аннотации.

Примером того, как этот тренд реализуется уже сейчас, может служить кейс создания датасета SA-1B для обучения модели Segment Anything (SAM). Для обучения SAM было размечено 1.1 млрд масок, собранных из 11 миллионов изображений.

Можно обратить внимание на интересный пункт в обучении этой модели: для решения задачи вручную разметили 100 тысяч картинок, обучили нейронную сеть, а после поправили разметку за нейросетью. На основной объем данных был сделан prediction и отфильтрованы маски, которые были корректно размечены. Привычной нам разметки с нуля там был лишь небольшой процент, остальная часть работы была выполнена с помощью фильтрации или исправления разметчиками.

Необходимость узкой специализации
Появляется все больше областей, где требуются квалифицированные специалисты с образованием и конкретной специализацией: дерматологи, юристы или лингвисты.

К примеру, эта тенденция прослеживается в Chat GPT: для решения существующих проблем требуется опытные IT специалисты, Middle и Senior, которые будут обучать LLM, так как разметчики без квалификации не могут провалидировать ответы и найти ошибки.

Дообучение базисной LLM модели
Одним из последних трендов в разметке является файтюнинг LLM, при котором базисная модель доучиваться или переучиваться, адаптируясь под разные бизнес-процессы и области применения.

Поэтому уже сейчас мы можем предвидеть, что базисную модель будут стараться файтюнить под разные бизнес-задачи, для чего понадобятся обучающие данные.

Какие трудности могут возникнуть в сфере разметки данных в 2024 году?
Сейчас мы наблюдаем захватывающее время для индустрии разметки данных. Компании, которые адаптируются к изменениям, могут получить конкурентное преимущество. Однако с развитием рынка разметки данных появляются и новые вызовы.

Конфиденциальность данных
В последние годы растет осознание важности конфиденциальности данных и спрос на безопасное сотрудничество с применением NDA.

AI bias
Решение проблем с “необъективностью” или “предвзятостью” (AI bias) в разметке также остается важной задачей.

Так, если у вас есть набор данных для обучения системы рекомендаций в розничной торговле и он включает в себя больше всего покупательских привычек определенной демографической группы, это может привести к смещению модели в пользу этой группы и, как следствие, предвзятым рекомендациям. Такая модель будет игнорировать предпочтения других сегментов клиентов.

Именно поэтому в сборе и разметке данных особенно важно быть внимательным к потенциальным “предвзятостям”.

Легальные ограничения
Также важно учитывать изменения в легальной сфере: сейчас в России планируют вносить поправки в закон о персональных данных, что будет подразумевать более жесткое регулирование рынка данных.

Также еще с мая в Госдуме обсуждается необходимость маркировать контент, созданный нейросетью, с помощью специальных графических знаков.

Хотите использовать нейросети максимально эффективно для вашего бизнеса? Напишите нам сейчас, и мы поможем достичь ваших целей в 2024 году