Машинное обучение и разметка данных | Статья от экспертов компании «Training Data»

Машинное обучение (machine learning, ML) дает компьютерам интеллект, близкий к человеческому. Искусственный разум учится выстраивать логические цепочки и делать выводы самостоятельно, а не по инструкции. Упрощенно, это эволюция от калькулятора к мозгу. Если раньше машина могла решить задачу строго по заданному условию, то сейчас ей дают пример и просят повторить на новых данных. И чем больше развиваются и совершенствуются ML‑подходы, тем лучше и точнее работает ИИ.

Как связаны разметка данных и машинное обучение?

Разметка (аннотация) данных — процесс проставления тегов, меток, чтобы показать компьютеру, чему вы его учите и какой результат хотите получить. После развертывания модели она должна самостоятельно распознавать данные и принимать решение или предпринимать какие-то действия.

Например, для системы распознавания лиц мало загрузить большой набор фотографий людей разного возраста, пола и национальности. ИИ не видит разницы между мужчиной и женщиной, стариком и ребенком. Для этого каждый признак на фотографии подписывают. Кроме того, ИИ учат отличать грим, маски, распечатанные фото от живого лица.

Разметка данных используется в контролируемом обучении и в гибридных (частично контролируемых) моделях машинного обучения.

Важность разметки данных

Качество данных на входе определяет, насколько хорошо будет работать модель машинного обучения. А ключевую роль в этом играет разметка.

Все данные вокруг нас можно условно разделить на две категории:

Структурированные.

Неструктурированные.

У структурированных есть четкая структура, которую видит и понимает компьютер. Можно создать алгоритм по их сбору, разложить на столбцы и строки и передать для анализа. Это, например, статистика запросов в Яндексе, данные о покупках в интернет-магазине, банковские транзакции и многое другое.

У неструктурированных структуры и шаблонов нет. Человек умеет их опознавать и классифицировать, компьютер нужно обучать. Практически все, что окружает нас, — неструктурированные данные. Например, переписка в мессенджерах, записи телефонных разговоров, посты в соцсетях, видеоролики и многое другое. В них содержится огромный объем информации, ценной для бизнеса, и организации стараются отслеживать и использовать ее.

Предположим, компания по доставке воды хочет улучшить обслуживание клиентов. В поисках обратной связи она начинает отслеживать все упоминания бренда в соцсетях. Если делать это вручную, на чтение и анализ каждого сообщения уйдет много времени. Алгоритмы нейросетей выдают информацию в реальном времени, умеют определять тональность сообщения (негативная, позитивная, нейтральная), выявляют тренды и предоставляют данные о конкурентах. И все это прямо сейчас.

Разметка особенно важна при анализе большого объема неструктурированных данных: текстов, изображений, видео и аудио.

Сложности при работе с машинным обучением

Модели машинного обучения обрабатывают данные и выдают результат гораздо быстрее, чем традиционные методы. Тем не менее, это происходит не по взмаху волшебной палочки. Процесс сложный, со своими проблемами. Приведем пять самых распространенных и способы их решить:

1. Решение не соответствует задаче.

Прежде чем вы выберете, какую платформу ИИ использовать, нужен четкий список процессов для автоматизации. Лучше всего передавать компьютеру задачи, которые выполняются вручную каждый день. Это, например, умный дом — каждое утро раздвигать шторы и включать чайник, каждый вечер выключать свет. Или оценка рисков и прогнозирование рыночных трендов в финансах. А вот в области NLP (обработка естественного языка) машина не может превзойти человека.

2. Нет качественных данных.

На самом деле это проблема № 1. Разработчики ИИ бесконечно работают над усовершенствованием алгоритмов, но даже при идеально отлаженной модели данные — вот их главный учебник. Если обучать ребенка по сборнику анекдотов, вы не получите академика. Зашумленные данные, неполные датасеты, полудубликаты, ошибки и неточности в разметке — главные враги машинного обучения. Решение: тщательный сбор, анализ и проверка до передачи информации компьютеру.

3. Устаревшее оборудование.

Машинное обучение требует высоких мощностей, чтобы быстро обрабатывать большие объемы данных. Это не означает, что вам нужны огромные системы и самое передовое оборудование на рынке. Например, Netflix выплатила миллион долларов команде BellKor’s Pragmatic Chaos, которая выиграла конкурс компании — смогла улучшить алгоритм RMSE (разница между прогнозируемой и фактической оценкой пользователем фильма) на 10 %. Но от внедрения пришлось отказаться: повышение точности не оправдывало инженерных усилий, необходимых для запуска нового алгоритма. Ваша инфраструктура должна справляться с задачами машинного обучения без перегрузок.

4. Реализация.

Когда вы получили новый инструмент, его нужно внедрить в привычные бизнес-процессы. Это сложная задача, которую невозможно решить без связи с бизнес-метриками предприятия. Для успеха нужно правильно определить приоритеты, подобрать команду data scientist-ов, собрать и разметить данные, обучить модель и выбрать метод интеграции с существующей структурой организации. Если все участники работают сообща, проект будет внедрен в срок и принесет реальный профит.

5. Нехватка квалифицированных сотрудников.

Машинное обучение — все еще новая технология. Поэтому действительно хороших специалистов мало. TrainingData — компания № 1 по сбору и разметке данных в России. С нами работают более 2500 разметчиков, каждый является экспертом в своей сфере. Закрываем 90 % проектов раньше срока.

Решение проблем с большими данными с помощью машинного обучения

Большие данные (Big Data) — датасеты очень крупных размеров, содержат сырые неструктурированные данные и постоянно обновляются. Специалисты по Big Data проверяют их, преобразуют в нужный формат, очищают и моделируют.

Основные проблемы с ними называют 5V:

Volume — объем. Количество данных действительно огромно.
Velocity — скорость. Поисковые запросы, социальные сети и пр. генерируют данные каждую секунду.
Variety — разнообразие. Информация поступает в форме текстов, чисел, баз данных, видео и т. д.
Veracity — достоверность. Для работы нужны только точные, реальные данные. Бессмысленная информация называется шумом, ее нужно убрать из датасета.
Value — ценность. Это возможность превратить Big Data в эффективные бизнес-решения.

Алгоритмы машинного обучения ускоряют процессы сегментации, анализа и моделирования данных. Это бесконечный цикл: созданные модели совершенствуются самостоятельно по мере поступления новой информации. Например, можно автоматизировать работу с клиентами и создать связь между всеми каналами. Или точно выделить потребительские паттерны целевой аудитории, понять ее симпатии и антипатии и предложить текст или видео, точно попадающее в болевые точки. Обученные на больших данных модели способны даже предсказать реакцию покупателей на новинку: понравится им продукт или они его проигнорируют. И такой прогноз можно сделать в самом начале разработки, чтобы при необходимости вовремя поменять дизайн или расширить функционал.

Разметка данных в машинном обучении

Как связаны разметка данных и машинное обучение?

Важность разметки данных

Сложности при работе с машинным обучением

Решение проблем с большими данными с помощью машинного обучения