Все типы данных в машинном обучении делят на два вида: качественные и количественные. Качественные — данные, которые представляют собой категориальные переменные или факторы. Такие данные не могут быть выражены в виде чисел. Вместо этого они указывают на принадлежность к определенным категориям или классам. Например, это пол человека: мужской или женский, этническая принадлежность, оценки в буквенном выражении, марка товара: Samsung, Apple, Huawei.
Для использования качественных данных в машинном обучении необходимо преобразовать их в числовой формат. Например, если у нас есть качественная переменная «тип автомобиля» с возможными значениями «седан», «хэтчбек» и «внедорожник», мы можем применить метод кодирования one-hot encoding. Для этого создаем новые бинарные переменные («седан», «хэтчбек» и «внедорожник») и присваиваем им значения 0 или 1 в зависимости от наличия или отсутствия соответствующего типа автомобиля.
Примеры использования качественных данных
В задачах прогнозирования спроса или рекомендации товаров на основе интересов пользователя. В этом случае качественными данными будет категория товара: «одежда», «электроника», «косметика».
В задачах, связанных с анализом данных о здоровье. Например, для прогнозирования вероятности заболевания качественной переменной может быть пол человека.
При анализе данных о населении такими переменными будет раса или этническая принадлежность.
В исследованиях туристического потока интересует родная страна путешественника. Например, чтобы понять, сколько россиян в 2023 году отдохнули на курортах Краснодарского края.
При исследовании общей удовлетворенности клиентов на основании отзывов собираются оценки «очень доволен», «удовлетворительно», «неудовлетворительно».
Как собирают качественные данные?
Наблюдение и сбор данных в реальном времени. Например, для обучения беспилотного транспорта берут данные камер и других датчиков, установленных на автомобиле.
Интервью и опросы. Так собирают информацию о предпочтениях пользователей, мнениях о товарах или услугах.
Социальные сети, онлайн-платформы. Здесь методом парсинга и веб-скрапинга собирают и сортируют сообщения, комментарии по интересующему вопросу.
Краудсорсинг и платформы с открытым доступом. На ресурсах Toloka, OneForma можно поставить участникам задачу по сбору данных.
Из открытых источников. По техническому заданию специалисты отбирают необходимые данные для формирования датасета.
Синтетический рендеринг. Если реальных данных недостаточно или собирать их слишком дорого, они создаются искусственно.
При сборе данных в Training Data сначала определяются цели и задачи проекта. Например, классификация, регрессия, обнаружение аномалий. Далее разрабатывается план сбора: источники, способы сбора, объемы, форматы данных.
Собранные данные могут содержать ошибки, пропуски и другие проблемы. Поэтому наши эксперты проверяют их вручную, стандартизируют и нормализуют. Следующий этап — разметка данных — может выполняться полностью вручную или в полуавтоматическом режиме, с использованием алгоритмов и руками специалистов.
Финальный этап — проверка качества данных, чтобы убедиться, что они соответствуют заданным стандартам. Далее датасет отдается заказчику. Данные могут быть обновлены или дополнены по мере необходимости для поддержки актуальных требований и изменений в задачах машинного обучения.
В чем преимущества качественных данных?
Качественные данные — широкий термин, к которому относятся практические любые типы данных, кроме числовых. Другими словами, это тексты, изображения, аудио- и видеозаписи. Поэтому они являются важной частью любого датасета ML:
повышают точность работы модели, предоставляя для нее дополнительный контекст;
сокращают объем обучающего датасета;
предотвращают «переобучение» — ситуацию, когда модель ИИ становится слишком специализированной на конкретных данных и допускает ошибки на новых.
Качественные данные гораздо легче «понять», чем количественные. Они идеальны для систем ИИ, в том числе алгоритмов компьютерного зрения и распознавания речи.
Например, представим ситуацию, в которой требуется определить, является ли изображение на фотографии солнечным или облачным. Это качественный аспект, который сложно измерить в цифрах. Алгоритмы компьютерного зрения могут быть обучены на датасете фотографий солнечных и облачных дней, чтобы «понять» различия и правильно классифицировать новые изображения.
Еще одно ключевое преимущество этого типа данных заключается в том, что часто их дешевле собрать, чем количественные данные. Например, можно использовать открытые онлайн-источники.
Поскольку наборы качественных данных просты для понимания, их можно использовать несколько раз в различных приложениях с небольшими изменениями.
Типы качественных данных:
Категориальные данные. Это качественные переменные, которые имеют конечное число категорий. Например, типы животных (кошка, собака, птица), цвета (красный, зеленый, синий).
Бинарные данные. Отдельно выделяемый тип категориальных данных, который может принимать только два значения, например «да» и «нет», «мужской» или «женский».
Порядковые данные. Имеют определенный порядок или ранжирование. Например, рейтинги отзывов: плохой, средний, хороший, степени тяжести болезни: легкая, средняя, тяжелая.
Множественный выбор. Вариант, когда пользователь может выбрать несколько значений. Например, любимый фрукт или количество языков, которыми владеет человек.
Примеры качественных данных
Самый простой пример — описание человека, животного или предмета. Например, у мужчины голубые глаза и черные волосы. Или: у персидского кота длинная серая шерсть. Апельсин — круглый фрукт оранжевого цвета. Алгоритм вычленит основные признаки и будет учитывать их при решении реальных задач.
К качественным данным относится информация, полученная из опросов и фокус-групп. Это ответы на вопросы «Сколько вам лет?», «Что вам больше всего понравилось на конференции?». А также результаты наблюдений, исследований и многое другое.