Все типы данных в машинном обучении делят на два вида: качественные и количественные. Качественные — данные, которые представляют собой категориальные переменные или факторы. Такие данные не могут быть выражены в виде чисел. Вместо этого они указывают на принадлежность к определенным категориям или классам. Например, это пол человека: мужской или женский, этническая принадлежность, оценки в буквенном выражении, марка товара: Samsung, Apple, Huawei.
Для использования качественных данных в машинном обучении необходимо преобразовать их в числовой формат. Например, если у нас есть качественная переменная «тип автомобиля» с возможными значениями «седан», «хэтчбек» и «внедорожник», мы можем применить метод кодирования one-hot encoding. Для этого создаем новые бинарные переменные («седан», «хэтчбек» и «внедорожник») и присваиваем им значения 0 или 1 в зависимости от наличия или отсутствия соответствующего типа автомобиля.
Для использования качественных данных в машинном обучении необходимо преобразовать их в числовой формат. Например, если у нас есть качественная переменная «тип автомобиля» с возможными значениями «седан», «хэтчбек» и «внедорожник», мы можем применить метод кодирования one-hot encoding. Для этого создаем новые бинарные переменные («седан», «хэтчбек» и «внедорожник») и присваиваем им значения 0 или 1 в зависимости от наличия или отсутствия соответствующего типа автомобиля.
Примеры использования качественных данных
- В задачах прогнозирования спроса или рекомендации товаров на основе интересов пользователя. В этом случае качественными данными будет категория товара: «одежда», «электроника», «косметика».
- В задачах, связанных с анализом данных о здоровье. Например, для прогнозирования вероятности заболевания качественной переменной может быть пол человека.
- При анализе данных о населении такими переменными будет раса или этническая принадлежность.
- В исследованиях туристического потока интересует родная страна путешественника. Например, чтобы понять, сколько россиян в 2023 году отдохнули на курортах Краснодарского края.
- При исследовании общей удовлетворенности клиентов на основании отзывов собираются оценки «очень доволен», «удовлетворительно», «неудовлетворительно».
Как собирают качественные данные?
- Наблюдение и сбор данных в реальном времени. Например, для обучения беспилотного транспорта берут данные камер и других датчиков, установленных на автомобиле.
- Интервью и опросы. Так собирают информацию о предпочтениях пользователей, мнениях о товарах или услугах.
- Социальные сети, онлайн-платформы. Здесь методом парсинга и веб-скрапинга собирают и сортируют сообщения, комментарии по интересующему вопросу.
- Краудсорсинг и платформы с открытым доступом. На ресурсах Toloka, OneForma можно поставить участникам задачу по сбору данных.
- Из открытых источников. По техническому заданию специалисты отбирают необходимые данные для формирования датасета.
- Синтетический рендеринг. Если реальных данных недостаточно или собирать их слишком дорого, они создаются искусственно.
При сборе данных в Training Data сначала определяются цели и задачи проекта. Например, классификация, регрессия, обнаружение аномалий. Далее разрабатывается план сбора: источники, способы сбора, объемы, форматы данных.
Собранные данные могут содержать ошибки, пропуски и другие проблемы. Поэтому наши эксперты проверяют их вручную, стандартизируют и нормализуют. Следующий этап — разметка данных — может выполняться полностью вручную или в полуавтоматическом режиме, с использованием алгоритмов и руками специалистов.
Финальный этап — проверка качества данных, чтобы убедиться, что они соответствуют заданным стандартам. Далее датасет отдается заказчику. Данные могут быть обновлены или дополнены по мере необходимости для поддержки актуальных требований и изменений в задачах машинного обучения.
Собранные данные могут содержать ошибки, пропуски и другие проблемы. Поэтому наши эксперты проверяют их вручную, стандартизируют и нормализуют. Следующий этап — разметка данных — может выполняться полностью вручную или в полуавтоматическом режиме, с использованием алгоритмов и руками специалистов.
Финальный этап — проверка качества данных, чтобы убедиться, что они соответствуют заданным стандартам. Далее датасет отдается заказчику. Данные могут быть обновлены или дополнены по мере необходимости для поддержки актуальных требований и изменений в задачах машинного обучения.
В чем преимущества качественных данных?
Качественные данные — широкий термин, к которому относятся практические любые типы данных, кроме числовых. Другими словами, это тексты, изображения, аудио- и видеозаписи. Поэтому они являются важной частью любого датасета ML:
- повышают точность работы модели, предоставляя для нее дополнительный контекст;
- сокращают объем обучающего датасета;
- предотвращают «переобучение» — ситуацию, когда модель ИИ становится слишком специализированной на конкретных данных и допускает ошибки на новых.
Качественные данные гораздо легче «понять», чем количественные. Они идеальны для систем ИИ, в том числе алгоритмов компьютерного зрения и распознавания речи.
Например, представим ситуацию, в которой требуется определить, является ли изображение на фотографии солнечным или облачным. Это качественный аспект, который сложно измерить в цифрах. Алгоритмы компьютерного зрения могут быть обучены на датасете фотографий солнечных и облачных дней, чтобы «понять» различия и правильно классифицировать новые изображения.
Еще одно ключевое преимущество этого типа данных заключается в том, что часто их дешевле собрать, чем количественные данные. Например, можно использовать открытые онлайн-источники.
Поскольку наборы качественных данных просты для понимания, их можно использовать несколько раз в различных приложениях с небольшими изменениями.
Типы качественных данных:
- Категориальные данные. Это качественные переменные, которые имеют конечное число категорий. Например, типы животных (кошка, собака, птица), цвета (красный, зеленый, синий).
- Бинарные данные. Отдельно выделяемый тип категориальных данных, который может принимать только два значения, например «да» и «нет», «мужской» или «женский».
- Порядковые данные. Имеют определенный порядок или ранжирование. Например, рейтинги отзывов: плохой, средний, хороший, степени тяжести болезни: легкая, средняя, тяжелая.
- Множественный выбор. Вариант, когда пользователь может выбрать несколько значений. Например, любимый фрукт или количество языков, которыми владеет человек.
Примеры качественных данных
Самый простой пример — описание человека, животного или предмета. Например, у мужчины голубые глаза и черные волосы. Или: у персидского кота длинная серая шерсть. Апельсин — круглый фрукт оранжевого цвета. Алгоритм вычленит основные признаки и будет учитывать их при решении реальных задач.
К качественным данным относится информация, полученная из опросов и фокус-групп. Это ответы на вопросы «Сколько вам лет?», «Что вам больше всего понравилось на конференции?». А также результаты наблюдений, исследований и многое другое.