Классификация данных в машинном обучении — это процесс присвоения объектам различных категорий или классов на основе определенных признаков и шаблонов. Главная цель: создать модель, которая будет автоматически классифицировать новые или неразмеченные данные на основе полученного опыта.
По такому алгоритму решается, например, задача борьбы со спамом в электронной почте. Модель машинного обучения учится находить характеристики писем, например, использование определенных слов или фраз, наличие конкретного отправителя — и классифицировать как «спам» и «не спам». После обучения работает автоматически, пользователь просто не видит спам во входящих.
Сфера применения
- Классификация текстов — как в указанном примере, электронных писем на спам и не спам, новостных материалов по темам, отзывов по тональности: положительный, нейтральный или отрицательный.
- Классификация изображений — картин по жанру: «портрет», «пейзаж», «натюрморт», медицинских снимков по наличию или отсутствию симптомов.
- Классификация аудио или видео — по жанру, теме, количеству просмотров.
- Банкинг — классификация транзакций на реальные и мошеннические, платежей по категории расходов.
- Системы рекомендаций — анализ и классификация поведения пользователя, его интересов, чтобы предложить соответствующий контент.
Разумеется, это не все варианты применения классификации данных. Она используется во многих областях, где нужно быстрое автоматическое принятие решений без участия человека на основе предоставленной информации.
Методы классификации данных
- Логистическая регрессия — может быть бинарной, когда существует только два ответа: спам или не спам, да или нет, и многомерной. Примером последней может быть прогноз вероятности летального исхода для пациента в зависимости от показателей.
- Дерево решений — разделяет множество данных на множество классов с помощью древовидной структуры. Например, его можно использовать для решения, давать клиенту кредит или нет. Будут учтены все характеристики клиента: возраст, семейное положение, ежемесячный доход, трудовой стаж, кредитная история. Каждая из них представляется в виде узла в дереве решений, который связывается с другими узлами. В конечном итоге алгоритм выдает результат: одобрять кредит или нет.
- Метод опорных векторов (SVM) — разделяет данные на два или более классов. Например, для классификации текстов на «спорт» и «экономика». Для этого нужен SVM, который принимает в качестве входных данных наборы текстов и соответствующие им метки классов.
- Наивный байесовский классификатор — использует теорему Байеса для прогнозирования вероятности принадлежности объекта к одному из нескольких классов на основе набора заранее определенных признаков. Например, для классификации пациентов на несколько групп по их медицинским данным алгоритм оценивает вероятность принадлежности человека к каждой из них и выбирает группу с наивысшей вероятностью.
- K ближайших соседей (k Nearest Neighbors, или k-NN, где k — одно целое число, выбираемое заранее) — определяет класс новых данных на основе близости к k ближайшим соседям в обучающем наборе. Например, у нас есть набор данных о фруктах: вес, цвет, форма и т. д. Каждый фрукт относится к одному из трех классов: «яблоко», «груша», «апельсин». Алгоритм получает задание классифицировать новый фрукт. Он использует информацию из исходного набора и определяет класс нового фрукта путем нахождения k ближайших фруктов в пространстве признаков. Например, k = 5, тогда по признакам подбираются пять максимально похожих фруктов из исходного набора данных. Если большинство из них «яблоки», тогда и новый относится к классу «яблоко».
Примеры реального использования классификации данных
Здравоохранение
Во время пандемии COVID-19 были внедрены модели машинного обучения для раннего выявления признаков заболевания. Например, в Китае использовались алгоритмы для классификации изображений легких и выявления группы риска.
Образование
Это область, где постоянно используется большое количество текстовых, видео- и аудиоданных. Методы классификации упрощают поиск нужной информации и позволяют проанализировать обратную связь отзывов студентов о преподавателях.
Транспорт
Автомобильные пробки — проблема больших городов. Но с помощью машинного обучения можно создать алгоритм, который классифицирует ситуацию на дороге на три класса «свободное движение», «затор», «полная остановка движения». Для этого он будет использовать данные о скорости на дороге, дорожной инфраструктуре, погодных условиях, городских мероприятиях и т. д. И выдаст точный прогноз о вероятности пробки в конкретной части города — благодаря этому можно своевременно предупредить водителей и отрегулировать поток автомобилей.