Разметка текстов для машинного обучения: виды, задачи | Статьи от экспертов компании Training Data

В отличие от изображений или видео, тексты более сложные в контексте машинного обучения. Возьмем расхожую фразу «гвоздь программы». Человек поймет ее как самую важную часть мероприятия. Компьютер, скорее всего, воспримет слово «гвоздь» в прямом смысле и нарушит смысл текста. Точная разметка помогает модели машинного обучения лучше понимать данные и безошибочно интерпретировать сообщение.

Разметка текста для машинного обучения — это процесс присвоения меток и тегов к фрагментам текстового документа: предложениям, словам или символам — с целью обучения алгоритма распознавать их, классифицировать и выполнять задачи обработки естественного языка (NLP).

Почему это важно?

Автоматическая обработка и правильная интерпретация текста применяются в различных сферах — от медицины до служб поддержки. Так, например, ИИ может анализировать заявки клиентов в реальном времени, определять их тональность, срочность и передавать в порядке очереди реальным консультантам. В медицине можно настроить алгоритм для анализа результатов лабораторных исследований, поиска проблем и автоматической рассылки сообщений клиентам с приглашением посетить врача, если есть показания. Конечно, для этого нужно быть полностью уверенным в отлаженной работе системы. А для ее обучения необходим качественный датасет текстовых данных.

Виды разметки текста

Распознавание именованных сущностей (NER, Named Entity Recognition) — определение и классификация слов или фраз, которые обозначают объекты или абстрактные понятия. Например, имена людей, название бренда, место, дата, время.
Разбор частей речи (POS-tagging, Part-of-Speech tagging) — определение грамматической категории (части речи) каждого слова в тексте, например, существительное, глагол, прилагательное.
Сегментация предложений (Sentence Segmentation) — разделение текста на значимые элементы, отдельные предложения.
Разбор синтаксических связей (Dependency Parsing) — определение структурных и функциональных отношений между словами в предложении.
Классификация текста (Text Classification) — присвоение тексту определенной категории или метки на основе его содержания. Например, определение тональности (позитивная, негативная, нейтральная). Или классификация по темам — спорт, наука, политика.
Извлечение ключевых фраз (Keyphrase Extraction) — выделение наиболее значимых и информативных фраз из текста.
Извлечение отношений (Relation Extraction) — определение и классификация семантических отношений между сущностями или объектами.

В целом, цель разметки текста — научить модель ML обрабатывать неструктурированные текстовые данные, решая поставленные заказчиком задачи.

Вот, например, как работает распознавание именованных сущностей. Рассмотрим предложение: «14 марта американская компания OpenAI представила GPT-4».

После разметки текст для обучения модели будет выглядеть так:

14 марта [DATE] американская компания OpenAI [ORG] представила GPT-4 [PROD].

Здесь используются три типа разметки:

ORG — организация.
PROD — продукт или технология.
DATE — дата.

После разметки текста модель машинного обучения учится на приведенных примерах и далее будет самостоятельно распознавать и определять именованные сущности в новых данных.

Какие задачи можно решить с помощью разметки текста?

Например, предоставить пользователям более точный и релевантный поиск. Это и поисковые системы, типа Яндекса и Google, и поиск в интернет-магазинах и маркетплейсах. Размеченные данные используются для обучения алгоритма индексированию и оценке релевантности документов в выдаче. Именно поэтому, если вы ищете на WildBerries «беспроводные наушники», на первых позициях выдачи будут товары, на 100 % соответствующие запросу.

Такой же принцип используют системы рекомендаций. Например, онлайн-кинотеатр IVI сохраняет историю просмотров пользователя, а ИИ составляет список персонализированных рекомендаций: фильмов и сериалов, похожих на те, что уже смотрели.

При аналитике сообщений в соцсетях разметка текста учит алгоритмы определять полярность мнений в отзывах и комментариях пользователей. Это позволяет определить уровень охватов компании, составить рекламную стратегию и понять, какие моменты нуждаются в доработке.

В медицине разметка текста учит модель находить и извлекать ценную информацию из анамнеза пациента, результатов анализов и т. д. Так врачу не нужно делать дополнительные запросы, он сразу получает выжимку необходимых данных.

В юридической сфере можно поручить ИИ обрабатывать и анализировать договора, законы и судебные решения, чтобы составлять подборку документов, соответствующих задаче.

Также разметка текста необходима для обучения чат-ботов, в том числе чата GPT: они понимают смысл, считывают контекст и поддерживают диалог почти на уровне живого человека.

С течением времени алгоритмы машинного обучения и модели NLP становятся все более точными и автоматизированными, что уменьшает необходимость в человеческом вмешательстве. Однако при этом всегда есть потребность в сборе и разметке новых данных, чтобы помочь моделям справляться с вариабельностью и сложностью естественного языка.