TRAINING DATA
TRAINING DATA JORNAL  
Авторские статьи

Что такое распознавание сущностей?

Распознавание сущностей (NER, Named Entity Recognition) — это часть обработки естественного языка (NLP), область искусственного интеллекта. НЛП занимается компьютерной обработкой и анализом естественного языка, т. е. любого, который развился естественным образом, а не был создан специально, как, например, языки программирования. Если проще, NLP обучает компьютер понимать устную речь и текст на уровне человека.
Обработка естественного языка состоит из трех этапов:
  1. Синтаксис — структура и правила речи.
  2. Семантика — значение слов и выражений, распознавание взаимосвязей и логических цепочек в тексте.
  3. Речь — способность воспринимать слова и предложения на слух и преобразовывать их в текст.
NER используется в семантическом этапе: считывает и понимает значение написанных слов и разносит их по классам.

Что такое именованные сущности?

Это слова и выражения, обозначающие имена людей, названия организаций, даты, числа и т. д., в текстовых данных. Наиболее важные фрагменты конкретного предложения, то, о чем идет речь.
Например:
Свадьба принца Гарри, герцога Сассекского, и Меган Маркл состоялась 19 мая 2018 года.
В этом предложении можно выделить именованные сущности:
  • Person (Человек) — принц Гарри, герцог Сассекский, Меган Маркл.
  • Date (Дата) — 19 мая 2018 года.
  • Event (Событие) — свадьба.
Типичная модель NER состоит из следующих шагов:
  1. Токенизация — текст разбивается на отдельные токены, обычно слова и знаки препинания.
  2. Маркировка частей речи — существительное, глагол, прилагательное и т. д.
  3. Группировка — токены группируются на основе маркировки части речи.
  4. Распознавание именованных сущностей, их маркировка и классификация («человек», «животное», «дата»).
  5. Устранение неоднозначности — нужно определить, о какой именно Меган идет речь в тексте.
В результате модель машинного обучения NER будет автоматически сканировать целые статьи, находить известные ей слова и правильно их классифицировать по заранее определенным категориям для понимания текста или извлечения важной информации при формировании баз данных.

Где используется распознавание сущностей?

  • Чат-боты. Тот же ChatGPT и аналоги используют модели NER, чтобы лучше понимать запрос пользователя и давать максимально соответствующий и раскрывающий тему ответ.
  • Служба поддержки. Например, чтобы сделать выборку отзывов и жалоб клиентов по названию продукта или определить, на что чаще всего жалуются в конкретном филиале. На основании информации можно создать бота-помощника, который точно направит клиента в соответствующий раздел часто задаваемых вопросов или сразу переключит на консультанта, если вопрос не решается в авторежиме.
  • Финансы. NER мгновенно проанализирует информацию в соцсетях, новостях и отчетах о прибылях и убытках, соберет данные по именам и компаниям, поможет отслеживать тенденции и события, которые могут повлиять на котировки.
  • Здравоохранение. Модель машинного обучения NER быстрее человека соберет важную информацию из результатов лабораторных исследований и электронных медицинских карт пациентов по ключевым запросам. Так врач получит только нужные в данный момент данные.
  • Наука и образование. Студентам, преподавателям и ученым легче находить материалы по заданной теме, можно быстро «просматривать» большие объемы статей и архивных материалов.
  • HR. Система NER упростит работу эйчара. Например, сделает выборку из поступивших резюме и предоставит только соответствующие запросу по квалификации, образованию и рекомендациям. NER также проведет поиск по соцсетям и блогам, чтобы составить портрет соискателя, увидеть жалобы на него от других работодателей при их наличии и т. д.
  • Новостные службы. NER анализирует множество статей и сообщений в блогах, классифицирует контент по важной информации и тенденциям, делает подборки, по которым журналист быстро определяет, о чем писать в данный момент.
  • Блоки рекомендаций. Маркетплейсы, онлайн-кинотеатры и другие сервисы предлагают пользователям ссылки на другие материалы, соответствующие их интересам. Некоторые из них, например, Netflix, используют NER для анализа поисковых запросов пользователей и истории просмотра, чтобы сделать рекомендации более персонализированными и релевантными.
  • Поисковые системы. Чтобы по запросу «купить шкаф» пользователь получил список интернет-магазинов в своем регионе, а после поиска симптомов болезни видел контекстную рекламу клиник своего города, поисковики используют NER.
  • Анализ настроений (ИИ эмоций). NER — основной механизм анализа настроений. Он ищет сообщения, где содержится название продукта или бренда, анализирует текст, чтобы определить настроение автора и понять, доволен он покупкой/обслуживанием или нет. Аналогично модель работает при анализе настроений сотрудников организации.
  • Кибербезопасность. NER можно использовать для выявления и отслеживания киберугроз, например, при распознании и классификации URL- и IP-адреса в сетевом трафике, журнале безопасности и других источниках.

Проблемы распознавания сущностей

При использовании NER вы получаете максимально точную и честную выборку по заданному сценарию без учета человеческого фактора. Технология подходит практически для всех отраслей бизнеса, освобождает сотрудникам время на другие задачи. Возможные проблемы возникают только при недостаточном/неполном обучении модели. Среди них, например, сложности с определением лексической двусмысленности: так, в предложении «Малыш сел на кресло и сломал ручку» без дополнительного контекста не понять, что именно сломал ребенок, ручку кресла или свою руку. Также часто модель не знает значения иностранных слов, путается в правописании и т. д. Для хорошего результата нужен большой объем обучающих данных, правильно подобранных и размеченных.

Как начать работать с NER?

Существует ряд библиотек с открытым исходным кодом, например, NLTK. В ней есть инструменты и ресурсы для работы с текстовыми данными, а также готовые модели обработки языка для обучения. Можно скачать и использовать в своих проектах на языке программирования Python. Но, прежде чем начать построение модели, вам нужен соответствующий датасет для ее обучения.
Команда Training Data Solutions подготовит компьютерный или рукописный текст по вашим сущностям и категориям на 30+ языках. Сделаем разметку, структурируем и классифицируем, вернем в виде набора обучающих данных для модели NER. Тестовый датасет пришлем бесплатно, оставьте ваши данные в форме.
Методики