Распознавание лиц для машинного обучения: технологии, процесс обучения | Статьи от специалистов компании Training Data

Технология распознавания лиц (биометрическая идентификация) — это процесс идентификации искусственным интеллектом личности человека на основе физических характеристик: формы лица, структуры костей, черт и пропорций, морщин, родинок. Самый простой пример — система Face ID на iPhone. Камера TrueDepth на передней стороне телефона используется, чтобы отсканировать лицо пользователя и создать 3D-модель. Затем система выявляет особенности, такие как форма глаз, носа и т. д., формирует уникальный шаблон лица и сохраняет его в защищенном облачном хранилище. Когда пользователь включает iPhone, Face ID сканирует его лицо и сравнивает с сохраненным шаблоном с помощью алгоритма машинного обучения. Если соответствие подтверждено, то iPhone разблокируется. Для повышения качества работы Face ID применяет нейронную сеть глубокого обучения. Система непрерывно учится и обновляется на основе новых данных, чтобы выдавать более точные результаты.

Технологии распознавания лиц полезны в сфере безопасности, для предотвращения и расследования преступлений, в медицине, маркетинге. Важно: использовать такие системы необходимо с учетом действующего законодательства в отношении конфиденциальности и приватности личных данных.

В июне 2023 года Европарламент предварительно одобрил законопроект о регулировании ИИ — с предложением запретить онлайн-системы распознавания лиц в общественных местах. Кроме того, под запрет подпадают и механизмы распознавания эмоций. Если закон утвердят, их нельзя будет применять работодателям, устанавливать в полиции и в учебных заведениях. Теперь проект обсуждается с Еврокомиссией, далее его передадут в Совет ЕС.

Сферы применения

Безопасность и правоохранительные органы. Камеры с распознаванием лиц стали устанавливаться в московском метро еще в 2010-х гг., но использовались только полицией, данные закрыты от посторонних. Основная цель — розыск преступников. С 2019 года в метро стали устанавливать камеры FacePay компании VisionLabs с собственной базой биометрии, чтобы оплачивать проезд по лицу. Сейчас система доступна для всех, кто прошел регистрацию и привязал карту «Тройка» и банковскую карту к фото лица в мобильном приложении «Метро Москвы»‎.
Медицина. Например, во время пандемии COVID-19 технологии распознавания лиц применялись для выявления нарушений карантинных мер и контроля за социальной дистанцией в аэропортах, ж/д вокзалах, ТЦ. Кроме того, появились пропускные системы «Умный турникет» со встроенным высокоточным термометром и распознаванием лица.
Автомобильная промышленность. Системы распознавания лиц могут «запомнить» водителя и членов его семьи и заблокировать доступ, если машиной пытается управлять мошенник. Кроме того, в них можно задавать персональные настройки для каждого пользователя: расположение зеркал, температуру в салоне, любимую радиостанцию. А если снабдить их еще и распознаванием эмоций, система вовремя обнаружит сонливость, нарушение концентрации, стресс и примет меры.
Финансы. Один из примеров применения распознавания лиц — FaceFirst. Система за 0,1 секунды проводит до 75 миллионов сравнений лица человека по своей базе, принимает решение мгновенно, в режиме реального времени. Применяется для идентификации клиентов и поиска нарушителей при входе в банк, для подтверждения платежных транзакций, мониторинга безопасности.
Реклама. С помощью распознавания лиц можно настраивать целевую рекламу для каждого пользователя. Например, камера над цифровым экраном может сфотографировать проходящего мимо человека, определить его пол, возраст и показать ему наиболее релевантное сообщение — то, которое, скорее всего, заинтересует его.
Управление посетителями. Например, в формате системы контроля доступа в здания. Камера с распознаванием лиц устанавливается на входе. Система сканирует лицо посетителя и сравнивает с базой данных лиц, у которых есть допуск. Если данные совпадают, дверь открывается автоматически, и человек может войти. Если нет, служба охраны получает уведомление о попытке несанкционированного входа.

Это неполный список — возможны и другие варианты применения технологии распознавания лиц. Основная цель — улучшить безопасность, эффективность и комфорт человека в реальном мире.

Как нейросети распознают лица?

Для распознавания лиц ИИ использует методы глубокого обучения (deep learning). В глубоком обучении искусственные нейронные сети применяются для моделирования высокоуровневых абстракций данных. Они получают изображения с высоким разрешением, обрабатывают их и на выходе выводят данные, соответствующие сигнатуре лица, для сравнения и распознавания в реальном времени.

Процесс распознавания лиц нейросетью можно разбить на несколько шагов:

Обучение модели. Создается модель нейросети и обучается на больших датасетах с фотографиями лиц людей — реальных или сгенерированных, с разными прическами, макияжем и выражениями. Данные предварительно размечаются, чтобы компьютер «видел» индивидуальные особенности: пол, возраст, форму глаз и т. д.
Детектирование лиц (face detection). Чтобы нейросеть могла обработать фотографию, ей нужно понимать, как найти и выделить область лица и его границы. Этот шаг обычно реализуется с помощью алгоритмов компьютерного зрения, например каскадов Хаара.
Извлечение особенностей. Теперь, когда модель определила границы лица, она извлекает его уникальные особенности. Для этого используются алгоритмы сверточных нейронных сетей (CNN), обученные распознавать черты лица.
Сравнение с шаблонами. На основе извлеченных особенностей модель сравнивает распознаваемое лицо с имеющейся базой данных.
Идентификация. Выдает ответ, кто именно изображен на фотографии, и принимает решение: выбирает рекламный ролик для показа, открывает дверь, уведомляет службу безопасности и т. д.

Для повышения точности распознавания и уменьшения ошибок могут быть добавлены дополнительные шаги. Например, тренировочный набор данных с изменением угла съемки, освещения, с добавленными шумами. Также алгоритмы должны регулярно тестироваться и обновляться.

Технологии для машинного обучения распознавания лиц

Глубокое обучение нейронных сетей. Один из лучших методов с точностью распознавания до 99 %. Нейросети могут обрабатывать большие объемы данных и напрямую использовать огромные базы данных, такие как ImageNet. Пример реализации: технология FaceNet, разработанная компанией Google. Использует сверточные нейронные сети, чтобы автоматически извлекать признаки лиц и возвращать уникальный 128-мерный вектор для каждого лица. Благодаря этому может идентифицировать людей при любом освещении и угле съемки. Применяется в различных областях, в том числе в системах безопасности и приложениях дополненной реальности.
Метод главных компонент (РСА). Изображение лица рассматривается как многомерный вектор, где каждый элемент соответствует отдельному пикселю изображения. Математический алгоритм сокращает размерность данных путем проектирования их на меньшее количество измерений, называемых главными компонентами. В результате изображение лиц сжимается до наименьшего размера с сохранением важной информации для распознавания. Примером может служить система видеонаблюдения на дорогах. В ней метод главных компонент используется для распознавания номеров автомобилей и идентификации владельцев.
Локальные бинарные шаблоны (LBP). Это метод компьютерного зрения, основанный на вычислении локальных текстурных паттернов, которые представляют собой бинарные последовательности, полученные путем сравнения яркостей пикселей с их соседями. В контексте распознавания лиц модель при обучении вычисляет локальные бинарные шаблоны. Далее она в реальных условиях сверяет новое изображение с данными в базе. Если шаблоны совпадают с имеющимися, значит, это тот же человек. На практике технология применяется в системах безопасности, в мобильных приложениях с авторизацией по лицу.
Метод опорных векторов (SVM). Это алгоритм машинного обучения, который используется для классификации и регрессии. Входные данные в виде изображений лиц алгоритм преобразовывает в векторы признаков с помощью методов извлечения признаков: PCA (Principal Component Analysis) или DCT (Discrete Cosine Transform). Теперь SVM может использоваться для классификации и сопоставления этих векторов с изображениями в базе данных. Алгоритм определяет, какому классу соответствует новый образец (распознавание), и находит наиболее близкие векторы-образцы в базе данных (идентификация). Применяется, например, в системах видеонаблюдения, банковских идентификационных системах.

Среди уже реализованных примеров распознавания лиц — DeepFace от Facebook. По данным портала TechCrunch, алгоритм способен идентифицировать лица в толпе с точностью почти как у человека: 97,25 % против 97,53 %. Самая популярная платформа с открытым исходным кодом Face++ от китайской компании Megvii распознает лица даже в неидеальных ситуациях. Например, при съемке низкого качества или при ограниченном освещении (ночные концерты, большие скопления людей и пр.). С помощью этой же компании Китай создал свою колоссальную базу данных жителей для социальной системы контроля. Наверное, вы видели похожий сюжет в «Черном зеркале»: с 2021 года каждый гражданин КНР получил стартовый рейтинг в 1000 баллов. Каждый его поступок теперь учитывается системой, которая начисляет или снимает баллы. А от них зависит практически все: покупка билетов, кредиты, частные школы и хорошая работа. Что это: нарушение прав человека или путь в светлое будущее? Пока остается только наблюдать.