TRAINING DATA
TRAINING DATA JORNAL  
Авторские статьи

Что такое биометрические данные?

Биометрические данные — уникальная информация, биологические характеристики человека, которые не меняются с возрастом и могут использоваться для идентификации личности. Это отпечатки пальцев, радужная оболочка глаз, голос и т. д. Самый простой пример использования в реальности — биометрические паспорта. С января 2023 года встроенный микрочип загранпаспорта, помимо обычных данных о владельце, хранит также его отпечаток пальца.

Какую биометрию используют для идентификации человека чаще всего?

  • Отпечатки пальцев. Уникальный папиллярный узор на каждом пальце. Применяется при расследовании преступлений, для предоставления доступа (например, к мобильному телефону).
  • Распознавание лица. Компьютер анализирует геометрические особенности лица, например форму, расстояние между глазами. Создает шаблон и сравнивает с ним новые изображения. Так работает аутентификация по лицу Face ID в iPhone.
  • Распознавание голоса. Анализируются высота, тембр, скорость речи. Такая технология применяется, например, чтобы идентифицировать разных спикеров в аудиозаписи конференции.
  • Распознавание радужки глаза. Уникальный узор из мелких точек, линий и гребней. Этот метод аутентификации заявлен Apple для шлема смешанной реальности Vision Pro. Устройство работает по принципу Face ID, только запоминает рисунок радужки.
Кроме этого, для аутентификации пользователей может использоваться уникальный рисунок ладони, электрокардиограмма (ЭКГ), электроэнцефалограмма (ЭЭГ), походка.
В странах Евросоюза хранение и использование биометрических данных регулируется Общим регламентом по защите данных GDPR. Согласно этому документу, информация относится к категории конфиденциальных персональных данных и требует дополнительной защиты, явного согласия и веских причин для сбора. Если ваша компания сотрудничает с гражданами или компаниями ЕС, вам также нужно следовать требованиям GDPR.

Где используют биометрические данные?

  1. Аутентификация и авторизация. Разблокировать смартфон отпечатком пальца гораздо удобнее, чем вводить сложный численно-буквенный пароль. Кроме того, отпечаток можно задать в качестве пароля и в других приложениях: мобильном банкинге, налоговой службе и т. д.
  2. Здравоохранение. Например, система Matcher 5 применяется в клиниках вспомогательных репродуктивных технологий и банках доноров для защиты от риска ошибок при ЭКО. Для идентификации пациента или входа в систему используются отпечатки пальцев.
  3. Туризм. Так, США и Япония сканируют отпечатки пальцев для проверки личности путешественников и выявления угроз общественной безопасности. Китай начал использовать распознавание лица на таможне в начале этого десятилетия. Система автоматически сканирует и сравнивает лица туристов с базой данных правительства.
  4. Финансы. Например, Citibank использует технологию распознавания лица для аутентификации пользователей мобильного приложения, которое обеспечивает доступ к банковским счетам и услугам.
  5. Игровая индустрия. Здесь применяются не только отпечатки пальцев и фото лица. Игра Nevermind от компании Flying Mollusk совместима с датчиками сердечного ритма. Если игрок слишком спокоен, сюжет становится более страшным.
  6. Маркетинг. Компания Neilsen, специализирующаяся на маркетинговых исследованиях, изучает эмоциональную реакцию зрителей на рекламный ролик. Во время просмотра замеряются сердечный ритм, движения глаз и ЭЭГ, чтобы понять, какие части ролика вызвали больший отклик. Так специалисты точно определяют, нравится людям реклама или нет, и могут спрогнозировать эффект от следующей кампании
  7. Безопасность. Например, специальные ленты с датчиками SmartCap мониторят уровень усталости работников. Их применяют в промышленных сферах — от строительства до нефтяных и газовых предприятий, где потеря бдительности может стоить персоналу здоровья. Лента мониторит мозговые волны и оповещает владельца, когда усталость достигает критического уровня.
Биометрические данные надежнее, чем обычные или графические пароли: их сложно подделать, украсть или скопировать. Но ведь риск все равно есть? Эксперт инжинирингового центра SafeNet Игорь Бедеров считает, что даже при утечке мошенники максимум подделают голос для звонка родственникам или коллегам. Хотя и не отрицает, что в будущем преступления с чужой биометрией вполне возможны.

Биометрические данные и машинное обучение

Чтобы ИИ научился идентификации, аутентификации и классификации людей на основе физических характеристик, нужен большой размеченный датасет, собранный под условия задачи. Например, для распознавания лиц и анализа эмоций мы собрали фотографии и селфи людей и разметили каждое лицо с помощью 15 ключевых точек инструментом keypoints. Так модели машинного обучения проще выявить закономерности и построить логические цепочки, необходимые для решения задачи в реальности.
Компания Google собирает информацию о голосах пользователей, чтобы повысить точность своих алгоритмов распознавания речи. Когда пользователь говорит в микрофон, например для «Google Ассистента», его голос записывается и передается на серверы, где алгоритмы машинного обучения разбирают аудио на звуковые сигналы и распознают слова. Технология основана на нейросетях, обученных на большом объеме голосовых записей. Алгоритмы самообучаемые, постоянно совершенствуются на новых данных: учатся распознавать разные голоса, акценты, подстраиваются под скорость речи и т. д.

Как собирают биометрию для машинного обучения?

Методы сбора зависят от типа данных. Фотографии и видео для задач распознавания лиц можно собрать методом парсинга и краудсорсинга, сгенерировать нужные данные на основе оригинальных. Отпечатки пальцев для обучения модели берут из открытых источников, собирают в добровольных исследованиях. В 2002 году 600 сотрудников компании «Папилон» работали в три смены, чтобы оцифровать архив МВД России. Им понадобилось пять лет, чтобы перевести дактилоскопические карты в электронный формат. Результатом стала АДИС (автоматизированная дактилоскопическая информационная система), установленная в отделах полиции всех регионов РФ.
Сбор голосовых данных можно передать на краудсорсинг, попросив пользователей платформ зачитать определенный текст под запись. Также есть большие открытые базы данных со свободным доступом. Аудио для машинного обучения собирают и в реальных условиях, например в виде записи звонков в кол-центр.
Это только несколько примеров по сбору биометрических данных. В целом процесс подготовки датасета состоит из сбора информации, ее разметки и конвертирования в удобный формат для обучения модели.
В России с 2018 года работает Единая биометрическая система (ЕБС). Чтобы получать услуги по биометрическим данным, пользователь должен зарегистрироваться в одном из отделений банков. А если компания хочет оказывать услуги по биометрии, ей нужна интеграция с ЕБС. До 30 сентября 2023 года вся биометрическая информация, собранная государственными и частными организациями, должна быть передана в ЕБС. Хранить и обрабатывать данные клиентов самостоятельно больше нельзя. Компании получат доступ только к векторам — математическим шаблонам, они не являются биометрией, а просто описывают ее.

Процесс машинного обучения модели на основе биометрических данных

  1. Сбор датасета. Данные для обучения собирают наиболее подходящим методом, размечают и преобразуют в нужный формат.
  2. Обучение. Модель использует нейронные сети и другие методы для обработки данных и создания уникальных шаблонов для каждого человека.
  3. Тестирование. Точность модели проверяют на новых данных.
  4. Использование. После успешного тестирования модель можно применять в реальности.
Один из успешно реализованных проектов — система распознавания лиц в аэропорту Хитроу в Лондоне, которая работает с 2019 года. Пассажирам не нужно предъявлять посадочный билет или паспорт, вместо этого их просто сканирует камера.
Сбор данных Разметка данных Методики