Распознавание объектов по фото и на видео для обучения нейросетей | Статьи от экспертов компании Training Data

Когда человек рассматривает фотографию или смотрит видео, он, не задумываясь, отмечает все элементы сцены: лампа, дверь, стена, человек, картина. Теперь нам нужно обучить компьютер делать то же самое.

Распознавание объектов — метод компьютерного зрения для поиска и идентификации людей, животных, зданий, транспорта на изображениях или видео. Включает определение класса: автомобиль, человек, животное, выделение границ объекта и его местоположение на изображении.

Для распознавания объектов применяются модели машинного и глубокого обучения, такие как сверточные нейронные сети (CNN), региональные сверточные нейронные сети (R-CNN), пирамидальные сверточные сети (FPN) и другие. Эти алгоритмы обучаются на размеченных датасетах, содержащих изображения с указанным местоположением и классом объектов.

Распознавание объектов — ключевая технология беспилотных автомобилей, с помощью нее они учатся видеть дорожные знаки и отличать пешехода от фонаря. Используется также в диагностике заболеваний, безопасности, сельском хозяйстве и других сферах.

Сфера применения в реальной жизни

Кроме уже названной отрасли автомобильной промышленности — беспилотные автомобили и системы помощи водителю на основе компьютерного зрения ADAS, технология распознавания объектов используется и в других сферах. Среди них:

Безопасность и видеонаблюдение. ИИ учится находить лица, автомобильные номера, выявлять преступления, например кражи, изнасилования в изображениях и видеоматериалах для анализа и предотвращения новых инцидентов.
Медицина. Распознавание и определение патологий, опухолей на медицинских изображениях: результаты КТ, МРТ, УЗИ, рентгеновские снимки для ранней диагностики и лечения.
Розничная торговля и аналитика. Распознавание товаров на полках магазина, проверка наличия и соответствия планограмме, а также анализ трафика покупателей для оптимизации продаж и маркетинга.
Сельское хозяйство. Распознавание растений, сорняков и вредителей на поле или в теплице для принятия решений об оптимальных способах ухода и применении пестицидов.
Космические исследования. Распознавание геологических форм и структур на спутниковых изображениях для учёта природных ресурсов и картографии.

Методы распознавания объектов

Каскады Хаара (Haar Cascades). Классический подход к распознаванию объектов, основанный на признаках Хаара и каскаде классификаторов. Обычно используется для распознавания лиц.
Histogram of Oriented Gradients (HOG). Метод, который строит гистограммы направленных градиентов для каждого пикселя, вычисляя направление и силу градиента. Обычно является предобработкой для более сложных классификаторов.
Support Vector Machines (SVM). Мощный классификатор, который подходит для разделения объектов на классы на основе их признаков. Может использоваться совместно с HOG для распознавания объектов.
Convolutional Neural Networks (CNN). Нейронные сети с несколькими сверточными слоями, обучаемые на больших наборах данных. Лучше справляются с изображениями высокого разрешения, выделяют опорные признаки и текстуры для правильной идентификации.
Region-based Convolutional Neural Networks (R-CNN). Метод, комбинирующий CNN и региональный поиск. Детектирует объекты в изображении с помощью набора гипотез, а затем классифицирует эти области с использованием CNN. Имеются улучшенные версии, такие как Fast R-CNN и Faster R-CNN.
You Only Look Once (YOLO). Распознает объекты в реальном времени. Изображение проходит через сверточную сеть только один раз, алгоритм делит его на ячейки и одновременно определяет класс объекта для каждой ячейки.
Single Shot MultiBox Detector (SSD). Аналогично YOLO, распознает объекты в один прогон и эффективно работает в реальном времени. Лучше обрабатывает объекты разного размера.

Выбор метода зависит от требований к проекту, доступных ресурсов и задач, которые необходимо решить. Классические методы часто используются для простых задач, но для сложных или при обработке большой библиотеки данных сверточные нейронные сети, как правило, являются наиболее эффективным подходом.