Распознавание текста на изображениях

Фотографии документов с разметкой bounding box тестовых полей для OCR задач в разработке систем автоматической оцифровки бумажных материалов

Кейс

Кейс Распознавание текста на изображениях

OCR

Процесс идентификации и преобразования текста с цифрового изображения в текстовый формат

Computer Vision

Способность распознавать и анализировать изображения и видео

Object Detection

Определение позиции объекта разметкой Bounding Box

Аннотация сущностей

Процесс идентификации и классификации именованных сущностей по заранее определенным категориям сущностей

2 500

фото

4 недели

срок выполнения

Описание КЕЙСa

Датасет состоит из разнообразных документов на испанском языке из банковской, страховой и трудовой сфер. Сбор данных проводится на международных краудсорсинговых платформах, внутренним штатом AI-тренеров со знанием испанского языка. В каждом документе произведена детекция текстовых полей bounding box по 4 критериям

Документы могут быть напечатаны, отсняты с бумаги или с экрана, написаны рукой или представляют собой электронный вариант. Вид документов от идеального, до смятого, ветхого или разорванного, что обеспечивает возможность обучать нейронную сеть на большом спектре корнер-кейсов

Training Data проводит масштабный сбор: рабочих, корпоративных, личных документы граждан России, СНГ, Латинской Америки, США, Индии, Азии и стран Европы

Смотреть на Kaggle

Скачать пример

НАМ ДОВЕРЯЮТ

Область применения датасета

Обработка финансовых документов

OCR для автоматического распознавания и анализа данных финансовых отчетов, счетов и квитанций

/01

Банковский сектор

OCR и детекция Bounding box для автоматизации и упрощения процесса подачи заявок на кредит, открытия банковского счета и других банковских операций

/03

Безопасность

OCR для автоматического извлечения информации из паспортов, включая данные о гражданстве, дате рождения и т.д.

Разработка систем автоматического перевода

/02

OCR для разработки систем машинного перевода, способных переводить текст с одного языка на другой, тренировки и обучения модели перевода

Обнаружение подделок

Классификация и детекция Bounding Box для сравнения оригинального документа с полученным и выявления поддельных экземпляров

/04

/05

Больше о разметке текста и изображений

Разметка текстов

Training Data оказывает полный цикл работ по сбору и разметке текстовых материалов для разработки и обучения AI речевых моделей и систем оцифровки

Разметка изображений

Training Data оказывает полный цикл услуг по работе с изображениями для создания обучающих датасетов высокого качества

Похожие датасеты

Счетчики воды для OCR задач

Датасет решает задачи в области OCR, позволяет автоматизировать работы коммунальных служб и технологии Smart City

Текст с обложек и товаров

1,200 фотографий рекламы и товаров с текстом на русском языке и подробной OCR-разметкой. Датасет решает задачи распознавания текста на русском языке

База SPAM сообщений

Текстовые датасеты электронных писем разных форматов для обучения нейронной сети задачам определения спама и классификации сообщений

Speech to text распознавание речи

Датасет решает задачи распознавания и синтеза топонимов на русском языке

Сбор впечатлений о людях

Датасет для обучения нейронной сети задачам сопоставления текстового описания первого впечатления о человеке с фотографией этого человека

Все Датасеты

ВАМ Понравится

Распознавание текста на изображениях

Распознавание текста на картинках в контексте сбора и разметки данных может происходить с помощью технологии оптического распознавания символов (OCR — Optical Character Recognition)

Датасеты урбанистика

У искусственного интеллекта огромный потенциал в ЖКХ: в мире более 80 % топ-компаний из этой сферы считают его приоритетным направлением развития, которое даст большой экономический эффект. Но реальных кейсов пока, конечно, гораздо меньше

Пять альтернатив Scale AI

Выбор подходящего инструмента для аннотирования данных — непростая задача, поэтому чтобы принять верное решение, необходимо знать все возможные варианты