TRAINING DATA
Распознавание текста на изображениях
Фотографии документов с разметкой bounding box тестовых полей для OCR задач в разработке систем автоматической оцифровки бумажных материалов
Кейс

Кейс Распознавание текста на изображениях

OCR
Процесс идентификации и преобразования текста с цифрового изображения в текстовый формат
Computer Vision
Способность распознавать и анализировать изображения и видео
Object Detection
Определение позиции объекта разметкой Bounding Box
Аннотация сущностей
Процесс идентификации и классификации именованных сущностей по заранее определенным категориям сущностей
2 500
фото
4 недели
срок выполнения
Описание КЕЙСa
Датасет состоит из разнообразных документов на испанском языке из банковской, страховой и трудовой сфер. Сбор данных проводится на международных краудсорсинговых платформах, внутренним штатом AI-тренеров со знанием испанского языка. В каждом документе произведена детекция текстовых полей bounding box по 4 критериям
Документы могут быть напечатаны, отсняты с бумаги или с экрана, написаны рукой или представляют собой электронный вариант. Вид документов от идеального, до смятого, ветхого или разорванного, что обеспечивает возможность обучать нейронную сеть на большом спектре корнер-кейсов
Training Data проводит масштабный сбор: рабочих, корпоративных, личных документы граждан России, СНГ, Латинской Америки, США, Индии, Азии и стран Европы
НАМ ДОВЕРЯЮТ
Область применения датасета
Обработка финансовых документов
OCR для автоматического распознавания и анализа данных финансовых отчетов, счетов и квитанций
/01
Банковский сектор
OCR и детекция Bounding box для автоматизации и упрощения процесса подачи заявок на кредит, открытия банковского счета и других банковских операций
/03
Безопасность
OCR для автоматического извлечения информации из паспортов, включая данные о гражданстве, дате рождения и т.д.
Разработка систем автоматического перевода
/02
OCR для разработки систем машинного перевода, способных переводить текст с одного языка на другой, тренировки и обучения модели перевода
Обнаружение подделок
Классификация и детекция Bounding Box для сравнения оригинального документа с полученным и выявления поддельных экземпляров
/04
/05
Больше о разметке текста и изображений
Training Data оказывает полный цикл работ по сбору и разметке текстовых материалов для разработки и обучения AI речевых моделей и систем оцифровки
Training Data оказывает полный цикл услуг по работе с изображениями для создания обучающих датасетов высокого качества
Похожие датасеты
ВАМ Понравится
Распознавание текста на картинках в контексте сбора и разметки данных может происходить с помощью технологии оптического распознавания символов (OCR — Optical Character Recognition)

У искусственного интеллекта огромный потенциал в ЖКХ: в мире более 80 % топ-компаний из этой сферы считают его приоритетным направлением развития, которое даст большой экономический эффект. Но реальных кейсов пока, конечно, гораздо меньше

Выбор подходящего инструмента для аннотирования данных — непростая задача, поэтому чтобы принять верное решение, необходимо знать все возможные варианты