Изначально нам поступает техническое задание, которое мы обсуждаем, задаем наши вопросы и в течение первой недели проводим пилот — пробный сбор данных. Мы проверяем технику, реквизит, чтобы процесс сбора данных был отлажен и чтобы минимизировать возникновение ошибок во время съемок. Эти пробные данные мы отправляем заказчику и, если они всех устраивают, приступаем к процессу съемки. После согласования мы еще раз проверяем, все ли готово к работе. К примеру, иногда что-то случается с камерами, которые работают по скрипту. Если что-то пойдет не так уже во время записи, то мы впустую потратим и наше время, и деньги на актёра. Поэтому очень важно подготовиться заранее ко всем возможным неполадкам.
Поиск людей для ручного сбора данных создает отдельные сложности. Придумать реквизит и фон не так трудно, хотя это и занимает время. Существенно сложнее найти актёров (или, как мы их называем, статистов) для этой работы. Мы не устраиваем съемки короче часа, так как на меньшее время приглашать кого-то просто не имеет смысла - оплата за съемки не будет превышать оплату за дорогу. А ведь надо учитывать, что часто нам нужно большое количество данных, фотографии или видео сотен или тысяч людей.
Поиск желающих может быть очень сложным. Кто-то пугается и отказывается от работы, так как не понимает, что такое искусственный интеллект и как его данные будут использоваться. Хотя мы стараемся максимально объяснять принципы нашей работы и гарантируем, что не станем передавать персональные данные, люди часто относятся с недоверием. Особенно заметно это стало в последние годы, когда в СМИ много говорят про персональные данные и биометрию, часто упоминая утечки данных в этой сфере.
Кроме того, одна из сложностей заключается в том, что нам нужны статисты различного пола, возраста или расы. Тогда нейросеть действительно сможет хорошо работать на разных людях. Другим примером разнообразия может быть распознавание действий. Здесь есть много нюансов: с какого ракурса и в каких позах нужно выполнять действие, на каком расстоянии от камеры нужно находиться, какое количество фонов должно быть. В идеале сбор данных должен максимально учитывать и условия, в которых будет работать нейронная сеть.
Когда нам нужно искать больше тысячи человек, мы стараемся объединять разные способы поиска данных, ведь в ручном формате собирать и обрабатывать данные слишком долго. Если стоит такая задача, мы можем самостоятельно искать кого-то через агентства или попросить знакомых через социальные сети. Часть данных мы собираем сами, причем обращаем особое внимание на их качество, часть данных просим создать через Толоку, а часть данных собираем в интернете. В итоге получается комбинированный датасет, в котором мы стараемся покрыть все кейсы. Чаще всего нужны именно такие комбинированные датасеты, но бывают и специфические случаи использования данных.