TRAINING DATA
TRAINING DATA JORNAL  
Переводы

Почему 87% проектов data science не добираются до продакшена?

Датасет
«Если ваши конкуренты применяют ИИ и они нашли способ, позволяющий им ускориться, то они оторвутся от вас очень быстро», — поделилась CTO компании IBM по data science и ИИ Дебора Лефф на сцене Transform 2019.

В другом докладе, «Что вообще такое — работать с ИИ?» Лефф и старший вице-президент Gap по данным и аналитике Крис Чапо углубились в рассуждения о том, почему многие компании по-прежнему зря тратят время или терпят поражение, пытаясь реализовать стратегии работы с ИИ. И всё это несмотря на то, что преимущество, которым обладали крупные компании перед мелкими, теперь исчезло, а парадигма полностью изменилась. Благодаря ИИ быстрые компании обгоняют по эффективности медленные, вне зависимости от их размера. А крошечные безымянные компании отбирают долю рынка у гигантов.

Но если понимание того, что ИИ действительно даёт конкурентное преимущество, есть у всех, то почему до стадии продакшена добирается всего 13% проектов data science, или почти каждый десятый?

«Одна из основных причин заключается в том, что иногда люди думают „мне достаточно вбросить деньги или реализовать технологию, а на выходе получить успех“, но так не бывает», — рассказывает Чапо. «И мы с этим не справляемся, потому что у нас нет нужной поддержки руководства, чтобы создать условия для успеха».

По словам Лефф, ещё одной важной причиной являются данные, которые подобны обоюдоострому мечу — они необходимы для аналитики и раскрытия возможностей, но большинство организаций сильно разобщены, их владельцы не стремятся к сотрудничеству, а руководители не способствуют коммуникации.

«У меня бывали ситуации, когда дата-саентисты говорили, что способны выполнить проект, но не могут получить доступ к данным. А я спрошу вас: ваше руководство позволяет вам работать?», — рассказывает Лефф.

Но проблема с данными всегда в том, что они хранятся в разных форматах, структурированных и неструктурированных, в видеофайлах, текстах и фотографиях, которые находятся в разных местах с различными требованиями к безопасности и конфиденциальности. Всё это означает, что прямо с начала работа над проектами оказывается очень медленной из-за необходимости сбора и очистки данных.

И третья проблема, тесно связанная с разобщённостью — нехватка сотрудничества. Дата-саентисты появились ещё в 1950-х, и они были одиночками, сидящими в подвале за терминалом. Но сегодня это командный вид спорта, и важность этой работы встроена в саму структуру компании, поэтому необходимо, чтобы каждый участник команды мог сотрудничать со всеми другими: с дата-инженерами, операторами баз данных, людьми, понимающими data science, аналитиками, BI-специалистами, вплоть до DevOps и проектировщиков.

«Это важный момент, препятствующий компаниям — они не привыкли к подобному сотрудничеству», — рассказывает Лефф. «Потому что когда они берут эти принципы, то переворачивают их — теперь компания просит инженера переписать модель data science, написанную дата-саентистом. Что из этого получится?»

«Обычно ничего хорошего», — отвечает Чапо.

Например, в одном из первых проектов data science его компании создавались профили размеров одежды, которые могли определять диапазон размеров и распределение, необходимое для удовлетворения спроса. Четыре года назад команда data science передала алгоритм инженеру, он написал его на Java. Две недели назад они осознали, что три с половиной года он был сломан.

«Он был сломан, потому что никто за него не отвечал, у нас не было команды data science, непрерывно выполняющей итерации с моделями, воспринимавшей их как ресурс и производящей операции с данными для обеспечения их работы. Мы начинаем внедрять подобный стиль работы в жизнь, но это сложно и долго», — делится Чапо.

«Одна из важнейших возможностей для нас всех сегодня — разобраться, как обучить руководителей бизнесом в организации. Раньше руководителю было необязательно знать, чем занимается дата-саентист. Теперь дата-саентист выходит на первый план и стало очень важно, чтобы руководители бизнесом понимали их концепции», — рассказывает Лефф.

Она добавляет, что ИИ не заменит руководителей, но руководители, пользующиеся ИИ, заменят тех, кто им не пользуется.

Мы становимся свидетелями начала расцвета руководителей, желающих понимать, как работает машинное обучение, что для них на самом деле означает ИИ, и как его успешно применять. На таких руководителей, по словам Лефф, будет большой спрос.

Ещё один существенный принцип успеха, как заявляет Чапо — не усложнять.

«Очень часто люди представляют ИИ-проекты как волшебные истории с феями и единорогами. На самом деле нужно начинать с простого. И таким образом можно проверить, стоит ли дальше повышать сложность».

Главное в начале — не усложнение модели, а повышение удобства работы для пользователей. На самом деле, компании теперь конкурируют не с ближайшим конкурентом, а с наиболее качественным UX, даже если он представлен в совершенно ином секторе. Если за несколько секунд можно заказать через приложение услугу каршеринга, пользователь начинает хотеть того же уровня удобства при звонке в банк, отправке заявления о страховом случае или заказе онлайн.

По словам Чапо, есть три способа начать так, чтобы не оказаться в 87%. Во-первых, выберите небольшой проект — не пытайтесь вычерпать море ложкой, а выберите болевую точку в том месте, где можно показать наглядный успех, и устраните её. Во-вторых, для её устранения подберите нужную команду и обеспечьте перекрёстную функциональность. В-третьих, используйте сторонние услуги и взаимодействуйте с компаниями наподобие IBM и другими, способными ускорить вашу работу в начале пути.