TRAINING DATA
TRAINING DATA JORNAL  
Переводы

Самое важное с конференции NeurIPS 2021

Разметка данных Computer Vision
6–14 декабря 2021 года была виртуально проведена конференция Neural Information Processing Systems (NeurIPS). Это одна из самых влиятельных конференций, собирающих лучших инженеров по ML, дата-саентистов и исследователей искусственного интеллекта со всего света. Это место для обмена информацией об исследованиях нейронных систем обработки информации в их биологическом, технологическом, математическом и теоретическом аспектах.

Так как конференция проходит в декабре, обычно она позволяет получить представление о новых тенденциях в сообществе Data Science на следующий год.

Так какими же будут тенденции в обработке данных на 2022 год? В этой статье я поделюсь основными темами, которые обсуждались на NeurIPS.

Сдвиг в сторону ИИ, для которого главное — это данные



Конференция этого года продемонстрировала сдвиг в сторону подхода к ИИ и машинному обучению, при котором на первое место ставятся данные. Похоже, дата-саентисты достигли точки, после которой настройки алгоритмов и улучшения оборудования уже недостаточно для создания более качественных моделей ML. Сегодня основным «узким местом» в разработке ИИ являются данные, и в течение всей конференции был заметен упор на повышение качества данных.

На NeurIPS появился новый профиль под названием «Datasets and Benchmarks» («Массивы данных и бенчмарки»), отражающий рост популярности подхода к разработке ИИ, главными в котором являются данные. Влияние этой тенденции стало наиболее заметно, когда Эндрю Ын рассказал о соревнованиях по машинному обучению, в которых участники должны настраивать данные, а не модель.

Построение массивов данных и бенчмарков



В других докладах также отразился сдвиг в сторону главенства данных с упором на создание качественных массивов данных. Заявлялось, что самым важным является качество аннотирования данных, а многие докладчики рассказывали о трудностях получения высококачественных наборов данных.

Сообщество разработчиков ИИ имеет чёткое понимание того, как измерять качество моделей. Однако вопрос качества данных до сих пор является неопределённой и плохо исследованной проблемой. Некоторые из докладчиков предложили использовать ошибки массива данных в качестве одного из важнейших показателей качества.

Многие из докладчиков говорили о проблеме сбора данных и пытались внедрить в своей работе передовой опыт: создание чётких инструкций, обучение аннотаторов и тщательный мониторинг процесса. Такие практики необходимы для создания массивов данных, в которых для сбора и аннотирования данных применяются сложные и затратные по времени конвейеры.

Также во многих докладах подчёркивалась важность версионности данных и документирования. Это критически важные шаги для отслеживания информации о массиве данных и об изменениях, вносимых на каждом этапе эволюции массива данных.    

Этика использования данных



Внимание к массивам данных на конференции также вызвал споры относительно этики применения данных. Многие модели создавались на основе данных со смещениями, и такие смещения теперь отражены в результатах работы моделей. Докладчики говорили о проблемах, связанных с этим смещением, и предполагали, что подобные проблемы должны устраняться на этапе сбора данных благодаря использованию корректных выборок с включением различных меньшинств, а не настройкой параметров моделей на последующих этапах процесса.

Дальнейшее развитие


В этой статье мы вкратце рассмотрели основные мысли, которые обсуждались на NeurIPS 2021.

В целом, конференция продемонстрировала существенный сдвиг в сторону подхода разработки ИИ, при котором основное внимание уделяется данным. Многие докладчики говорили о данных, их качестве и делились передовым опытом, связанным с этой концепцией.

Похоже, в 2022 году мы увидим ещё больше новостей, касающихся подходов, ставящих на первое место данные. Могу предположить, что мы можем увидеть новые метрики, которые помогут нам оценивать качество массивов данных. Возможно, в ближайшее время станет мейнстримом измерение качества данных аналогично тому, как сегодня мы измеряем качество моделей.