«Наносемантика» разработала платформу сбора данных для обучения ИИ

18.09.2020

«Наносемантика», ведущий разработчик технологий искусственного интеллекта и резидент ИТ-кластера Фонда Сколково, запустила сервис NLab Marker, с помощью которого данные преобразуются в информацию, понятную нейронным сетям.

Nanosemantic.png

Большие данные нуждаются в специальной ручной обработке – разметке, подготовке обучающих примеров специалистами для алгоритмов машинного обучения. Это делается в платформе NLab Marker: выделяются объекты на видео, расшифровываются аудиозаписи, размечаются врачами медицинские снимки. Для специалистов по подготовке данных – разметчиков – сервис максимально сокращает время работы и количество совершаемых ошибок при формировании датасета, набора обучающих данных.

Ошибки в датасете критически влияют на качество обучения нейронной сети. Например, обученная нейросеть для видеоаналитики будет пропускать брак на производственной линии или будет неверно переносить персональные данные из заполненной анкеты в МФЦ. В NLab Marker внедрили систему автоматической проверки работы разметчиков, которая позволяет проверять их работу на примерах-ловушках (т. н. ханипотах), контролировать время и объём выполнения заданий. 

В NLab Marker, кроме того, встроены различные модули для работы с текстом и аудио. Например, модуль для дикторов позволяет им записывать аудио для синтеза речи, а модуль категоризации дает возможность присвоить категорию определенному тексту.

NLab Marker – это промышленная платформа, готовая к внедрению и эксплуатации на в задачах с большими объемами данных. Максимально полезна платформа компаниям с крупными департаментами Data Science и цифровой трансформации, которые для своих ИИ-проектов нуждаются в качественной разметке большого массива данных.  Использование сервиса позволяет компаниям экономить временные и финансовые ресурсы. Объем выполненных разметчиками заданий напрямую зависит от скорости их работы. А на скорость, в первую очередь, влияют наличие системы контроля и специальной среды для работы специалистов. 

«В NLab Marker разработана удобная система для организации и управления командой разметки: куратор распределяет задачи и инструкции по руководителям проектов или исполнителям, устанавливая индивидуальные сроки выполнения задач под конкретный проект, экономя тем самым временные и денежные ресурсы компании. 

Сервис позволяет работать людям из самых отдалённых регионов, безработным, людям с ограниченными возможностями. Не важно, в какой точке мира находится разметчик, главное, чтобы у него был компьютер и доступ в Интернет. Это сейчас особенно актуально, ведь в тренде удаленная работа с гибким графиком без привязки к рабочему месту» – пояснил руководитель направления «Робототехника и искусственный интеллект» Фонда «Сколково» Павел Кривозубов.

Разработчики NLab Marker постоянно работают над снижением себестоимости получаемых данных, внедряют новые инструменты проверки качества работы, системы автоматической разметки на глубоком обучении (т. н. технологии Active Learning) и повышают качество размеченных данных.

В отличие от аналогов, например, сервиса Яндекс.Толока, NLab Marker гарантирует высокую точность подготовки данных, контроль качества на всех этапах процесса разметки и защиту персональных данных от посторонних лиц, поскольку позволяет разворачивать платформу в защищённом контуре заказчика.

Компания «Наносемантика» позаботилась и о защите персональных данных своих клиентов. В NLab Marker есть функционал, позволяющий вычистить из готового датасета персональные данные, чтобы они не попали в открытый доступ.

«Машинное обучение невозможно без обучающих данных – примеров, по которым алгоритмы учатся. Мы, как разработчики алгоритмов ИИ, знаем, насколько важны качественно размеченные данные. Наша команда разработала платформу NLab Marker для себя, но теперь мы готовы предложить этот продукт рынку, так как видим спрос на промышленные платформы разметки данных, которые позволяют гибко реализовывать любые задачи по разметке и самостоятельно администрировать этот процесс компаниям с сильным отделом Data Science», – отметил генеральный директор компании «Наносемантика» Станислав Ашманов.



Компания-источник:  Наносемантика