Обновленную технологию представила компания «Биорг», российский разработчик систем оцифровки документов и распознавания изображений на базе искусственного интеллекта. Улучшенная нейросеть в 4,25 раза быстрее и в 8 раз точнее своей предыдущей модели распознает поле паспорта с машиночитаемой записью (МЧЗ, MRZ).
Это помогает контролировать качество обработки всех данных в документе и в автоматическом режиме проверять паспорт на актуальность. Скорость и точность важны при скоринге кредитных заявок в банках, МФО, при оформлении договора в страховых компаниях и т.д.
Особенность новой нейросетевой модели в том, что ИИ не пытается локализовать данные, и распознать отдельные символы в строке. Сеть находит и считывает сразу всю информацию, подобно тому, как это делает человеческий глаз. Модель понимает, что справилась с распознаванием хорошо в ходе многоэтапной постобработки - по количеству распознанных символов, по содержанию строки и т.д. Такая проверка занимает доли секунды.
«Одно из преимуществ подхода в том, что он может быть масштабирован на другие типы документов. Модель может работать не только на графических ускорителях (видеокартах), но и на обычных процессорах. Это делает процесс распознавания более экономичным с точки зрения расходов на инфраструктуру. И даже более экологичным, если учитывать, сколько электроэнергии поглощают видеокарты и сколько тепла они выделяют в датацентрах», – говорит генеральный директор «Биорг» Руслан Алигаджиев.
Нейросеть хорошо справляется даже с документами, фото которых сделано в условиях недостатка или избытка освещения, а также с изображениями документов, сфотографированных под углом, с геометрическими искажениями. Традиционно такие изображения вызывали проблемы при обработке. Точность распознавания строки МЧЗ составляет более 99%.
Ранее технологии «Биорг» применили для оцифровки архива технической документации Калининской АЭС. Объём оцифрованных данных составил 7 терабайт или 4 млн листов технической документации в формате А4.