Искусственный интеллект выявит коррупцию в законах

18.10.2021

В начале сентября 2021 года в Великом Новгороде прошёл хакатон, посвящённый поиску способов выявления коррупционных схем в российских законах. В мероприятии приняли участие 146 человек, которые объединились в 26 команд. Площадку для проведения форума предоставил Новгородский строительный колледж. 

Nanosemantic.png

Участникам предложили данные из нормативно-правовых актов, на основе этой информации требовалось разработать технологически полезное решение. Для проверки промежуточных результатов были предусмотрены 3 чек-пойнта.

Соревновательное жюри состояло из представителей Министерства юстиции, органов прокуратуры, независимых экспертов и разработчиков электронных продуктов. Сотрудники Минюста рассматривали пользу и экономическую целесообразность проектов, а технические специалисты оценивали код, алгоритмы и сравнивали метрики.

По итогам хакатона первое место заняла «Наносемантика». С задачами, поставленными организаторами форума, команда, в составе которой были Александр Туманов и Павел Сухачев, справилась лучше всех. Члены жюри отметили нестандартный подход, генерацию новых данных и презентацию проекта.

Коллектив «Наносемантики» представил метод поиска формулировок, открывающих перед недобросовестными должностными лицами возможность трактовать закон в свою пользу. Были применены 12 факторов (широта дискреционных полномочий, выборочное изменение объёма прав, отсутствие или неполнота административных процедур и др.) для обнаружения норм права, нарушающих права граждан. В качестве инструмента поиска была определена бинарная классификация строк. Датасет был разделён на строки, где 0 — это отсутствие фактора, а 1 — присутствие. После нахождения всех факторов их распределили по 12 классам.

Решение «Наносемантики» состоит из четырёх этапов:

Первый этап — расчёт коэффициента важности слова, построение классификатора на основе векторного представления слов и выделение feature importances для каждого из лейблов.

Второй этап — применение GPT-3, авторегрессионной генеративной языковой модели, с помощью которой было сформировано 50 тыс. строк c коррупционными факторами. GPT-3 позволила избавиться от дисбаланса данных, улучшить их качество и максимально расширить данные для извлечения большего количества информации.

Третий этап — обучение модели. Преобразование данных с тестированием разных моделей и использованием градиентного бустинга на решающих деревьях в библиотеке CatBoost.

Четвёртый этап — активное обучение для сбалансирования данных за счёт выкидывания строк из датасета, негативно влияющих на качество модели. Метриками, показывающими качество решения, были выбраны F1-score, accuracy, precision, recall. В итоге получили следующие результаты: 79 % (77 % в prod) accuracy и 83 % (77 % в prod) F1-score.

В России ежегодно на федеральном, региональном и муниципальном уровнях принимается более миллиона нормативных правовых актов. Одному сотруднику для антикоррупционного анализа документа обычно требуется от 3 часов до 3 дней. Теперь же благодаря системе «Наносемантики» экспертиза будет проводиться моментально.

Внедрение решения с применением искусственного интеллекта позволит улучшить государственные акты, обеспечить правовую защиту граждан и исключить случаи произвола со стороны должностных лиц.



Компания источник:  Наносемантика