Итоги хакатона по разработке алгоритмов генерации голосовых фейков

09.06.2022

22-24 апреля 2022 года в Российском Технологическом Университете МИРЭА при поддержке компании «Наносемантика» прошел студенческий хакатон по разработке алгоритмов генерации голосовых фейков. В течение 3-х дней 17 команд соревновались в разработке программы, которая копирует голос конкретного человека.

Nanosemantic.png

Дипфейк (deep fake) — это реалистичная манипуляция аудио-, фото- и видеоматериалами с помощью искусственного интеллекта для достижения максимального сходства с реальными изображениями и звуковыми дорожками. Само название deep fake объединяет в себе «глубокое обучение» (deep learning) и «подделку» (fake).

Выбор темы хакатона не случаен. Помимо того, что технология производства дипфейков (Generative Artificial Intelligence) названа агентством Gartner стратегическим трендом 2022 года, мы также наблюдаем постоянный рост случаев мошенничества и пропаганды с помощью сгенерированных аудио, видео и текстов. Для успешного противодействия таким технологиям важно понимать, как такой генеративный контент создаётся.

За время хакатона командам необходимо было сгенерировать 10 аудиозаписей по 10 предоставленным текстам и далее презентовать решение жюри.

Хакатон проходил в очном формате в техно-коворкинге университета. Для участников был предусмотрен призовой фонд 110 тысяч рублей от РТУ МИРЭА. Победители также получили возможность пройти стажировку в «Наносемантике».

Для решения поставленной задачи студенческим командам был предоставлен набор данных (датасет) из 2 часов аудиозаписей с голосом американского президента Джо Байдена, программный код с предобученной нейронной сетью для синтеза речи и вычислительные мощности (сервер с видеокартой). Для более глубокого погружения участников в тему специалисты «Наносемантики» также провели 2 обучающих мастер-класса: «Современные методики генерации голосовых дипфейков и синтеза речи» и «Ключевые особенности распознавания голосовых дипфейков».

Всего в соревнование вступило 46 студентов в составе 17 команд, до финала дошло 5 команд.

В состав жюри вошли: С.А. Кудж (ректор РТУ МИРЭА), А.А. Бакаев (директор Института кибербезопасности и цифровых технологий), Станислав Ашманов (генеральный директор, «Наносемантика»), Павел Сухачёв, Антон Дробышев и Григорий Шершуков (ведущие специалисты и руководители отделов, «Наносемантика»).

Результаты проектов оценивались судьями по следующим критериям:

  • Соответствие представленного результата поставленной задаче
  • Реалистичность и качество звучания полученных аудиозаписей
  • Презентация решения
  • Креативный подход к решению задачи

Итоги были подведены после итоговых презентаций команд.

Единогласным решением жюри победа была присуждена команде «Лирохвост» (Шашков Александр Андреевич, Балашов Дмитрий Сергеевич, Охотников Роман Олегович) из РТУ МИРЭА. Команда показала лучший результат по клонированию голоса, а также добавила разработку генерации текста рэп-композиций на основе технологий gpt2. Помимо денежного приза в 50 тысяч рублей победители получили возможность пройти стажировку в «Наносемантике».

Второе место получила команда GENERAL (Симановский Роман, Дмитрий Резников, Дмитрий Савелко). Ребята добавили в свое решение технологию синтеза голоса под видео (движение рта и губ) и получили денежный приз в 30 тысяч рублей.

Третье место и денежный приз в 30 тысяч рублей разделили три команды: Thunder Forward, Crazy Cats, Neural_Ducks. Их финальные проекты не были доработаны до конца, но в течение хакатона командам удалось опробовать несколько интересных технологических решений и креативно подойти к разработке.

Можно смело утверждать, что хакатон удался: тема дипфейков в последнее время стала особенно актуальной и вызвала большой интерес у студенческой аудитории. Участники проявили упорство и стремление к победе несмотря на то, что сама задача была достаточно сложной для неподготовленных команд.

По мотивам проведенного хакатона студенты сняли небольшой видеоролик.



Компания-источник:  Наносемантика