Разработка программных средств для имитации голосов популярных исполнителей с использованием технологий нейронных сетей

1.

МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ
Учреждение образования
«Гродненский государственный университет имени Янки Купалы»
Факультет математики и информатики
Кафедра системного программирования и компьютерной безопасности
СУРКОНТ ИЛЬЯ ИВАНОВИЧ
Разработка программных средств для имитации голосов популярных исполнителей с использованием
технологий нейронных сетей
Дипломная работа
студента 4 курса дневной формы получения образования
Специальность 1-40 03 01 «Искусственный интеллект»
небольшое описание
Научный руководитель
Зайкова Светлана Алексеевна,
кандидат физико-математических наук,
доцент, доцент кафедры системного
программирования и компьютерной
безопасности

2.

Актуальность задачи
С ростом актуальности данной задачи
увеличивается потребность в
имитации голоса для различных
приложений, таких как виртуальные
ассистенты, дубляж фильмов,
создание музыкальных каверов,
озвучка в компьютерных играх и
аниме и многое другое. Современные
нейросети позволяют достичь
высокой степени сходства с
реальным голосом, что несомненно
обеспечивает наилучшие результаты.

3.

ОБЪЕКТ
Процесс имитации голосов.
ПРЕДМЕТ
Программные средства, реализующие процесс имитации
голоса.
ЦЕЛЬ
Разработка программных средств для имитации голосов
исполнителей с использованием технологий нейронных сетей.
популярных

4.

Задачи
01
анализ технологий имитации голоса
02
изучение различных архитектур нейронных
сетей
03
разработка и создание модели для имитации
голоса популярных исполнителей
04
тест и оценка итогов

5.

Аналоги
Morphvox — популярное ПО для
изменения голоса в режиме
реального времени.
Основные функции:
• Разнообразие
предустановленных голосов
• Настройка голосовых профилей
• Интеграция с играми и
платформами
• Добавление фоновых шумов
• Библиотека звуковых эффектов
Применение:
• Виртуальные ассистенты
• Развлечения (стримы, игры)
• Креативные проекты (дубляж,
озвучка)

6.

Аналоги
Voice Changer — это программное
обеспечение для изменения голоса
в реальном времени.
Основные функции:
• Разнообразные
предустановленные голоса
• Настройка и эффекты
• Интеграция с играми и
приложениями
• Добавление фоновых шумов
• Библиотека звуков
Применение:
• Виртуальные ассистенты
• Стриминг и игры
• Дубляж и озвучка

7.

Существующие проблемы
В прошлом существовали компании,
предлагающие услуги изменения
голоса по телефону в реальном
времени:
• Клиент заказывал звонок через
веб-сайт, предоставляя образцы
голосов своего и "мишени".
• Затем система соединяла клиента
и "мишень", изменяя голос
клиента на сервере до
характеристик голоса "мишени".

8.

Обучение модели
Для выборки данных
использовалась платформа YouTube
благодаря обилию доступных видео.
Отобраны ключевые видео с
минимальным фоновым шумом. Для
каждого видео выделены сегменты с
голосом конкретного человека, с
точным временем начала и
окончания в секундах.
НАЧАЛО СЕГМЕНТА

9.

Обучение модели
Файл конфигурации
Преобразованные
сегменты в аудио
Питч файлы для
аудио сегментов
Файл модели

10.

Инструктаж по приложению
вывод готового аудио

11.

Инструктаж по приложению

12.

Примеры сгенерированных аудио
Виктор Цой
Честер Беннингтон
Куплинов

13.

Заключение
Имитация голоса с использованием нейронных сетей позволяет достичь высокой точности
воспроизведения уникальных голосовых характеристик конкретного человека. Технология
находит применение в дубляже кино, озвучке компьютерных игр, создании аудиокниг,
голосовых помощников, телеграмм-ботов.
Ещё стоит выделить рекомендации по совершенствованию процессов:
• Сбор разнообразных и качественных данных.
• Использование более эффективных алгоритмов и методов предобработки данных
• Совершенствование алгоритмов и технологий для обработки голосовых данных в
режиме реального времени.
English     Русский Правила