Deepfake голос: технология, нейросети для создания композиций

24.09.2015

403 4 minutes read

Мария Иванова25 июня, 16:44

Нейросети уже давно способны генерировать не только изображения, но и другие виды медиа, включая имитации чужих голосов. Причем для создания дипфейка не обязательно быть продвинутым пользователем ПК: мы собрали пять отличных программ для синтеза голоса.

Resemble.ai

Видео дня

Resemble.ai — отличный text-to-speech генератор, который также позволяет пользователю создать без лишних проблем создать уникальный голос. Ему требуется некоторое время на запуск, но чем больше информации вы дадите программе, тем лучше будет качество. Resemble.ai довольно прост в работе: вы загружаете фрагмент голоса в сэмплер, после чего он анализирует файл и синтезирует новую дорожку на его основе.

Скриншот

Respeecher

Respeecher делает акцент на естественность синтезированных голосов. Программа пользуется популярностью среди работников киноиндустрии и продюсеров, разработчиков видеоигр, актеров озвучки, ведущих подкастов, рекламщиков и представителей многих других сфер. Respeecher позволяет точно передавать эмоции и даже восстанавливать голоса умерших людей. Кроме того, программа поддерживает разные языки и региональные акценты.

Скриншот

FakeYou

FakeYou работает на базе примерно той же технологии, что и нейросети. Сами разработчики позиционируют программу как text-to-speech генератор, однако она также позволяет создавать различные голоса. Если вам нужен уже готовый, то в библиотеке FakeYou найдется несколько тысяч вариантов: от знаменитых актеров до главных героев голливудских блокбастеров.

Скриншот

Real-Time Voice Cloning

Real-Time Voice Cloning — проект с открытым исходным кодом, опубликованный на GitHub. Это инструмент на базе машинного обучения, которому требуется всего лишь 5-секундный фрагмент аудио, чтобы клонировать голос на записи. У программы нет веб-версии, однако сам дистрибутив бесплатен. Правда, утилиту нельзя назвать дружелюбной к новичкам: без кое-каких технических знаний ей может быть тяжело пользоваться.

Скриншот

Descript

Descript используется преимущественно для редактирования подкастов и видео в социальных сетях, но в состав утилиты также входит инструмент для клонирования голоса под названием Overdub. Он потребует как минимум 30-минутный фрагмент звука — он генерируется, когда пользователь зачитывает текст, предложенный программой, Но после того, как Overdub проанализирует ваш голос, вы сможете синтезировать любое аудио.

Наука и техникаРамблер: главные новости