Если нейросеть способна генерировать текст, изображения и видео, то почему бы ей не генерировать и музыку тоже? Звучит как следующий логический шаг в машинном обучении. Странно даже, что не первый: какому разработчику не хочется ответить на заданный в фильме «Я, робот» вопрос о том, способен ли искусственный интеллект написать симфонию?
Инструмент от META* под названием MusicGen симфонию, быть может, и не напишет, но создаст вполне достойный семпл на основе текстового промта, который можно использовать, например, для видеоролика. И он будет бесплатным, что несомненно многих порадует.
Мы рассказываем о нейросетях и возможностях для их прикладного использования на бесплатном вебинаре. Записывайтесь и узнавайте больше об одном из самых востребованных направлений в IT!
Что говорят разработчики
Разработчики говорят, что пытаются решить при помощи MusicGen задачу условной генерации музыки. Это нейросеть на основе единой языковой модели (LM), которая оперирует несколькими потоками сжатого дискретного представления музыки — так называемыми токенами.
MusicGen состоит из одноступенчатого трансформатора и шаблонов чередования токенов, которые позволяют генерировать музыку по текстовым промтам. Или по мелодии: если загрузить ее в систему, нейросеть выдаст в ответ трек на ее основе. Ее можно использовать для создания альтернативной версии любимой поп-песни или для генерации совершенно новой музыки.
Это проект с открытым исходным кодом. Любой может его использовать, а также вносить изменения и создавать собственные музыкальные нейросети на основе MusicGen. Весь код, образцы и модели лежат на Github проекта.
Разработчики — команда META AI*, подразделение искусственного интеллекта компании, подарившей миру Facebook*. Своего нового питомца они обучили на более чем 10 000 песен и 400 000 инструментальных треков из библиотек Shutterstock и Pond5.
Как работает MusicGen
Работает инструмент очень просто. Для создания 15-секундного семпла нужно описать текстом желаемый трек или загрузить в специальное окошко мелодию, на основе которой нейросеть напишет свою музыку.
Подойдет такой промт:
Танцевальный трек в поп-стиле с прилипчивым мотивом, тропической перкуссией и бодрым ритмом для пляжной вечеринки.
Или:
Жизнерадостная песня в стиле кантри на акустической гитаре.
Да, русский язык нейросеть тоже воспринимает!
Что самое интересное: система позволяет загрузить в форму основу, а потом добавить любой промт, чтобы нейросеть переработала трек. Так классическую мелодию можно с легкостью переделать в современную — добавив, например, немножко Леди Гаги к Баху.
Если говорить о технических деталях, то MusicGen построена на базе токенизатора EnCodec, код которого тоже есть в открытом доступе. Только, в отличие от предыдущих работ, MusicGen является одноступенчатым трансформатором, который использует схему чередования токенов, что устраняет необходимость каскадирования нескольких моделей иерархически или апсемплингом.
Впрочем, чтобы работать с нейросетью, знать технические детали совсем не обязательно. Этот инструмент требует навыков кодинга только в том случае, если вы решите создать на его базе собственную нейросеть.
Сколько стоит
Приятная новость: MusicGen бесплатный. Безвозмездный тариф позволяет создавать сколько угодно семплов длительностью по 15 секунд, а роялти-фри политика — использовать их после этого где угодно. При желании нейросеть можно развернуть на своем сервере и доработать, чтобы она выдавала полноценные треки.
Но если желание творить есть, а разворачивать систему на собственном сервере не хочется, то можно оформить подписку на Hugging Face. Это среда для разработчиков искусственного интеллекта. Подписка откроет доступ к огромному количеству нейросетей и позволит создавать при помощи MusicGen двухминутные треки.
Впрочем, и без подписки MusicGen — очень интересный инструмент, ничуть не хуже популярных текстовых и визуальных нейросетей.
*Facebook и Instagram принадлежит компании Meta — признана правительством РФ экстремистской организацией.