Не так давно Stable Diffusion (нейросеть для генерации изображений) представила миру свое новое детище — Stable Audio. Это значит, что появилась еще одна крутая нейросеть, но на этот раз, для генерации музыки. Сейчас о ней и расскажем.

Что это

Stable Audio — это в буквальном смысле штука, которая создает уникальную музыку с нуля. Как? Конечно же, на основе искусственного интеллекта. Это база, как говорится.

Нейросеть считывает заданные промты (о том, как их правильно составлять читайте тут), и на их основе генерирует музыкальные композиции. Как ChatGPT, только не про текст, а про музыку.

Используя последние достижения в области диффузионной дискретизации, флагманская модель Stable Audio способна воспроизвести 95 секунд стереозвука с частотой дискретизации 44,1 кГц менее чем за одну секунду на графическом процессоре NVIDIA A100. Короче, это что-то на крутом.

Миссия проекта — «предоставить создателям инструменты, помогающие музыкальному творчеству». И знаете, какой слоган у нейросети? «AI-музыка от музыкантов для музыкантов». Не знаем, стоит ли волноваться Оксимирону или Дрейку, но индустрия репа точно станет интереснее.

Интересуетесь нейросетями? А как насчет бесплатного вебинар «Нейросети для всех». На нем мы расскажем, как с помощью ИИ повысить производительность и доход, а также сделать его бесплатным личным помощником в быту. Записывайтесь!

Как обучали нейросеть

Для обучения Stable Audio использовали набор данных, состоящий из более чем 800 тысяч аудиофайлов, содержащих музыку, звуковые эффекты, а также соответствующие текстовые метаданные, предоставленные в рамках сделки с поставщиком стоковой музыки AudioSparx. В общей сложности этот набор данных составляет более 19 500 часов аудиозаписей!

Что умеет

Создавать музыку. Нейросеть позволяет создавать музыку произвольной длины, с помощью вашего текстового описания. Работает на новейших моделях диффузии звука.

Классный звук. Генерировать и загружать аудио можно в формате стерео 44,1 кГц. Высококачественный звук — важнейшая деталь в музыке.

Для коммерческого использования. Всю сгенерированную музыку в Stable Audio можно эксплуатировать для себя и зарабатывать на этом. Только для этого требуется платная подписка, но об этом в разделе «Сколько стоит».

Технические подробности

Модели Stable Audio представляют собой латентные диффузионные модели, состоящие из нескольких различных частей, аналогичных Stable Diffusion:

  • вариационный автоэнкодер (VAE)
  • текстовый кодер
  • модель условной диффузии на основе U-Net

VAE помещает стереофонический звук в латентное кодирование со сжатием данных, устойчивое к шумам и инвертируемым потерям, что позволяет быстрее генерировать и обучаться.

Для настройки модели на текстовые подсказки используется кодировщик замороженного текста модели CLAP, обученной с нуля на том самом наборе данных из 19 500 часов аудиозаписей. CLAP-модель позволяет текстовым признакам содержать некоторую информацию о связях между словами и звуками.

Диффузионная модель Stable Audio представляет собой U-сеть с 907 М параметрами, основанную на модели, используемой в Moûsai. Она использует комбинацию остаточных слоев, слоев самовнимания и слоев перекрестного внимания для деноизации входного сигнала. Для более эффективного масштабирования модели на большие длины последовательностей в U-сеть были добавлены реализации внимания, эффективные с точки зрения памяти.

Сколько стоит

Сейчас у Stable Audio есть три тарифных плана:

Бесплатный, в котором можно генерить 20 треков в месяц, продолжительностью до 45 секунд для некоммерческого пользования.

Профессиональный за $11.99 в месяц. Здесь уже можно зарабатывать на сгенерированной музыке. Продолжительность — до 90 секунд, количество — до 500 композиций в месяц.

Предприятие, цена за который обсуждается индивидуально с отделом продаж. Тут нет ограничений ни в количестве, ни в продолжительности музыкального проекта.

Из-за того, что релиз инструмента состоялся совсем недавно, тарифные планы будут меняться в соответствии с отзывами пользователей и спросом. Подробнее ознакомиться с тарифами можно на официальном сайте в разделе «Цены».

Будущее нейросети

Stable Audio представляет собой результат передовых исследований в области генерации аудио, проводимые лабораторией Harmonai, входящей в состав Stability AI. Сейчас продолжается совершенствование архитектуры моделей ИИ, наборов данных и процедуры обучения для улучшения качества, управляемости, скорости и длины вывода.

Если вас заинтересовала нейросеть, можете следить за будущими релизами Harmonai.