Не так давно Stable Diffusion (нейросеть для генерации изображений) представила миру свое новое детище — Stable Audio. Это значит, что появилась еще одна крутая нейросеть, но на этот раз, для генерации музыки. Сейчас о ней и расскажем.
Что это
Stable Audio — это в буквальном смысле штука, которая создает уникальную музыку с нуля. Как? Конечно же, на основе искусственного интеллекта. Это база, как говорится.
Нейросеть считывает заданные промты (о том, как их правильно составлять читайте тут), и на их основе генерирует музыкальные композиции. Как ChatGPT, только не про текст, а про музыку.
Используя последние достижения в области диффузионной дискретизации, флагманская модель Stable Audio способна воспроизвести 95 секунд стереозвука с частотой дискретизации 44,1 кГц менее чем за одну секунду на графическом процессоре NVIDIA A100. Короче, это что-то на крутом.
Миссия проекта — «предоставить создателям инструменты, помогающие музыкальному творчеству». И знаете, какой слоган у нейросети? «AI-музыка от музыкантов для музыкантов». Не знаем, стоит ли волноваться Оксимирону или Дрейку, но индустрия репа точно станет интереснее.
Интересуетесь нейросетями? А как насчет бесплатного вебинар «Нейросети для всех». На нем мы расскажем, как с помощью ИИ повысить производительность и доход, а также сделать его бесплатным личным помощником в быту. Записывайтесь!
Как обучали нейросеть
Для обучения Stable Audio использовали набор данных, состоящий из более чем 800 тысяч аудиофайлов, содержащих музыку, звуковые эффекты, а также соответствующие текстовые метаданные, предоставленные в рамках сделки с поставщиком стоковой музыки AudioSparx. В общей сложности этот набор данных составляет более 19 500 часов аудиозаписей!
Что умеет
Создавать музыку. Нейросеть позволяет создавать музыку произвольной длины, с помощью вашего текстового описания. Работает на новейших моделях диффузии звука.
Классный звук. Генерировать и загружать аудио можно в формате стерео 44,1 кГц. Высококачественный звук — важнейшая деталь в музыке.
Для коммерческого использования. Всю сгенерированную музыку в Stable Audio можно эксплуатировать для себя и зарабатывать на этом. Только для этого требуется платная подписка, но об этом в разделе «Сколько стоит».
Технические подробности
Модели Stable Audio представляют собой латентные диффузионные модели, состоящие из нескольких различных частей, аналогичных Stable Diffusion:
- вариационный автоэнкодер (VAE)
- текстовый кодер
- модель условной диффузии на основе U-Net
VAE помещает стереофонический звук в латентное кодирование со сжатием данных, устойчивое к шумам и инвертируемым потерям, что позволяет быстрее генерировать и обучаться.
Для настройки модели на текстовые подсказки используется кодировщик замороженного текста модели CLAP, обученной с нуля на том самом наборе данных из 19 500 часов аудиозаписей. CLAP-модель позволяет текстовым признакам содержать некоторую информацию о связях между словами и звуками.
Диффузионная модель Stable Audio представляет собой U-сеть с 907 М параметрами, основанную на модели, используемой в Moûsai. Она использует комбинацию остаточных слоев, слоев самовнимания и слоев перекрестного внимания для деноизации входного сигнала. Для более эффективного масштабирования модели на большие длины последовательностей в U-сеть были добавлены реализации внимания, эффективные с точки зрения памяти.
Сколько стоит
Сейчас у Stable Audio есть три тарифных плана:
Бесплатный, в котором можно генерить 20 треков в месяц, продолжительностью до 45 секунд для некоммерческого пользования.
Профессиональный за $11.99 в месяц. Здесь уже можно зарабатывать на сгенерированной музыке. Продолжительность — до 90 секунд, количество — до 500 композиций в месяц.
Предприятие, цена за который обсуждается индивидуально с отделом продаж. Тут нет ограничений ни в количестве, ни в продолжительности музыкального проекта.
Из-за того, что релиз инструмента состоялся совсем недавно, тарифные планы будут меняться в соответствии с отзывами пользователей и спросом. Подробнее ознакомиться с тарифами можно на официальном сайте в разделе «Цены».
Будущее нейросети
Stable Audio представляет собой результат передовых исследований в области генерации аудио, проводимые лабораторией Harmonai, входящей в состав Stability AI. Сейчас продолжается совершенствование архитектуры моделей ИИ, наборов данных и процедуры обучения для улучшения качества, управляемости, скорости и длины вывода.
Если вас заинтересовала нейросеть, можете следить за будущими релизами Harmonai.