Обзор Stable Audio — нейросеть от Stable Diffusion для генерации музыки

Не так давно Stable Diffusion (нейросеть для генерации изображений) представила миру свое новое детище — Stable Audio. Это значит, что появилась еще одна крутая нейросеть, но на этот раз, для генерации музыки. Сейчас о ней и расскажем.

Что это

Stable Audio — это в буквальном смысле штука, которая создает уникальную музыку с нуля. Как? Конечно же, на основе искусственного интеллекта. Это база, как говорится.

Нейросеть считывает заданные промты (о том, как их правильно составлять читайте тут), и на их основе генерирует музыкальные композиции. Как ChatGPT, только не про текст, а про музыку.

Используя последние достижения в области диффузионной дискретизации, флагманская модель Stable Audio способна воспроизвести 95 секунд стереозвука с частотой дискретизации 44,1 кГц менее чем за одну секунду на графическом процессоре NVIDIA A100. Короче, это что-то на крутом.

Миссия проекта — «предоставить создателям инструменты, помогающие музыкальному творчеству». И знаете, какой слоган у нейросети? «AI-музыка от музыкантов для музыкантов». Не знаем, стоит ли волноваться Оксимирону или Дрейку, но индустрия репа точно станет интереснее.

Интересуетесь нейросетями? А как насчет бесплатного вебинар «Нейросети для всех». На нем мы расскажем, как с помощью ИИ повысить производительность и доход, а также сделать его бесплатным личным помощником в быту. Записывайтесь!

ОНЛАЙН-ПРАКТИКУМ

ЗАПУСК нейросети DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ

ЧТО БУДЕТ НА ОБУЧЕНИИ?

ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ нейросети DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
Где и как применять? Потестируем модель после установки на разных задачах
Как дообучить модель под себя?

Участвовать бесплатно

Как обучали нейросеть

Для обучения Stable Audio использовали набор данных, состоящий из более чем 800 тысяч аудиофайлов, содержащих музыку, звуковые эффекты, а также соответствующие текстовые метаданные, предоставленные в рамках сделки с поставщиком стоковой музыки AudioSparx. В общей сложности этот набор данных составляет более 19 500 часов аудиозаписей!

Что умеет

Создавать музыку. Нейросеть позволяет создавать музыку произвольной длины, с помощью вашего текстового описания. Работает на новейших моделях диффузии звука.

Классный звук. Генерировать и загружать аудио можно в формате стерео 44,1 кГц. Высококачественный звук — важнейшая деталь в музыке.

Для коммерческого использования. Всю сгенерированную музыку в Stable Audio можно эксплуатировать для себя и зарабатывать на этом. Только для этого требуется платная подписка, но об этом в разделе «Сколько стоит».

Технические подробности

Модели Stable Audio представляют собой латентные диффузионные модели, состоящие из нескольких различных частей, аналогичных Stable Diffusion:

вариационный автоэнкодер (VAE)
текстовый кодер
модель условной диффузии на основе U-Net

VAE помещает стереофонический звук в латентное кодирование со сжатием данных, устойчивое к шумам и инвертируемым потерям, что позволяет быстрее генерировать и обучаться.

Для настройки модели на текстовые подсказки используется кодировщик замороженного текста модели CLAP, обученной с нуля на том самом наборе данных из 19 500 часов аудиозаписей. CLAP-модель позволяет текстовым признакам содержать некоторую информацию о связях между словами и звуками.

Диффузионная модель Stable Audio представляет собой U-сеть с 907 М параметрами, основанную на модели, используемой в Moûsai. Она использует комбинацию остаточных слоев, слоев самовнимания и слоев перекрестного внимания для деноизации входного сигнала. Для более эффективного масштабирования модели на большие длины последовательностей в U-сеть были добавлены реализации внимания, эффективные с точки зрения памяти.

Сколько стоит

Сейчас у Stable Audio есть три тарифных плана:

Бесплатный, в котором можно генерить 20 треков в месяц, продолжительностью до 45 секунд для некоммерческого пользования.

Профессиональный за $11.99 в месяц. Здесь уже можно зарабатывать на сгенерированной музыке. Продолжительность — до 90 секунд, количество — до 500 композиций в месяц.

Предприятие, цена за который обсуждается индивидуально с отделом продаж. Тут нет ограничений ни в количестве, ни в продолжительности музыкального проекта.

Из-за того, что релиз инструмента состоялся совсем недавно, тарифные планы будут меняться в соответствии с отзывами пользователей и спросом. Подробнее ознакомиться с тарифами можно на официальном сайте в разделе «Цены».

Будущее нейросети

Stable Audio представляет собой результат передовых исследований в области генерации аудио, проводимые лабораторией Harmonai, входящей в состав Stability AI. Сейчас продолжается совершенствование архитектуры моделей ИИ, наборов данных и процедуры обучения для улучшения качества, управляемости, скорости и длины вывода.

Если вас заинтересовала нейросеть, можете следить за будущими релизами Harmonai.

РОССИЙСКИЕ НЕЙРОСЕТИ ДЛЯ ЖИЗНИ И КАРЬЕРЫ В 2025

Присоединяйся к онлайн-вебинару.

В прямом эфире разберем и потестируем лучшие на сегодняшний день отечественные ИИ!

Вы узнаете о том:

Выполним базовые задачи на российских нейросетях и посмотрим на результаты!
Файл-инструкцию «Как сделать нейро-фотосессию из своего фото бесплатно, без иностранных карт и прочих сложностей»
Покажем 10+ способов улучшить свою жизнь с ИИ каждому — от ребенка и пенсионера до управленца и предпринимателя

Участвовать бесплатно

ОБЗОРНЫЙ ПРАКТИКУМ ПО НАШУМЕВШИМ НЕЙРОСЕТЯМ

Нейросети DEEPSEEK И QWEN

За 2 часа сделаем полный обзор новых мощных ИИ-моделей, которые бросают вызов нейросети ChatGPT

Вы узнаете:

Возможность получить Доступ в Нейроклуб на целый месяц
Как ИИ ускоряет работу и приносит деньги
За 2 часа вы получите четкий план, как начать работать с ИИ прямо сейчас!

Участвовать бесплатно

Медиа о нейросетях,
зерокодинге и онлайн-образовании

Медиа о нейросетях,
зерокодинге и онлайн-образовании

Обзор Stable Audio — нейросеть от Stable Diffusion для генерации музыки

Что это

Как обучали нейросеть

Что умеет

Технические подробности

Сколько стоит

Будущее нейросети

Обзор Stable Audio — нейросеть от Stable Diffusion для генерации музыки

Что это

Как обучали нейросеть

Что умеет

Технические подробности

Сколько стоит

Будущее нейросети

Вам точно понравится