Генеративная нейросеть Midjourney была запущена 12 июля 2022 года на Discord-сервере. Сейчас это один из известнейших искусственный интеллектов для создания картинок наравне с DALL-E, Stable Diffusion и Kandinsky — и один из ИИ с самыми впечатляющими результатами.

Мы здесь, чтобы подробно рассказать, что такое Midjourney, как она работает и как ей воспользоваться.

Что такое Midjourney

Midjourney — генеративная нейросеть, которая позволяет создавать картинки: концепт-арты персонажей и локаций, иллюстрации и просто изображения, например, в блог. Чтобы она начала работать, ей нужно предоставить текстовое описание желаемого результата — так называемый промт от английского «‎prompt». На русский это слово можно перевести как запрос.

Читайте также: «‎Как писать эффективные промты для нейросети».

Ее создатель — независимая исследовательская лаборатория Midjourney Inc во главе с Дэвидом Хольцем.

Для использования Midjourney не нужно ни специальное программное обеспечение, ни даже переход на отдельный сайт. Генерация изображений происходит на сервере в мессенджере Discord, что сильно отличает ее от других популярных генеративных нейросетей. Специальные знания тоже не нужны, достаточно иметь в голове описание того, что вы хотите получить.

Как работает

В основе работы Midjourney лежат две технологии машинного обучения: уже известная многим по ChatGPT большая языковая модель (БЯМ или LLM от «‎large language model») и диффузионная модель.

Когда пользователь составляет текстовый промт, БЯМ дешифрует значения слов и превращает их в числовой вектор. Вектор использует вторая модель — диффузионная. Она преображает случайный шум в картинку. Диффузионные модели предполагают постепенное добавление шума к обучающему набору изображений. В результате изменения шума получается совершенно иная картинка.

Скажем, мы составляем текстовый запрос с таким описанием: «‎Человекоподобный кот в стильной кожанке идет по улице города в стиле киберпанк». Сначала Midjourney берет холст, состоящий целиком из шума. Затем обученная модель начинает убирать шум, пока не появляется картинка. Чтобы картинка получилась такой, какая нам нужна, нейросеть использует в качестве исходного материала изображения в похожей тематике. Иными словами, она обучается на десятках тысяч киберпанковых изображений, фото кожанок и картинок с кошками, которые разбросаны по всему интернету.

Для нас техническое описание не так важно. Куда интереснее то, как воспользоваться Midjourney и что можно создать при помощи этой нейросети — больше узнать о Midjourney можно на бесплатный вебинаре: расскажем, покажем, научим и дадим попользоваться!

Как воспользоваться

В первую очередь, вам потребуется аккаунт в Discord. После этого нужно перейти на сервер Midjourney.

После этого можно перейти в один из доступных каналов для новичков #newbies и начать генерировать изображения при помощи команды /imagine. Выбрать ее можно в диалоговом окне, нажав на иконку в виде плюса с левой стороны.

Важный момент: раньше нейросеть позволяла каждому новичку создать 25 бесплатных изображений. Однако с апреля 2023 года бесплатный план был закрыт, и для генерации картинок теперь нужно купить подписку.

Сколько стоит

Для того, чтобы оформить подписку, в том же чате #newbies нужно ввести команду /subscribe.

Базовый тариф обойдется в $8 ежемесячно. Сюда входит 200 генераций в месяц, доступ к галерее пользователей и возможность получить картинку сравнительно быстро. Стандартный тариф — это $24 ежемесячно, что включает в себя то же, что и в базе, а также бесконечное количество генераций, 15 часов быстрого создания изображений и некоторые другие фишки. За $48 ежемесячно можно приобрести тариф «‎Про», а за $96 — «‎Мегатариф».

Для простой генерации хватит и первых двух. Последние два — скорее для крупных компаний, которым постоянно нужно делать концепт-арты или иллюстрации.

В среднем, Midjourney создает четыре картинки за минуту, но может дольше, если составить нестандартный запрос — например, прямоугольное изображение вместо квадрата. Также у нейросети есть «‎быстрый» и «‎расслабленный» режимы. В быстром режиме образ создается как бы «‎вне очереди», но даже у самого дорогого тарифа есть ограничения в этом плане. Обычно это количество часов, на протяжении которых пользователь может генерировать изображения вне очереди.

В стандартном «‎расслабленном» режиме каждый пользователь пишет промт, который автоматически становится в очередь.

В чем разница между Midjourney и Dall-E

Невозможно сказать, какой из искусственных интеллектов лучше. Они различаются хотя бы тем, что Dall-E — продукт крупной компании OpenAI, которая получает финансирование в том числе от Microsoft. Midjourney разработала сравнительно небольшая независимая лаборатория.

Обе системы основаны на языковых моделях, обе относятся к категории «‎текст в картинку». Но если говорить о функциональных отличиях, то Midjourney доступна в мессенджере Discord, тогда как Dall-E — только с собственной платформы OpenAI. Получить Dall-E пользователям из России может быть проблематично, в обоих случаях им нужен будет посредник для оплаты тарифа. Бесплатных версий у инструментов нет, поэтому если вам интересно опробовать генеративную нейросеть с картинками бесплатно, то вы можете обратиться к Kandinsky от Сбера.