Генеративная нейросеть Midjourney была запущена 12 июля 2022 года на Discord-сервере. Сейчас это один из известнейших искусственный интеллектов для создания картинок наравне с DALL-E, Stable Diffusion и Kandinsky — и один из ИИ с самыми впечатляющими результатами.
Мы здесь, чтобы подробно рассказать, что такое Midjourney, как она работает и как ей воспользоваться.
Что такое Midjourney
Midjourney — генеративная нейросеть, которая позволяет создавать картинки: концепт-арты персонажей и локаций, иллюстрации и просто изображения, например, в блог. Чтобы она начала работать, ей нужно предоставить текстовое описание желаемого результата — так называемый промт от английского «prompt». На русский это слово можно перевести как запрос.
Читайте также: «Как писать эффективные промты для нейросети».
Ее создатель — независимая исследовательская лаборатория Midjourney Inc во главе с Дэвидом Хольцем.
Для использования Midjourney не нужно ни специальное программное обеспечение, ни даже переход на отдельный сайт. Генерация изображений происходит на сервере в мессенджере Discord, что сильно отличает ее от других популярных генеративных нейросетей. Специальные знания тоже не нужны, достаточно иметь в голове описание того, что вы хотите получить.
Как работает
В основе работы Midjourney лежат две технологии машинного обучения: уже известная многим по ChatGPT большая языковая модель (БЯМ или LLM от «large language model») и диффузионная модель.
Когда пользователь составляет текстовый промт, БЯМ дешифрует значения слов и превращает их в числовой вектор. Вектор использует вторая модель — диффузионная. Она преображает случайный шум в картинку. Диффузионные модели предполагают постепенное добавление шума к обучающему набору изображений. В результате изменения шума получается совершенно иная картинка.
Скажем, мы составляем текстовый запрос с таким описанием: «Человекоподобный кот в стильной кожанке идет по улице города в стиле киберпанк». Сначала Midjourney берет холст, состоящий целиком из шума. Затем обученная модель начинает убирать шум, пока не появляется картинка. Чтобы картинка получилась такой, какая нам нужна, нейросеть использует в качестве исходного материала изображения в похожей тематике. Иными словами, она обучается на десятках тысяч киберпанковых изображений, фото кожанок и картинок с кошками, которые разбросаны по всему интернету.
Для нас техническое описание не так важно. Куда интереснее то, как воспользоваться Midjourney и что можно создать при помощи этой нейросети — больше узнать о Midjourney можно на бесплатный вебинаре: расскажем, покажем, научим и дадим попользоваться!
Как воспользоваться
В первую очередь, вам потребуется аккаунт в Discord. После этого нужно перейти на сервер Midjourney.
После этого можно перейти в один из доступных каналов для новичков #newbies и начать генерировать изображения при помощи команды /imagine. Выбрать ее можно в диалоговом окне, нажав на иконку в виде плюса с левой стороны.
Важный момент: раньше нейросеть позволяла каждому новичку создать 25 бесплатных изображений. Однако с апреля 2023 года бесплатный план был закрыт, и для генерации картинок теперь нужно купить подписку.
Сколько стоит
Для того, чтобы оформить подписку, в том же чате #newbies нужно ввести команду /subscribe.
Базовый тариф обойдется в $8 ежемесячно. Сюда входит 200 генераций в месяц, доступ к галерее пользователей и возможность получить картинку сравнительно быстро. Стандартный тариф — это $24 ежемесячно, что включает в себя то же, что и в базе, а также бесконечное количество генераций, 15 часов быстрого создания изображений и некоторые другие фишки. За $48 ежемесячно можно приобрести тариф «Про», а за $96 — «Мегатариф».
Для простой генерации хватит и первых двух. Последние два — скорее для крупных компаний, которым постоянно нужно делать концепт-арты или иллюстрации.
В среднем, Midjourney создает четыре картинки за минуту, но может дольше, если составить нестандартный запрос — например, прямоугольное изображение вместо квадрата. Также у нейросети есть «быстрый» и «расслабленный» режимы. В быстром режиме образ создается как бы «вне очереди», но даже у самого дорогого тарифа есть ограничения в этом плане. Обычно это количество часов, на протяжении которых пользователь может генерировать изображения вне очереди.
В стандартном «расслабленном» режиме каждый пользователь пишет промт, который автоматически становится в очередь.
В чем разница между Midjourney и Dall-E
Невозможно сказать, какой из искусственных интеллектов лучше. Они различаются хотя бы тем, что Dall-E — продукт крупной компании OpenAI, которая получает финансирование в том числе от Microsoft. Midjourney разработала сравнительно небольшая независимая лаборатория.
Обе системы основаны на языковых моделях, обе относятся к категории «текст в картинку». Но если говорить о функциональных отличиях, то Midjourney доступна в мессенджере Discord, тогда как Dall-E — только с собственной платформы OpenAI. Получить Dall-E пользователям из России может быть проблематично, в обоих случаях им нужен будет посредник для оплаты тарифа. Бесплатных версий у инструментов нет, поэтому если вам интересно опробовать генеративную нейросеть с картинками бесплатно, то вы можете обратиться к Kandinsky от Сбера.