Во многом они похожи, но кое в чем различаются. Давайте разбираться в сильных и слабых сторонах каждой их нейросетей.

Как работают

DALL·E 3 и Midjourney устроены одинаково. Обе обучены на гигабайтах данных, которые представляют из себя связку «картинка — текст». Поэтому они понимают, что представляет из себя, например, собака, и чем она отличается от кошки. Благодаря обучению у нейросетей появляется возможность сделать картинку «реалистичной» или «мультяшной».

Процесс генерации осуществляется в процессе диффузии, когда из сплошного полотна шума, выглядящего как ламповый телеэкран на пустом канале, проявляется изображение. Проявление происходит поэтапно и случайно; в процессе нейросеть адаптирует картинку под текстовый промт. Поэтому, к слову, они каждый раз получаются разными, даже если запрос один и тот же.

Можно сравнить процесс проявки картинки с рассматриванием облаков в небе. Облако, отдаленно напоминающее силуэт собаки, искусственный интеллект начинает делает все более и более собакоподобной — до тех пор, пока оно не начнет выглядеть как настоящее животное.

Однако тот факт, что модель в основе DALL·E 3 и Midjourney используется одна и та же, не означает, что они будут генерировать совершенно идентичные изображения. Отклик на промт зависит от многих факторов и помимо модели: от того, на каком массиве данных нейросеть обучали, сколько времени на это потратили, даже от того, кто именно ее разрабатывал. Потому что тут начинаются различия: если DALL·E 3 — продукт OpenAI, огромной корпорации, которую в том числе финансирует Microsoft, то Midjourney создала сравнительно небольшая частная компания.

Начинаем сравнивать

1. Функционал

Принадлежность к большой корпорации не сделала DALL·E 3 функциональнее. Она работает очень просто: пользователь пишет промт, нейросеть отвечает на него картинкой. Чтобы откорректировать изображение, в предыдущих версиях DALL·E приходилось уточнять запрос, добавлять нужные детали; в DALL·E 3 с этим стало получше — функционально версия подошла к тому, что Midjourney умел с самого начала.

Допустим, вы отправили Midjourney промт, нейросеть вам ответила. Теперь у вас есть возможность откорректировать изображение без переписывания промта. На примере ниже видно, что под картинкой есть два набора из четырех кнопок: U1, U2, U3 и U4, которые увеличивают изображение в ширину, и V1, V2, V3 и V4, которые повторно запускают подсказку, чтобы создать больше вариаций на основе соответствующего изображения.

После изменения размера картинки кнопки можно нажать еще раз — тогда она увеличится до 2048 или даже до 4096 пикселей. Кнопками V можно создавать бесконечное число вариаций, а также изменять конкретную область изображения. Например, если вам потребуется изменить цвет кожи или волос персонажа, взять другую породу собаки или сделать пейзаж на заднем плане зимним.

У DALL·E в третьей версии тоже появилась возможность изменять область. Но у Midjourney такая фича была с самого начала — и даже сейчас она несравнимо мощнее.

В то же время, DALL·E 3 позволяет импортировать картинку сразу в Microsoft Designer, а также изменять ее без помощи нейросети, просто дорисовывая что-то поверх. В ChatGPT для существенных изменений все равно придется создавать новый промт со всеми правками.

2. Удобство

Обе нейросети довольно неудобны для пользователей из России. Они не бесплатны (с одним нюансом, о котором поговорим в конце), несмотря на то, что у Midjourney в свое время была пробная версия. Сейчас ее убрали. Соответственно, чтобы оплатить инструменты, придется обращаться к посредникам или получить виртуальную карту иностранного банка.

Теперь о практическом применении. В плане удобства DALL·E 3 сильно выигрывает: чтобы сгенерировать картинку, достаточно написать промт в ChatGPT, имея при этом подписку Plus. Инструмент также работает в Bing Image Creator. Главное, что принцип работы всегда одинаковый: пишем запрос — получаем результат.

С Midjourney придется сложнее, потому что он доступен только на официальном сервере разработчиков. Сначала нужно установить Discord, если у вас его нет, потом оплатить подписку, только потом генерировать изображения. И с этим не все так просто — чтобы получить картинку, придется пользоваться командой «/imagine» в одном из чатов сервера, только после нее писать запрос.

Гибкость инструмента всегда подразумевает увеличение сложности. Чем больше у него фич, тем больше придется учиться. Midjourney мощнее по сравнению с DALL·E 3, именно поэтому овладеть им сложнее.

3. Качество генерации

Какой смысл в нейросети для генерации изображений, если изображения получаются посредственными? К счастью, DALL·E 3 и Midjourney — не тот случай. Обе создают качественные и интересные изображения, обе можно использовать для создания иллюстраций, ИИ-живописи, картинок для статей, концепт-артов и многого другого. Просто DALL·E 3 быстрее и проще, а Midjourney позволяет вручную корректировать результат.

Что еще можно сказать:

  • DALL·E 3 лучше поднимает текстовые промты, в том числе подробные;
  • Midjourney лучше работает с короткими «ключевыми фразами».

В плане качества принципиальных различий нет.

4. Стоимость

Чтобы получить DALL·E 3, придется оплатить подписку ChatGPT Plus, которая стоит $20 в месяц, зато вместе с ней вы получите инструменты для генерации текста. В подписку входят новейшая версия GPT, возможность распознавания изображений, возможность тренировать собственные мини-нейросети и некоторые другие продукты OpenAI. Кстати, о них мы подробно рассказываем на онлайн-практикуме «Нейросети для жизни и карьеры». Это бесплатно — успейте записаться!

Теперь обещанный приятный нюанс: через Bing Image Creator генерировать картинки с DALL·E 3 можно бесплатно. Да, это будет дольше, но вполне подойдет, если пользоваться инструментом изредка.

Интересное о ChatGPT: «Как бесплатно и легально использовать инструменты на модели GPT-4».

Тарифы Midjourney начинаются с $8 за базовый — за эти деньги пользователь получает до 200 минут генерации. Учитывая, что картинка в среднем генерируется минуту, это около 200 картинок в месяц. Вроде бы немало, но сюда входят в том числе все вариации одного и того же промта, если в изначальной версии вас что-то не устроило.

Если взять тарифы подороже, например, $24 за стандартный, то здесь пользователь получает больше минут, а еще возможность генерировать неограниченное количество изображений в так называемом «расслабленном» режиме. Они будут создаваться за более длительное время, вплоть до 10 минут, зато без всяких ограничений.

Резюмируя

По качеству оба инструмента хороши. Midjourney строго платный, он сложнее, но предоставляет нужную многим ИИ-художникам гибкость. DALL·E 3 проще, его можно опробовать бесплатно, а с подпиской вы вдобавок получаете все генеративные мощности OpenAI, включая ChatGPT самой продвинутой версии.

Что выбрать? Это вы решаете за себя — в зависимости от того, какой требуется результат.