Midjourney переодевает киногероев в вещи Balenciaga, а ChatGpt помогает сдать очередной диплом. Но есть еще два инструмента, на которые стоит обратить внимание. В этом материале мы сравним две text2image нейросети — Adobe Firefly от компании Adobe и Kandinsky 2.1 от Сбера. Обе занимаются генерацией изображений, но у каждой своя специфика.

Как устроены

Обе нейросети обучались с помощью метода обратной диффузии. Это значит, что изначально брались качественные изображения, на них накладывали в несколько этапов гауссовский шум и превращали в пиксельную кашу. После этого изображения скармливали нейросетям, чтобы они учились восстанавливать их из полной неразберихи, находя между пикселями хоть какую-то структуру. Удачным вариантам давались тэги, по которым сегодня сервис определяет какое именно изображение хочет получить пользователь.

На основе какого именно контента обучалась Kandinsky неизвестно. Есть вероятность, что это были российские и зарубежные исходники. Возможно, российского контента было на порядок больше, так как Kandinsky лучше большинства аналогов генерирует изображения, которые связаны со славянской культурой.

Adobe делает акцент на том, что использовались исключительно лицензированные изображения из фотостока Adobe Stock. Озвучивать этот факт стали после того, как некоторые художники и дизайнеры пожаловались на другие ИИ, которые обучались на их работах без разрешения авторов. Компания обещает что к их генерациям вопросов не будет.

У нас есть бесплатный вебинар, где мы рассказываем как использовать нейросети в нынешних реалиях. Присоединяйтесь, если хотите знать в каких областях с их помощью можно повысить эффективность.

Для каких задач подойдут

Обе нейросети работают по принципу text2image: вводите текстовый запрос, после чего ИИ генерирует подходящее изображение. Также оба инструмента работают с готовыми изображениями. Они могут их стилизовать или дополнить, основываясь на запросе пользователя. Несмотря на схожесть в формате работы, инструменты значительно отличаются друг от друга:

Kandinsky подойдет для генерации иллюстраций в разных стилистиках. Один и тот же запрос здесь можно попытаться сгенерировать в стиле фотореализма, аниме или картин классиков. В итоге вы получите квадратное изображение 768х768 px.

Стили в Kandinsky 2.1

 

Adobe Firefly еще ближе к профессиональному инструменту. Эта нейросеть состоит из двух технологий Adobe: одна генерирует изображения по запросу, другая стилизует текст по типу WordArt. Инструмент изначально разрабатывался как дополнение к пакету графических редакторов Adobe. Поэтому здесь можно не только генерировать или стилизовать изображения, но и переводить их в векторный формат. Работа с текстом достойна отдельного упоминания, так как другие нейросети пока не всегда могут с ним полноценно взаимодействовать.

Генерация текстуры текста

Как воспользоваться нейросетями

Kandinsky полностью бесплатен и работает на русском языке. Поиграться с ним можно на сайте или в Telegram-боте. С Adobe Firefly дела обстоят сложнее. Нейросеть сейчас находится на этапе бета-тестирования и попасть в число тестеров можно только через заявку на сайте. Несмотря на то, что многие заявки одобряются, пользователям из России могут отказать. Пользоваться этим ИИ можно исключительно на английском языке.

Оба инструмента работают через текстовые запросы (промты). Вот небольшой список рекомендаций к формулировкам:

  • Определите ключевой объект. Что именно вам нужно сгенерировать: птицу, самолет, гору и так далее.
  • Опишите объект. Используйте прилагательные, которые дадут нейросети понимание как должен выглядеть объект. Например, рыжий, сочный, яркий и другие. Не бойтесь использовать странные описания. Порой они помогают добиться более подходящего результата.
  • Укажите контекст. Что вокруг объекта? Он может быть на однотонном фоне или сзади происходит взрыв. Возможно, идет дождь или вокруг потоки лавы. Он в комнате, на улице или в космосе? Не стоит добавлять слишком много деталей, иначе ИИ запутается и сгенерирует что-то не то.
  • Выберите стиль. На сайте Kandinsky стили можно выбрать прямо в интерфейсе сервиса, но даже там лучше лишний раз прописать в каком стиле вы хотите получить изображение. Это могут быть киберпанк, детский рисунок, фотореализм, картина маслом и другие.

Еще больше о промтах мы писали в статье «Как писать эффективные промты для нейросети».

Развитие сервисов

Kandinsky планирует развивать свою технологию генерации изображений до минимизации артефактов и неточностей. Недавнее обновление нейросети до версии 2.1 сделало ее реально полезным инструментом. У Adobe Firefly еще более амбициозные планы — компания хочет добавить возможность генерировать аудио, видео и 3D-контент. Уже сейчас команда активно над этим работает, по заявлениям Adobe.

Чтобы получать актуальные новости про нейросети, присоединяйтесь к нашему каналу в Telegram. В нем мы обсуждаем новости машинного обучения и тестируем телеграм-ботов!