Нейросети развиваются настолько быстро, что пугают и восхищают одновременно. Уникальные ИИ способны решать все более сложные задачи и представляют большой интерес для бизнеса, науки и общества. Мы составили подборку из 10 искусственных интеллектов, которые в тренде в 2023 году и активно применяются в различных областях.

Что такое искусственный интеллект?

Искусственный интеллект (Artificial Intelligence, AI) — это алгоритмы и технологии, имитирующие интеллектуальные функции. Иногда еще используется термин «нейросеть» — это похожий на ИИ алгоритм, который используется для какого-то одного типа задач. Сейчас компьютеры могут выполнять работу, которой раньше могли заниматься только люди. Искусственные интеллекты и нейросети распознают образы, обрабатывают естественный язык и принимают решения на основе больших объемов данных.

Подробнее о взаимозаменяемости человека и машины мы писали в статье «Заменит ли искусственный интеллект человека?».

Основная идея ИИ или искусственной нейронной сети заключается в создании машин, которые могут действовать и мыслить как люди, хотя и не обладают сознанием и эмоциями человека. Искусственные нейросети строятся на принципах имитации сетей нервных клеток мозга. Поэтому они не программируются, а обучаются, выстраивая новые «нейронные связи».

В 2023 году на пике популярности находится множество нейросетей. Приведем некоторые из них.

1. Whisper

Whisper — система распознавания речи от OpenAi с открытым исходным кодом. Умеет делать транскрипцию и перевод на несколько языков, справляется с акцентами и фоновыми шумами, разбирает технический жаргон.

Из минусов: не всегда корректно распознает слова. Это происходит потому, что нейросеть пытается расшифровать звук и одновременно предсказать следующее слово в аудиозаписи. Проблему усугубляет неодинаковое количество обучающих данных на разных языках. Из-за этого некоторые языки могут распознаваться хуже.

Всего для обучения Whisper использовали около 680 тысяч часов многоязычных и мультизадачных данных. Разработчики нейросети надеются, что после такой подготовки на основе ИИ можно будет создавать полезные приложения для расшифровки речи и перевода в реальном времени.

2. DeepL

DeepL – ИИ-переводчик, который переводит тексты максимально естественно, точно передавая смысл и умеет использовать профессиональные формулировки. Если в готовом переводе заменить слово на другое, нейросеть перестроит предложение, чтобы сделать текст гармоничным. Лучше всего работает на английском и французском, но русский тоже доступен.

Чтобы определить качество перевода, разработчики провели слепые тестирования. Подготовили 119 текстов на разные темы, перевели в DeepL и конкурирующих системах и показали результаты профессиональным переводчикам. Специалисты не знали, какие системы делали переводы и должны были объективно их оценивать и выбрать лучший. Эксперимент показал, что профессионалы выбирали результат DeepL в 4 раза чаще других.

Эффекта естественности переводов DeepL удалось достичь с помощью обучения на огромной базе переводов, сделанных людьми. Поэтому пользователи получают грамотный текст с точно переданным смыслом, а не дословный и бессмысленный перевод. Сейчас DeepL используют уже больше 500 млн человек.

3. VALL-E

VALL-E — Microsoft разработали искусственный интеллект с закрытым исходным кодом, имитирующий голос человека, его тембр и эмоциональную окраску. Чтобы сгенерировать правдоподобную речь конкретных людей, ИИ достаточно послушать даже 3-секундную запись. VALL-E обучалась на основе данных библиотеки LibriLight с образцами речи более 7000 англоговорящих людей. Поэтому главный минус нейросети — работает пока только английская версия,

ИИ анализирует, как звучит голос человека и разбивает данные на отдельные «токены», которые потом помогают ей преобразовать в речь разные фразы. Другие методы преобразования текста обычно синтезируют речь, оперируя формами сигналов. VALL-E имитирует не только голоса людей, но и акустическое окружение аудио-образца. Если человек записал речь по телефону, в кофейне или в лесу с пением птиц, нейросеть также сгенерирует эти звуки. Одни и те же фразы могут произноситься с радостью, гневом, отвращением или другими эмоциями.

Microsoft не стали выкладывать исходный код, чтобы защититься от злоумышленников. Поэтому самостоятельно загрузить образец речи не получится. Тем не менее VALL-E работает в сочетании с GPT-3.

4.DALL·E 2

DALL·E 2 — самый известный генеративный искусственный интеллект (Generative Artificial intelligences, GAI). Это система от OpenAI для быстрого создания реалистичных изображений на основе текстовых англоязычных запросов-описаний (промтов).

Инструмент особенно полезен для бизнеса, потому что может создавать качественные реалистичные иллюстрации, дизайн и генерировать новые идеи. Готовые изображения можно изменять с помощью кисти DALL·E 2: добавлять блики, тени и разные детали, создавать сложные многослойные арты.

С помощью нейросети даже любители создают интересные изображения. Готовые иллюстрации можно продать или лицензировать и запустить мерч.

Пример запроса:

A bowl of soup that is a portal to another dimension as digital art

Результат по запросу:

5. Midjourney

Midjourney — это аналог DALL·E 2, который тоже создает изображения на основе текстовых запросов. К описанию можно добавить свою картинку или фотографию, чтобы использовать ее за основу. Работает в бесплатном мессенджере Discord, где можно запустить генерацию картинок.

Запрос нужно сделать на английском языке. Midjourney делает несколько изображений из которых нужно выбрать одно и попросить улучшить его, если это необходимо, что-то добавить или убрать. Можно заранее указать стиль иллюстрации. Например, реализм, аниме, киберпанк и другие. Их даже можно объединять между собой или попросить ИИ взять стиль одного изображения и перенести его на другое. Главное — не забыть ввести команду /imagine и после этого уже писать запрос.

Пример запроса:

Triple rainbow after rain over skyline of Frankfurt am Main. Lowest rainbow has the strongest colors. After rain

Результат по запросу:

Подробные подсказки по составлению промта и использованию команд можно найти на сайте Midjourney. В освоении этого инструмента это самое главное — научиться писать ему правильный запрос. Мы учим работать с этой нейросетью на нашем курсе. Вот бесплатный практикум, на котором можно с ним познакомиться и понять перед покупкой, подходит ли он вам. На вебинаре мы даем бесплатный доступ к Midjourney, чтобы вы попробовали с ним повзаимодействовать.

Из-за большого наплыва пользователей создатели нейросети пока убрали бесплатный доступ. Неудивительно, ведь эту нейросеть использует больше 2 млн людей.

6. Synthesia

Synthesia — полезная платформа с простым интерфейсом для всех, кому нужны профессиональные видеоролики, анимированные аватары и GIF-изображения.

Если нейросеть VALL-E имитирует голоса, то в Synthesia AI можно выбрать аватар, цифровой клон, реального человека, который «озвучит» ваш текст на видео. Бренды могут получить эксклюзивный AI-аватар. Это отличный выход для всех, кто не хочет сниматься сам или у кого нет возможности организовать съемки.

Нейросеть поддерживает более 60 языков и 120 акцентов. Можно загрузить свой файл, чтобы обработать его с помощью искусственного интеллекта. В готовое видео выстраиваются скрытые субтитры.

7. Make-A-Video

Make-A-Video генерирует небольшие видеоролики по текстовому запросу. На YouTube их вряд ли получится загрузить, но поделиться GIF-файлами в соцсетях — вполне. У нее хорошо получается показать идею в движении и иллюстрировать мысли.

Нейросеть может «оживить» статичное изображение, добавив движение и умеет создавать видео в разных стилях — нужно только попросить. Минус платформы — низкое качество сгенерированных видео. Вполне вероятно, что со временем разработчики решат эту проблему.

8. ChatGPT

ChatGPT — популярный чат-бот от OpenAI, о котором вы наверняка слышали. Спросите у ChatGPT все что угодно и получите ответ. Правда, не всегда правильный, так что лучше не расслабляться. Тем не менее ИИ может признать ответ некорректным или сказать, что ему не хватает информации.

Подробнее о нем мы уже рассказывали в материале «Под капотом у ChatGPT: как работает нашумевший чат-бот».

Нейросеть отлично работает на русском языке, но все-таки хуже, чем на английском. Умеет решать задачи по математике, переводить текст с множества языков, писать код, оформлять информацию в разных стилях и писать тексты до научных работ и эссе. Из-за этого постоянно возникают вопросы об этике использования ИИ.

Всего за неделю ChatGPT набрал миллион пользователей и, естественно, продолжает набирать аудиторию. Microsoft инвестировали в этот ИИ больше 10 миллиардов долларов. Вполне возможно, что в будущем ChatGPT станет настолько же привычным и повсеместным, как мессенджеры и социальные сети, и будет использоваться во многих сферах жизни.

9. BLOOM

Языковая модель BLOOM обучалась на текстовых данных, чтобы предугадывать продолжение того, что вы пишете. Например, можно ввести фразу «В некотором царстве, некотором государстве», и нейросеть продолжит историю.

BLOOM бесплатно генерирует по запросу текст или код на 46 естественных языках и 13 языках программирования. Если некоторые языковые модели отдают первенство качества работы английскому языку, то у BLOOM есть большое преимущество — нейросеть стала первой из всех, что работает с более чем 100 миллиардами параметров на испанском, французском и арабском.

10. Bard

Чат-бот Bard для диалоговых приложений от Google, умеет не только отвечать на вопросы, но и вести полноценный диалог. Как и BLOOM, он предугадывает продолжение, но использует уже озвученную информацию для поддержания разговора. Он был обучен на языковой модели семейства LaMDA.

Особенность Bard в том, что он обучался на диалогах, а не исключительно на текстах или Википедии. Поэтому нейросеть умеет находить связь в предложениях. Она дает ответ на основе статистики, используя популярные фразы в наиболее вероятном порядке. Текст выглядит естественно, потому что ИИ изучал диалоги реальных людей.

В общении с пользователем учитывается контекст и получается осмысленная беседа. Bard может «общаться» на бесконечное количество тем и отвечает настолько правдоподобно, что даже ввел в заблуждение инженера Google Блейка Лемойна. Он задавал Bard множество сложных вопросов, чтобы убедиться, что нейросеть ведет себя этически корректно. Ответы ИИ поразили Лемойна своей «человечностью». Например, Bard сказал, что боится быть выключенным и что для него это будет в точности как смерть.

Технологии искусственного интеллекта открывают новые возможности для улучшения жизни людей и развития бизнеса, но одновременно вносят и определенные риски. Но еще рано говорить о разумном ИИ, который обладает самосознанием. Уникальность людей и безграничность человеческого воображения все еще необходимы, как и вопросы этики нейросетей и их применение в кибербезопасности.