Gemini AI — модель искусственного интеллекта от Google. В этой статье разберемся, что она из себя представляет и может ли составить конкуренцию ChatGPT.

Что это

Gemini AI — это одна из самых мощных языковых моделей (LLM), разработанная командой Google Deepmind (дочерней компании Google со штаб-квартирой в Лондоне).

Она стала преемницей модели PaLM 2 (на ее основе работает Google Bard), которая была разработана собственным подразделением Google AI. Это первая полноценная система искусственного интеллекта, выпущенная командой Deepmind.

Еще в апреле 2023 года Гугл объединил свое подразделение Brain и команду Deepmind, чтобы создать мощную модель, способную конкурировать с OpenAI. И Gemini — кульминация всех стараний.

Их модель ИИ полностью понимает текст, изображения, видео, аудио, отвечает на вопросы и даже генерирует код для показанного ей матричного рисунка.

Тот факт, что Gemini может читать и переводить видео в выходные данные, действительно уникальный.

Хотите научиться пользоваться нейросетями? Записывайтесь на бесплатный онлайн-практикум «Нейросети для жизни и карьеры»! В нем будет много полезной практики по использованию AI.

ОНЛАЙН-ПРАКТИКУМ
ЗАПУСК DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ
ЧТО БУДЕТ НА ОБУЧЕНИИ?
  • ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
  • Где и как применять? Потестируем модель после установки на разных задачах
  • Как дообучить модель под себя?

Чем отличается от GPT-4 OpenAI

Ответ прост: мультимодальностью. Знатоки скажут: «ChatGPT» тоже мультимодален, и окажутся правы. Объясняем.

GPT-4 — это не одна плотная модель. Она основана на 16 различных технологиях, сшитых вместе для разных задач. Для анализа изображений, их генерации и обработки голоса, в ней есть различные инструменты, например GPT-4 Vision, Dall -E, Whisper и т. д.

Gemini же полностью мультимодальный ИИ. Он была создана с нуля, чтобы работать с текстом, изображением, аудио, видео и кодом, которые обучаются вместе с целью формирования мощной AI-системы.

Чем Gemini лучше моделей OpenAI (в том числе и ChatGPT)

Одна из популярных моделей распознавания речи — Whisper v3 от OpenAI. Она может транскрибировать речь, определять язык и выполнять перевод. Однако эта модель не способна определить тон, тембр и тонкие нюансы аудио (такие, как произношение).

Сказать банальное «привет» можно как грустно, так и счастливо, но Whisper не может расшифровать настроение. А вот Gemini, напротив, может. Он работает с необработанным аудиосигналом и улавливает нюансы голоса!

Помимо этого, Google опубликовал несколько контрольных показателей, сравнивающих Gemini с моделью OpenAI GPT-4. К ним относится Massive Multitask Language Offer (MMLU), один из самых популярных тестов для нейросетей.

ИИ Gemini превзошел GPT-4 в различных областях, включая рассуждение, математику и даже генерацию кода.

В каких вариантах представлен

Гугл выпустил Gemini AI в трех разных моделях — «Ультра», «Про» и «Нано». Ultra — самая функциональная и предназначена для работы с наиболее трудными процессами. Pro — отличная модель для масштабирования, а Nano — самая компактная.

Модель Gemini Pro будут использовать в Bard среди других сервисов. Gemini Nano будет находиться внутри телефона Pixel 8, помогая с предложениями ответов и обобщая аудиозаписи.

Сейчас Gemini AI от Google прошел обучение и доступен на английском языке в более чем 170 странах. Возможность анализа иллюстраций и звуков в Google Bard обещают добавить в ближайшее время.

3-дневный курс
НАУЧИСЬ СОЗДАВАТЬ TELEGRAM-БОТОВ НА PYTHON С CHATGPT
C НУЛЯ ЗА 3 ДНЯ
  • Освой Python и нейросети и узнай, как гарантированно получить первые 10 заказов
  • УЧАСТВОВАТЬ ЗА 0 РУБ.
  • Создай и прокачай собственного чат-бота
Участвовать бесплатно
ОНЛАЙН-ПРАКТИКУМ
ЗАПУСК DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ
ЧТО БУДЕТ НА ОБУЧЕНИИ?
  • ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
Участвовать бесплатно