Gemini AI — модель искусственного интеллекта от Google. В этой статье разберемся, что она из себя представляет и может ли составить конкуренцию ChatGPT.
Что это
Gemini AI — это одна из самых мощных языковых моделей (LLM), разработанная командой Google Deepmind (дочерней компании Google со штаб-квартирой в Лондоне).
Она стала преемницей модели PaLM 2 (на ее основе работает Google Bard), которая была разработана собственным подразделением Google AI. Это первая полноценная система искусственного интеллекта, выпущенная командой Deepmind.
Еще в апреле 2023 года Гугл объединил свое подразделение Brain и команду Deepmind, чтобы создать мощную модель, способную конкурировать с OpenAI. И Gemini — кульминация всех стараний.
Их модель ИИ полностью понимает текст, изображения, видео, аудио, отвечает на вопросы и даже генерирует код для показанного ей матричного рисунка.
Тот факт, что Gemini может читать и переводить видео в выходные данные, действительно уникальный.
Хотите научиться пользоваться нейросетями? Записывайтесь на бесплатный онлайн-практикум «Нейросети для жизни и карьеры»! В нем будет много полезной практики по использованию AI.

- ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
- Где и как применять? Потестируем модель после установки на разных задачах
- Как дообучить модель под себя?
Чем отличается от GPT-4 OpenAI
Ответ прост: мультимодальностью. Знатоки скажут: «ChatGPT» тоже мультимодален, и окажутся правы. Объясняем.
GPT-4 — это не одна плотная модель. Она основана на 16 различных технологиях, сшитых вместе для разных задач. Для анализа изображений, их генерации и обработки голоса, в ней есть различные инструменты, например GPT-4 Vision, Dall -E, Whisper и т. д.
Gemini же полностью мультимодальный ИИ. Он была создана с нуля, чтобы работать с текстом, изображением, аудио, видео и кодом, которые обучаются вместе с целью формирования мощной AI-системы.
Чем Gemini лучше моделей OpenAI (в том числе и ChatGPT)
Одна из популярных моделей распознавания речи — Whisper v3 от OpenAI. Она может транскрибировать речь, определять язык и выполнять перевод. Однако эта модель не способна определить тон, тембр и тонкие нюансы аудио (такие, как произношение).
Сказать банальное «привет» можно как грустно, так и счастливо, но Whisper не может расшифровать настроение. А вот Gemini, напротив, может. Он работает с необработанным аудиосигналом и улавливает нюансы голоса!
Помимо этого, Google опубликовал несколько контрольных показателей, сравнивающих Gemini с моделью OpenAI GPT-4. К ним относится Massive Multitask Language Offer (MMLU), один из самых популярных тестов для нейросетей.
ИИ Gemini превзошел GPT-4 в различных областях, включая рассуждение, математику и даже генерацию кода.
В каких вариантах представлен
Гугл выпустил Gemini AI в трех разных моделях — «Ультра», «Про» и «Нано». Ultra — самая функциональная и предназначена для работы с наиболее трудными процессами. Pro — отличная модель для масштабирования, а Nano — самая компактная.
Модель Gemini Pro будут использовать в Bard среди других сервисов. Gemini Nano будет находиться внутри телефона Pixel 8, помогая с предложениями ответов и обобщая аудиозаписи.
Сейчас Gemini AI от Google прошел обучение и доступен на английском языке в более чем 170 странах. Возможность анализа иллюстраций и звуков в Google Bard обещают добавить в ближайшее время.
- Освой Python и нейросети и узнай, как гарантированно получить первые 10 заказов
- УЧАСТВОВАТЬ ЗА 0 РУБ.
- Создай и прокачай собственного чат-бота
- ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ