Нейрогонка, запущенная в начале года китайской моделью DeepSeek-R1, и не думает прекращаться — она только набирает обороты. Теперь высказаться решил диджитал-гигант Google: компания объявила, что к ИИ-приложению Gemini теперь подключается модель Gemini 2.0 Flash. Она не совсем новая, поскольку впервые ее представили в качестве экспериментальной версии пользователям Gemini еще в декабре. Теперь же она доступна повсеместно — и у нее есть несколько очень интересных фич.
Google выпустили целую линейку моделей: это Gemini 2.0 Flash, Gemini 2.0 Flash-Lite и экспериментальная версия Gemini 2.0 Pro. Все они доступны в Google AI Studio и Vertex AI.
Ставка на мультимодальность
В официальном блоге технический директор Google DeepMind Корэй Кавукчуоглу написал: «Все эти модели будут поддерживать мультимодальный ввод с текстовым выводом на момент выпуска, а дополнительные модальности станут доступны в ближайшие месяцы». Мультимодальность — это способность нейросети обрабатывать информацию из разных источников, так называемых «модальностей». Это может быть текстовая информация, изображения, звуки и видео, данные с датчиков.
Ни DeepSeek-R1, ни новейшая OpenAI o3-mini не умеют работать мультимодально. Изображения и прикрепленные файлы они обрабатывают при помощи технологии оптического распознавания символов (OCR), которая существует уже более 60 лет. При помощи OCR модели извлекают из файлов и картинок символы, при этом не анализируя само изображение.
Большое преимущество Gemini 2.0 Flash — в ее способности не просто извлекать из других модальностей текст, но и полноценно их обрабатывать.

- Возможность получить Доступ в Нейроклуб на целый месяц
- Как AI ускоряет работу и приносит деньги
- За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!
Большие мыслительные способности
DeepSeek-R1 была уникальна и тем, что представила reasoning — способность модели рассуждать. Если задать китайской нейросети вопрос, она начнет рассуждать почти по-человечески, выкладывая весь ход своих мыслей. Эта функция особенно помогает при решении математических задач, программировании или проведении исследований на какие-то общенаучные темы. То есть, в тех сферах, в которых бесплатная модель DeepSeek-R1 особенно хороша.
Затем reasoning появился и у главного конкурента DeepSeek — компании OpenAI в их новейшей модели o3-mini. Как и китайский конкурент, западная нейросеть умеет размышлять, чем очень помогает исследователям.
Читайте про новинку от OpenAI: «OpenAI выпустила o3-mini — мини-версию своей самой умной модели»
Конечно, reasoning есть и у Gemini 2.0 Flash — об этом, в частности, написал СЕО Google Сундар Пичаи в социальной сети X (бывший Twitter, заблокирован в России). Он отметил, что у Gemini есть собственная reasoning-модель под названием Gemini 2.0 Flash Thinking, которая теперь доступна в мобильных приложениях. Главное в ней — она может подключаться к Google Maps, YouTube и Google Search и взаимодействовать с ними, чего конкуренты от DeepSeek и OpenAI пока не могут.
Присоединяйся к онлайн-вебинару.
- Выполним базовые задачи на российских нейросетях и посмотрим на результаты!
- PDF-инструкцию «Как сделать нейрофотосессию из своего фото бесплатно, без иностранных карт и прочих сложностей»
- Покажем 10+ способов улучшить свою жизнь с ИИ каждому — от ребенка и пенсионера до управленца и предпринимателя
- Возможность получить Доступ в Нейроклуб на целый месяц
- Как AI ускоряет работу и приносит деньги
- За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!
Однако главное в Gemini даже не наличие интеграции со сторонними программами. Главное в ней — количество токенов.
Пятый столбик в таблице ниже озаглавлен как «Контекст».
Это объем памяти большой языковой модели — то количество информации, которая она может «запомнить» и обработать, прежде чем выдать результат. Например: какие-то нейросети способны запомнить условный учебник, а какие-то — сразу несколько книг. Понятно, какой ответ в этой ситуации будет релевантнее.
Объем памяти измеряется в токенах. Для сравнения, у Gemini 2.0 Flash Thinking миллион токенов, у DeepSeek-R1 — 131 тысяча, у новейшей o3-mini от OpenAI — 128 тысяч. Если DeepSeek-R1 и o3-mini способны обработать примерно одну книгу, то новая модель от Gemini справится с несколькими.
Безусловно, такой функционал нужен не всем и не постоянно, но все равно интересно наблюдать за тем, как в нейрогонке разные разработчики пытаются добавить своим нейросетям конкурентное преимущество. По бенчмарках Gemini отстает — модель не превосходит другие нейросети ни в математике, ни в программировании, ни в категории общих знаний, зато у нее есть то, чего нет у конкурентов.
Остается только ждать, какая нейросеть будет следующей, и что интересного покажут в ней.
- Выполним базовые задачи на российских нейросетях и посмотрим на результаты!
- PDF-инструкцию «Как сделать нейрофотосессию из своего фото бесплатно, без иностранных карт и прочих сложностей»
- Покажем 10+ способов улучшить свою жизнь с ИИ каждому — от ребенка и пенсионера до управленца и предпринимателя
- Возможность получить Доступ в Нейроклуб на целый месяц
- Как AI ускоряет работу и приносит деньги
- За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!