Google опубликовал подробный расчёт экологического следа запросов к Gemini: по их методике средний текстовый запрос к Gemini потребляет \~0.24 ватт-часа энергии, \~0.26 мл воды (≈5 капель) и даёт \~0.03 г CO₂-эквивалента. Эти числа звучат малозначительно — и в расчёте «на один запрос» действительно маленькие, но при массовом использовании эффекты суммируются.
Что именно рассказали в Google и почему это важно
Оценка Google включает не только энергопотребление чипа во время инференса, но и амортизацию простоя (idle capacity), энергозатраты CPU/RAM, накладные расходы дата-центров (охлаждение, PUE) и водопотребление для охлаждения. Это делает расчёт «операционной» картиной работы модели в продакшне, а не только идеализированной цифрой для одного ускорителя.
Google также отмечает резкое падение этих показателей за последний год: по их данным энергозатраты и углеродный след «медианного» запроса снизились в 33× и 44× соответственно — благодаря оптимизациям в архитектуре моделей, софте и дата-центрах.
Оптимизация и обновление нейросетей затронули и российский рынок. О новых функциях в отечественном ИИ расскажем на бесплатном вебинаре!

- ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ нейросети DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
- Где и как применять? Потестируем модель после установки на разных задачах
- Как дообучить модель под себя?
Inference ≠ Training — почему обучение «дороже»
Важно различать два этапа: инференс (ответ модели на ваш запрос) и тренировка моделей. Многократно цитируемые исследования показывают, что обучение больших трансформеров (подготовка «одного» крупного веса) может потреблять в разы (иногда — на порядки) больше энергии и давать большую эмиссию, чем миллионы отдельных запросов инференса. Это классическая претензия к оценкам, считающим только инференс.
Словом: операция одного запроса может быть «легкой», но создание и регулярная дообучка моделей остаются энергоёмкими задачами — и на них стоит обращать внимание, когда говорят о климатическом следе ИИ.
Сравнения и контекст — сколько это «вблизи»
Чтобы не теряться в дробях: Google переводит 0.24 Wh в «энергию 9 секунд телевизора» — хорошая наглядная аналогия для одного запроса. Но если умножить на сотни миллионов запросов в день, суммарная нагрузка становится заметной: независимые бенчмарки и исследования показывают, что при масштабном использовании некоторые модели могут требовать десятки тысяч мегаватт-часов в год. Другими словами — небольшая «капля» быстро превращается в целый поток.
Также полезно помнить: разные исследования используют разные методики — кто-то считает только активный расчёт на чипе, кто-то — «полный-стек» (как Google). Поэтому цифры обычно различаются.
Что говорят другие компании (коротко)
OpenAI и другие компании тоже публикуют оценки инференса — у них получаются сопоставимые, но не идентичные числа, потому что методики разные (и логично, что крупные облачные компании с чистой энергетикой показывают лучшие цифры «за запрос»). При этом критики подчёркивают: даже при низкой стоимости одного запроса совокупный эффект при миллиардных объёмах — значим.
Практические выводы: что может сделать бизнес и вы лично
- Снижать ненужные запросы. Кешировать ответы, консолидировать повторяющиеся запросы, ставить лимиты и квоты — это простейшая экономия энергии и денег.
- Выбирать модель «под задачу». Для рутинных задач хватает лёгких или distilled-вариантов моделей — они потребляют меньше энергии. Google в статье сам упоминает подходы вроде MoE/композитной подачи и distilled-версий.
- Оптимизировать рабочий поток. Пакетная обработка (batching), speculative decoding и более умная маршрутизация запросов — всё это снижает суммарное потребление.
- Сторониться «лишних» тренировок. Тонкая настройка (fine-tuning) и регулярные большие переобучения — дорогостоящий путь. Рассмотрите parameter-efficient методы (LoRA/QLoRA) и мониторинг, прежде чем запускать полноразмерный цикл обучения.
- Работать с поставщиками, которые вкладываются в чистую энергию. Переход дата-центров на возобновляемую энергетику и улучшение PUE дают заметный эффект на итоговые цифры.
Итог (коротко)
Да — по данным Google один запрос к Gemini действительно «легок» в смысле энергии и воды: пара капель воды и несколько десятых ватт-часа. Это отличные новости для оптимизации инференса. Но обучение и масштабный эксплуатационный трафик остаются точками, где стоит думать экологически: выбор модели, архитектуры, поставщика и проектных подходов напрямую влияет на суммарный след. Простые меры — кеш, batching, выбор лёгких моделей и внимание к обучению — способны заметно снизить влияние.
- Освой нейросеть Perplexity и узнай, как пользоваться функционалом остальных ИИ в одном
- УЧАСТВОВАТЬ ЗА 0 РУБ.
- Расскажем, как получить подписку
- ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ нейросеть DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
