GigaChat уже умеет многое: отвечает на вопросы, пишет тексты, разбирается в коде и помогает учиться. А теперь — научился слушать и говорить. Да, у нейросети появился голос. И это не просто приятное дополнение, а важный шаг к созданию по-настоящему удобного и «живого» помощника.

Разберёмся, как работает аудиомодальность GigaChat, что она умеет сейчас и куда может развиваться в ближайшем будущем.

Что такое аудиомодальность и зачем она нужна?

Если просто: аудиомодальность — это способность ИИ воспринимать и воспроизводить речь. Раньше вы могли общаться с GigaChat только в тексте. Теперь же можно:

  • задавать вопросы голосом;
  • слышать ответы, произнесённые вслух;
  • управлять диалогом, не касаясь клавиатуры.

Это удобно, особенно если вы в пути, за рулём или просто устали печатать. Всё работает максимально естественно — как будто вы разговариваете с умным ассистентом, который всегда рядом. Алисе привет!

Если вы интересуетесь российскими ИИ-моделями, рекомендуем заглянуть на бесплатный вебинар про российские нейросети. Там расскажут, как устроены отечественный ИИ, включая GigaChat, и как он развиваются внутри страны!

Как это работает технически?

GigaChat теперь может:

  1. Распознавать речь (ASR) — превращать ваш голос в текст;
  2. Обрабатывать запрос — то, в чём он и раньше был хорош;
  3. Озвучивать ответ (TTS) — с помощью технологии синтеза речи.

Интерфейс позволяет вам выбирать: хотите ли вы только голосовой ввод, только голосовой ответ или полноценный диалог вслух.

Что умеет голосовой GigaChat уже сейчас?

На текущем этапе GigaChat понимает русскую речь, даже если она звучит быстро, с акцентом или не совсем чётко. Отвечает он голосом тоже на русском языке. В его ответах можно услышать интонации и естественные паузы — это не бездушный синтезатор, а по-настоящему приятный голосовой интерфейс.

Вы также можете включить или выключить звук по желанию. Например, вести диалог голосом, но получать текстовые ответы — или наоборот.

Голос — только один из каналов. GigaChat уже работает с изображениями, умеет анализировать фото, скриншоты и даже схемы. А теперь к этому добавилась ещё и речь. Это значит, что мы движемся к настоящей мультимодальной модели, способной воспринимать информацию так же, как человек — через текст, звук, изображение.

Что дальше?

Сейчас GigaChat активно дорабатывается: улучшение качества распознавания речи, добавление других языков, настройка интонаций. Возможно, скоро появится возможность выбирать голос, управлять стилем речи или даже говорить на разных языках. Как в ChatGPT.

Команда разработчиков также работает над тем, чтобы GigaChat стал помощником не только для повседневных задач, но и, например, в обучении, в медицине или в бизнесе — где голосовой ввод часто удобнее и быстрее.

Почему это важно?

Голос — самый естественный способ общения. ИИ, который вас понимает с полуслова и отвечает так, как человек, — это не будущее, а уже настоящее. GigaChat становится не просто чат-ботом, а полноценным голосовым ассистентом. И это, честно говоря, впечатляет.

Большой практикум
ЗАМЕНИ ВСЕ НЕЙРОСЕТИ НА ОДНУ — PERPLEXITY
ПОКАЖЕМ НА КОНКРЕТНЫХ КЕЙСАХ
  • Освой Perplexity и узнай, как пользоваться функционалом остальных ИИ в одном
  • УЧАСТВОВАТЬ ЗА 0 РУБ.
  • Расскажем, как получить подписку (240$) бесплатно
Участвовать бесплатно
ОНЛАЙН-ПРАКТИКУМ
ЗАПУСК DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ
ЧТО БУДЕТ НА ОБУЧЕНИИ?
  • ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
Участвовать бесплатно