Есть ли у Yandex SpeechKit бесплатный тариф?

Нет. Для работы со SpeechKit нужен подключённый платёжный аккаунт в Yandex Cloud Billing в статусе ACTIVE или TRIAL_ACTIVE. При регистрации в Yandex Cloud начисляется стартовый грант, которым можно оплатить тестирование.

Можно ли пользоваться Yandex SpeechKit без программирования?

Да. В интерфейсе Yandex AI Studio есть раздел AI Speech — Синтез речи: вставьте текст до 5000 символов, выберите язык, голос, амплуа, скорость речи, высоту голоса и формат аудио, нажмите «Синтезировать и воспроизвести» и скачайте файл. Кнопка «Посмотреть код» отдаёт готовый запрос для Python REST или Python gRPC.

Сколько символов можно озвучить за один запрос к SpeechKit?

Максимальный размер запроса через API v1 — 5000 символов, при этом максимальный размер тела POST-запроса — 15 КБ. Через API v3 — 250 символов и 24 секунды, а в режиме unsafe или потоковом — до 5000 символов.

Какие голоса есть в Yandex SpeechKit кроме русских?

Немецкий lea, английский john, иврит naomi, казахские amira, madi, saule и zhanar, узбекские nigora, zamira и yulduz. Всего в SpeechKit Playground доступно 29 голосов: 19 русских, 4 казахских, 3 узбекских, по одному немецкому, английскому и на иврите.

Yandex SpeechKit: озвучивание текста голосом Алиса, пошаговое руководство

Q: Можно ли озвучить текст голосом Алисы в SpeechKit?

Голоса с идентификатором alice в Yandex SpeechKit нет. Ближайший вариант — голос alena в амплуа good: документация Yandex AI Studio указывает, что alena и снятый с поддержки oksana созданы на основе записей одного диктора, и рекомендует использовать alena в амплуа good вместо oksana.

Q: Сколько стоит Yandex SpeechKit?

Синтез речи через API v1 стоит 1 342 ₽ за 1 млн символов с НДС — около 1,34 ₽ за 1000 знаков. Через API v3 — 0,1626 ₽ за запрос до 250 символов. Распознавание речи — от 0,0381 ₽ до 0,1626 ₽ за 15 секунд аудио в зависимости от режима.

Q: Почему API SpeechKit не находит выбранный голос?

Скорее всего, голос доступен только в API v3. Голоса dasha, julia, lera, masha, alexander, kirill и anton поддерживаются в API v3 и не работают в API v1.

Yandex SpeechKit — речевая технология Яндекса для синтеза (текст → голос) и распознавания речи. Отдельного голоса с именем alice в списке синтеза нет: озвучка «как у Алисы» делается голосом alena — он записан с того же диктора, что и прежний oksana. Озвучить текст можно без кода в интерфейсе Yandex AI Studio или запросом к API.

Коротко, что важно знать до старта:

SpeechKit переехал: документация с yandex.cloud/docs/speechkit теперь открывается на aistudio.yandex.ru — сервис входит в Yandex AI Studio как модуль AI Speech.
Голос alice в API синтеза отсутствует. Русских голосов — 19, у каждого свои амплуа: нейтральное, радостное, строгое, дружелюбное, шёпот.
Цена синтеза через API v1 — 1 342 ₽ за 1 млн символов с НДС. Озвучка книги на 300 000 знаков обойдётся примерно в 403 ₽.
Один запрос v1 — максимум 5 000 символов, тело POST — 15 КБ. У API v3 лимит жёстче: 250 символов и 24 секунды.
Бесплатного тарифа у SpeechKit нет — нужен активный платёжный аккаунт в статусе ACTIVE или TRIAL_ACTIVE.

Если вы выбираете инструмент под задачу, а не под конкретно Яндекс, посмотрите ТОП-5 нейросетей для озвучивания видео и обзор голосовых нейросетей — там сравнение по цене и качеству. Для сценария «озвучить длинный контент» полезен разбор, как собрать подкаст нейросетью.

Что такое Yandex SpeechKit и где он находится сейчас

Два пути к озвучке: интерфейс для разовой задачи, API — для продукта

Yandex SpeechKit — набор речевых технологий Яндекса: синтез речи (Text-to-Speech) и распознавание речи (Speech-to-Text). СпичКит используют в голосовых роботах, чат-ботах, автоответчиках, навигации и озвучке контента.

Главное изменение, из-за которого ломаются старые инструкции: SpeechKit больше не живёт по адресу yandex.cloud/ru/docs/speechkit. Этот URL отдаёт редирект 301 на aistudio.yandex.ru/docs/ru/. Сервис стал частью Yandex AI Studio — раздел AI Speech. Биллинг и консоль остались в Yandex Cloud, а документация и веб-интерфейс синтеза переехали.

Работать со СпичКитом можно двумя способами, и выбор между ними определяет всё остальное:

Интерфейс AI Studio (Playground) — без кода. Вставили текст, выбрали голос, нажали кнопку, скачали файл.
API — версии v1 и v3. Нужен для автоматизации, потокового синтеза и длинных текстов.

Мини-вывод: если задача разовая — озвучить статью, сделать аудиодорожку к ролику — API не нужен вообще. Интерфейс закрывает это за пару минут.

ОБЗОРНЫЙ ПРАКТИКУМ ПО НАШУМЕВШИМ НЕЙРОСЕТЯМ

Нейросети DEEPSEEK И QWEN За 2 часа сделаем полный обзор новых мощных ИИ-моделей, которые бросают вызов нейросети ChatGPT

ТОП-подарки всем участникам лекции:

Возможность получить Доступ в Нейроклуб на целый месяц
Как ИИ ускоряет работу и приносит деньги
За 2 часа вы получите четкий план, как начать работать с ИИ прямо сейчас!

Участвовать бесплатно

Есть ли в Yandex SpeechKit голос Алисы

Это вопрос, на котором ошибается большинство инструкций. В официальном списке голосов SpeechKit значения alice нет. Передать voice=alice в запрос нельзя — API вернёт ошибку.

Что есть на самом деле. Документация AI Studio прямо говорит: «Голоса oksana и alena созданы на основе записей одного диктора. Голос oksana больше не представлен в списке поддерживаемых голосов, вместо него используйте голос alena в амплуа good. Для старых проектов поддержка oksana сохраняется».

Именно oksana много лет звучал в Яндекс Навигаторе и ассоциируется у пользователей с «голосом Алисы». Поэтому практический ответ на запрос «озвучить текст голосом Алисы» такой: берите alena, амплуа good. Это тот же тембр, только под актуальным именем.

Русские голоса синтеза и их амплуа:

Голос	Пол	Амплуа	Версия API
`alena`	Ж	neutral, good	v1, v3
`marina` (по умолчанию)	Ж	neutral, whisper, friendly	v1, v3
`jane`	Ж	neutral, good, evil	v1, v3
`omazh`	Ж	neutral, evil	v1, v3
`filipp`	М	—	v1, v3
`ermil`	М	neutral, good	v1, v3
`zahar`	М	neutral, good	v1, v3
`dasha`	Ж	neutral, good, friendly	v3
`julia`	Ж	neutral, strict	v3
`lera`	Ж	neutral, friendly	v3
`masha`	Ж	good, strict, friendly	v3
`alexander`	М	neutral, good	v3
`kirill`	М	neutral, strict, good	v3
`anton`	М	neutral, good	v3

Обратите внимание на колонку версии: часть голосов (dasha, julia, lera, masha, alexander, kirill, anton) доступна только в API v3. Если вы пишете на v1 и не находите голос — дело в этом, а не в ошибке ключа.

Кроме русского SpeechKit синтезирует немецкий (lea), английский (john), иврит (naomi), казахский (amira, madi, saule, zhanar) и узбекский (nigora, zamira, yulduz).

Мини-вывод: голоса alice нет и не было — есть alena в амплуа good, и это ближайший к «алисиному» тембр по официальному признанию Яндекса.

Как озвучить текст в Yandex SpeechKit без кода

Самый быстрый путь — интерфейс синтеза в AI Studio. По данным блога Yandex Cloud, Playground поддерживает 29 голосов: 19 русских, 4 казахских, 3 узбекских, по одному немецкому, английскому и на иврите.

Порядок действий по документации AI Studio:

Войдите в консоль управления Yandex Cloud, примите пользовательское соглашение и убедитесь, что платёжный аккаунт в статусе ACTIVE или TRIAL_ACTIVE.
Выберите каталог, на который у аккаунта есть роли ai.playground.user и ai.datasets.editor или выше.
В панели слева разверните AI Speech → Синтез речи.
Вставьте текст — до 5 000 символов.
В блоке «Настройки синтеза» задайте язык, голос, амплуа, скорость речи, высоту голоса и формат аудио.
Нажмите «Синтезировать и воспроизвести», затем скачайте результат.

Полезная деталь, которую пропускают обзоры: в интерфейсе есть кнопка «Посмотреть код» — она отдаёт готовый запрос на Python (REST или gRPC). Это снимает половину работы по интеграции: настроили голос руками, забрали код, вставили в проект.

Произношение правится разметкой прямо в тексте: + перед гласной ставит ударение, sil<[300]> — паузу в миллисекундах (максимум 7 000), **слово** — акцент, <[small]> — контекстную паузу из набора tiny / small / medium / large / huge.

Мини-вывод: интерфейс закрывает разовые задачи целиком и заодно генерирует код для API — начинать стоит с него, а не с документации.

Как озвучить текст через API Yandex SpeechKit

Схема пути в консоли: где получить ключ для синтеза

Путь запроса синтеза: от текста до аудиофайла

Если озвучка нужна регулярно или внутри продукта, подключайте API. Разберём v1 — она проще и держит до 5 000 символов в одном запросе.

Шаг 1: аккаунт и платёжка

Зарегистрируйтесь в Yandex Cloud через Яндекс ID и создайте платёжный аккаунт. Без активного платёжного аккаунта запросы к API не пройдут. Бесплатного тарифа у SpeechKit нет — есть только стартовый грант при регистрации в Cloud.

Шаг 2: сервисный аккаунт и роль

В консоли управления создайте каталог, затем сервисный аккаунт («Управление доступом» → «Сервисные аккаунты»). Назначьте ему роль ai.speechkit-tts.user — она даёт право на синтез речи.

Здесь живёт частая ошибка: в старых руководствах фигурирует роль ai.speechkit-user. Такой роли не существует. Актуальные сервисные роли — ai.speechkit-tts.user (синтез) и ai.speechkit-stt.user (распознавание). Примитивная роль editor тоже сработает, но выдавать её ради озвучки — избыточные права.

Шаг 3: API-ключ

Создайте API-ключ для сервисного аккаунта и сохраните его сразу — повторно значение не показывается.

Шаг 4: запрос на синтез

Эндпоинт синтеза: tts.api.cloud.yandex.net/speech/v1/tts:synthesize. Все параметры требуют URL-кодирования.

POST https://tts.api.cloud.yandex.net/speech/v1/tts:synthesize
Content-Type: application/x-www-form-urlencoded
Authorization: Api-Key <ваш_API_ключ>

text=Привет, это Алиса&voice=alena&emotion=good&lang=ru-RU&speed=1.0&format=oggopus

Параметры v1 по документации:

text — текст в UTF-8, до 5 000 символов.
ssml — альтернатива text, разметка SSML. Одновременно оба поля использовать нельзя.
voice — голос из списка.
emotion — амплуа. Работает только для ru-RU.
speed — от 0.1 до 3.0, по умолчанию 1.0.
format — oggopus (по умолчанию), lpcm или mp3.
sampleRateHertz — 48000 (по умолчанию), 16000 или 8000. Применяется только к lpcm.

Ключевая правка к старым примерам: амплуа задаётся параметром emotion, а не role. role — это API v3.

Пример на Python:

import requests

url = 'https://tts.api.cloud.yandex.net/speech/v1/tts:synthesize'
headers = {'Authorization': 'Api-Key <ваш_API_ключ>'}
data = {
    'text': 'Привет, это Алиса. Чем помочь?',
    'voice': 'alena',
    'emotion': 'good',
    'lang': 'ru-RU',
    'format': 'oggopus',
    'speed': '1.0',
}

response = requests.post(url, headers=headers, data=data)

if response.status_code == 200:
    with open('output.ogg', 'wb') as f:
        f.write(response.content)
    print('Файл сохранён как output.ogg')
else:
    print('Ошибка:', response.text)

В ответе приходит бинарное содержимое аудиофайла в формате из параметра format. Если планируете встроить озвучку в свой сервис, пригодится разбор, как собрать приложение на Yandex API, а под задачи телефонии — кейс голосового отдела продаж.

Мини-вывод: рабочая связка для «голоса Алисы» — voice=alena плюс emotion=good на API v1.

Бесплатный вебинар: как заработать с нуля на нейросетях. Простые шаги, реальные кейсы, старт без опыта. Присоединиться

Сколько стоит Yandex SpeechKit

Как считается счёт: v1 платит за символы, v3 — за запросы

Тарификация зависит от версии API. Цены в рублях указаны с НДС.

Услуга	Единица тарификации	Цена с НДС
Синтез, API v1	1 млн символов	1 342 ₽
Синтез, API v3	запрос (до 250 символов)	0,1626 ₽
Потоковое распознавание	15 секунд аудио	0,1626 ₽
Синхронное распознавание файлов	15 секунд аудио	0,1626 ₽
Асинхронное распознавание файлов	15 секунд аудио	0,1515 ₽
Асинхронное распознавание, отложенный режим	15 секунд аудио	0,0381 ₽

Что это значит в деньгах. API v1 считает символы за календарный месяц: 1 342 ₽ / 1 000 000 ≈ 0,0013 ₽ за символ, то есть около 1,34 ₽ за 1 000 знаков. Статья на 8 000 знаков — примерно 11 ₽. Книга на 300 000 знаков — около 403 ₽.

API v3 считает не символы, а запросы. Запрос до 250 символов — одна единица. Длиннее — тарифицируется каждые 250 символов с округлением вверх: 300 символов дадут две единицы, 600 символов — три. Пустой запрос к v1 стоит как один символ, к v3 — как одна единица. Запросы, упавшие с внутренней ошибкой сервера, не тарифицируются.

Отдельно стоит Brand Voice — создание собственного голоса компании. Разовый платёж за создание одного голоса в Brand Voice Lite — 9 150 ₽, хостинг одного голоса — 101 666 ₽ в месяц, причём первые семь дней после создания хостинг не тарифицируется, чтобы модель можно было протестировать. Чем больше голосов, тем дешевле каждый следующий: второй — 91 500 ₽, шестой и далее — 50 833 ₽ в месяц.

Мини-вывод: для контент-задач SpeechKit стоит копейки — сотни рублей за книгу. Дорого становится только на Brand Voice, и это уже история про бизнес, а не про озвучку статьи.

Какие лимиты у Yandex SpeechKit

Технические лимиты изменить нельзя — они заданы архитектурой. Квоты повышаются через техподдержку.

Ограничение	Значение
Максимальный размер запроса, API v1	5 000 символов
Максимальный размер тела POST, API v1	15 КБ
Максимальный размер запроса, API v3	250 символов и 24 секунды
API v3 в режиме unsafe или потоковом	5 000 символов
Запросов синтеза в секунду (квота)	40
Синхронное распознавание: файл / длительность	1 МБ / 30 секунд
Потоковое распознавание: сессия / данные	5 минут / 10 МБ
Асинхронное распознавание: длительность аудио	4 часа
Хранение результатов распознавания	3 суток

Мини-вывод: 5 000 символов на запрос — это примерно 2–3 страницы текста. Длинный контент придётся резать на части и склеивать аудио на своей стороне.

Подводные камни Yandex SpeechKit

Что ломается на практике чаще всего:

Старые ссылки на документацию. Всё, что ведёт на yandex.cloud/docs/speechkit, редиректится в AI Studio. Закладки и внутренние вики придётся обновить.
Несуществующая роль. ai.speechkit-user из старых гайдов не назначится. Нужна ai.speechkit-tts.user.
Путаница параметров между версиями. В v1 амплуа — emotion, в v3 — role. Скопированный не из той версии пример молча даст нейтральный голос.
Лимит тела запроса. Формальный потолок v1 — 5 000 символов, но тело POST ограничено 15 КБ. Кириллица в UTF-8 занимает два байта на символ, так что до 5 000 знаков вы упрётесь в размер тела раньше, чем в лимит символов.
Голос по умолчанию. Если не передать voice, синтез пойдёт голосом marina, а не тем, который вы ожидали.
Пустые запросы тарифицируются. Цикл с пустыми строками сожжёт единицы тарификации впустую.
Амплуа только для русского. Параметр emotion в v1 поддерживается только при lang=ru-RU.

Чек-лист: озвучить текст голосом Алисы

Аккаунт в Yandex Cloud, платёжный аккаунт в статусе ACTIVE или TRIAL_ACTIVE.
Разовая задача → интерфейс AI Studio, раздел AI Speech → Синтез речи. Нужны роли ai.playground.user и ai.datasets.editor.
Интеграция → сервисный аккаунт с ролью ai.speechkit-tts.user и API-ключ.
Голос — alena, амплуа — good. Это преемник oksana.
Текст режем на куски до 5 000 символов с оглядкой на 15 КБ тела запроса.
Ударения и паузы правим разметкой: +, sil<[300]>, **акцент**.
Бюджет считаем как 1,34 ₽ за 1 000 знаков на API v1.

Частые вопросы о Yandex SpeechKit

Можно ли озвучить текст голосом Алисы в SpeechKit?

Голоса с идентификатором alice в SpeechKit нет. Ближайший вариант — alena в амплуа good: документация AI Studio указывает, что alena и снятый с поддержки oksana записаны с одного диктора, и рекомендует alena как замену.

Сколько стоит Yandex SpeechKit?

Синтез через API v1 — 1 342 ₽ за 1 млн символов с НДС, около 1,34 ₽ за 1 000 знаков. Через API v3 — 0,1626 ₽ за запрос до 250 символов. Распознавание — от 0,0381 до 0,1626 ₽ за 15 секунд аудио.

Есть ли у SpeechKit бесплатный тариф?

Нет. Для работы нужен платёжный аккаунт в статусе ACTIVE или TRIAL_ACTIVE. При регистрации в Yandex Cloud начисляется стартовый грант, которым можно оплатить тестирование.

Можно ли пользоваться SpeechKit без программирования?

Да. В интерфейсе Yandex AI Studio есть раздел AI Speech → Синтез речи: текст до 5 000 символов, выбор голоса и амплуа, скачивание файла. Кнопка «Посмотреть код» отдаёт готовый запрос на Python.

Сколько символов можно озвучить за один запрос?

API v1 — до 5 000 символов, тело POST-запроса при этом не больше 15 КБ. API v3 — 250 символов и 24 секунды, а в режиме unsafe_mode или потоковом — до 5 000 символов.

Какие голоса есть в SpeechKit кроме русских?

Немецкий lea, английский john, иврит naomi, казахские amira, madi, saule, zhanar и узбекские nigora, zamira, yulduz. Всего в Playground доступно 29 голосов.

Почему API не находит выбранный голос?

Скорее всего, голос доступен только в API v3. Голоса dasha, julia, lera, masha, alexander, kirill и anton в API v1 не работают.

Синтез речи — прикладной навык: он одинаково нужен и для озвучки контента, и для голосовых роботов в продукте. Если хотите разобраться, как собирать такие сценарии без разработчика, посмотрите, что такое зерокодинг.

РОССИЙСКИЕ НЕЙРОСЕТИ ДЛЯ ЖИЗНИ И КАРЬЕРЫ В 2025

Присоединяйся к онлайн-вебинару.

В прямом эфире разберем и потестируем лучшие на сегодняшний день отечественные ИИ!

Вы узнаете о том:

Выполним базовые задачи на российских нейросетях и посмотрим на результаты!
Файл-инструкцию «Как сделать нейро-фотосессию из своего фото бесплатно, без иностранных карт и прочих сложностей»
Покажем 10+ способов улучшить свою жизнь с ИИ каждому — от ребенка и пенсионера до управленца и предпринимателя

Участвовать бесплатно

ОБЗОРНЫЙ ПРАКТИКУМ ПО НАШУМЕВШИМ НЕЙРОСЕТЯМ

Нейросети DEEPSEEK И QWEN

За 2 часа сделаем полный обзор новых мощных ИИ-моделей, которые бросают вызов нейросети ChatGPT

Вы узнаете:

Возможность получить Доступ в Нейроклуб на целый месяц
Как ИИ ускоряет работу и приносит деньги
За 2 часа вы получите четкий план, как начать работать с ИИ прямо сейчас!

Участвовать бесплатно

РОССИЙСКИЕ НЕЙРОСЕТИ ДЛЯ ЖИЗНИ И КАРЬЕРЫ В 2025

Присоединяйся к онлайн-вебинару.

В прямом эфире разберем и потестируем лучшие на сегодняшний день отечественные ИИ!

Вы узнаете о том:

Выполним базовые задачи на российских нейросетях и посмотрим на результаты!
Файл-инструкцию «Как сделать нейро-фотосессию из своего фото бесплатно, без иностранных карт и прочих сложностей»
Покажем 10+ способов улучшить свою жизнь с ИИ каждому — от ребенка и пенсионера до управленца и предпринимателя

Участвовать бесплатно

ОБЗОРНЫЙ ПРАКТИКУМ ПО НАШУМЕВШИМ НЕЙРОСЕТЯМ

Нейросети DEEPSEEK И QWEN

За 2 часа сделаем полный обзор новых мощных ИИ-моделей, которые бросают вызов нейросети ChatGPT

Вы узнаете:

Возможность получить Доступ в Нейроклуб на целый месяц
Как ИИ ускоряет работу и приносит деньги
За 2 часа вы получите четкий план, как начать работать с ИИ прямо сейчас!

Участвовать бесплатно

Медиа о нейросетях,
зерокодинге и онлайн-образовании

Медиа о нейросетях,
зерокодинге и онлайн-образовании

Yandex SpeechKit: как озвучить текст голосом Алисы

Что такое Yandex SpeechKit и где он находится сейчас

Есть ли в Yandex SpeechKit голос Алисы

Как озвучить текст в Yandex SpeechKit без кода