Microsoft добавила открытую модель OpenAI gpt-oss-20b в Windows 11 — это значит, что вы можете запускать мощную модель локально на своём ПК (при наличии подходящего GPU) и не отправлять данные в облако. Ниже — понятный пошаговый гайд, требования, лайфхаки и альтернативы.

Как пользоваться нейросетями и где их использовать? Отвечаем на бесплатном вебинаре. Понятно, интересно, полезно!

Что это за модель и зачем она вам

gpt-oss-20b — это открытая (open-weight) модель OpenAI (~21B параметров, MoE-архитектура) с поддержкой длинного контекста (до 128k токенов) и инструментов (включая исполнение кода и веб-поиск в agent-сценариях). Модель доступна под Apache-2.0, поэтому её можно скачивать, дообучать и интегрировать в свои приложения. Для многих задач (код, STEM, агентные сценарии) она даёт отличное сочетание возможностей и требований к железу.

ОНЛАЙН-ПРАКТИКУМ
ЗАПУСК DEEPSEEK R1 ЛОКАЛЬНО НА СВОЕМ КОМПЬЮТЕРЕ
ЧТО БУДЕТ НА ОБУЧЕНИИ?
  • ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
  • Где и как применять? Потестируем модель после установки на разных задачах
  • Как дообучить модель под себя?

Что вам понадобится (минимум и рекомендуемое)

  1. Windows 11 (с актуальными обновлениями).
  2. NVIDIA GPU с ≥16 GB VRAM — Foundry Local на Windows сейчас официально поддерживает именно такие карты для gpt-oss-20b. Если у вас нет такой карты, есть альтернативы (см. раздел «Альтернативные способы»).
  3. Драйверы NVIDIA + CUDA нужной версии (проверьте требования Foundry Local).
  4. Хорошее место на диске (модели и quant-файлы занимают десятки гигабайт).
  5. Foundry Local версии, совместимой с gpt-oss-20b (проверьте версию cli).

Быстрая установка — три команды (самый короткий путь)

Откройте Windows Terminal (PowerShell) с правами администратора и выполните:

winget install Microsoft.FoundryLocal

winget upgrade —id Microsoft.FoundryLocal

foundry —version      # убедитесь, что версия актуальна

foundry model run gpt-oss-20b

Команда foundry model run gpt-oss-20b запустит локальный экземпляр модели и откроет интерфейс/CLI, в котором можно отправлять запросы. Если Foundry требуется обновление — winget повысит версию.

Пример: первый тестовый запрос

После запуска в терминале можно отправить тест-промпт (или подключиться к API Foundry Local):

Привет! Объясни кратко (3 пункта), как оптимизировать SQL-запросы на примере индексации и где смотреть метрики.

Это стандартный способ быстро оценить отклик и скорость на вашем железе. Если модель отвечает медленно — проверьте загрузку GPU/CPU и контекст-window (ниже — оптимизация).

Альтернативы, если у вас нет 16GB NVIDIA GPU

LM Studio — популярный локальный фронтенд/движок, который умеет запускать quant-версии моделей на различных конфигурациях (часто использует CPU+GPU). Подходит для тестов и уменьшения режима рассуждений.

Ollama — ещё один простой путь «скачать и пообщаться» с gpt-oss-20b на Windows; пользователи отмечают разную производительность в сравнении с LM Studio, но Ollama даёт быстрый старт и API-совместимость. Есть туториалы и cookbooks по настройке.

Если у вас GPU чуть слабее (например 12 GB), попробуйте Ollama/LM Studio и уменьшите контекст — иногда это даёт рабочую производительность. Пользователи в комьюнити делятся рецептами запуска на 12–16 GB карт с ограничениями по токен-окну; результаты зависят от конкретной видеокарты и quant-настроек.

Практические советы по производительности

Большой контекст (десятки тысяч токенов) сильно нагружает систему — иногда достаточно 4–8k токенов для большинства задач и это резко ускоряет генерацию. (Опыт пользователей и руководства по Ollama/LM Studio подтверждают это.)

OpenAI предоставляет веса в quant-формате MXFP4 — это позволяет запускать модель с меньшими требованиями по памяти. Foundry Local и провайдеры обычно оптимизируют инференс автоматически.

При падении скорости иногда виноват переключённый на CPU режим или сверхдлинный контекст. Переключение настроек в LM Studio / Ollama помогает вернуть GPU-ускорение.

Тонкости работы с агентами и инструментами

gpt-oss-20b поддерживает agent-workflow (tool use): вызов веб-поиска, исполнение Python-скриптов и т.п. В локальном окружении это значит: вы можете настроить модель так, чтобы она запускала скрипты на вашей машине, но делайте это с осторожностью (контроль доступа, sandboxing). Инструкции по настройке таких цепочек есть в руководствах Foundry Local / Ollama.

Траблшутинг — коротко

  • Модель не запускается? Проверьте версию Foundry Local (foundry —version) и обновите через winget.
  • Модель очень медленная? Уменьшите контекст-окно и убедитесь, что инференс использует GPU (проверьте диспетчер задач / NVIDIA-tools).
  • Хотите подключить интернет-поиск или скрипты? Читайте cookbook/документацию Ollama или Foundry Local про tool-integration и настройте sandbox.

Итог

Если у вас современный Windows-ПК с Nvidia-GPU на 16 GB, gpt-oss-20b — отличный вариант, чтобы запускать локальный сильный помощник: быстро тестировать идеи, анализировать приватные файлы и строить агенты без облачной зависимости. Если железо слабее — используйте LM Studio или Ollama и оптимизируйте контекст.

РОССИЙСКИЕ НЕЙРОСЕТИ ДЛЯ ЖИЗНИ И КАРЬЕРЫ В 2025
Присоединяйся к онлайн-вебинару.
В прямом эфире разберем и потестируем лучшие на сегодняшний день отечественные ИИ!
Вы узнаете о том:
  • Выполним базовые задачи на российских нейросетях и посмотрим на результаты!
  • PDF-инструкцию «Как сделать нейрофотосессию из своего фото бесплатно, без иностранных карт и прочих сложностей»
  • Покажем 10+ способов улучшить свою жизнь с ИИ каждому — от ребенка и пенсионера до управленца и предпринимателя
Участвовать бесплатно
ОБЗОРНЫЙ ПРАКТИКУМ ПО НАШУМЕВШИМ НЕЙРОСЕТЯМ
DEEPSEEK И QWEN
За 2 часа сделаем полный обзор новых мощных AI-моделей, которые бросают вызов ChatGPT
Вы узнаете:
  • Возможность получить Доступ в Нейроклуб на целый месяц
  • Как AI ускоряет работу и приносит деньги
  • За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!
Участвовать бесплатно