Microsoft добавила открытую модель OpenAI gpt-oss-20b в Windows 11 — это значит, что вы можете запускать мощную модель локально на своём ПК (при наличии подходящего GPU) и не отправлять данные в облако. Ниже — понятный пошаговый гайд, требования, лайфхаки и альтернативы.
Как пользоваться нейросетями и где их использовать? Отвечаем на бесплатном вебинаре. Понятно, интересно, полезно!
Что это за модель и зачем она вам
gpt-oss-20b — это открытая (open-weight) модель OpenAI (~21B параметров, MoE-архитектура) с поддержкой длинного контекста (до 128k токенов) и инструментов (включая исполнение кода и веб-поиск в agent-сценариях). Модель доступна под Apache-2.0, поэтому её можно скачивать, дообучать и интегрировать в свои приложения. Для многих задач (код, STEM, агентные сценарии) она даёт отличное сочетание возможностей и требований к железу.

- ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
- Где и как применять? Потестируем модель после установки на разных задачах
- Как дообучить модель под себя?
Что вам понадобится (минимум и рекомендуемое)
- Windows 11 (с актуальными обновлениями).
- NVIDIA GPU с ≥16 GB VRAM — Foundry Local на Windows сейчас официально поддерживает именно такие карты для gpt-oss-20b. Если у вас нет такой карты, есть альтернативы (см. раздел «Альтернативные способы»).
- Драйверы NVIDIA + CUDA нужной версии (проверьте требования Foundry Local).
- Хорошее место на диске (модели и quant-файлы занимают десятки гигабайт).
- Foundry Local версии, совместимой с gpt-oss-20b (проверьте версию cli).
Быстрая установка — три команды (самый короткий путь)
Откройте Windows Terminal (PowerShell) с правами администратора и выполните:
winget install Microsoft.FoundryLocal
winget upgrade —id Microsoft.FoundryLocal
foundry —version # убедитесь, что версия актуальна
foundry model run gpt-oss-20b
Команда foundry model run gpt-oss-20b запустит локальный экземпляр модели и откроет интерфейс/CLI, в котором можно отправлять запросы. Если Foundry требуется обновление — winget повысит версию.
Пример: первый тестовый запрос
После запуска в терминале можно отправить тест-промпт (или подключиться к API Foundry Local):
Привет! Объясни кратко (3 пункта), как оптимизировать SQL-запросы на примере индексации и где смотреть метрики.
Это стандартный способ быстро оценить отклик и скорость на вашем железе. Если модель отвечает медленно — проверьте загрузку GPU/CPU и контекст-window (ниже — оптимизация).
Альтернативы, если у вас нет 16GB NVIDIA GPU
LM Studio — популярный локальный фронтенд/движок, который умеет запускать quant-версии моделей на различных конфигурациях (часто использует CPU+GPU). Подходит для тестов и уменьшения режима рассуждений.
Ollama — ещё один простой путь «скачать и пообщаться» с gpt-oss-20b на Windows; пользователи отмечают разную производительность в сравнении с LM Studio, но Ollama даёт быстрый старт и API-совместимость. Есть туториалы и cookbooks по настройке.
Если у вас GPU чуть слабее (например 12 GB), попробуйте Ollama/LM Studio и уменьшите контекст — иногда это даёт рабочую производительность. Пользователи в комьюнити делятся рецептами запуска на 12–16 GB карт с ограничениями по токен-окну; результаты зависят от конкретной видеокарты и quant-настроек.
Практические советы по производительности
Большой контекст (десятки тысяч токенов) сильно нагружает систему — иногда достаточно 4–8k токенов для большинства задач и это резко ускоряет генерацию. (Опыт пользователей и руководства по Ollama/LM Studio подтверждают это.)
OpenAI предоставляет веса в quant-формате MXFP4 — это позволяет запускать модель с меньшими требованиями по памяти. Foundry Local и провайдеры обычно оптимизируют инференс автоматически.
При падении скорости иногда виноват переключённый на CPU режим или сверхдлинный контекст. Переключение настроек в LM Studio / Ollama помогает вернуть GPU-ускорение.
Тонкости работы с агентами и инструментами
gpt-oss-20b поддерживает agent-workflow (tool use): вызов веб-поиска, исполнение Python-скриптов и т.п. В локальном окружении это значит: вы можете настроить модель так, чтобы она запускала скрипты на вашей машине, но делайте это с осторожностью (контроль доступа, sandboxing). Инструкции по настройке таких цепочек есть в руководствах Foundry Local / Ollama.
Траблшутинг — коротко
- Модель не запускается? Проверьте версию Foundry Local (foundry —version) и обновите через winget.
- Модель очень медленная? Уменьшите контекст-окно и убедитесь, что инференс использует GPU (проверьте диспетчер задач / NVIDIA-tools).
- Хотите подключить интернет-поиск или скрипты? Читайте cookbook/документацию Ollama или Foundry Local про tool-integration и настройте sandbox.
Итог
Если у вас современный Windows-ПК с Nvidia-GPU на 16 GB, gpt-oss-20b — отличный вариант, чтобы запускать локальный сильный помощник: быстро тестировать идеи, анализировать приватные файлы и строить агенты без облачной зависимости. Если железо слабее — используйте LM Studio или Ollama и оптимизируйте контекст.
- Выполним базовые задачи на российских нейросетях и посмотрим на результаты!
- PDF-инструкцию «Как сделать нейрофотосессию из своего фото бесплатно, без иностранных карт и прочих сложностей»
- Покажем 10+ способов улучшить свою жизнь с ИИ каждому — от ребенка и пенсионера до управленца и предпринимателя
- Возможность получить Доступ в Нейроклуб на целый месяц
- Как AI ускоряет работу и приносит деньги
- За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!

