Открытые модели для открытого мира
Большая часть моделей из линейки уже доступны к загрузке на платформах Hugging Face и GitHub. Что особенно интересно — они имеют открытый исходный код, а значит, любой желающий может загружать и модернизировать нейросети на свое усмотрение. Подобным образом был релизнут DeepSeek-R1, чем сразу составил серьезную конкуренцию «закрытым» продуктам от OpenAI. Похоже, китайские нейросети делают ставку на открытость.
В семействе модели варьируются по размерам от 0,6 до 235 миллиардов параметров. Параметры — это способность нейросети решать поставленные перед ней задачи. Как правило, чем их больше, тем лучше показывает себя модель в сравнении с той, у которой параметров меньше.
Эти характеристики демонстрируют, что Китай стал серьезным конкурентом для таких американских компаний, как OpenAI. На это же указывают и попытки США ограничить развитие китайских конкурентов — Штаты всячески чинят препятствия, мешая разработчикам из Поднебесной приобретать необходимые для обучения моделей чипы. Впрочем, не то чтобы эта помеха сильно сказывалась на их темпах развития: компании просто используют «устаревшие» чипы. Ставка делается на программное обеспечение, как в случае с DeepSeek-R1, который обучался с использованием графических карт NVIDIA H800 — не самых современных, но достаточных, чтобы совершить прорыв в мире ИИ.

- ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ нейросети DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
- Где и как применять? Потестируем модель после установки на разных задачах
- Как дообучить модель под себя?
Как работает Qwen3
Qwen3 — гибридная модель. Это значит, что она умеет включать функцию рассуждения, когда нужно, и переходить на более дешевый режим без рассуждений, если вопрос простой. Таким образом нейросеть не только стоит дешевле, но и приобретает способность фактчекать саму себя — примерно так же, как это делает o3 от OpenAI.
Некоторые модели из семейства обучались с использованием техники «смесь экспертов» (MoE) — достаточно эффективной системы, которая как бы разбивает запрос на отдельные таски и делегирует их «экспертам». В этой ситуации речь идет, конечно, не о людях, а об отдельных искусственных интеллектах, заточенных решать конкретные вопросы. Например, это может быть математика, или программирование, или языки.
К слову о языках — Qwen3 поддерживает аж 119 штук. Модель была обучена на датасете из более чем 36 триллионов токенов, где миллион токенов — это примерно 750 000 слов. Обучали нейросеть на учебниках, вопросах и ответах, сниппетах кода, сгенерированных ИИ данных и многом другом. Поэтому Qwen3 сильно отличается от своего предшественника Qwen2, который не мог даже конкурировать с такими флагманскими моделями, как o3 и o4-mini от OpenAI. Новинка их тоже не превзошла, но ее определенно можно назвать сильной моделью.
Нейросети — мощная тема, а если вы задумывались о том, чтобы использовать их в карьере или жизни, добро пожаловать на наш вебинар! Расскажем о самых популярных моделях и покажем на практике, что с ними делать. Это бесплатно — и очень полезно.
Впечатляющие результаты
На бенчмарке Codeforces, который проверяет способность моделей программировать, крупнейшая нейросеть из линейки Qwen-3-235B-A22B обошла OpenAI o3-mini и Google Gemini 2.5 Pro. Кроме того, она показала лучшие результаты, чем o3-mini, и в проверке на бенчмарке AIME — это математический тест, — а также BFCL — специальной платформе, которая проверяет, насколько хорошо нейросети способны «рассуждать».
Есть одно «но»: Qwen-3-235B-A22B пока еще нет в публичном доступе. А если говорить о публичных моделях из новой линейки, то неплохие результаты показывает Qwen3-32B, в том числе по сравнению со своим знаменитым китайским собратом DeepSeek-R1. В кодинге Qwen3-32B тоже хороша — она превзошла o1 от OpenAI на бенчмарке LiveCodeBench.
Выход Qwen3 на рынок подтверждает стремительное развитие китайских ИИ-технологий и уверенную конкуренцию с лидерами отрасли. Alibaba делает ставку на открытость, масштабируемость и продвинутые архитектурные решения, предлагая пользователям как легкие, так и сверхмощные модели. Это не просто гонка параметров — это шаг к новой парадигме, где гибкость, многоязычность и самооптимизация становятся стандартом.
Хотя самые мощные модели пока недоступны публично, уже доступные версии Qwen3 показывают впечатляющие результаты в программировании, математике и задачах на логическое мышление. Ставка на гибридную архитектуру и «смесь экспертов» демонстрирует, что китайские разработчики уверенно идут по пути инноваций. Если тенденция сохранится, то вскоре китайские открытые модели могут составить реальную альтернативу доминирующим западным решениям.
Как сказать Тухин Шривастава, сооснователь и СЕО облачного хостинга Baseten: «США прилагают немалые усилия для того, чтобы ограничить продажу чипов в Китай, однако такие модели, как Qwen 3 — открытые и действительно мощные — будут использоваться самими китайцами. Это отражает новую реальность, в которой компании одновременно создают собственные инструменты и приобретают их у «закрытых» компаний вроде Anthropic и OpenAI».
- Освой нейросеть Perplexity и узнай, как пользоваться функционалом остальных ИИ в одном
- УЧАСТВОВАТЬ ЗА 0 РУБ.
- Расскажем, как получить подписку
- ПОКАЖЕМ, КАК РАЗВЕРНУТЬ МОДЕЛЬ нейросеть DEEPSEEK R1 ПРЯМО НА СВОЁМ КОМПЬЮТЕРЕ
