DeepSeek
9 публикаций
Три крупных открытых модели 2025-го отличаются философией и сильными сторонами. GPT-OSS-120B — «экономный работяга» с MoE-хитростями для реального деплоя. Qwen3-235B — длинноокончатый специалист для больших документов и мультиязыка. DeepSeek-R1 — тяжёлая артиллерия с само-проверкой и обучением через усиление (RL), заточенная под сложное...
DeepSeek выпустили обновлённую версию V3.1 — гибридную reasoning-модель с режимами Think / Non-Think, длинным контекстом и заметным прогрессом по сравнению с ранней R1-версией. При этом V3.1 всё ещё уступает лидерам (например, GPT-5 по ряду бенчмарков). Ниже — понятный разбор, что именно изменилось...
Если раньше обучение больших языковых моделей (LLM) казалось чем-то вроде магии, то сегодня оно постепенно превращается в инженерное ремесло. Character.AI решила сделать шаг навстречу сообществу и открыла проект pipeling-sft — лёгкий, но мощный фреймворк для дообучения моделей с архитектурой Mixture-of-Experts (MoE), таких...
Весной 2025 года технологическое сообщество наблюдало за Китаем с особым вниманием. Причина — два громких проекта в области искусственного интеллекта, запущенных с разницей в пару месяцев. Один — это DeepSeek, масштабная языковая модель, получившая прозвище «китайский ответ GPT‑4». Второй — Manus AI,...
Современные языковые модели уже не просто подбирают слова. Они улавливают смысл, распознают намерения и ориентируются в контексте. Всё это — благодаря эмбеддингам: векторным представлениям, лежащим в основе «понимания» текста нейросетями.
Что такое эмбеддинг?
Если совсем просто — это способ превратить текст в набор чисел,...
Подписывайтесь
на наш телеграм-канал
Подписаться
на наш телеграм-канал