На конференции OpenAI DevDay 2024 команда OpenAI представила ряд нововведений в области искусственного интеллекта, включая новые модели GPT, улучшенные возможности мультимодального взаимодействия и новые API для разработчиков.
Новые версии GPT
Одним из главных анонсов стала новая линейка моделей O1, которая предлагает улучшенные возможности в области логического мышления и программирования.
- Preview – мощная модель, предназначенная для решения сложных задач, требующих глубокой цепочки рассуждений.
- Mini – быстрая экономичная версия, оптимизированная для отладки кода, математики иkb научных вычислений.
Разработчики подчеркнули, что Preview превосходит существующие модели по уровню анализа, а также способности решать логические задачи. В то же время Mini предлагает сбалансированный вариант для задач, связанных с программированием и агентными приложениями.

- Возможность получить Доступ в Нейроклуб на целый месяц
- Как AI ускоряет работу и приносит деньги
- За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!
Различия между O1 и GPT-4.0
На конференции также было объявлено, что O1 — это не эволюция GPT-4.0, а принципиально новая категория AI-моделей. Хотя они имеют общие корни, их предназначение и сферы применения различаются.
Разный фокус
GPT-4.0 был создан как универсальный инструмент, который отлично справляется с широким спектром задач:
- генерация текстов,
- перевод,
- анализ данных,
- кодирование,
- поддержка диалогов.
Версия O1, в свою очередь, ориентирован на глубокий анализ, логическое мышление. Это значит, что модель:
- лучше выстраивает цепочку рассуждений,
- понимает контекст сложных вопросов,
- обдумывает свой ответ перед тем, как его дать.
Если стандартная версия быстро генерирует ответы, ориентируясь на вероятностные закономерности, то нейросеть выполняет поэтапный анализ, что делает его точным в логических рассуждениях, математике, а также сложных вычислениях.
- GPT-4.0 может дать хороший ответ на математическую задачу, но иногда ошибается в вычислениях.
- O1 решает такую же задачу методично, проверяя шаги своего решения, что снижает вероятность ошибки.
Скорость и стоимость
Из-за усложненной структуры обработки информации, новая версия требует больше ресурсов.
- Он работает медленнее, так как анализирует задачу глубже.
- Он дороже в использовании, так как выполняет больше вычислений.
Стандарнтная версия, напротив, оптимизирована для скорости, что делает его более подходящим для повседневных задач, где не требуется глубина анализа.
Пример:
- Если нужно быстро сгенерировать текст для маркетинговой кампании — GPT-4.0 справится быстрее.
- Если нужно разобраться в сложном юридическом документе или проанализировать код, лучше выбрать O1.
Разработчики уже заметили, что O1 не заменяет GPT-4.0, а дополняет его.
Большинство продвинутых нейросетей используют комбинацию этих моделей:
- GPT-4.0 обрабатывает простые быстрые запросы.
- O1 подключается, когда нужно глубокое логическое мышление.
Пример реального сценария:
- Чат-бот в сфере техподдержки использует GPT-4.0 для быстрой обработки типовых вопросов клиентов.
- Если клиент задает сложный технический вопрос, чат-бот автоматически переключается на O1, чтобы проанализировать проблему, чтобы предложить точное решение.
Эта версия не является заменой GPT-4.0, а представляет собой новый уровень AI-моделей, ориентированных на сложные вычисления, аналитику и программирование.
Новые API и инструменты
Помимо новых моделей, на OpenAI DevDay 2024 были представлены улучшения API, которые дают разработчикам больше гибкости, удобства, масштабируемости.
Realtime API – потоковая генерация речи в реальном времени
Одним из самых ожидаемых анонсов стало Realtime API – инструмент, позволяющий взаимодействовать с ИИ в режиме живого голосового общения без задержек.
Ранее голосовой ассистент от OpenAI был доступен только в ChatGPT, но теперь разработчики могут встраивать аналогичные технологии в свои приложения.
Что умеет Realtime?
- Обрабатывает речь в реальном времени – нейросеть отвечает с минимальными задержками.
- Поддерживает естественные паузы или прерывания – можно разговаривать с ним, как с человеком.
- Использует 6 голосов, доступных в ChatGPT.
- Передает информацию через WebSocket, что позволяет быстро интегрировать API в приложения.
- Поддерживает инструменты или функции – можно комбинировать голосовые ответы с API-вызовами.
Примеры использования:
- Голосовые ассистенты в мобильных приложениях
- AI-коучи, виртуальные тренеры
- Интерактивные языковые помощники
- Автоматические колл-центры
На сцене было продемонстрировано, как AI может не только разговаривать с пользователем, а также взаимодействовать с реальными сервисами. Например, AI позвонил в магазин через Twilio API, оформил заказ на 400 шоколадных клубник, взаимодействуя с человеком на другом конце линии.
Расширенные возможности кастомизации моделей
OpenAI делает свои модели более адаптивными под конкретные задачи. В API появились новые инструменты для тонкой настройки.
Что нового?
- Функции (function calling) – AI теперь сам выбирает, использует API-инструменты, чтобы решать задачи, а не просто давать текстовые ответы.
- Структурированные ответы – модели могут выдавать JSON-форматированные данные, что удобно для автоматизированных процессов.
- Поддержка изображений – нейросеть теперь может анализировать и генерировать изображения, а не только работать с текстом.
Примеры использования:
- Автоматизированные рабочие процессы: ИИ может запрашивать данные из CRM, формировать отчеты, а также отправлять уведомления.
- E-commerce или чат-боты: нейросеть может анализировать товары, подбирать подходящие варианты, а также заполнять заказ автоматически.
- Обработка изображений: AI может читать, анализировать и объяснять содержимое картинок, что полезно для работы с документами и интерфейсами.
Повышенные лимиты API
За последние недели OpenAI уже трижды увеличивала лимиты API на использование O1, а на DevDay объявила об их очередном удвоении.
Что это значит для разработчиков?
- Больше запросов в секунду – API выдерживает большую нагрузку.
- Упрощение работы с большими объемами данных – подходит для крупных проектов.
- Снижение очередей или задержек – AI-ответы приходят быстрее.
Ранее разработчики испытывали ограничения при использовании модели, поскольку она требовала больше ресурсов. Теперь OpenAI доработала инфраструктуру, что позволило повысить пропускную способность API.
Кто выиграет от этих улучшений?
- Разработчики корпоративных решений, работающих на больших объемах данных.
- AI-стартапы, создающие продукты с высокой нагрузкой.
- Крупные платформы, использующие OpenAI API для обслуживания тысяч пользователей.
С новыми API OpenAI делает AI-инструменты более доступными, удобными для разработчиков.
Эти нововведения позволяют создавать интеллектуальные и автономные AI-решения, приближая AI к реальному взаимодействию с людьми и бизнесом.
Демонстрация возможностей
На сцене были показаны практические примеры использования O1:
- Создание iOS-приложения с нуля – O1 самостоятельно написал код, архитектуру, а также подготовил файл для компиляции, что позволило запустить приложение без ручных исправлений.
- Программирование дрона – разработчик, не имеющий опыта работы с дронами, смог с помощью версии Mini написать backend, а также связать его с фронтендом, управляя устройством в реальном времени.
Эти примеры показывают, что O1 может не просто давать ответы, а действовать как интеллектуальный помощник, помогающий в программировании и техническом решении задач.
Голосовые возможности и AI-звонки
OpenAI также представила интерактивный голосовой интерфейс, работающий на основе Realtime API. Были продемонстрированы:
- Новая система голосового общения, позволяющая ИИ прерывать разговор, делать паузы и подстраиваться под собеседника.
- Интеграция с Twilio API, благодаря которой AI смог самостоятельно позвонить в магазин и оформить заказ, взаимодействуя с реальным оператором.
Выводы
OpenAI DevDay 2024 показал, что компания продолжает активно развивать свои технологии в нескольких направлениях:
- Логическое мышление и программирование – новые модели O1 способны решать задачи, требующие глубокой цепочки размышлений.
- Мультимодальность – усиленный акцент на обработку текста, изображений, видео или голоса.
- Голосовой AI нового поколения – реалистичная речь, взаимодействие с пользователем в реальном времени и интеграция с внешними сервисами.
OpenAI делает ставку на комбинированное использование O1 и GPT-4.0, что позволяет разработчикам выбирать оптимальную модель в зависимости от конкретной задачи. Новый Realtime API открывает перспективы для создания голосовых приложений, а улучшенные API-возможности облегчают работу с AI-разработками.
Выступление подтвердило, что OpenAI остается ведущим игроком в области ИИ, предлагая разработчикам инструменты для создания более интеллектуальных и интерактивных решений.
- Выполним базовые задачи на российских нейросетях и посмотрим на результаты!
- PDF-инструкцию «Как сделать нейрофотосессию из своего фото бесплатно, без иностранных карт и прочих сложностей»
- Покажем 10+ способов улучшить свою жизнь с ИИ каждому — от ребенка и пенсионера до управленца и предпринимателя
- Возможность получить Доступ в Нейроклуб на целый месяц
- Как AI ускоряет работу и приносит деньги
- За 2 часа вы получите четкий план, как начать работать с AI прямо сейчас!