OpenAI o1: все, что вам нужно знать о последних моделях ИИ от OpenAI

OpenAI анонсировала свою последнюю инновацию: серию генеративных моделей ИИ под названием OpenAI o1. Эта новая семейство моделей, включающая o1-preview и o1-mini, направлена на революцию в способности ИИ проверять себя и аргументировать свои ответы.

Новая серия o1 теперь доступна через ChatGPT и API OpenAI.

Однако доступ в настоящее время ограничен подписчиками ChatGPT Plus, командными пользователями и будет расширен для корпоративных и образовательных пользователей на следующей неделе.

Ключевые особенности OpenAI o1

Способности к самопроверке фактов

Одна из выдающихся особенностей серии o1 — это способность проверять факты самостоятельно. В отличие от своего предшественника GPT-4o, модель o1 тратит больше времени на рассмотрение всех частей вопроса, что делает ее менее склонной к ошибкам в рассуждениях, которые обычно встречаются у генеративных ИИ-моделей.

Улучшенные способности к рассуждению и планированию

Способность модели o1 «думать» перед ответом позволяет ей целостно рассуждать над задачами. Это делает её особенно эффективной для сложных задач, требующих синтеза нескольких подзадач, таких как обнаружение привилегированных писем в юридическом контексте или мозговой штурм маркетинговых стратегий для продуктов.

Обучение и оптимизация

OpenAI использовала обучение с подкреплением для тренировки модели o1, которое вознаграждает правильные ответы и наказывает за неправильные. Модель также выигрывает от нового алгоритма оптимизации и специализированного учебного набора данных, богатого материалами по логическим рассуждениям и научной литературе.

Производительность и ограничения

Превосходная производительность в области STEM

Модель o1 продемонстрировала превосходную производительность в задачах, связанных с STEM. Например, на квалификационном экзамене для Международной математической олимпиады o1 решила 83% задач по сравнению с 13% у GPT-4o.

Оценка на соревнованиях по математике (AIME 2024), программированию (CodeForces) и научным вопросам уровня PhD (GPQA Diamond)
(Источник: OpenAI)

Кроме того, o1 значительно улучшила свои результаты в задачах по программированию, достигнув высоких показателей на онлайн-конкурсах программирования, таких как Codeforces.

Начальные ограничения

Несмотря на свои передовые возможности, модель o1 имеет некоторые ограничения. Она не может просматривать веб-страницы или анализировать файлы, а её функции анализа изображений в настоящее время отключены и проходят дополнительное тестирование. Модель также ограничена по количеству запросов в неделю как для o1-preview, так и для o1-mini.

Финансовые соображения

Модель o1 заметно дороже, чем GPT-4o. Стоимость API для o1-preview составляет $15 за 1 миллион входных токенов и $60 за 1 миллион выходных токенов, что делает её в три-четыре раза дороже, чем GPT-4o.

Конкуренция и перспективы

Конкурентная среда

OpenAI не единственная компания, исследующая методы продвинутого логического рассуждения. Google DeepMind также опубликовала исследования, показывающие, что увеличение времени на вычисления и применение направляющих может значительно улучшить производительность. Решение OpenAI скрыть сырые "цепочки мыслей" от широкой публики подчеркивает конкурентную природу этого рынка.

Будущее развитие

OpenAI планирует сделать o1-mini доступной для всех бесплатных пользователей ChatGPT, но дата выпуска пока не установлена. Компания также работает над моделями, которые смогут рассуждать в течение длительных периодов времени, возможно, в течение часов, дней или недель, чтобы ещё больше улучшить их возможности.

Комментарии редактора

Введение серии моделей o1 от OpenAI знаменует собой значительный прогресс в возможностях ИИ по рассуждению и самопроверке.

Хотя высокая стоимость и начальные ограничения модели могут стать препятствиями, её превосходная производительность в сложных задачах и области STEM может сделать её ценным инструментом для специализированных приложений.

По мере того, как конкуренция на рынке ИИ усиливается, настоящим испытанием станет, насколько быстро OpenAI сможет сделать эти модели более доступными и экономически выгодными.