Открытый ИИ O3 и O3-Mini: все, что вам следует знать о преемнике модели O1 Reasoning.

В последний день 12-дневного мероприятия OpenAI OpenAI представила свои новейшие модели искусственного интеллекта, O3 и O3-mini, что является значительным шагом вперед по сравнению с предыдущей моделью O1 "рациональности".

Целью этих моделей является улучшение возможностей рассуждения и приближение к границам общего искусственного интеллекта в определенных условиях.

В настоящее время эти модели доступны для тестирования безопасности и будут широко доступны с начала 2025 года.

Что такое OpenAI O3?

Модельная семья O3, включая более компактную модель O3-mini, разработана для решения сложных задач в области кодирования, математики и общего интеллекта.

OpenAI представила "делиберативную выравнивание" для повышения безопасности и надежности моделей, позволяя им рассуждать о задачах с помощью "приватной цепочки мыслей".

Сравнение между O3 и O1

Модель O3 представляет собой значительную эволюцию по сравнению с моделью O1, прежде всего благодаря своим продвинутым возможностям рассуждения.

O1 положил основу для рассуждений, а O3 разработан для решения более сложных задач с большей точностью и эффективностью.

Для этого модель включает "приватную цепочку мыслей", позволяющую модели планировать и рассуждать о задачах более эффективно.

Производительность в области кодирования

OpenAI o3 против o1 в области производительности кодирования
(Источник: OpenAI)

В задачах кодирования O3 показывает заметное улучшение по сравнению с O1.

На бенчмарке SWE-Bench Verified, который оценивает задачи реального мира по программированию, O3 демонстрирует точность в 71,7%, превышая результаты O1.

Кроме того, в соревновательном программировании O3 получает ELO-рейтинг 2727, что значительно выше, чем рейтинг O1, равный 1891. Это указывает на более лучшую способность O3 справляться с сложными задачами по кодированию.

Производительность в математическом рассуждении

OpenAI o3 против o1 в математическом рассуждении
(Источник: OpenAI)

O3 также проявляет отличные результаты в математическом рассуждении по сравнению с O1.

На Американском экзамене по математике (AIME) 2024 года, O3 набирает впечатляющий результат в 96,7%, пропустив всего один вопрос, в то время как у O1 результат составляет 83,3%.

Это улучшение указывает на то, что O3 лучше оснащена для решения сложных математических проблем и приближается к уровню человека в этой области.

Производительность в общей науке

OpenAI o3 против o1 в производительности общих наук
(Источник: OpenAI)

В области общей науки и интеллекта O3 превосходит O1 по оценкам, таким как GPQA Diamond, включающим вопросы научного уровня.

O3 достигает точности 87,7%, в то время как у O1 точность составляет 78%. Это демонстрирует улучшенную способность O3 в решении технически сложных задач в различных научных областях.

Возможности рассуждения и безопасности

O3 представляет возможность регулирования времени рассуждения, позволяющую пользователям настраивать "время размышлений" модели в зависимости от сложности задачи, что отсутствует в модели O1.

Более того, O3 использует "делиберативное выравнивание" для повышения безопасности, позволяя модели динамически оценивать входные данные и эффективно определять потенциальные риски.

В заключение, O3 предлагает значительные улучшения по сравнению с O1 в области кодирования, математики и общего интеллекта, а также улучшенные функции рассуждения и безопасности, делая его более мощным и универсальным инструментом для решения сложных задач.

Дата выпуска и доступность модели O3

Модели O3 и O3-mini в настоящее время доступны для тестирования безопасности, а модель O3-mini ожидается в конце января 2025 года, а затем будет доступна модель O3. Такая осторожная стратегия запуска подчеркивает принципы ответственного применения искусственного интеллекта OpenAI.

Комментарии редактора

Модели O3 и O3-mini представляют собой значительный прогресс в области возможностей рассуждения искусственного интеллекта и демонстрируют чрезвычайно обнадеживающие результаты.

Однако их применение в реальном мире требует еще оценки.

Последовательный выпуск OpenAI и уделение внимания тестированию безопасности отражают сложности при внедрении передовых технологий искусственного интеллекта с ответственным подходом.

Эти модели могут стать ключевыми в пути к достижению общего искусственного интеллекта, заложив основу для будущих инноваций.