В последний день 12-дневного мероприятия OpenAI OpenAI представила свои новейшие модели искусственного интеллекта, O3 и O3-mini, что является значительным шагом вперед по сравнению с предыдущей моделью O1 "рациональности".
Целью этих моделей является улучшение возможностей рассуждения и приближение к границам общего искусственного интеллекта в определенных условиях.
В настоящее время эти модели доступны для тестирования безопасности и будут широко доступны с начала 2025 года.
Что такое OpenAI O3?
Модельная семья O3, включая более компактную модель O3-mini, разработана для решения сложных задач в области кодирования, математики и общего интеллекта.
OpenAI представила "делиберативную выравнивание" для повышения безопасности и надежности моделей, позволяя им рассуждать о задачах с помощью "приватной цепочки мыслей".
Сравнение между O3 и O1
Модель O3 представляет собой значительную эволюцию по сравнению с моделью O1, прежде всего благодаря своим продвинутым возможностям рассуждения.
O1 положил основу для рассуждений, а O3 разработан для решения более сложных задач с большей точностью и эффективностью.
Для этого модель включает "приватную цепочку мыслей", позволяющую модели планировать и рассуждать о задачах более эффективно.
Производительность в области кодирования
(Источник: OpenAI)
В задачах кодирования O3 показывает заметное улучшение по сравнению с O1.
На бенчмарке SWE-Bench Verified, который оценивает задачи реального мира по программированию, O3 демонстрирует точность в 71,7%, превышая результаты O1.
Кроме того, в соревновательном программировании O3 получает ELO-рейтинг 2727, что значительно выше, чем рейтинг O1, равный 1891. Это указывает на более лучшую способность O3 справляться с сложными задачами по кодированию.
Производительность в математическом рассуждении
(Источник: OpenAI)
O3 также проявляет отличные результаты в математическом рассуждении по сравнению с O1.
На Американском экзамене по математике (AIME) 2024 года, O3 набирает впечатляющий результат в 96,7%, пропустив всего один вопрос, в то время как у O1 результат составляет 83,3%.
Это улучшение указывает на то, что O3 лучше оснащена для решения сложных математических проблем и приближается к уровню человека в этой области.
Производительность в общей науке
(Источник: OpenAI)
В области общей науки и интеллекта O3 превосходит O1 по оценкам, таким как GPQA Diamond, включающим вопросы научного уровня.
O3 достигает точности 87,7%, в то время как у O1 точность составляет 78%. Это демонстрирует улучшенную способность O3 в решении технически сложных задач в различных научных областях.
Возможности рассуждения и безопасности
O3 представляет возможность регулирования времени рассуждения, позволяющую пользователям настраивать "время размышлений" модели в зависимости от сложности задачи, что отсутствует в модели O1.
Более того, O3 использует "делиберативное выравнивание" для повышения безопасности, позволяя модели динамически оценивать входные данные и эффективно определять потенциальные риски.
В заключение, O3 предлагает значительные улучшения по сравнению с O1 в области кодирования, математики и общего интеллекта, а также улучшенные функции рассуждения и безопасности, делая его более мощным и универсальным инструментом для решения сложных задач.
Дата выпуска и доступность модели O3
Модели O3 и O3-mini в настоящее время доступны для тестирования безопасности, а модель O3-mini ожидается в конце января 2025 года, а затем будет доступна модель O3. Такая осторожная стратегия запуска подчеркивает принципы ответственного применения искусственного интеллекта OpenAI.
Комментарии редактора
Модели O3 и O3-mini представляют собой значительный прогресс в области возможностей рассуждения искусственного интеллекта и демонстрируют чрезвычайно обнадеживающие результаты.
Однако их применение в реальном мире требует еще оценки.
Последовательный выпуск OpenAI и уделение внимания тестированию безопасности отражают сложности при внедрении передовых технологий искусственного интеллекта с ответственным подходом.
Эти модели могут стать ключевыми в пути к достижению общего искусственного интеллекта, заложив основу для будущих инноваций.