OpenAI의 12일간의 행사 마지막 날, OpenAI는 최신 AI 모델인 O3와 O3-mini를 공개하며 이전의 O1 "추론" 모델에서 중요한 발전을 이뤘습니다.
이 모델들은 추론 능력을 향상시키고 특정 조건 하에서 AGI의 경계에 접근하는 것을 목표로 하고 있습니다.
현재 안전성 테스트를 위해 제공되고 있으며, 2025년 초에 더 넓은 출시가 예정되어 있습니다.
OpenAI O3란 무엇인가요?
O3 모델 패밀리는, 더 작고 간결한 O3-mini를 포함하여, 코딩, 수학 및 일반적인 지능과 같은 복잡한 작업을 처리하는 데 공학적으로 설계되었습니다.
OpenAI는 "deliberative alignment(의도적 일치)"를 도입하여 안전성과 신뢰성을 향상시킬 수 있었으며, 이는 모델이 "사유의 개인적인 고리"를 통해 작업을 추론하는 것을 가능하게 합니다.
O3와 O1의 비교
O3 모델은 주로 고급 추론 능력을 통해 O1 모델에서의 중요한 진화를 나타냅니다.
O1이 추론 작업의 기초를 마련한 반면, O3는 더 복잡한 문제를 더 높은 정확도와 효율성으로 처리하도록 설계되었습니다.
이 모델은 "개인적인 사고 과정"을 통합함으로써 이를 달성하며, 이를 통해 작업을 보다 효과적으로 계획하고 추론할 수 있습니다.
코딩 성능
(출처: OpenAI)
코딩 작업에서 O3는 O1에 비해 상당한 발전을 이루었습니다.
실제 소프트웨어 작업을 평가하는 SWE-Bench Verified 벤치마크에서, O3는 71.7%의 정확도로 O1의 성능을 능가합니다.
또한, 경쟁적인 프로그래밍에서, O3는 ELO 점수 2727을 기록하여 O1의 1891 점수보다 상당히 높은 성과를 보입니다. 이는 O3이 복잡한 코딩 과제에 대해 뛰어난 능력을 갖추고 있음을 보여줍니다.
수학적 추론 성능
(출처: OpenAI)
수학적 추론에서도 O1에 비해 O3가 뛰어납니다.
AIME(미국 초대형 수학 시험) 2024에서 O3는 단 한 문제를 빼먹고 96.7%의 점수를 얻었으며, 반면 O1은 83.3%의 점수를 기록했습니다.
이 개선은 O3이 복잡한 수학적 문제를 처리하는 데 더 적합하며, 이 도메인에서 인간 수준의 성능에 한 발 다가갔음을 시사합니다.
일반 과학적 성능
(출처: OpenAI)
일반 과학과 지능 분야에서, O3는 GPQA Diamond와 같은 대학원 수준의 과학 문제를 포함한 평가에서 O1보다 우수한 성능을 보입니다.
O3는 87.7%의 정확도를 기록하며, O1은 78%의 정확도를 나타냅니다. 이는 O3이 다양한 과학 분야에서 기술적으로 요구되는 문제를 해결하는 탁월한 능력을 갖추었음을 보여줍니다.
추론과 안전 기능
O3는 작업 복잡도에 기반하여 모델의 "사고 시간"을 조절할 수 있는 "조절 가능한 추론 시간" 개념을 도입합니다. 이는 O1에는 없는 기능입니다.
또한, O3은 안전성 향상을 위해 "deliberative alignment(의도적 일치)"을 적용하여 모델이 동적으로 프롬프트를 평가하고 잠재적인 위험을 보다 효과적으로 식별할 수 있습니다.
요약하자면, O3는 코딩, 수학, 일반 인공 지능 등에서 O1에 비해 상당한 발전을 이루었으며, 향상된 추론과 안전 기능을 갖춘 복잡한 문제 해결을 위한 강력하고 유연한 도구입니다.
O3 출시일과 사용 가능성
현재 O3와 O3-mini는 안전성 테스트용으로 사용 가능하며, O3-mini는 2025년 1월 말에 출시될 예정이며, 그 후에 O3가 출시될 예정입니다. 이러한 조심스러운 롤아웃은 OpenAI의 책임있는 AI 배포에 대한 약속을 반영합니다.
편집자의 코멘트
O3와 O3-mini 모델은 약속된 기준 결과를 가진 AI 추론 능력에서 큰 발전을 나타냅니다.
하지만, 그들의 실제적인 응용은 평가되어야 합니다.
OpenAI의 단계적인 출시와 안전성 테스트에는 고급 AI 기술을 책임있게 사용하는 도전 사항이 반영됩니다.
이러한 모델들은 AGI 달성을 향한 여정에서 중요한 역할을 할 수 있으며, 향후 혁신의 배경이 될 수 있습니다.