2025年3月25日、Google DeepMindは、複雑な推論、科学、コーディングタスクに対応するために設計された先進的なAIモデル「Gemini 2.5 Pro」を発表しました。
Geminiシリーズの最新版として、このモデルは前モデルであるGemini 2.0 Proを基盤に、パフォーマンスベンチマークで大幅な向上を実現しています。
価格と提供状況
Gemini 2.5 Proは「Gemini Advanced」サブスクリプションを通じて利用可能で、開発者向けの価格は近日中に発表される予定です。
個人ユーザー向けには、月額19.99ドル(Gemini Advanced)のサブスクリプションでGemini 2.5 Proを利用できます。
開発者はGoogle AI Studioを通じてアクセス可能で、価格の詳細は数週間以内に公開される予定です。また、近日中にはVertex AIでも利用できるようになります。
主な機能と改良点
Gemini 2.5 Proは、深い推論や科学的知識を必要とするタスクで優れた性能を発揮します。ベンチマークスコアでは、従来モデルからの顕著な向上が確認されています:
(出典:Google)
優れた推論力と科学的性能
- Humanity's Last Exam(推論と知識):18.8%で、OpenAIのGPT-4.5(6.4%)を大きく上回る。
- GPQA Diamond(科学的推論):84.0%で、GPT-4.5(79.7%)を凌駕。
- AIME 2024(数学):92.0%で、Gemini 2.0 Proの72%から大幅に向上。
これらの結果から、Gemini 2.5 Proは論理的推論、科学的分析、数学的問題解決を必要とする用途に特に適していることがわかります。
高度なコーディングとマルチモーダル機能
このモデルはコーディング性能でも優れていますが、一部の領域では競争力はあるものの突出しているわけではありません:
- SWE-bench Verified(エージェントコーディング):63.8%で、Claude 3.7 Sonnet(70.3%)に後れを取る。
さらに、Gemini 2.5 Proはマルチモーダルな入出力に対応しており、簡単なプロンプトからアニメーション、シミュレーション、インタラクティブなアプリケーションを生成できます。
大規模データ処理のための拡張コンテキストウィンドウ
Gemini 2.5 Proの際立った特徴の一つは、100万トークンという巨大なコンテキストウィンドウで、将来的には200万トークンに拡張される予定です。
これにより、膨大なデータセット、長文書類、複雑な問題解決シナリオをコンテキストを失わずに処理するのに特に役立ちます。

他の主要AIモデルとの比較
GPT-4.5を上回り、Claude 3.7 Sonnetと競合
ベンチマーク比較によると、Gemini 2.5 ProはOpenAIのGPT-4.5を推論と科学の分野で上回り、コーディングタスクではClaude 3.7 Sonnetと拮抗しています:
Gemini 2.5 Pro | GPT-4.5 | Claude 3.7 Sonnet | |
---|---|---|---|
Humanity's Last Exam(推論) | 18.8% | 6.4% | 8.9% |
GPQA Diamond(科学) | 84.0% | 79.7% | 80.2% |
AIME 2024(数学) | 92.0% | 61.3% | 83.9% |
LiveCodeBench v5(コード生成) | 70.4% | - | 70.6% |
SWE-bench Verified(エージェントコーディング) | 63.8% | 70.3% | - |
これらの結果は、Gemini 2.5 Proが推論と科学分野で強みを発揮する一方、Claude 3.7 Sonnetと比較して特定のコーディングタスクでは改善の余地があることを示しています。
Gemini 2.0 Proからの改良
前モデルと比較して、Gemini 2.5 Proは複数のベンチマークで大幅な進化を遂げています:
- GPQA Diamond(科学):62%から84%に向上
- Humanity’s Last Exam(推論):7.7%から18.8%に向上
- LiveCodeBench(コーディング):47%から70.4%に飛躍
- AIME 2024(数学):72%から92%に向上
これらの改良は、Google DeepMindがアーキテクチャの改良やトレーニングデータの処理を通じて、モデルの推論、科学、コーディング能力を大幅に強化したことを示唆しています。
💡 Google Gemini 2.0 Proの詳細はこちら
編集者のコメント
Gemini 2.5 Proのリリースにより、Google DeepMindは特に推論と科学的分析の分野でAIの可能性をさらに広げています。
多くの競合モデルをこれらの分野で上回っている一方で、コーディング能力に関してはAnthropicのClaudeモデルと比較して革新的というよりは競争力のあるレベルにとどまっています。
拡張されたコンテキストウィンドウとマルチモーダル機能により、複雑なデータ駆動型タスクを扱う研究者、開発者、企業にとって強力なツールとなっています。
今後、200万トークンのコンテキストウィンドウへの拡張が実現すれば、膨大な情報を効率的に処理する能力がさらに向上し、大規模AIアプリケーションの新たな業界標準を打ち立てる可能性があります。
ただし、その最終的な影響は、Vertex AIを介した企業環境への統合の成功や、スケーラブルなソリューションを求める開発者向けの価格設定の進化に依存するでしょう。