Lead: 杭州を拠点とするDeepSeekは12月1日、2つの新しいオープンソース推論モデル ― DeepSeek-V3.2および高演算向けDeepSeek-V3.2-Speciale ― を発表しました。同社によると、これらは日常利用においてGPT-5レベルの性能を提供し、主要な数学および情報学コンテストで「ゴールドレベル」の結果を達成しているとのことです。
DeepSeekが公開した内容とその重要性
DeepSeekは、日常利用向けにバランスと効率を重視したV3.2と、推論性能を最大化するために調整されたSpecialeバリアントを公開しました。同社によれば、V3.2はすでにアプリ・サイト・APIを支えており、V3.2-Specialeは専用APIエンドポイントを通じて一時的に提供されています。
創業の背景: DeepSeekは2023年に梁文峰氏によって設立され、クオンツ系ヘッジファンドHigh-Flyerから資金提供を受けています。この背景は、同社のコスト意識と性能重視のアプローチに大きく影響しています。
ベンチマーク結果と主要モデルとの比較
DeepSeekは数学およびコーディングのタスクに関する一連のベンチマーク結果を公開しました。Specialeバリアントは、AIME 2025で96.0%を記録し、GPT-5 High(94.6%)を上回り、Gemini 3 Pro(約95.0%)も僅かに凌駕したとされています。また、同社はIMO、IOI、ICPC World Finals、CMOなど複数のオリンピック形式のコンテストでゴールドレベルの結果を達成したとしています。コーディングベンチマーク(SWE Verified)ではSpecialeは73.1%を記録し、Gemini 3 Proの76.2%には及びませんでした。
比較表(主要ベンチマーク抜粋)
| ベンチマーク / コンテスト | DeepSeek V3.2-Speciale | GPT-5 High | Gemini 3 Pro |
|---|---|---|---|
| AIME 2025(合格率) | 96.0% | 94.6% | 95.0% |
| HMMT 2025 | 99.2% | – | 97.5% |
| IMO 2025(数学オリンピック) | Gold (35/42) | – | – |
| IOI 2025(情報オリンピック) | Gold (492/600) | – | – |
| ICPC World Finals 2025 | 2位 (10/12) | – | – |
| SWE-Verified(コーディングバグ) | 73.1% | 74.9% | 76.2% |
(ベンチマークはDeepSeekおよび第三者報道によるもの。競技および採点方法の詳細は媒体によって異なる可能性があります。)
技術的革新:効率性 + ツール使用における「思考」
DeepSeekはV3.2における3つの技術的進歩を強調しています:長文コンテキスト処理を大幅に低コスト化するDeepSeek Sparse Attention(DSA)、スケーラブルな強化学習フレームワーク、大規模エージェント型タスク生成パイプラインです。同社によると、DSAは長いシーケンスの計算量を大幅に削減しつつ、出力品質を維持できます。V3.2にはツール使用推論を改善する「思考」モードも統合されています(Specialeは思考モードのみ対応で、ツール呼び出しは不可)。
Specialeエンドポイントは意図的に一時的なもので(特別なベースURLを通じて2025年12月15日まで提供)、研究者やインテグレーターが高計算バリアントを試験できるようにしています。その後、能力は標準モデルに統合される予定です。
市場背景:オープンソースの勢いと地政学的戦略
V3.2の公開は、中国のオープンソースモデル活動の顕著な増加の中で行われました。最近の研究と報告によると、中国開発モデルのグローバルダウンロードシェアは拡大しており(最新測定値で約17%、米国モデルは約15.8%)、低スペックハードウェア上で効率的に動作するモデルへの需要と、迅速なリリースサイクルが背景にあるとされています。この動向は、技術的な勢いと、米国の先端チップ輸出規制への戦略的対応の双方と解釈されています。
大手(例:AlibabaのQwenシリーズ)から、小規模で研究主導のチームまで、中国勢は数学・推論ベンチマークの水準を引き上げています。DeepSeekの公開は、オープンウェイトと技術文書の提供により競争をさらに激化させています。
👉 2025年AIチャットボット市場インサイト:成長トレンド、主要アプリ、将来のイノベーション
FAQ
Q1: V3.2はオープンソースですか?どこで入手できますか?
はい。コード、モデルカード、技術レポートはHugging Faceおよび関連リポジトリで公開されています。DeepSeekはV3.2およびSpecialeエンドポイント向けAPI・ドキュメントも提供しています。
Q2: GPT-5を「上回る」とは、DeepSeekが全面的に優れているという意味ですか?
いいえ。優位性は推論/数学/コーディングベンチマークに集中しています。他の領域(マルチモーダルツール、ウェブ検索、幅広いオープンタスクの堅牢性など)は依然として大規模なプロプライエタリモデルが有利な場合があります。状況はベンチマークごとに異なり、進化し続けています。
Q3: Specialeは今後も利用できますか?
Specialeは2025年12月15日まで専用APIで一時的に提供されます。その後、機能は標準モデルに組み込まれる予定です。
編集者コメント
DeepSeekのV3.2発表が注目される理由は3つあります:第一に、DSA+エージェント型タスク生成というターゲットを絞った技術が、コストを抑えながら推論ベンチマークで大きな成果を上げ得ることを示した点。第二に、オープンソースのウェイトとエンドポイント公開により、実験速度が加速し、プロプライエタリモデルとのギャップが縮まる点。第三に、今回のタイミングと発表はより大きな潮流 ― 中国のオープンソースモデルが世界のAI研究・展開において無視できない存在になったこと ― を強調する点です。
次に注目すべきは:検証と再現性。ベンチマーク主張は、外部チームが同一条件・同一スコアリングで再現できて初めて意味を持ちます。今後は独立検証の急速なサイクル(およびコミュニティツールチェーンへの統合)が予想されます。戦略面では、西側企業がより迅速なオープン公開やエコシステム管理強化で対抗する可能性があります。地政学的には、中国の高性能オープンモデルの台頭が、サプライチェーン、計算資源アクセス、安全なモデル公開基準といった議論を再定義しつつあります。




