科技競爭白熱化，OpenAI 旗艦模型 o3-pro 強勢來襲

激烈的市場競爭下，各大科技巨頭紛紛加碼布局，搶佔生成式 AI 的制高點。6 月 10 日，OpenAI 重磅推出兩大舉措，無疑成為行業焦點。一方面，他們推出了迄今最強大的 o3-pro 推理模型，展現了公司在技術創新上的領先優勢；另一方面，OpenAI 創 CEO 山姆・奧特曼親自在社交平台上宣布，旗艦大型語言模型 o3 的輸入輸出價格將大幅下降 80%, 引發了業界一場激烈的 “價格戰”。

這一系列動作無疑在 AI 界引起了軒然大波，市場反響熱烈。首先，o3 模型的使用成本大幅下降，從此前每百萬輸入 Tokens 收費 10 美元、輸出 40 美元，驟降至 2 美元和 8 美元，不僅創下了 OpenAI 自身的定價新低，也徹底刷新了行業標準。據說，如果用戶輸入的內容曾被快取處理過，還能享受額外 0.5 美元 / 百萬 Tokens 的優惠折扣！這對於需要頻繁調用模型的開發者、企業和研究機構而言，無疑是一大利好。。

開發者圈頓時沸騰了，大家紛紛在社交媒體上熱烈討論並分享期待。隨着成本大幅降低，許多此前因高昂價格而卻步的創新項目，現在終於能以更低的成本進行原型設計和規模化應用了。一些初創公司可以把節省下來的資金，投入到產品優化和市場拓展上；學術研究團隊也有了更寬裕的預算，去深入探索 AI 技術的前沿領域。

與此同時，OpenAI 在技術創新上也毫不放鬆。他們全新發佈的 o3-pro 模型，是對 o3 的強化版本，專門針對物理、數學、程式設計等需要複雜演算的領域而打造。根據《Tech Church》的報導，o3-pro 在考驗數學能力的 AIME 2024 評測中，戰勝了 Google DeepMind 的 Gemini 2.5 Pro, 充分展現了其在數學領域的強大解題實力。在測試博士級科學知識的 GPQA Diamond 評測中，o3-pro 也擊敗了 Anthropic 的 Claude 4 Opus, 可見其在複雜科學問題上的卓越表現。

透過這一系列舉措，OpenAI 在激烈的市場競爭中佔據了有利地位。相比之下，Anthropic 的 Claude Opus 4 每百萬輸入 Tokens 收費高達 15 美元，輸出更達 75 美元，堪稱行業最貴；Google 的 Gemini 2.5 Pro 預覽版價格也在 1.25 至 2.50 美元之間。OpenAI 的 o3 模型顯然在價格上有著天賦優勢。根據獨立研究機構的數據，使用新版 o3 完成一整套基準測試，成本大約只需 390 美元，遠低於 Gemini 2.5 Pro 的 971 美元和 Claude Opus 4 的 2036 美元。

總而言之，OpenAI 的這一系列舉措，預示著生成式 AI 進入了一個新的發展階段：頂級性能正變得越來越貼近普通大眾。隨着技術不斷進步、成本持續下降，AI 將不再是少數企業機構的獨享品，而能惠及各行各業，為社會發展帶來更多可能性。比如在教育和醫療領域，AI 技術的普及應用，必將造福更多師生和患者。

OpenAI o3 模型：突破性能與價格雙重革命

Q: OpenAI o3 模型有哪些突破性的表現？

A: OpenAI o3 模型在多個基準測試中展現出卓越表現:
1. ARC-AGI 測試：在低計算設置下得分 75.7%, 高計算設置下達到 87.5%, 遠超 GPT-3 和 GPT-4。
2. AIME 數學考試：得分 96.7%, 僅錯一題。
3. EPO CHAI 前沿數學測試：解決 25.2% 的問題，遠超之前 2% 的最高分。
4. SWE-Bench 編程基準：比 o1 模型提高 22.8%。
5. Codeforces 編程競賽：達到 2727 的評分，超過 OpenAI 首席科學家的 2665 分。
6. GP QA Diamond 博士級科學問題：得分 87.7%, 遠超人類專家水平。

這些成績顯示 o3 在數學、編程和科學推理等複雜任務上的突破性進展。

(來源: https://gen-ai.cloud/openai-o3, https://siliconangle.com/2024/12/20/openai-details-o3-reasoning-model-record-breaking-benchmark-scores)

Q: o3 模型的定價策略是什麼？與競品相比有何優勢？

A: OpenAI 對 o3 模型採取了大幅降價的策略:
1. 將每百萬輸入 tokens 的價格從 10 美元降至 2 美元，輸出 tokens 從 40 美元降至 8 美元，降幅達 80%。
2. 對於快取內容，每百萬 tokens 還可享受 0.5 美元的額外折扣。
3. 完成一整套基準測試任務的成本約為 390 美元。

與競品相比:
• Google Gemini 2.5 Pro: 輸入 1.25-2.50 美元，輸出 10-15 美元，測試成本 971 美元。
• Anthropic Claude Opus 4: 輸入 15 美元，輸出 75 美元，測試成本 2036 美元。

o3 的價格優勢顯著，大大降低了開發者和企業使用先進 AI 能力的門檻。這一策略不僅縮小了與低成本模型的差距，也對高價位產品形成降價壓力。

(來源：原文，https://www.tkj.ai/ai-models/openai-o3-advanced-ai-models)

Q: o3-mini 與 o3 有什麼區別？適用於哪些場景？

A: o3-mini 是 o3 的精簡版本，兩者主要區別如下:
1. 性能:o3-mini 性能略低於 o3, 但仍保持較高水平。
2. 計算成本:o3-mini 運行和使用成本更低。
3. 靈活性:o3-mini 具有自適應思考時間功能，可根據任務複雜度調整推理深度。
4. 可用性:o3-mini 已在 ChatGPT 和 API 中推出，而 o3 仍在安全測試階段。

o3-mini 適用場景:
• 需要平衡高精度和資源限制的任務
• 開發者和研究人員的多樣化使用場景
• 需要快速響應的簡單問題處理
• 成本敏感的大規模應用部署

o3-mini 為用戶提供了一個成本效益與性能兼顧的選擇，特別適合那些需要先進推理能力但預算有限的應用場景。

(來源: https://www.datacamp.com/blog/o3-openai)

Q: OpenAI 在 o3 模型的安全性方面採取了哪些措施？

A: OpenAI 在 o3 模型的安全性方面採取了多項創新措施:
1. 公開安全測試：在正式發布前，邀請 AI 安全和網絡安全研究人員進行公開安全評估。
2. 審慎性對齊 (Deliberative Alignment): 這是一種新的安全技術，超越了傳統的 RLHF 和 RLAIF 方法。
3. 實時推理評估：模型使用其推理能力實時評估提示的安全性，而不僅依賴靜態規則。
4. 訓練數據生成：使用推理模型生成特定提示的思維鏈 (CoT) 輸出，提供更細緻的推理模式。
5. 推理時安全檢查：在推理過程中，模型會提供思維鏈解釋，動態評估提示的意圖和上下文。
6. 人工編寫安全指南：將人工編寫的安全指南嵌入模型的訓練數據集。

這些措施旨在確保 o3 模型在保持高性能的同時，也能夠負責任地部署，最大限度地降低潛在風險。

(來源: https://www.datacamp.com/blog/o3-openai, https://siliconangle.com/2024/12/20/openai-details-o3-reasoning-model-record-breaking-benchmark-scores/)

4.5億Truecaller用戶激增：隱私疑慮浮現，強化個資保護成攻略

25%消費者關注氣候議題？銀髮族環保意識抬頭，品牌行銷策略轉型

500GB隱私雲端戰開打：Ente相片儲存挑戰Google照片，個資保護懶人包

Elon Musk 的 xAI 推出最新旗艦模型 Grok 3：AI 新時代的開端？

Cerebras 擊敗 Nvidia？DeepSeek R1 與 CS-2 推動 AI 硬件效能大突破

OpenAI 推出 Operator — 自主 AI 代理，開啟個人助理新紀元

4.5億Truecaller用戶激增：隱私疑慮浮現，強化個資保護成攻略

25%消費者關注氣候議題？銀髮族環保意識抬頭，品牌行銷策略轉型

500GB隱私雲端戰開打：Ente相片儲存挑戰Google照片，個資保護懶人包

Elon Musk 的 xAI 推出最新旗艦模型 Grok 3：AI 新時代的開端？

Cerebras 擊敗 Nvidia？DeepSeek R1 與 CS-2 推動 AI 硬件效能大突破

OpenAI 推出 Operator — 自主 AI 代理，開啟個人助理新紀元

科技競爭白熱化，OpenAI 旗艦模型 o3-pro 強勢來襲

OpenAI o3 模型：突破性能與價格雙重革命

訂閱電子報

最新文章

「完全免費！」N8N 工作流程 (2000+)：自動化你的工作效率

57%加密貨幣連動股市下跌，分散風險成投資攻略

以太坊2.0難產？DeFi崩盤風險，L2擴容成救命稻草

Cardano 90%崩盤示警！新幣風險高，ADA投資策略懶人包

1400億美元加密貨幣蒸發，5億清算！關稅衝擊下的供應鏈重組投資攻略

關於 Innopreneur

訂閱電子報