激烈的市場競爭下,各大科技巨頭紛紛加碼布局,搶佔生成式 AI 的制高點。6 月 10 日,OpenAI 重磅推出兩大舉措,無疑成為行業焦點。一方面,他們推出了迄今最強大的 o3-pro 推理模型,展現了公司在技術創新上的領先優勢;另一方面,OpenAI 創 CEO 山姆・奧特曼親自在社交平台上宣布,旗艦大型語言模型 o3 的輸入輸出價格將大幅下降 80%, 引發了業界一場激烈的 “價格戰”。
這一系列動作無疑在 AI 界引起了軒然大波,市場反響熱烈。首先,o3 模型的使用成本大幅下降,從此前每百萬輸入 Tokens 收費 10 美元、輸出 40 美元,驟降至 2 美元和 8 美元,不僅創下了 OpenAI 自身的定價新低,也徹底刷新了行業標準。據說,如果用戶輸入的內容曾被快取處理過,還能享受額外 0.5 美元 / 百萬 Tokens 的優惠折扣!這對於需要頻繁調用模型的開發者、企業和研究機構而言,無疑是一大利好。。

開發者圈頓時沸騰了,大家紛紛在社交媒體上熱烈討論並分享期待。隨着成本大幅降低,許多此前因高昂價格而卻步的創新項目,現在終於能以更低的成本進行原型設計和規模化應用了。一些初創公司可以把節省下來的資金,投入到產品優化和市場拓展上;學術研究團隊也有了更寬裕的預算,去深入探索 AI 技術的前沿領域。
與此同時,OpenAI 在技術創新上也毫不放鬆。他們全新發佈的 o3-pro 模型,是對 o3 的強化版本,專門針對物理、數學、程式設計等需要複雜演算的領域而打造。根據《Tech Church》的報導,o3-pro 在考驗數學能力的 AIME 2024 評測中,戰勝了 Google DeepMind 的 Gemini 2.5 Pro, 充分展現了其在數學領域的強大解題實力。在測試博士級科學知識的 GPQA Diamond 評測中,o3-pro 也擊敗了 Anthropic 的 Claude 4 Opus, 可見其在複雜科學問題上的卓越表現。

透過這一系列舉措,OpenAI 在激烈的市場競爭中佔據了有利地位。相比之下,Anthropic 的 Claude Opus 4 每百萬輸入 Tokens 收費高達 15 美元,輸出更達 75 美元,堪稱行業最貴;Google 的 Gemini 2.5 Pro 預覽版價格也在 1.25 至 2.50 美元之間。OpenAI 的 o3 模型顯然在價格上有著天賦優勢。根據獨立研究機構的數據,使用新版 o3 完成一整套基準測試,成本大約只需 390 美元,遠低於 Gemini 2.5 Pro 的 971 美元和 Claude Opus 4 的 2036 美元。
總而言之,OpenAI 的這一系列舉措,預示著生成式 AI 進入了一個新的發展階段:頂級性能正變得越來越貼近普通大眾。隨着技術不斷進步、成本持續下降,AI 將不再是少數企業機構的獨享品,而能惠及各行各業,為社會發展帶來更多可能性。比如在教育和醫療領域,AI 技術的普及應用,必將造福更多師生和患者。

OpenAI o3 模型:突破性能與價格雙重革命
Q: OpenAI o3 模型有哪些突破性的表現?
A: OpenAI o3 模型在多個基準測試中展現出卓越表現:
1. ARC-AGI 測試:在低計算設置下得分 75.7%, 高計算設置下達到 87.5%, 遠超 GPT-3 和 GPT-4。
2. AIME 數學考試:得分 96.7%, 僅錯一題。
3. EPO CHAI 前沿數學測試:解決 25.2% 的問題,遠超之前 2% 的最高分。
4. SWE-Bench 編程基準:比 o1 模型提高 22.8%。
5. Codeforces 編程競賽:達到 2727 的評分,超過 OpenAI 首席科學家的 2665 分。
6. GP QA Diamond 博士級科學問題:得分 87.7%, 遠超人類專家水平。
這些成績顯示 o3 在數學、編程和科學推理等複雜任務上的突破性進展。
(來源: https://gen-ai.cloud/openai-o3, https://siliconangle.com/2024/12/20/openai-details-o3-reasoning-model-record-breaking-benchmark-scores)
Q: o3 模型的定價策略是什麼?與競品相比有何優勢?
A: OpenAI 對 o3 模型採取了大幅降價的策略:
1. 將每百萬輸入 tokens 的價格從 10 美元降至 2 美元,輸出 tokens 從 40 美元降至 8 美元,降幅達 80%。
2. 對於快取內容,每百萬 tokens 還可享受 0.5 美元的額外折扣。
3. 完成一整套基準測試任務的成本約為 390 美元。
與競品相比:
• Google Gemini 2.5 Pro: 輸入 1.25-2.50 美元,輸出 10-15 美元,測試成本 971 美元。
• Anthropic Claude Opus 4: 輸入 15 美元,輸出 75 美元,測試成本 2036 美元。
o3 的價格優勢顯著,大大降低了開發者和企業使用先進 AI 能力的門檻。這一策略不僅縮小了與低成本模型的差距,也對高價位產品形成降價壓力。
(來源:原文,https://www.tkj.ai/ai-models/openai-o3-advanced-ai-models)
Q: o3-mini 與 o3 有什麼區別?適用於哪些場景?
A: o3-mini 是 o3 的精簡版本,兩者主要區別如下:
1. 性能:o3-mini 性能略低於 o3, 但仍保持較高水平。
2. 計算成本:o3-mini 運行和使用成本更低。
3. 靈活性:o3-mini 具有自適應思考時間功能,可根據任務複雜度調整推理深度。
4. 可用性:o3-mini 已在 ChatGPT 和 API 中推出,而 o3 仍在安全測試階段。
o3-mini 適用場景:
• 需要平衡高精度和資源限制的任務
• 開發者和研究人員的多樣化使用場景
• 需要快速響應的簡單問題處理
• 成本敏感的大規模應用部署
o3-mini 為用戶提供了一個成本效益與性能兼顧的選擇,特別適合那些需要先進推理能力但預算有限的應用場景。
(來源: https://www.datacamp.com/blog/o3-openai)
Q: OpenAI 在 o3 模型的安全性方面採取了哪些措施?
A: OpenAI 在 o3 模型的安全性方面採取了多項創新措施:
1. 公開安全測試:在正式發布前,邀請 AI 安全和網絡安全研究人員進行公開安全評估。
2. 審慎性對齊 (Deliberative Alignment): 這是一種新的安全技術,超越了傳統的 RLHF 和 RLAIF 方法。
3. 實時推理評估:模型使用其推理能力實時評估提示的安全性,而不僅依賴靜態規則。
4. 訓練數據生成:使用推理模型生成特定提示的思維鏈 (CoT) 輸出,提供更細緻的推理模式。
5. 推理時安全檢查:在推理過程中,模型會提供思維鏈解釋,動態評估提示的意圖和上下文。
6. 人工編寫安全指南:將人工編寫的安全指南嵌入模型的訓練數據集。
這些措施旨在確保 o3 模型在保持高性能的同時,也能夠負責任地部署,最大限度地降低潛在風險。
(來源: https://www.datacamp.com/blog/o3-openai, https://siliconangle.com/2024/12/20/openai-details-o3-reasoning-model-record-breaking-benchmark-scores/)