xAI 推出 Grok-2 挑戰 AI 階層

xAI 宣布推出 Grok-2，這是一個主要升級，具有改進的聊天、編碼和推理能力。與 Grok-2 一起，xAI 還推出了 Grok-2 mini，這是一個較小但功能強大的版本。兩者目前都在 X 上進行測試，並將於本月晚些時候通過 xAI 的企業 API 提供。

Grok-2 的早期版本在 LMSYS 排行榜上以“sus-column-r”的假名進行測試。根據公告，xAI 聲稱其性能超過了 Anthropic 的 Claude 3.5 Sonnet 和 OpenAI 的 GPT-4-Turbo。然而，值得注意的是，GPT-4o 目前在整體能力方面仍然是最佳 AI 助手，其次是 Google 的 Gemini 1.5。

xAI 的內部評估過程使用 AI 導師來評估模型在各種現實世界任務中的表現。該公司表示，“Grok-2 在檢索內容的推理和工具使用能力方面顯示出顯著改進，例如正確識別缺失信息、推理事件序列以及剔除無關帖子”。xAI 分享的基準測試結果顯示，Grok-2 和 Grok-2 mini 在許多方面都顯示出相對於 Grok-1.5 的顯著改進。這些模型在研究生水平的科學知識、一般知識和數學競賽問題等領域表現出競爭力。值得注意的是，Grok-2 在視覺任務中表現出色，在視覺數學推理和基於文檔的問題回答方面達到了最先進的水平。

X 上的新 Grok 體驗具有重新設計的界面和新功能。高級和高級+訂閱者將可以訪問 Grok-2 和 Grok-2 mini。xAI 描述 Grok-2 為“在廣泛任務中更直觀、可控且多功能，無論是尋求答案、協作寫作還是解決編碼任務”。

xAI 還與 Black Forest Labs 合作，實驗他們的 FLUX.1 模型，以擴展 Grok 在 X 上的能力。對於開發人員來說，xAI 將於本月晚些時候推出企業 API 平台。該公司承諾提供增強的安全功能、豐富的流量統計和先進的計費分析。還將提供管理 API，用於將團隊、用戶和計費管理集成到現有工具和服務中。

展望未來，xAI 計劃在 X 和 API 上將多模態理解作為 Grok 體驗的核心部分。自 2023 年 11 月宣布 Grok-1 以來，該公司的快速進展歸因於“擁有最高人才密度的小團隊”。

xAI 的重點仍然是通過其新的計算集群推進核心推理能力，旨在保持其在 AI 開發前沿的地位。然而，該公司最近同意停止使用某些歐盟數據來訓練其模型。儘管 Grok-2 的發布標誌著 xAI 的一個重要里程碑，但顯然 AI 領域仍然競爭激烈。隨著 ChatGPT-4o 和 Google 的 Gemini 1.5 領先，以及其他主要參與者如 Anthropic 繼續取得進展，AI 至高無上的競賽遠未結束。

4.5億Truecaller用戶激增：隱私疑慮浮現，強化個資保護成攻略

25%消費者關注氣候議題？銀髮族環保意識抬頭，品牌行銷策略轉型

500GB隱私雲端戰開打：Ente相片儲存挑戰Google照片，個資保護懶人包

Elon Musk 的 xAI 推出最新旗艦模型 Grok 3：AI 新時代的開端？

Cerebras 擊敗 Nvidia？DeepSeek R1 與 CS-2 推動 AI 硬件效能大突破

OpenAI 推出 Operator — 自主 AI 代理，開啟個人助理新紀元

4.5億Truecaller用戶激增：隱私疑慮浮現，強化個資保護成攻略

25%消費者關注氣候議題？銀髮族環保意識抬頭，品牌行銷策略轉型

500GB隱私雲端戰開打：Ente相片儲存挑戰Google照片，個資保護懶人包

Elon Musk 的 xAI 推出最新旗艦模型 Grok 3：AI 新時代的開端？

Cerebras 擊敗 Nvidia？DeepSeek R1 與 CS-2 推動 AI 硬件效能大突破

OpenAI 推出 Operator — 自主 AI 代理，開啟個人助理新紀元

xAI 推出 Grok-2 挑戰 AI 階層

訂閱電子報

最新文章

「完全免費！」N8N 工作流程 (2000+)：自動化你的工作效率

57%加密貨幣連動股市下跌，分散風險成投資攻略

以太坊2.0難產？DeFi崩盤風險，L2擴容成救命稻草

Cardano 90%崩盤示警！新幣風險高，ADA投資策略懶人包

1400億美元加密貨幣蒸發，5億清算！關稅衝擊下的供應鏈重組投資攻略

關於 Innopreneur

訂閱電子報