Grok 4 横空出世:xAI 首次跻身大模型第一梯队

Grok 4:从追赶者到领先者

2025 年 7 月,Elon Musk 旗下的 xAI 发布了 Grok 4。这是 xAI 自 2023 年成立以来最重要的一次技术突破——Grok 4 不仅在多项权威基准上超越了 Gemini 和 OpenAI 的模型,还因其"Heavy"配置创下了多项记录。

基准测试成绩

标准 Grok 4

基准Grok 4OpenAI o3Gemini 2.5 Pro说明
Humanity's Last Exam25.4%21.0%21.6%2,500 道 PhD 级别问题
GPQA Diamond88%79.7%84.0%研究生级物理/化学
AIME 2025958892数学竞赛(满分 100)
SWE-bench Verified69.4%71.7%63.8%真实代码修复

Grok 4 Heavy(多 Agent 配置)

Grok 4 的 "Heavy" 模式利用多个 Agent 协同推理,成绩更为惊人:

基准Grok 4 Heavy说明
Humanity's Last Exam44.4%几乎是标准版的 2 倍
AIME 2025100满分 🎯
ARC-AGI-2创纪录抽象推理突破

技术特点

1. 深度推理引擎

Grok 4 的推理链(Chain-of-Thought)深度远超前代:

  • 模型会在内部进行多轮自我验证
  • 特别擅长需要"慢思考"的复杂科学和数学问题
  • 能在推理过程中自动发现并修正错误

2. 实时信息接入

借助 X(Twitter)平台的数据管道,Grok 4 可以访问实时信息流

  • 最新新闻和社交媒体讨论
  • 突发事件的快速响应
  • 这是其他闭源模型难以复制的优势

3. 多 Agent 协同(Heavy 模式)

Heavy 并非简单的"多次生成取最优",而是多个 Agent 分工合作

  • Agent A 负责问题分解
  • Agent B 负责检索验证
  • Agent C 负责综合推理
  • 最终由协调 Agent 整合输出

API 定价

xAI 的 API 定价策略较为激进:

版本输入 / 1M Token输出 / 1M Token
Grok 4$3.00$15.00
Grok 4 Heavy$15.00+$60.00+
Grok 3(前代)$3.00$15.00

Grok 4 标准版的定价与 Claude Sonnet 4 相当,但推理性能接近 Opus 级别。

Grok 4 的短板

尽管基准测试亮眼,Grok 4 也有薄弱环节:

编程能力尚需追赶

SWE-bench 成绩略低于 OpenAI o3 和 Claude Opus 4,在代码生成和修复方面仍有提升空间。

多模态能力未公开

首发版本主要聚焦文本推理,图像/音频/视频理解能力尚未详细公布。

生态成熟度

xAI 的 API 平台、文档和开发者工具相比 OpenAI/Anthropic/Google 仍有差距。

对开发者的影响

推理任务新选择

如果你的应用需要顶级推理能力(数学、科学、复杂逻辑),Grok 4 已成为与 Claude Opus 和 OpenAI o3 并列的选项。

中转站支持

主流中转站已开始接入 Grok 4 API,开发者可以通过 OpenAI 兼容接口直接调用。

混合路由策略

建议将 Grok 4 加入你的模型路由矩阵:推理密集任务交给 Grok 4,编程任务交给 Claude,日常对话交给 GPT-4o。

💡 查看各中转站对 Grok 4 的支持情况和定价,访问 APIS 模型矩阵