Grok 4:从追赶者到领先者
2025 年 7 月,Elon Musk 旗下的 xAI 发布了 Grok 4。这是 xAI 自 2023 年成立以来最重要的一次技术突破——Grok 4 不仅在多项权威基准上超越了 Gemini 和 OpenAI 的模型,还因其"Heavy"配置创下了多项记录。
基准测试成绩
标准 Grok 4
| 基准 | Grok 4 | OpenAI o3 | Gemini 2.5 Pro | 说明 |
|---|---|---|---|---|
| Humanity's Last Exam | 25.4% | 21.0% | 21.6% | 2,500 道 PhD 级别问题 |
| GPQA Diamond | 88% | 79.7% | 84.0% | 研究生级物理/化学 |
| AIME 2025 | 95 | 88 | 92 | 数学竞赛(满分 100) |
| SWE-bench Verified | 69.4% | 71.7% | 63.8% | 真实代码修复 |
Grok 4 Heavy(多 Agent 配置)
Grok 4 的 "Heavy" 模式利用多个 Agent 协同推理,成绩更为惊人:
| 基准 | Grok 4 Heavy | 说明 |
|---|---|---|
| Humanity's Last Exam | 44.4% | 几乎是标准版的 2 倍 |
| AIME 2025 | 100 | 满分 🎯 |
| ARC-AGI-2 | 创纪录 | 抽象推理突破 |
技术特点
1. 深度推理引擎
Grok 4 的推理链(Chain-of-Thought)深度远超前代:
- 模型会在内部进行多轮自我验证
- 特别擅长需要"慢思考"的复杂科学和数学问题
- 能在推理过程中自动发现并修正错误
2. 实时信息接入
借助 X(Twitter)平台的数据管道,Grok 4 可以访问实时信息流:
- 最新新闻和社交媒体讨论
- 突发事件的快速响应
- 这是其他闭源模型难以复制的优势
3. 多 Agent 协同(Heavy 模式)
Heavy 并非简单的"多次生成取最优",而是多个 Agent 分工合作:
- Agent A 负责问题分解
- Agent B 负责检索验证
- Agent C 负责综合推理
- 最终由协调 Agent 整合输出
API 定价
xAI 的 API 定价策略较为激进:
| 版本 | 输入 / 1M Token | 输出 / 1M Token |
|---|---|---|
| Grok 4 | $3.00 | $15.00 |
| Grok 4 Heavy | $15.00+ | $60.00+ |
| Grok 3(前代) | $3.00 | $15.00 |
Grok 4 标准版的定价与 Claude Sonnet 4 相当,但推理性能接近 Opus 级别。
Grok 4 的短板
尽管基准测试亮眼,Grok 4 也有薄弱环节:
编程能力尚需追赶
SWE-bench 成绩略低于 OpenAI o3 和 Claude Opus 4,在代码生成和修复方面仍有提升空间。
多模态能力未公开
首发版本主要聚焦文本推理,图像/音频/视频理解能力尚未详细公布。
生态成熟度
xAI 的 API 平台、文档和开发者工具相比 OpenAI/Anthropic/Google 仍有差距。
对开发者的影响
推理任务新选择
如果你的应用需要顶级推理能力(数学、科学、复杂逻辑),Grok 4 已成为与 Claude Opus 和 OpenAI o3 并列的选项。
中转站支持
主流中转站已开始接入 Grok 4 API,开发者可以通过 OpenAI 兼容接口直接调用。
混合路由策略
建议将 Grok 4 加入你的模型路由矩阵:推理密集任务交给 Grok 4,编程任务交给 Claude,日常对话交给 GPT-4o。
💡 查看各中转站对 Grok 4 的支持情况和定价,访问 APIS 模型矩阵。