XAI 旗下的新一代模型 Grok4

第一部分：Grok-4 世界上最好的 AI

经过长时间的精心打磨与研发，xAI 旗下的下一代大模型——Grok 4，终于震撼登场！其强大的能力远超众人想象，一经发布便在全球科技领域掀起了惊涛骇浪，以无可比拟的姿态重新定义了人工智能的新高度。

近日，我们期待已久的 xAI 发布会终于开始，马斯克现身直播间，他上来就说：「这是世界上最好的 AI，让我们来展示一下。

官网链接：https://grok.com/

Grok 4 展现出强大实力，在 SAT（美国高考）中稳定满分，不提前看题时，GRE 各学科也接近满分，碾压全球研究生水平，其核心优势是超人类的推理能力。

这源于技术迭代：从 Grok 2 到 Grok 4 采用不同技术范式，经计算能力增强、强化学习训练，推理能力较前代提升 10 倍。Grok 2 到 Grok 3 预训练计算量涨 10 倍，Grok 3 借 RL 微调获得深度推理；Grok 4 强化学习计算量再增 10 倍，推理力进一步突破，且调用工具能力升级放大智慧，使其在高难度 Benchmark 中远超 SOTA 。马斯克也看好，认为它今年能实现科学新发现。

接下来是重头戏：

Grok 4 的基准测试结果。

首先是 HLE（Humanities Last Exam，人类最后的考试），包括数学、化学和逻辑学。Grok 4 在 HLE（Humanities Last Exam，人类最后考试）上的标准得分是 35%，使用推理技术后提高到 45%，但多数网友持质疑态度。xAI 研究人员表示，以往的 SOTA 模型在使用工具（with tool）的情况下，成绩最高可以达到 41.0%。

具体来讲，与其他 SOTA 模型（o3、Gemini 2.5 Pro）相比，在使用工具的情况下，Grok 4 的成绩为 38.6%，Grok 4 Heavy 的成绩飙升到了 44.4%。如果让大模型在测试时花费更多时间思考，并恰当的使用更多外部工具，则 HLE 的分数还能进一步提升到 50.7%。

关于其他更多基准测试结果，包括 GPQA（研究生级别的 Google 验证问答基准测试）、AIME25（美国数学竞赛邀请赛）、LCB（Jan-May）（编程竞赛 / 在线算法竞赛）、HMMT25（高中生团队数学竞赛）和 USAMO25（美国顶级高中生数学竞赛）。从下图可以看到，Grok 4 Heavy 均取得了最新 SOTA。

相比之下，人类面对 HLE 测试也几乎答不上几个题。马斯克多遍强调：Grok 现在在所有学科都达到了博士后水平，没有例外。它没有发现新科学或是新的物理定律，但这只是一个时间问题。

大模型性能评估平台 Artificial Analysis 的全套基准测试成绩表明，Grok 4 已经成为当前领先的 AI 模型，总成绩达到了 73 分，领先于 o3、Gemini 2.5 Pro、Claude 4 Opus、DeepSeek R1 0528。