第一部分:Grok-4 世界上最好的 AI

经过长时间的精心打磨与研发,xAI 旗下的下一代大模型——Grok 4,终于震撼登场!其强大的能力远超众人想象,一经发布便在全球科技领域掀起了惊涛骇浪,以无可比拟的姿态重新定义了人工智能的新高度 。

近日,我们期待已久的 xAI 发布会终于开始,马斯克现身直播间,他上来就说:「这是世界上最好的 AI,让我们来展示一下。

官网链接:https://grok.com/

Grok 4 展现出强大实力,在 SAT(美国高考)中稳定满分,不提前看题时,GRE 各学科也接近满分,碾压全球研究生水平,其核心优势是超人类的推理能力 。

这源于技术迭代:从 Grok 2 到 Grok 4 采用不同技术范式,经计算能力增强、强化学习训练,推理能力较前代提升 10 倍。Grok 2 到 Grok 3 预训练计算量涨 10 倍,Grok 3 借 RL 微调获得深度推理;Grok 4 强化学习计算量再增 10 倍,推理力进一步突破,且调用工具能力升级放大智慧,使其在高难度 Benchmark 中远超 SOTA 。马斯克也看好,认为它今年能实现科学新发现 。

接下来是重头戏:

Grok 4 的基准测试结果。

首先是 HLE(Humanities Last Exam,人类最后的考试),包括数学、化学和逻辑学。Grok 4 在 HLE(Humanities Last Exam,人类最后考试)上的标准得分是 35%,使用推理技术后提高到 45%,但多数网友持质疑态度。xAI 研究人员表示,以往的 SOTA 模型在使用工具(with tool)的情况下,成绩最高可以达到 41.0%。

具体来讲,与其他 SOTA 模型(o3、Gemini 2.5 Pro)相比,在使用工具的情况下,Grok 4 的成绩为 38.6%,Grok 4 Heavy 的成绩飙升到了 44.4%。如果让大模型在测试时花费更多时间思考,并恰当的使用更多外部工具,则 HLE 的分数还能进一步提升到 50.7%。

关于其他更多基准测试结果,包括 GPQA(研究生级别的 Google 验证问答基准测试)、AIME25(美国数学竞赛邀请赛)、LCB(Jan-May)(编程竞赛 / 在线算法竞赛)、HMMT25(高中生团队数学竞赛)和 USAMO25(美国顶级高中生数学竞赛)。从下图可以看到,Grok 4 Heavy 均取得了最新 SOTA。

相比之下,人类面对 HLE 测试也几乎答不上几个题。马斯克多遍强调:Grok 现在在所有学科都达到了博士后水平,没有例外。它没有发现新科学或是新的物理定律,但这只是一个时间问题。

大模型性能评估平台 Artificial Analysis 的全套基准测试成绩表明,Grok 4 已经成为当前领先的 AI 模型,总成绩达到了 73 分,领先于 o3、Gemini 2.5 Pro、Claude 4 Opus、DeepSeek R1 0528。

为了更好的阅读体验,来飞书看吧:

https://rqsfstsl2as.feishu.cn/wiki/NZVdwKebQidBYekIy1ocZS1lnnd

Comments on "XAI 旗下的新一代模型 Grok4​" :

Leave a Reply

Your email address will not be published. Required fields are marked *

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源