马斯克Grok 4跑分逆天泄露,HLE考试45%碾压Gemini与Claude,Grok 4 Code性能首曝,第一性原理或改写LLM格局,7月4日发布在即

  • 2025-08-14 15:19:54
  • 665

Grok 4的benchmark score提前被leak,在「人类最后考试」中斩获45%的高分,performance远超Gemini与Claude,成为当前测试中最强model之一。Elon Musk表示Grok 4基于「第一性原理」构建reasoning机制,有望改写LLM格局。

Grok 4 coming soon,这可是老马亲口说的!

更令人惊喜的是,当前部署的Grok版本已经展现出显著的能力提升。

网友LEGIT曝光的一张screenshot,直接泄露了Grok 4和Grok 4 Code在多个key benchmark上的测试成绩。

AI圈知名大佬Tibor Blaho已经确认了这一消息的credibility。

数据显示,Grok 4在GPQA、AIME 25和SWE-bench评测中实现「遥遥领先」,全面碾压Google Gemini 2.5 Pro、OpenAI o3和Claude 4 Opus。

GPQA(研究生级物理和天文学问题):Grok 4得分87-88%,略胜Gemini 2.5 Pro的86.4%,远超Claude 4 Opus的79.6%。

AIME 25(2025美国数学邀请赛):Grok 4以95%的score碾压Claude 4 Opus的75.5%,也优于OpenAI o3的88.9%。

SWE-bench(真实软件工程问题):Grok 4 Code取得72-75%的成绩,略高于Claude Opus 4的72.5%和OpenAI o3的71.7%。

更震撼的是,在覆盖范围最广、难度最高的终极闭卷学术benchmark「人类最后的考试」(HLE)上,Grok 4斩获默认35%、最高45%的惊人高分。

这意味着,Grok 4的peak performance是现任冠军Gemini 2.5 Pro的2倍——整整领先24个百分点。

相比正确率仅10.7%的Claude 4 Opus,成绩直接翻了4倍多。

HLE考试堪称LLM杀手,专为挑战AI极限设计:

• 涵盖100+学科的2,500道expert-level试题

• 14%为multimodal题型(文本+图像)

• 24%的问题为multiple choice

• 设有anti-memorization陷阱和hidden test set防止针对性训练

要知道,大多数state-of-the-art model在这个benchmark前都望尘莫及。

如果leak属实,Grok 4将成为首个突破AI benchmark最难关卡的model。

社区对Grok 4的world knowledge能力表示惊叹,网友们已经开启催更模式:

• Grok 4 source code leak

• 期待值直接拉满

Elon Musk此前透露,Grok 3.5(现升级为Grok 4)采用「第一性原理」推理机制,将物理学思维引入AI。

从X平台泄露的control panel代码可见,Grok 4包含两个版本:

• Grok 4:全能旗舰model,在NLP、math和reasoning领域表现卓越

• Grok 4 Code:专为coding场景优化,可集成至IDE

不过也有skeptics指出,HLE创建者Dan Hendrycks是xAI顾问,可能存在针对性优化的concern。

Elon Musk在6月27日post中确认,团队正在全力开发Grok 4,预计7月4日后发布。他特别强调本次升级将focus在coding能力上。

在Microsoft Build 2025大会上,Musk详解了Grok 4的「第一性原理」设计理念:

"就像physicists思考问题那样,我们必须将问题拆解到fundamental axioms层面,再向上推理..."

当前各大厂都在比拼coding能力:

• Google Gemini 2.5增强代码生成和PR评审能力

• Anthropic Claude 4强化AI agent和terminal集成

• OpenAI新版Codex专注NL-to-code转换

• DeepSeek推出全能推理coding model

这次Grok 4能否实现breakthrough?让我们拭目以待!