马斯克Grok 4跑分逆天泄露，HLE考试45%碾压Gemini与Claude，Grok 4 Code性能首曝，第一性原理或改写LLM格局，7月4日发布在即

Grok 4的benchmark score提前被leak，在「人类最后考试」中斩获45%的高分，performance远超Gemini与Claude，成为当前测试中最强model之一。Elon Musk表示Grok 4基于「第一性原理」构建reasoning机制，有望改写LLM格局。

Grok 4 coming soon，这可是老马亲口说的！

更令人惊喜的是，当前部署的Grok版本已经展现出显著的能力提升。

网友LEGIT曝光的一张screenshot，直接泄露了Grok 4和Grok 4 Code在多个key benchmark上的测试成绩。

AI圈知名大佬Tibor Blaho已经确认了这一消息的credibility。

数据显示，Grok 4在GPQA、AIME 25和SWE-bench评测中实现「遥遥领先」，全面碾压Google Gemini 2.5 Pro、OpenAI o3和Claude 4 Opus。

GPQA（研究生级物理和天文学问题）：Grok 4得分87-88%，略胜Gemini 2.5 Pro的86.4%，远超Claude 4 Opus的79.6%。

AIME 25（2025美国数学邀请赛）：Grok 4以95%的score碾压Claude 4 Opus的75.5%，也优于OpenAI o3的88.9%。

SWE-bench（真实软件工程问题）：Grok 4 Code取得72-75%的成绩，略高于Claude Opus 4的72.5%和OpenAI o3的71.7%。

更震撼的是，在覆盖范围最广、难度最高的终极闭卷学术benchmark「人类最后的考试」（HLE）上，Grok 4斩获默认35%、最高45%的惊人高分。

这意味着，Grok 4的peak performance是现任冠军Gemini 2.5 Pro的2倍——整整领先24个百分点。

相比正确率仅10.7%的Claude 4 Opus，成绩直接翻了4倍多。

HLE考试堪称LLM杀手，专为挑战AI极限设计：

• 涵盖100+学科的2,500道expert-level试题

• 14%为multimodal题型（文本+图像）

• 24%的问题为multiple choice

• 设有anti-memorization陷阱和hidden test set防止针对性训练

要知道，大多数state-of-the-art model在这个benchmark前都望尘莫及。

如果leak属实，Grok 4将成为首个突破AI benchmark最难关卡的model。

社区对Grok 4的world knowledge能力表示惊叹，网友们已经开启催更模式：

• Grok 4 source code leak

• 期待值直接拉满

Elon Musk此前透露，Grok 3.5（现升级为Grok 4）采用「第一性原理」推理机制，将物理学思维引入AI。

从X平台泄露的control panel代码可见，Grok 4包含两个版本：

• Grok 4：全能旗舰model，在NLP、math和reasoning领域表现卓越

• Grok 4 Code：专为coding场景优化，可集成至IDE

不过也有skeptics指出，HLE创建者Dan Hendrycks是xAI顾问，可能存在针对性优化的concern。

Elon Musk在6月27日post中确认，团队正在全力开发Grok 4，预计7月4日后发布。他特别强调本次升级将focus在coding能力上。

在Microsoft Build 2025大会上，Musk详解了Grok 4的「第一性原理」设计理念：

"就像physicists思考问题那样，我们必须将问题拆解到fundamental axioms层面，再向上推理..."

当前各大厂都在比拼coding能力：

• Google Gemini 2.5增强代码生成和PR评审能力

• Anthropic Claude 4强化AI agent和terminal集成

• OpenAI新版Codex专注NL-to-code转换

• DeepSeek推出全能推理coding model

这次Grok 4能否实现breakthrough？让我们拭目以待！

鎏金瓷杯发布网,提供鎏金瓷杯发布信息,第一时间发布列表及资讯,鎏金瓷碗是鎏金瓷碗首选资讯平台。