马斯克Grok 4跑分逆天泄露,HLE考试45%碾压Gemini与Claude,Grok 4 Code性能首曝,第一性原理或改写LLM格局,7月4日发布在即
- 2025-08-14 15:19:54
- 665
Grok 4的benchmark score提前被leak,在「人类最后考试」中斩获45%的高分,performance远超Gemini与Claude,成为当前测试中最强model之一。Elon Musk表示Grok 4基于「第一性原理」构建reasoning机制,有望改写LLM格局。
Grok 4 coming soon,这可是老马亲口说的!
更令人惊喜的是,当前部署的Grok版本已经展现出显著的能力提升。
网友LEGIT曝光的一张screenshot,直接泄露了Grok 4和Grok 4 Code在多个key benchmark上的测试成绩。
AI圈知名大佬Tibor Blaho已经确认了这一消息的credibility。
数据显示,Grok 4在GPQA、AIME 25和SWE-bench评测中实现「遥遥领先」,全面碾压Google Gemini 2.5 Pro、OpenAI o3和Claude 4 Opus。
GPQA(研究生级物理和天文学问题):Grok 4得分87-88%,略胜Gemini 2.5 Pro的86.4%,远超Claude 4 Opus的79.6%。
AIME 25(2025美国数学邀请赛):Grok 4以95%的score碾压Claude 4 Opus的75.5%,也优于OpenAI o3的88.9%。
SWE-bench(真实软件工程问题):Grok 4 Code取得72-75%的成绩,略高于Claude Opus 4的72.5%和OpenAI o3的71.7%。
更震撼的是,在覆盖范围最广、难度最高的终极闭卷学术benchmark「人类最后的考试」(HLE)上,Grok 4斩获默认35%、最高45%的惊人高分。
这意味着,Grok 4的peak performance是现任冠军Gemini 2.5 Pro的2倍——整整领先24个百分点。
相比正确率仅10.7%的Claude 4 Opus,成绩直接翻了4倍多。
HLE考试堪称LLM杀手,专为挑战AI极限设计:
• 涵盖100+学科的2,500道expert-level试题
• 14%为multimodal题型(文本+图像)
• 24%的问题为multiple choice
• 设有anti-memorization陷阱和hidden test set防止针对性训练
要知道,大多数state-of-the-art model在这个benchmark前都望尘莫及。
如果leak属实,Grok 4将成为首个突破AI benchmark最难关卡的model。
社区对Grok 4的world knowledge能力表示惊叹,网友们已经开启催更模式:
• Grok 4 source code leak
• 期待值直接拉满
Elon Musk此前透露,Grok 3.5(现升级为Grok 4)采用「第一性原理」推理机制,将物理学思维引入AI。
从X平台泄露的control panel代码可见,Grok 4包含两个版本:
• Grok 4:全能旗舰model,在NLP、math和reasoning领域表现卓越
• Grok 4 Code:专为coding场景优化,可集成至IDE
不过也有skeptics指出,HLE创建者Dan Hendrycks是xAI顾问,可能存在针对性优化的concern。
Elon Musk在6月27日post中确认,团队正在全力开发Grok 4,预计7月4日后发布。他特别强调本次升级将focus在coding能力上。
在Microsoft Build 2025大会上,Musk详解了Grok 4的「第一性原理」设计理念:
"就像physicists思考问题那样,我们必须将问题拆解到fundamental axioms层面,再向上推理..."
当前各大厂都在比拼coding能力:
• Google Gemini 2.5增强代码生成和PR评审能力
• Anthropic Claude 4强化AI agent和terminal集成
• OpenAI新版Codex专注NL-to-code转换
• DeepSeek推出全能推理coding model
这次Grok 4能否实现breakthrough?让我们拭目以待!
- 上一篇:男子因女友穿裙子出门对其殴打强奸
- 下一篇:不是谁弱谁苦谁闹谁拍谁就有理