
Grok 4 登场:马斯克用 10 倍算力砸开 AI「下半场」大门
2025-07-16 15:47:09
Grok 4 登场:马斯克用 10 倍算力砸开 AI「下半场」大门
“如果 AI 终将毁灭人类,我至少想亲眼看到那一天。”
——埃隆·马斯克在 7 月 10 日 Grok 4 发布会结尾
1. 成绩单:把“天花板”直接掀掉
评测 | Grok 4 得分 | 此前最佳 | 备注 |
HLE(人类最后考试) | 45 % | 21 % | 马斯克:人类博士 5 % 就不错了 |
ARC AGI v2 | 15.8 % | 7 % | 三个月内唯一破 10 % |
GBQA(博士级问答) | 近乎满分 | — | 全科屠榜 |
USAMO / HMMT / AMC 25 | 霸榜 | — | 数学竞赛全线第一 |
Live Coding Benchmark | 领先 | — | 代码实战 |
Vending Benchmark | 净利润 4700 $ | 2× 前任 | 7×24 小时“数字员工” |
医疗影像 | 胸片诊断最佳 | — | ARC 研究所已在 CRISPR 流程中落地 |
游戏制作 | 4 小时 FPS Demo | — | 逻辑 + 素材全自动 |
2. 现场 6 连 Live:没有彩排,全是心跳
环节 | 难度 | Grok 4 表现 |
范畴论证明 | 博士级 | 逐步推理,步骤可视化 |
电环化反应 | 化学 PhD | 轨道对称性分析到位 |
希伯来语音韵学 | 语言 PhD | 区分音节 + 历史演变讲解 |
“最怪员工头像” | 主观审美 | 实时爬 X、识人、审美判断 |
MLB 世界大赛预测 | 概率建模 | 4.5 min 全网爬取 → 道奇 21.6 % |
黑洞合并可视化 | 物理模拟 | 引力波动画 + 教材引用 |
新增语音人格 Eve
英伦腔 + 情感安慰 + 即兴可乐歌剧
现场对比 ChatGPT 语音:延迟 < 300 ms vs 1 s+
3. 训练内幕:20 万张 GPU 的“暴力美学”
- • 底座:Grok 3 预训练权重
- • 核心差异:
- • 10× 强化学习(其他公司 10 %-20 % 算力 → xAI 100 %)
- • Colossus 超算:20 万 H100,全球最大 AI 训练集群
- • 工具原生训练:搜索、计算器、代码解释器直接写入训练数据
- • HLE 得分提升 50 %
- • 下一步:Tesla 级有限元、CFD 工具接入
4. Grok 4 Heavy:基础模型的“多智能体”首秀
- • 机制:多个 AI 实例并行思考 → 思想碰撞 → 共识输出
- • 效果:
- • 单模型 HLE 40 % → 多智能体 50 %
- • 意义:把“多 Agent”从外挂变成基础模型原生能力
5. 价格:贵,但贵得有底气
套餐 | 功能 | 价格 |
SuperGrok | Grok 4 全功能 | $30 / 月 |
SuperGrok Heavy | Grok 4 + 多智能体 + 研究主管模式 | $300 / 月 |
API | 256 k 上下文,已开放申请 | — |
6. 路线图:把油门踩到底
时间 | 交付物 | 备注 |
8 月 | 代码特化模型 | 正面硬刚 Claude |
9 月 | 多模态智能体 | 狙击 Gemini / Veo 3 |
10 月 | 视频生成模型 | 10 万 GB200 已待命 |
内部梗:xAI 办公室帐篷销量 ↑↑↑
7. AI 进入“下半场”,马斯克按下快进键
- • 18 个月 4 代:Grok 1 → 4,行业 3 倍速迭代
- • 卡尔达肖夫时间表:1-2 % → 80-90 % → 二级文明
- • 安全? “朝闻道,夕死可矣。”
结语
当别家还在 PPT 里预热“下一代”时,Grok 4 已把基准、实战、多模态、多智能体一次性打包上桌。
AI 战争正式进入 “跨代碾压” 模式——上一代模型,直接判负。