7 月 10 日，马斯克携 Grok 4 登场，宣称“世界最聪明 AI”再进化：推理碾压 o3、通过 2500 题“人类最终考试”、300 美元 Heavy 版可组“学习小组”。本文 3 分钟速览发布会精华与未来路线图。

长话短说马斯克发布了 Grok4，推理模型，对标 o3

Grok 4 需要订阅才能使用，$30/月起

SuperGrok 订阅费用

网站在 https://grok.com/

下面是本次发布会的具体，整理如下

Grok 发布会实录

原视频在这（下面有地址）

https://x.com/xai/status/1943158495588815072

Grok 4 介绍 (5:22 – 7:51)

5:22 Elon Musk 登台，发布会正式开始。

马斯克表示 Grok 4 是“世界上最智能的 AI”，并称其进化速度“远超任何人类”。Grok 4 具备卓越的推理能力，即使面对从未见过的考题，也能在 SAT 和 GRE 等高难度考试中取得近乎完美的成绩。

本来是 11 点发布，生生鸽到了 12 点多

性能的指数级增长

马斯克表示：Grok 系列展现出“荒谬的进步速度”（Ludicrous rate of progress）。从 Grok 2 到 Grok 4，每一代模型的训练计算量增加约 10 倍，总增幅达 100 倍。

除了预训练计算，还大量投入在推理（RL compute）计算上，以增强思考与解决问题的能力。

在推理上，发力了

基准测试表现：“人类最终考试”及其他

介绍名为“人类最终考试”（Humanity’s Last Exam）的超高难度基准测试。该测试包含 2500 个专家级问题，涵盖上百个学科。

Humanity’s Last Exam

据称，没有任何人类能在所有领域达到博士后水平，但 Grok 4 实现了这一点。图表结果显示，Grok 4 及 Grok 4 Heavy 在 GPQA、AIME25、HMMT 等多个顶级基准测试中，表现全面超越所有竞争对手，包括 Claude Opus 4 与 Gemini 2.5 Pro。

各种测试结果

功能演示

发布中，做了一些 Grok 4 实际应用能力演示

现实世界预测在预测平台 Polymarket 上分析 2025 年 MLB 世界大赛冠军，Grok 4 不仅浏览了赔率，还结合 FanGraphs 的数据计算出自己的概率，识别出市场赔率与实际概率之间的差异，找到了“Alpha”和“Edge”

World Series Champion 2025

多模态与主观理解在 X 平台上找出“xAI 员工最古怪的头像”，这表明 Grok 4 能够理解“古怪”这样的主观概念，并搜索和分析图片

emmmm 很抽象的头像

信息整合与摘要“人类最终考试”分数变化的 X 帖子时间线，展示了其从社交媒体上整合信息、提取关键事件并按时间排序的能力

又是人类最终考试…

代码与可视化生成根据一个物理学提示，Grok 4 生成了一个关于两个黑洞碰撞并产生引力波的 HTML 动画，展示了其将复杂科学概念转化为代码和动态可视化的能力

生成的动画很炫酷

语音模式与新声音

Grok 4 语音模式迎来重大改进：端到端延迟减半，对话更流畅。发布五种全新的、极具表现力的声音，包括史诗感的“Sal”和带有丰富情感的英音“Eve”。

现场演示中，Eve 能以温柔语调安抚提问者，并即兴创作关于健怡可乐的歌剧，展现了其出色的自然度和情感表达。

当场整活：4o vs grok4

SuperGrok Heavy

宣布推出“SuperGrok Heavy”付费等级（每月300美元）。该版本允许用户调用 Grok 4 Heavy，它会像一个“学习小组”一样，并行启动多个智能体（agents）共同解决复杂问题，通过比较和筛选，最终得出最佳答案。

300刀/月

一些新锐 Bench Mark

在 ARC-AGI (之前奥特曼介绍的)榜单中，Grok 4 在 v1 中超过 o3，在 v2 中两倍于 o3。(注意，比不上 o3-pro)

我之前还写了一份有关 ARC-AGI 的介绍

另一个榜单是商业场景模拟：“自动售货机基准测试”（Vending-Bench）。在这个测试中，AI 需要管理库存、联系供应商、设定价格等。

结果显示，Grok 4 的表现远超其他前沿模型，其创造的净值是第二名（Claude Opus 4）的两倍以上，展现了其在复杂、长周期任务中的战略规划和执行能力。

Vending-Bench：卖货模拟器未来展望与路线图 (45:32 – 50:20)

公布未来产品路线图：

八月：推出专用的编码模型。
九月：推出多模态智能体。
十月：推出视频生成模型。

接下来的发布预测：AI 将在今年晚些时候或明年发现真正有用的新技术，甚至可能在 1-2 年内发现新的物理学原理。

总结与结语 (50:20 – 53:35)

发布会以强调 AI 安全最重要的是“最大限度地寻求真理”作为核心思想。我们正处在“智能大爆炸”的开端，这是历史上最激动人心的时刻。

最后以《银河系漫游指南》中的经典名句“再会，谢谢所有的鱼”（So long, and thanks for all the fish）结束。

本文由人人都是产品经理作者【赛博禅心】，微信公众号：【赛博禅心】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

登录账号

Grok4 发布：全整理

Grok 发布会实录

Grok 4 介绍 (5:22 – 7:51)

性能的指数级增长

基准测试表现：“人类最终考试”及其他

功能演示

语音模式与新声音

SuperGrok Heavy

一些新锐 Bench Mark

总结与结语 (50:20 – 53:35)

人人都是产品经理

评论 (0)

文章章节

推荐文章

短剧创新，「关系」致胜

速抢（2核2G）77元/年香港免备案服务器

AI既是生产力又是生产关系

腾讯游戏，新魔法打败旧魔法

别再骂客户没忠诚度了！你还在做CRM，聪明的企业早已改做CRI

中小学生放秋假，四川景区都不够用了

2025宝山·智能机器人产业大会暨嘉年华，邀您共赴科技盛宴

这个超级应用的升级，给通用Agent带来了新气象

热门标签

热门作者

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

登录账号

Grok4 发布：全整理

Grok 发布会实录

Grok 4 介绍 (5:22 – 7:51)

性能的指数级增长

基准测试表现：“人类最终考试”及其他

功能演示

语音模式与新声音

SuperGrok Heavy

一些新锐 Bench Mark

总结与结语 (50:20 – 53:35)

人人都是产品经理

评论 (0)

文章章节

推荐文章

短剧创新，「关系」致胜

速抢（2核2G）77元/年香港免备案服务器

AI既是生产力又是生产关系

腾讯游戏，新魔法打败旧魔法

别再骂客户没忠诚度了！你还在做CRM，聪明的企业早已改做CRI

中小学生放秋假，四川景区都不够用了

2025宝山·智能机器人产业大会暨嘉年华，邀您共赴科技盛宴

这个超级应用的升级，给通用Agent带来了新气象

热门标签

热门作者

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

为您推荐