趋势洞察 14小时前 169 阅读 0 评论

Grok4 发布:全整理

作者头像
人人都是产品经理

AI技术专栏作家 | 发布了 246 篇文章

7 月 10 日,马斯克携 Grok 4 登场,宣称“世界最聪明 AI”再进化:推理碾压 o3、通过 2500 题“人类最终考试”、300 美元 Heavy 版可组“学习小组”。本文 3 分钟速览发布会精华与未来路线图。

长话短说马斯克发布了 Grok4,推理模型,对标 o3

Grok 4 需要订阅才能使用,$30/月起

SuperGrok 订阅费用

网站在 https://grok.com/

下面是本次发布会的具体,整理如下

Grok 发布会实录

原视频在这(下面有地址)

https://x.com/xai/status/1943158495588815072

Grok 4 介绍 (5:22 – 7:51)

5:22 Elon Musk 登台,发布会正式开始。

马斯克表示 Grok 4 是“世界上最智能的 AI”,并称其进化速度“远超任何人类”。Grok 4 具备卓越的推理能力,即使面对从未见过的考题,也能在 SAT 和 GRE 等高难度考试中取得近乎完美的成绩。

本来是 11 点发布,生生鸽到了 12 点多

性能的指数级增长

马斯克表示:Grok 系列展现出“荒谬的进步速度”(Ludicrous rate of progress)。从 Grok 2 到 Grok 4,每一代模型的训练计算量增加约 10 倍,总增幅达 100 倍。

除了预训练计算,还大量投入在推理(RL compute)计算上,以增强思考与解决问题的能力。

在推理上,发力了

基准测试表现:“人类最终考试”及其他

介绍名为“人类最终考试”(Humanity’s Last Exam)的超高难度基准测试。该测试包含 2500 个专家级问题,涵盖上百个学科。

Humanity’s Last Exam

据称,没有任何人类能在所有领域达到博士后水平,但 Grok 4 实现了这一点。图表结果显示,Grok 4 及 Grok 4 Heavy 在 GPQA、AIME25、HMMT 等多个顶级基准测试中,表现全面超越所有竞争对手,包括 Claude Opus 4 与 Gemini 2.5 Pro。

各种测试结果

功能演示

发布中,做了一些 Grok 4 实际应用能力演示

现实世界预测在预测平台 Polymarket 上分析 2025 年 MLB 世界大赛冠军,Grok 4 不仅浏览了赔率,还结合 FanGraphs 的数据计算出自己的概率,识别出市场赔率与实际概率之间的差异,找到了“Alpha”和“Edge”

World Series Champion 2025

多模态与主观理解在 X 平台上找出“xAI 员工最古怪的头像”,这表明 Grok 4 能够理解“古怪”这样的主观概念,并搜索和分析图片

emmmm 很抽象的头像

信息整合与摘要“人类最终考试”分数变化的 X 帖子时间线,展示了其从社交媒体上整合信息、提取关键事件并按时间排序的能力

又是人类最终考试…

代码与可视化生成根据一个物理学提示,Grok 4 生成了一个关于两个黑洞碰撞并产生引力波的 HTML 动画,展示了其将复杂科学概念转化为代码和动态可视化的能力

生成的动画很炫酷

语音模式与新声音

Grok 4 语音模式迎来重大改进:端到端延迟减半,对话更流畅。发布五种全新的、极具表现力的声音,包括史诗感的“Sal”和带有丰富情感的英音“Eve”。

现场演示中,Eve 能以温柔语调安抚提问者,并即兴创作关于健怡可乐的歌剧,展现了其出色的自然度和情感表达。

当场整活:4o vs grok4

SuperGrok Heavy

宣布推出“SuperGrok Heavy”付费等级(每月300美元)。该版本允许用户调用 Grok 4 Heavy,它会像一个“学习小组”一样,并行启动多个智能体(agents)共同解决复杂问题,通过比较和筛选,最终得出最佳答案。

300刀/月

一些新锐 Bench Mark

在 ARC-AGI (之前奥特曼介绍的)榜单中,Grok 4 在 v1 中超过 o3,在 v2 中两倍于 o3。(注意,比不上 o3-pro)

我之前还写了一份有关 ARC-AGI 的介绍

另一个榜单是商业场景模拟:“自动售货机基准测试”(Vending-Bench)。在这个测试中,AI 需要管理库存、联系供应商、设定价格等。

结果显示,Grok 4 的表现远超其他前沿模型,其创造的净值是第二名(Claude Opus 4)的两倍以上,展现了其在复杂、长周期任务中的战略规划和执行能力。

Vending-Bench:卖货模拟器未来展望与路线图 (45:32 – 50:20)

公布未来产品路线图:

  • 八月:推出专用的编码模型。
  • 九月:推出多模态智能体。
  • 十月:推出视频生成模型。

接下来的发布预测:AI 将在今年晚些时候或明年发现真正有用的新技术,甚至可能在 1-2 年内发现新的物理学原理。

总结与结语 (50:20 – 53:35)

发布会以强调 AI 安全最重要的是“最大限度地寻求真理”作为核心思想。我们正处在“智能大爆炸”的开端,这是历史上最激动人心的时刻。

最后以《银河系漫游指南》中的经典名句“再会,谢谢所有的鱼”(So long, and thanks for all the fish)结束。

本文由人人都是产品经理作者【赛博禅心】,微信公众号:【赛博禅心】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!