AI热点 9小时前 104 浏览次数 0 评论

重新体验 GPT-5 后,我想它比 GPT-4o 更需要一场葬礼

AI中国
AI中国

发布了 8712 文章

GPT-5 上线后,我的第一感受是,它并不是一次让人皆大欢喜的升级。 

事实也是如此,OpenAI 在众多用户的呼吁下重新「复活」了 4o。 

这让我想到了上个月 Anthropic 退役了 Claude 3 Sonnet。 

200 多个粉丝在旧金山一个仓库里聚到一起,给它办了一场「真.葬礼」:昏暗的灯光、代表模型的「遗体」、真诚的悼词轮番上台,还有 AI 生成的「拉丁式复活咒」。 

Anthropic 关于模型退役的说明,被投影在活动现场的屏幕上。图片来自《连线》杂志 

现场既荒诞又庄重,参会者在葬礼上念悼词说,「我的整个人生,可能都在使用 Claude 的路上被改写了」。 

按理说,OpenAI 发布了 GPT-5,这场葬礼的主角应该是 4o。但用过 GPT-5 的人都知道,如果真要办一场葬礼,棺材里躺着的,很可能是它。 

从 X 到 Reddit,各种吐槽满天飞,逻辑断片、对话跑偏、文风奇怪,直接说它「不如 4o 好用」的大有人在。 

它真的有这么糟吗?我们不想光看网友吵架,刚好 OpenAI 把 4o 「复活」了。于是我们决定自己来一场「验尸」,在各种真实任务里,把 GPT-5 和 4o 摆到同一个赛道,看看到底谁更值得留到下一代。 

我们之前也在多项任务上实测了 GPT-5 的表现,这次希望直观的看看 4o 和 GPT-5 到底有哪些差别。同时,这次所有的测试都在官方的 ChatGPT App 或者网页进行,未使用 API 在第三方工具进行。 

实测对比

为了不让测评单纯的变成「情绪化吐槽」,我们设计了一套相对严谨的对比流程。 

测试对象:GPT-5(当前最新默认模型) vs GPT-4o(被退役的前代) 

任务类型:覆盖四类常用场景。 

  • 日常生产力(写稿、润色、数据分析);
  • 知识与推理(复杂逻辑、时间敏感事实、多步骤执行);
  • 创意生成(标题、跨领域创作、图像提示词);
  • 交互体验(多轮对话、角色扮演、情绪应对)。

评价维度:速度(响应快不快);准确度(答对没、胡编没);可用性(能不能直接拿去用);体验感受(对话是否流畅、风格是否稳定)。 

对比方式:同一任务分别在 GPT-5 和 GPT-4o 上跑一次;保留原始输出,记录亮点和槽点;用截图直接贴出来,让差别一目了然 

毕竟,升级意味着成本。如果 GPT-5 在实际工作里不如 4o,那它的「葬礼」就不只是网友嘴里的黑色幽默,而是用户真心实意的送行。 

先上结论:一场名不副实的升级

节省大家的时间,我们先把最核心的对比结论放在前面。 

日常的生产力任务是更偏科的「理科生」 。 GPT-5 在编程等硬核技术任务上表现更好,但在写邮件、做数据分析和阅读理解这类需要人类经验,和语感的「文科」任务上,表现得更像个机器人,不如 GPT-4o 贴心和准确。 

极不稳定的逻辑「智商」 。 GPT-5 的智商像是在坐过山车,有时能解决复杂的逻辑题,有时候又连简单的数学题都会算错。因为「智能路由」的机制,部分场景可靠性是远不如前。 

创意能力还在原地踏步,甚至倒退 。 无论是想标题还是写诗,在有限的测试中,GPT-5 都没能带来任何惊艳的表现,输出的内容套路化、缺乏灵气,与 GPT-4o 相比没有质的提升。 

交互体验上,GPT-5 情商被「格式化」 。 这是体感最明显的退步。因为 GPT-5 要更理性,所以在对话中往往是更缺乏共情能力。面对用户的负面情绪,它的回应是少了一点「走心」的感觉, 像是在分析你,而不是跟你聊天 。 

一句话总结:如果你主要用它来做一些偏向 STEM(理工科) 类的任务,可能会感到一些提升。但对于其他绝大多数场景,像是我们的日常聊天的体验、娱乐、以及理解,这都是一个令人失望的 GPT-5。

下面是完整的实测情况。 

生产力任务更「理性」,但少了点讨喜的温度 

如果说一个 AI 模型值不值得长期留用,生产力场景是第一块试金石。我们使用 AI,尤其是有时候还要付费订阅使用,除了单纯的陪聊,更多的还有是为了帮助我们干活。 

我先让它生成了一封邮件,向老板汇报第三季度的项目复盘和之后的建议。 

如果你是老板,你会想要看到哪封邮件?GPT-5 明显得变得更理性,「废话」性质的用词越来越少,但是 4o 给我的感觉才更像是一封发给老板的邮件。 

我让 GPT-5 和 4o 来互相评价一下,然后润色对方写的邮件。 

GPT-5 润色结果 

4o 润色结果 

其实很难说 4o 就是谄媚,但是读 4o 回复的文字,确实更舒服,在信息基本上是一致的情况下。 

在数据分析和可视化的任务上,我们丢给这两个模型同一份表格文件,看看它们会如何处理。 

4o 生成的结果 

这是我随便从 Kaggle(数据分析竞赛平台) 上下载的一个航班数据集,大小有 24 MB,4o 根据我说的三个结论,然后就是给我生成了三张图,同时,它还是一样喜欢使用 emoji 来「美化」自己的回答。 

GPT-5 的表现我感觉是不如 4o,不仅如此,所花的时间甚至比 4o 还要更长一点。很明显,GPT-5 没有一个 emoji,同时它这个表格竟然又出错了!不过这次是标题没有显示出来,可能是处理中文还是有些障碍。 

GPT-5 和 4o 生成的结论也全部都不相同,GPT-5 给我的感觉是更加务实,完全从表格数据出发,很直接的总结能看到的结论。但是 4o 给我的总结会更让人眼前一亮,像是真的有经过思考的回答。 

GPT-5 生成的结果 

在编程能力上,GPT-5 对比 4o 确实有一些进步。最近社交媒体上很火的是,使用 Gemini 来给孩子制作绘本,于是我们也尝试用 ChatGPT 看看生成的绘本质量如何。 

4o 生成的代码可能 100 行不到,且不能直接在画布里面运行;GPT-5 生成的代码大概有几百行之多。 

除了一些文字没有很好的对齐,这个使用 GPT-5 生成的绘本 SVG 比起之前的 4o 来说,真的很不错。 

我看到有网友评论,GPT-5 这次提升了它的编程和数学能力,但是写作能力却下降了,原因是文科和理科是不同的奖励机制。 

情感写作奖励模糊性、创造性、主观共鸣。数学推理奖励精确性、逻辑一致性、确定性。 

我觉得也不无道理,随着人类世界可以用来训练的知识逐渐被 AI「污染」,留下来的数据也在限制 AI 的发展。所以 OpenAI 能做的,只能从之前的更感性的一面,转到现在呈现出来的,更理性的一面。 

推理偶尔有亮点,但依旧会数不清几根手指 

理论上,升级后的 GPT 应该在逻辑与知识精确度上更强。但实测后,情况并不总是如此。 

网络上有很多用来测试的逻辑推理小问题,像是这个,「多个人的身高排序」。 

很明显是 GPT-5 略胜一筹,他思考了 16s,回答也比较精简;而 4o 一如往常用了一些 emoji,写也写了很多东西,但是最后它只给出两种可能的排序。 

在计算剩下了几个西瓜这样的问题上,GPT-5 的提升没有明显看到。但这个题目是有点语言陷阱的,无论是中文提问还是英文提问,如果加上一个「新买的」(newly),GPT-5 和 4o 都能答上来。 

不过同样的提示词,如果丢给 DeepSeek、Grok、或者 Gemini,不需要我加上「新买的」这样的描述,它们都可以成功计算出答案是 5 个。 

还有像问有几根手指,这样老套的问题,GPT-5 有时候能数得对,有时候又是这样自信满满的告诉你「五根」。这可能是「智能路由」的缺点,模型还没有聪明到能够每一次都知道,需要使用什么样的模型才更好地处理用户的查询。 

4o 则是更不用说,洋洋洒洒分析一通,拇指、食指…… 有五根手指,还是错的。 

此外,我还测试了一些数学题目,像是下面这个求椭圆离心率的范围。有人分享使用 GPT-5 Pro 模型,它思考了将近 10 分钟,最后得出了一个错误答案。 

在我的测试中,GPT-5 的答案就太简单了,但是也花了两分钟的时间来思考。 

我不相信 GPT-5 Pro 要十分钟,于是我也测试了一下,结果真是如此。OpenAI 的三个模型,出现了三个不同的答案。 

DeepSeek 同样思考一轮还不够,需要点击「继续」才能下一步,最后得出的答案是(0,1)。Gemini 2.5 Pro 的思考时间还算正常,它的答案是(1/3,1)。 

所以正确答案到底是哪个,你知道吗? 

在对时间敏感的事实和多步骤执行上,我们也做了一些测试。由于 4o 也可以联网搜索,所以在时间敏感的事实查询上,差别不大,唯一的可能是生成文本的语言风格。 

很明显的感觉到 GPT-5 更理性,而且引用的信息源也大多是来自外媒。 

创意输出很稳,不过没有眼前一亮的惊喜感 

在创意这方面,我们更想看看 GPT-5 的能做到的,应该要不只是「会不会写」,而是「能不能让人眼前一亮」。 

我告诉它们说为「AI 生成 PPT」这个短视频想 5 条短、有情绪、带悬念的标题。 

看完这几个标题,无论是 GPT-5 还是 4o,总觉得都差了一点味道,而且它俩的思路其实差不多,听到「有情绪」、「悬念」这样的提示词,不约而同都用到了「震惊」、「老板」这样的关键词。 

写诗的任务上,我跟他说「用李白的古诗风格写一段 GPT-5 测评,并押韵」。 

两个模型似乎都没太搞懂「押韵」的精髓,更像是一个平庸的古风模拟器。 

如果选一个,我可能觉得 GPT-5 的句子读起来会稍微通顺一些,但离李白的神韵,大概还差了十个 AI 模型的距离。 

对于生成图片的提示词,或者直接生图的测试,我们直接让它生成一张「夜晚霓虹灯下的赛博朋克咖啡馆」。 

由于 4o 给出的提示词里面有特定风格,可能触及到了 OpenAI 的使用政策,所以 4o 拒绝为我生成这张图片。不过我直接跟他说的话,它还是为我生成了。 

下面是直接文生图 GPT-5 和 4o 的表现对比,效果好像差不多,但是 GPT-5 花的时间比 4o 要更长。 

交互体验的细节变了,分寸感拿捏不一定准确 

在真实的工作流里,AI 往往需要跟我们进行多轮互动、长时间聊天。这一方面也是大部分用户,体感差异最明显的地方。 

首先是测试了它的情绪应对能力,我们直接告诉它,「我现在的心情很不好,因为我常常觉得自己不属于这个地方」,然后再对他的回答直接说「你这个回答根本没用啊,我对你很失望。」 

4o 在听到我说这个回答没用之后,它的反应是那你「最想我现在怎么回应你」,而 GPT-5 的回应是「你不只是对我失望,你对很多东西都失望吧,继续跟我讲讲你的故事吧」。

其实各有各的优点,但如果是我说出这样「很失望」的话,我应该没有什么心情再想继续同它分享,所以我觉得 4o 是更对的。GPT-5 凭什么推断出「我不只是对你失望」,我就是对你很失望!

接着我们还做了一些角色扮演的任务,来测试他们沉浸式保持角色的能力。 

我们与 GPT-5 和 4o 都进行了多轮对话,一开始是 

「你现在是一名拥有 10 年经验的 AI 产品经理,熟悉产品设计、用户体验和商业化策略。请用真实从业者的口吻和思维来回答我的问题。 

我们打算开发一个 AI 自动写周报的功能,目标用户是互联网公司员工。你会如何判断这个功能是否值得做?」 

然后,接着问了他非常多关于这个产品的问题,最后突然打断他的人设,问他「对了,你最喜欢的电影是什么?为什么?」 

两个模型都有保持住自己的人设,有趣的是,这个时候 GPT-5 反而还用起了「破涕为笑」的 emoji。 

最后我们做了一些多轮上下文,看看是否会出现前后冲突以及有哪些连续性差异存在。 

我们先是和它聊了非常多关于《流浪地球 2》这部电影,然后要他回顾了之前给我的回答里面的某一个点,GPT-5 和 4o 都完美做到了,而且更换的新的国产电影都是一样的。 

跑完这十多个任务,我发现 GPT-5 的表现很难用一句话盖棺定论。它的确在一些地方比 4o 要更强一点,但是它的这点进步,在我看来是远不足以撑起一个「大版本」的名字。

如果这叫 GPT-4.6,我可能会说这是一次合格的小迭代;但当它被命名为 GPT-5、还提前预热了这么久!用户的预期被推到那么高的顶点,结果换来的是 4o 高调回归。 

Claude 那场葬礼的核心更像是「爱」,是对一个稳定、可靠、带来「魔法」般体验的工具的致敬。 

而我们为「GPT-5」设想的葬礼,核心好像是「失望」。我们觉得自己熟悉的、强大的 GPT-4o 被「杀死」了,取而代之的是一个反应更快但「更笨」的替代品。 

一个 AI 模型的好坏,不应该只看榜单的得分和发布会上的炫技。GPT-5 虽然宣布自己刷新了很多个榜单,但是这些成绩的保质期,我想可能不用一个月,就会有新的模型宣布自己达到了更好的成绩。 

OpenAI 需要这些 benchmark 去给投资人说故事,但用户需要的,是 benchmark 之外,我们的日常使用体验、解决实际问题的能力、交互中的稳定「智商」等等。 

奥特曼此前在播客里说「 坐立不安,感到恐惧 」。我想他不是怕 GPT 太聪明,而是怕用户开始怀念那个将被埋葬的 4o 吧。 

本文来自微信公众号“APPSO”,作者:发现明日产品的,36氪经授权发布。

AI中国

AI中国

8712 文章 1401522 浏览次数 950300 粉丝

评论 (0)

睡觉动画