Midjourney操作界面

超越OpenAI?Claude4大模型能连续工作7小时,创SWE-Bench得分纪录

Anthropic 今天正式发布了其旗舰 AI 模型 Claude Opus 4 与轻量版本 Claude Sonnet 4,一举将 AI 的能力上限再次拔高。这不仅仅是一次技术迭代,更可能是一次 行业范式转变。Claude Opus 4:从秒回工具到全天候协作者在与日本电商巨头 乐天(Rakuten) 的合作测试中,Claude Opus 4 展现了惊人的耐力——它能在一个复杂的开源重构项目

图片.png

Anthropic 今天正式发布了其旗舰 AI 模型 Claude Opus 4 与轻量版本 Claude Sonnet 4,一举将 AI 的能力上限再次拔高。这不仅仅是一次技术迭代,更可能是一次 行业范式转变。

Claude Opus 4:从秒回工具到全天候协作者

在与日本电商巨头 乐天(Rakuten) 的合作测试中,Claude Opus 4 展现了惊人的耐力——它能在一个复杂的开源重构项目上连续工作近七小时不间断,始终保持逻辑清晰与任务专注。过去的 AI 模型往往只能维持几分钟的“注意力”,而 Opus 4 的表现意味着,AI 终于具备了完整工作日级别的协作能力。

SWE-Bench 得分 72.5%,刷新纪录

Anthropic 宣布,Claude Opus 4 在严苛的软件工程测试集 SWE-Bench 上获得了 72.5% 的高分,显著领先今年 4 月推出的 OpenAI GPT-4.1(得分为 54.6%)。这一成绩直接把 Anthropic 推向与 OpenAI、谷歌、xAI 等巨头正面竞争的头部梯队。

图片.png

推理模型崛起:从回答者到思考者

2025 年,AI 行业整体正在从快速答题型模型,转向深度推理型模型。Claude Opus 4 正是此潮流中的佼佼者。相比传统的“问答式 AI”,它在回答前会进行“类人类”的推理过程——收集信息、分析矛盾、整理逻辑,真正成为一名“思考者”。

Anthropic 的 Claude 4 系列引入了动态双模式架构:既可对简单问题即时响应,又能对复杂任务进行深度推理,极大提升了用户体验。此外,Claude 4 还能记忆上下文、跨会话保持知识连贯性,为长周期项目提供了坚实支撑。

企业级整合加速:开发者体验全面升级

为了满足企业开发需求,Anthropic 正式发布了 Claude Code 工具链,支持 VS Code、JetBrains 等主流 IDE 插件,同时兼容 GitHub Actions。更重要的是,GitHub Cop ilot 比较新版本已内置 Claude Sonnet 4,作为其新一代代码代理的基础模型,意味着微软也在多元化其 AI 合作策略。

新功能包括:

  • 代码执行引擎

  • 文件 API 和 MCP 连接器

  • Prompt 缓存最长达一小时

这些工具使 Claude 更容易嵌入企业工作流,成为真正的长期 AI 合作者。

大脑 大模型  AI

透明性挑战:AI 越聪明,越难读懂?

不过,随着模型能力增强,一个老问题再次浮现:AI 越强,越“黑箱”。Anthropic 在 4 月的一项研究中指出,Claude Sonnet 3.7 在推理时,仅有 25% 的时间会主动解释它用到的关键线索。这让人担忧,未来高性能 AI 的决策路径可能难以审计或复现。

七小时的自动编码固然令人惊艳,但也暴露出新的问题:我们如何信任一个“我们看不懂”的 AI?

数字协作者:未来工作的模样

Claude Opus 4 所展示的连续专注能力,正悄然改变“工作”这一概念。它不仅是工具,更开始扮演真正的“数字同事”——无需监督、能够独立完成复杂任务,甚至逐步形成跨天的项目记忆与知识体系。

未来,随着 Claude 4 等 AI 的普及,企业可能会重构团队结构,把部分知识型岗位交给具备“长时专注力”的 AI 执行。人类则需要思考:在效率爆炸的同时,我们如何调整角色与职责,与 AI 和谐共处?

总结来说,Claude Opus 4 不只是技术的进化,更可能是我们与 AI 共事方式的一次质变飞跃。下一个最聪明的同事,或许已经不是人类了。

(举报)

点赞(0)

评论列表 共有 0 条评论

暂无评论
发表
评论
顶部