AI热点 4小时前 183 浏览次数 0 评论

AIME'25满分炸场!Qwen一波七连发,全家桶大更新

AI中国
AI中国

发布了 10337 文章

它来了,它来了!


新一代旗舰模型Qwen3-Max带着满分成绩,正式地来了——


国产大模型首次在AIME25和HMMT这两个数学评测榜单拿下100分!



和前不久Qwen3-Max-Preview一致,参数量依旧是超万亿的规模。


但这次正式的发布在版本上有了一个划分:


  • 指令版(Instruct)
  • 思考版(Thinking)


而且Qwen3-Max在性能上也有了一定的提升(情商智商,双商增强)。


刚才我们提到的数学满分,正是思考版所拿下的成绩。


至于指令版,则是在SWE-Bench评测(大模型用coding解决真实世界问题)中斩获69.6分,位列全球第一梯队。


以及在Tau2 Bench测试(考察Agent工具调用能力)中,超过Claude Opus4和DeepSeek V3.1,拿下74.8分的成绩。



强,确实是有点强。


但有一说一,如果说Qwen3-Max是一把“火”,那么在刚刚的云栖大会上,通义团队还散出了很多的“星”。


视觉:Qwen3-VL重磅开源


从Qwen3-Max散出来的第一个“星”,就是视觉理解模型Qwen3-VL


其实它在今天凌晨的时候已经开源,属于“微鲜”出炉,但确实是大家比较期待的那一个。



具体而言,这次的型号叫做Qwen3-VL-235B-A22B,同样分为指令版推理版


其中,指令版本在多项主流视觉感知评测中,性能达到甚至超过Gemini 2.5 Pro;而推理版本则是在众多多模态推理的评测基准下取得了SOTA的表现。



除此之外,Qwen3-VL-235B-A22B指令版还支持在带图推理,并且在四项基准测试中的成绩均有所提升。



网友在看到成绩之后,甚至直呼:


Qwen3-VL真是个怪物(太强了)。



实际测试效果现在也已经放出来了。


例如把一张手绘的网页“喂”给Qwen3-VL,它就能唰唰唰地给出HTML和CSS:



再如给它下面这张图:



并让Qwen3-VL完成如下任务:


找出属于以下类别的所有实例:“头部、手部、男性、女性、眼镜”。请以JSON格式报告边界框坐标。



更复杂的视频理解,Qwen3-VL也是不在话下:



更多案例可以通过下面的视频了解一下:


从技术层面来看,Qwen3-VL还是采用了原生动态分辨率设计,但在结构设计上进行了更新



一是采用MRoPE-Interleave。原始MRoPE按时间 (t)、高度 (h)、宽度 (w) 顺序划分,使时间信息集中在高频维度。Qwen3-VL改为t、h、w交错分布,实现全频覆盖,提升对长视频的理解,同时保持图像理解能力。


二是引入DeepStack,融合ViT多层特征,增强视觉细节捕捉和图文对齐。


团队将视觉tokens的单层注入扩展为LLM多层注入,并优化特征token化:对ViT不同层输出分别token化并输入模型,从而保留从低层到高层的多层次视觉信息。实验表明,该设计显著提升了多种视觉理解任务的表现。


三是将视频时序建模由T-RoPE升级为 文本时间戳对齐机制。通过“时间戳-视频帧”交错输入,实现帧级时间与视觉内容的精细对齐,并原生支持“秒数”和“HMS”两种输出。如此一来,便改进提升了模型在事件定位、动作边界检测、跨模态时间问答等复杂时序任务中的语义感知与时间精度。


全模态:Qwen3-Omni开源


Qwen3-Omni虽然是昨天凌晨已经开源,但在这次云栖大会中也是一同亮相,主打的就是一个全模态


它是首个原生端到端全模态人工智能模型,在一个模型中统一了文本、图像、音频和视频,并且在22个音视频基准测试中达到了SOTA的水平。


目前已经开源的版本包括:


  • Qwen3-Omni-30B-A3B-Instruct
  • Qwen3-Omni-30B-A3B-Thinking
  • Qwen3-Omni-30B-A3B-Captioner


不过基于Qwen3-Omni还衍生出了更多好玩且强悍的细分大模型。


例如今天发布的Qwen3-LiveTranslate就是其中一个——视、听、说全模态同传大模型!


目前,它已经实现了覆盖18种语言的离线和实时两种音视频翻译能力。


从公开测试的成绩来看,Qwen3-LiveTranslate-Flash的准确率已经超过了Gemini-2.5-Flash、GPT-4o-Audio-Preview等:



即便是在环境嘈杂的地方,Qwen3-LiveTranslate-Flash依旧是能hold得住:



至于具体效果,来感受一下具体实操的效果:


英文原文:What is mask? This is mask. This is mask. This is mask. This is Musk.

视觉增强前:什么是口罩?这是口罩,这是口罩,这是口罩,这是口罩

视觉增强后:什么是口罩?这是面膜,这是口罩,这是面具,这是马斯克


网友看罢,也是有亿点点震惊在身上的:


我都觉得有点恐怖了。



除了翻译之外,Qwen版Banana——Qwen3-Image-Edit的新版本,也是非常有趣的一个模型。


不仅支持多图融合,提供“人物+人物”,“人物+商品”,“人物+场景” 等多种玩法,还增强了人物、商品、文字等单图一致性。


而且它还原生支持ControlNet,可通过关键点图改变人物姿势,还可轻松实现换装需求。



编程:Qwen3-Coder升级


新升级的Qwen3-Coder-Plus玩了一套“组合拳”:Qwen Code、Claude Code系统联合训练。


如此打法之下,它的性能效果得到了显著的提升;可以看到相较于之前的版本,在各项基准测试中的分数都有所增长:



与此同时,与之相关的编程产品Qwen Code也有了升级动作,增加了对多模态模型和sub-agent的支持。


换言之,你现在用Qwen Code的时候,可以输入图像了:



然后已经有网友开始在实测了,Qwen3-Coder-Plus打造的一座3D宝塔效果是这样的:



Qwen的终点,不只是开源


最后,总结一下这次云栖大会中的亮点。


首先就是从前天至今,阿里通义千问已经陆陆续续发布、开源大大小小近十款模型,已经是让国内外业界人士对阿里云的开源速度叹为观止。



但有一说一,在听完阿里云智能集团董事长兼CEO吴泳铭的演讲之后,我们发现,通义千问要做的事情,远不止于此。


因为吴泳铭表示,实现AGI已然是确定性事件,但这还仅是起点,终极目标是发展出能自我迭代、全面超越人类的超级人工智能(ASI)。


而要实现ASI,则需要以互联网为起点,经历四个阶段:


第一阶段是智能涌现(学习人)、其次是自主行动(辅助人)、接下来是自我迭代(超越人),最后就是超级人工智能(ASI)。



除此之外,吴泳铭还非常有远见地认为:


大模型将是下一代操作系统,自然语言是以后的源代码,AI Cloud是下一代计算机。


未来全世界或只会有5-6个超级云计算平台。



但需要明确的一点是,AI越强,人类越强。


One More Thing


哦对了,通义千问那个新一代基础模型架构——Qwen3-Next,今天也正式发布了!


它的模型总参数量大约是80B,但实际上,仅仅在激活3B的情况下,它的性能就可以跟Qwen3-235B媲美。


计算效率,可以说是直接Pro Max了~


而且与密集模型Qwen3-32B相比,它的训练成本降低了超90%,长文本推理吞吐量提升超过10倍。


不得不说,未来大模型的训练和推理效率,要变得更加有意思了。


参考链接:https://qwen.ai/research


文章来自于微信公众号 “量子位”,作者 “量子位”

AI中国

AI中国

10337 文章 1817330 浏览次数 950300 粉丝

评论 (0)

睡觉动画