
通义千问Qwen3发布:推理能力显著增强 支持两种思考模式
通义千问团队宣布推出Qwen3,这是Qwen系列大型语言模型的最新成员。Qwen3系列模型在代码、数学和通用能力等基准测试中表现出色,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比,展现了极具竞争力的结果。其中,小型MoE模型Qwen3-30B-A3B的激活参数数量仅为QwQ-32B的10%,但表现更胜一筹,而像Qwen3-4B这样的小模型
通义千问团队宣布推出Qwen3,这是Qwen系列大型语言模型的最新成员。Qwen3系列模型在代码、数学和通用能力等基准测试中表现出色,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比,展现了极具竞争力的结果。其中,小型MoE模型Qwen3-30B-A3B的激活参数数量仅为QwQ-32B的10%,但表现更胜一筹,而像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。
此次,通义千问团队开源了两个MoE模型的权重:Qwen3-235B-A22B,一个拥有2350多亿总参数和220多亿激活参数的大模型;以及Qwen3-30B-A3B,一个拥有约300亿总参数和30亿激活参数的小型MoE模型。此外,六个Dense模型也已开源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,均在Apache2.0许可下开源。
Qwen3模型支持两种思考模式:思考模式和非思考模式。思考模式下,模型会逐步推理,经过深思熟虑后给出最终答案,适合复杂问题;非思考模式下,模型提供快速、近乎即时的响应,适用于简单问题。这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度,实现稳定且高效的“思考预算”控制能力。
Qwen3模型支持119种语言和方言,为国际应用开辟了新的可能性。在预训练方面,Qwen3的数据集相比Qwen2.5有了显著扩展,使用了约36万亿个token进行预训练,涵盖了119种语言和方言。预训练过程分为三个阶段,最终确保模型能够有效处理更长的输入。
为了开发能够同时具备思考推理和快速响应能力的混合模型,Qwen3实施了一个四阶段的训练流程,包括长思维链冷启动、长思维链强化学习、思维模式融合和通用强化学习。这一流程旨在为模型配备基本的推理能力,并进一步增强模型的通用能力。
Qwen3的发布和开源将极大地推动大型基础模型的研究与开发。通义千问团队的目标是为全球的研究人员、开发者和组织赋能,帮助他们利用这些前沿模型构建创新解决方案。
Qwen3现已在Hugging Face、ModelScope和Kaggle等平台上开放使用,用户可以轻松将其集成到研究、开发或生产环境中。
huggingface
https://huggingface.co/Qwen/Qwen3-235B-A22B
魔搭社区
https://modelscope.cn/models/Qwen/Qwen3-235B-A22B
Qwen Chat
https://chat.qwen.ai
阿里云百炼(即将上线,并提供100万tokens免费体验)
https://www.aliyun.com/product/tongyi
发表评论 取消回复