AI热点 9 months ago • 222 Views • 0 Comments

QwenLong-L1-32B 模型登场：阿里通义千问首个强化学习训练的长文本推理 AI 模型

Published 1221 Articles

Claude APP

Claude APP

0 seconds ago

HuggingFace

HuggingFace

0 seconds ago

IT之家 5 月 27 日消息，阿里通义千问 Qwen 团队昨日（5 月 26 日）发布 QwenLong-L1-32B 模型，是其首个通过强化学习训练的长文本情境推理模型（LRM）。

在七个长文本 DocQA 基准测试中，表现超越 o3-mini 和 Qwen3-235B-A22B 等旗舰模型，与 Claude-3.7-Sonnet-Thinking 相当。

QwenLong-L1-32B 模型最大的亮点，在于上下文窗口最高支持 131072 个 tokens。该模型基于 QwenLong-L1 框架开发，采用了先进的 GRPO（Group Relative Policy Optimization）和 DAPO（Direct Alignment Policy Optimizatio）算法，结合基于规则和基于模型的混合奖励函数，显著提升了模型在长上下文推理中的准确性和效率。

具体而言，团队在监督微调（SFT）阶段建立一个稳健的初始策略，随后采用课程引导的分阶段强化学习技术来稳定策略演变，并结合难度感知的回顾采样策略来激励策略探索。

除了模型本身，阿里还发布了一套针对长文本推理问题的完整解决方案。该方案包含四个核心组件: 高性能的 QwenLong-L1-32B 模型、专门优化的训练数据集、创新的强化学习训练方法，以及全面的性能评估体系。

IT之家附上参考地址

GitHub
Huggingface
QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

1221 Articles 178813 Views 5638 Fans

Comment (0)

Chapter

1. GPT-4简介与注册指南

1.1 账号注册步骤

Recommended Articles

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

3 months ago • AI热点

用户破8亿！GPT-5.1来了，表情包含量可自定义

用户破8亿！GPT-5.1来了，表情包含量可自定义

3 months ago • AI热点

发布即开放：百度猎户座葫芦里卖的什么药？

发布即开放：百度猎户座葫芦里卖的什么药？

3 months ago • AI热点

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

3 months ago • AI热点

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

3 months ago • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0 seconds ago • AI热点

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

3 months ago • AI热点

小鹏物理AI的尽头，是马斯克的现金流

小鹏物理AI的尽头，是马斯克的现金流

3 months ago • AI热点

Popular Tags

PromptAI 火山引擎豆包大模型 ai-chat Runway 开源文本大模型广告素材 Keyshot UIBench 华为FreeClip2 中国乳业

Popular Authors

AI中国

AI中国

11569 Articles 95.03万 Followers

钛媒体APP

钛媒体APP

1489 Articles 0 Followers

IT之家

IT之家

1221 Articles 5.64K Followers

人人都是产品经理

人人都是产品经理

1210 Articles 5.87万 Followers

AIbase基地

AIbase基地

1093 Articles 9.63万 Followers