阶跃星辰发布全新多模态推理模型——Step-R1-V-Mini

AIbase基地

发布了 11569 文章

阶跃星辰科技团队宣布正式推出全新的多模态推理模型 Step-R1-V-Mini。这一模型的发布标志着在多模态协同推理领域的新突破，为AI技术的进一步发展注入了新的活力。Step-R1-V-Mini支持图文输入和文字输出，具备良好的指令遵循能力和通用性，能够高精度感知图像并完成复杂的推理任务。

Step-R1-V-Mini的训练方法在技术上进行了创新，采用了多模态联合强化学习，基于PPO（Proximal Policy Optimization）强化学习策略，在图像空间引入了verifiable reward机制。这一机制有效解决了图片空间推理链路复杂、容易产生混淆的相关和因果推理错误的问题。与DPO(Direct Preference Optimization)等方法相比，Step-R1-V-Mini在处理图像空间的复杂链路时更具泛化性和鲁棒性。

此外，为了充分利用多模态合成数据，阶跃星辰设计了大量基于环境反馈的多模态数据合成链路，合成了可规模化训练的多模态推理数据。通过基于PPO的强化学习训练，同步提升了模型的文本和视觉推理能力，有效避免了训练过程中的跷跷板问题。

在视觉推理领域的表现上，Step-R1-V-Mini取得了显著的成绩。在多个公开榜单中，Step-R1-V-Mini均表现亮眼，特别是在MathVision视觉推理榜单上位列国内第一。这表明该模型在视觉推理、数学逻辑和代码等方面具有优异的表现。

Step-R1-V-Mini的实际应用案例也展示了其强大的功能。例如，在“看图识地点”案例中，输入网友拍摄的温布利球场图片，Step-R1-V-Mini能够迅速识别图中元素，结合不同元素如颜色、物体（体育场、曼城队徽）等进行综合判断，准确推断出地点为温布利体育场，并给出了可能的对战双方。在“看图识菜谱”案例中，输入一张美食图，Step-R1-V-Mini能够精准识别菜品和蘸料，并详细列出具体用量，如“鲜虾300g、大葱白2根”等。在“物体数量计算”案例中，输入一张含有不同形状、颜色和位置的物体摆放图，Step-R1-V-Mini能够逐一识别，根据物体的颜色、形状和位置进行推理计算，最终得出剩下的物体数量。

Step-R1-V-Mini的发布为多模态推理领域带来了新的希望。该模型已正式上线阶跃AI网页端，并在阶跃星辰开放平台提供API接口，供开发者和研究人员体验和使用。阶跃星辰表示，Step-R1-V-Mini是他们在多模态推理方向的阶段性成果，未来将继续在推理模型方向进行探索，以推动AI技术的进一步发展。

阶跃AI 网页端:

https://yuewen.cn/chats/new

阶跃星辰开放平台:

https://platform.stepfun.com/docs/llm/reasoning