Midjourney操作界面

​清华与星动纪元联合开源首个 AIGC 机器人大模型 VPP

4.8
0热度

近日,星动纪元宣布,已与清华大学叉院的 ISRLab 合作,开源了首个 AIGC(生成式人工智能内容)机器人大模型 ——VPP(视频预测策略)。这一创新成果有望在机器人领域带来革命性的进展。VPP 模型通过将视频扩散模型的泛化能力引入到通用机器人操作策略中,解决了以往机器人推理速度慢的问题。VPP 能够实时预测未来动作,从而极大提升机器人的策略泛化能力。值得注意的是,这一模型已在国际机器学习大会(

近日,星动纪元宣布,已与清华大学叉院的 ISRLab 合作,开源了首个 AIGC(生成式人工智能内容)机器人大模型 ——VPP(视频预测策略)。这一创新成果有望在机器人领域带来革命性的进展。

QQ_1746605270503.png

VPP 模型通过将视频扩散模型的泛化能力引入到通用机器人操作策略中,解决了以往机器人推理速度慢的问题。VPP 能够实时预测未来动作,从而极大提升机器人的策略泛化能力。值得注意的是,这一模型已在国际机器学习大会(ICML2025)上获得 Spotlight 认可,展现出其研究的前沿性和重要性。

实时预测与高效执行

VPP 的一大亮点在于其预测能力。传统的机器人策略通常依赖于当前观测来进行动作学习,而 VPP 则能够提前 “预知” 未来的场景,从而在执行指令时显得更加从容。通过该模型,机器人的执行速度能够实现 “更快一步”,在仅需150毫秒的推理时间内,预测频率达到6-10Hz,控制频率更是超过50Hz,极大提升了动作执行的流畅性。

 跨本体学习的优势

在以往的模型中,不同类型机器人的数据难以融合,导致学习效率低下。而 VPP 能够直接利用多种形态机器人的视频数据进行学习,降低了对高质量真实数据的依赖。此外,VPP 还可通过学习人类动作数据,进一步提升模型的泛化能力。

 基准测试表现优异

在最近的 Calvin ABC-D 基准测试中,VPP 模型以4.33的任务完成平均长度接近满分5.0,展现出显著的性能优势。与之前的技术相比,VPP 提升幅度达41.5%。在真实世界的灵巧操作测试中,该模型在多任务学习和泛化能力上同样表现不俗,能完成超过100种复杂操作任务,显示出其在实际应用中的强大潜力。

VPP 模型的可解释性也是其一大亮点。开发者能够通过模型预测的视频提前识别潜在的失败场景,并进行针对性的调试与优化,相较于传统的端到端模型,这一优势使得开发过程更加高效。

项目地址:https://video-prediction-policy.github.io


点赞(0)

评论列表 共有 0 条评论

暂无评论
发表
评论
顶部