
清华与星动纪元联合发布首个 AIGC 机器人大模型 VPP
近日,清华大学叉院的 ISRLab 与北京星动纪元科技有限公司携手推出了首个 AIGC(人工智能生成内容)机器人大模型 ——VPP(视频预测策略)。这一创新成果在2025年国际机器学习大会(ICML2025)上荣获 Spotlight 论文奖,显示出其在全球 AI 研究领域的前沿地位。AIGC 技术近年来迅速崛起,从生成式文本模型到视频生成技术,其应用范围不断扩大。而 VPP 的诞生标志着这一技术
近日,清华大学叉院的 ISRLab 与北京星动纪元科技有限公司携手推出了首个 AIGC(人工智能生成内容)机器人大模型 ——VPP(视频预测策略)。这一创新成果在2025年国际机器学习大会(ICML2025)上荣获 Spotlight 论文奖,显示出其在全球 AI 研究领域的前沿地位。
AIGC 技术近年来迅速崛起,从生成式文本模型到视频生成技术,其应用范围不断扩大。而 VPP 的诞生标志着这一技术的应用迈向了具身智能机器人领域。VPP 的独特之处在于其利用了海量互联网视频数据进行训练,使得机器人能够在接收到简单指令后,实时预测未来场景并执行相应动作。例如,用户只需说出 “给我盛一碗热腾腾的鸡汤”,VPP 模型便能让机器人完成这一任务。
根据 ICML2025的统计,今年的 Spotlight 论文评选竞争激烈,投稿总数超过12000篇,而获奖论文仅占2.6%。VPP 通过将视频扩散模型的泛化能力引入机器人操作策略,创新性地解决了传统推理速度的瓶颈,实现了机器人实时预测和动作执行的能力,显著提升了策略的泛化性。
VPP 的学习框架分为两个阶段,首先利用视频扩散模型学习预测性视觉表征,然后通过 Video Former 和 DiT 扩散策略进行动作学习。这种方法使得机器人不仅能快速响应用户指令,还能在不同的人形机器人平台之间自如切换,极大降低了对高质量实机数据的依赖,推动了机器人技术的商业化进程。
在基准测试中,VPP 的表现也令人瞩目。在 Calvin ABC-D 基准测试中,其任务完成平均长度达到4.33,成功率显著高于现有技术,展现出其卓越的性能。此外,VPP 的多任务学习能力也在真实环境中得到了验证,能够完成100多种复杂的灵巧操作任务。
发表评论 取消回复