Midjourney操作界面

告别“扁平”AI!TesserAct 给AI装上4D大脑,让机器人真正看懂三维世界!

4.8
0热度

你是否注意到,那些让我们惊叹不已的AI虽然能写诗作画,却对我们生活的三维空间理解有限?当今大多数AI世界模型仍在二维平面中"思考",它们能识别照片中的猫咪,却难以理解物体在空间中的位置、形状与深度。这种"二维诅咒"严重限制了AI,特别是机器人在现实世界中的应用能力。来自UMass Amherst、HKUST和哈佛的研究团队带来了突破性解决方案——TesserAct,一个真正能够理解四维世界的AI模

你是否注意到,那些让我们惊叹不已的AI虽然能写诗作画,却对我们生活的三维空间理解有限?当今大多数AI世界模型仍在二维平面中"思考",它们能识别照片中的猫咪,却难以理解物体在空间中的位置、形状与深度。这种"二维诅咒"严重限制了AI,特别是机器人在现实世界中的应用能力。

来自UMass Amherst、HKUST和哈佛的研究团队带来了突破性解决方案——TesserAct,一个真正能够理解四维世界的AI模型。这个名称让人联想到《星际穿越》中的高维空间概念,而它的功能同样具有科幻色彩:赋予AI理解三维空间加时间维度的能力。

image.png

传统2D模型在机器人控制应用中面临诸多痛点。想象一个仅能理解平面图像的机器人尝试从冰箱取出牛奶时的窘境:它无法准确判断距离,不知如何调整抓取姿态,更无法对物体运动做出合理预测。这些问题对于需要与物理世界交互的具身智能而言是致命的。

TesserAct的创新在于它没有试图直接预测复杂的4D动态场景,而是选择了一种更高效的表示方法:预测未来的RGB-DN视频流。这一巧妙组合包含了常规彩色图像(RGB)、深度图(D)和法线图(N)。深度图告诉AI画面中每个点的距离,就像给它戴上3D眼镜;法线图则提供表面朝向信息,使AI能"触摸"物体表面的形状和纹理。这三种信息构成的视频流既包含了物体外观,又含有关键的3D几何信息,还捕捉了时间变化。

获取这类4D数据是一大挑战。研究团队采用"虚实结合"策略:在机器人仿真环境中生成大量带精确深度信息的数据,同时使用先进算法为真实机器人视频添加深度和法线标注,还补充了人类与物体交互的数据。这一创新数据集成为训练TesserAct的基础。

image.png

在模型架构上,团队没有从零开始,而是聪明地利用了预训练的CogVideoX文本到视频生成模型。他们对模型进行了巧妙改造:分别对RGB、深度和法线视频进行编码,设计了专门的"投影仪"处理这三种模态信息,同时扩展了输出端以预测完整的RGB-DN数据。这种方法最大限度地利用了预训练模型的知识,仅需在相对较小的4D数据集上微调。

TesserAct还创新性地开发了优化算法,将生成的"三视图"转化为连贯动态的4D场景。它利用法线图优化深度图,使用光流算法区分动态与静态区域,并引入时空连续性约束确保场景真实感。这套精巧的优化流程将预测出的RGB-DN视频流"缝合"成时空高度一致的4D表示。

image.png

在各项测试中,TesserAct表现出色。它在4D场景生成质量、新视角合成和跨平台泛化能力上均优于现有方法。最关键的是,基于TesserAct训练的机器人在各种操作任务中,成功率远超仅使用2D图像的方法,特别是在需要精确空间理解的任务上优势明显。

TesserAct的出现标志着AI世界模型研究的重要"升维"。它让我们看到了让AI真正理解三维动态世界的可能性。基于这种4D世界模型,未来机器人有望在复杂环境中灵活操作,通过"想象"未来场景做出智能决策,并从仿真训练无缝迁移到现实应用。

虽然研究仍有局限,但TesserAct无疑开启了通往更强大具身AI的大门。下次当你看到机器人笨拙地抓不起东西时,也许可以想:它缺的正是这样一个能理解四维世界的大脑!

论文地址:https://arxiv.org/pdf/2504.20995

点赞(0)

评论列表 共有 0 条评论

暂无评论
发表
评论
顶部