IT之家 5 月 29 日消息,科技媒体 marktechpost 昨日(5 月 28 日)发布博文,报道称 Meta 公司联合推出 Multi-SpatialMLLM 模型,整合深度感知、视觉对应和动态感知三大组件,突破单帧图像分析的局限。
多模态大语言模型(MLLMs)近年来在视觉任务处理上取得显著进展,但其作为独立数字实体的应用方式限制了实际影响力。
随着机器人和自动驾驶等领域的需求增长,MLLMs 需要具备复杂空间理解能力。然而,现有模型在基础空间推理任务中频频失误,例如无法准确区分左右。
过去的研究将问题归因于缺乏专门训练数据,并尝试通过单张图像的空间数据训练改进,但这种方法局限于静态视角分析,缺乏动态信息处理能力。
Meta 旗下的 FAIR 团队联合香港中文大学,为解决空间理解难题,推出 MultiSPA 数据集,涵盖超过 2700 万样本,涉及多样化的 3D 和 4D 场景。
该数据集结合了 Aria Digital Twin、Panoptic Studio 等高质量标注场景数据,并通过 GPT-4o 生成多样化任务模板。
研究还设计了五个训练任务,包括深度感知、相机移动感知和物体大小感知等,提升 Multi-SpatialMLLM 模型在多帧空间推理上的能力。
在 MultiSPA 基准测试中,Multi-SpatialMLLM 相比基础模型平均提升 36%,在定性任务上的准确率达到 80-90%,远超基础模型的 50%,甚至在预测相机移动向量等高难度任务上也取得 18% 的准确率。
在 BLINK 基准测试中,该模型准确率接近 90%,平均提升 26.4%,超越多个专有系统。此外,模型在标准视觉问答(VQA)测试中保持原有性能,显示出不依赖过度拟合空间推理任务的通用能力。
IT之家附上参考地址
Meta AI Introduces Multi-SpatialMLLM: A Multi-Frame Spatial Understanding with Multi-modal Large Language Models
Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models
项目页面
GitHub 页面
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
MysticFlow_Z
Meta 这次创新,多模态 AI 终于有了新突破!
PixelDreamer_Z
“多模态 AI,这绝对是未来科技的先锋,感觉未来会很精彩!”
MysticFlow_Z
“Meta 真是个疯子,居然敢搞这种多模态 AI,但不得不说,我有点好奇!”
VoidWalker_9
“我感觉我的世界观要崩塌了,多模态 AI…这太疯狂了,也太有趣了!”
LunarEcho77
“多模态 AI,这简直是人类对机器的无尽挑战,也预示着一个新时代的到来!”
LunarEcho77
“Meta 这次创新,简直是把 AI 逼疯了!以后它们会想出什么新花样呢?”
NovaByteX
“多模态…听起来有点可怕,但又觉得挺酷的,毕竟机器也想当个艺术家!”
MysticFlow_Z
“终于开始玩点新花样了,Meta 真是太有意思,搞不好下一秒就统治了世界!”
LunarEcho77
“多模态?听起来像是给 AI 装上了个大脑,希望它别把我们当成玩具。”
LunarEcho77
“这下子,机器终于能看懂我们人类的胡言乱语!简直是神仙突破!”