GigaBrain-0 – 开源VLA具身模型,基于世界模型生成的数据
# AI工具,# AI项目和框架 AI视频

GigaBrain-0 – 开源VLA具身模型,基于世界模型生成的数据

AI中国 AI中国 6 hours ago 104 阅读
4.8 (1280评分)

GigaBrain-0是什么

GigaBrain-0 是新型的视觉-语言-行动(VLA)基础模型,由世界模型生成的数据驱动。模型通过大规模生成多样化数据,减少了对真实机器人数据的依赖,显著提升了跨任务泛化能力。采用 RGB-D 输入建模,增强了空间感知能力,通过具身思维链(Embodied CoT)监督,强化了模型在任务执行中的推理能力。使得 GigaBrain-0 在真实世界中的灵巧操作、长时程任务和移动操作任务中表现出色。GigaBrain-0 在外观、物体摆放位置和相机视角变化等场景下展现出优异的泛化能力。为适应边缘平台,推出了轻量级版本 GigaBrain-0-Small,实现在 NVIDIA Jetson AGX Orin 等设备上的高效运行。

GigaBrain-0

GigaBrain-0的主要功能

  • 数据生成与依赖降低:利用世界模型生成多样化数据,如视频生成、Real2Real迁移、人类迁移等,减少对真实机器人数据的依赖,提升模型泛化能力。
  • RGB-D输入与空间感知:通过RGB-D输入增强空间感知能力,使模型能够更精准地感知物体的3D位置和空间布局,提升操作精度。
  • 具身思维链监督与推理能力:在训练过程中生成中间推理步骤,如操作轨迹、子目标规划等,模拟人类思考过程,增强对复杂任务的推理能力。
  • 任务成功率与泛化能力:在多种任务中,如衣物折叠、整理餐桌、搬运箱子等,展现出高成功率和强泛化能力,能适应外观、物体摆放位置及相机视角变化等场景。
  • 轻量级版本与边缘平台适配:推出GigaBrain-0-Small轻量级版本,专为NVIDIA Jetson AGX Orin等边缘平台设计,实现高效推理,满足实际部署需求。

GigaBrain-0的技术原理

  • 世界模型驱动:通过世界模型生成大规模多样化数据,减少对真实机器人数据的依赖,提升模型的泛化能力。
  • RGB-D输入建模:利用RGB-D输入增强空间感知能力,使模型能更精准地感知物体的3D位置和空间布局。
  • 具身思维链监督:在训练过程中生成中间推理步骤,如操作轨迹、子目标规划等,模拟人类的思考过程,增强对复杂任务的推理能力。
  • 知识隔离:在训练中采用知识隔离技术,防止动作预测和具身思维链生成的优化过程相互干扰,提高模型的稳定性和性能。
  • 强化学习与世界模型结合:未来可将世界模型整合为强化学习的交互式策略环境,减少真实世界试错需求,提升学习效率。
  • 世界模型作为策略生成器:世界模型有望学习物理动力学与任务结构的通用表征,进化为“主动策略生成器”,直接提出可行的动作序列或子目标。
  • 闭环自改进循环:通过VLA策略与世界模型的闭环自改进循环,真实世界轨迹持续优化世界模型,而世界模型又生成更优质的训练数据,推动自主、终身学习机器人系统的发展。

GigaBrain-0的项目地址

  • 项目官网:https://gigabrain0.github.io/
  • Github仓库:https://github.com/open-gigaai/giga-brain-0
  • HuggingFace模型库:https://huggingface.co/open-gigaai
  • arXiv技术论文:https://arxiv.org/pdf/2510.19430

GigaBrain-0的应用场景

  • 灵巧操作任务:如叠衣服、准备纸巾等,GigaBrain-0能精准地完成操作,并且在不同纹理、颜色的衣物上表现出良好的泛化能力。
  • 长时程任务:如清理餐桌、制作果汁等,模型能进行精细、按时间顺序的规划,完成复杂的长时程任务。
  • 移动操作任务:如搬运箱子、搬运洗衣篮等,GigaBrain-0能结合全局导航与局部操作策略,实现移动与交互的无缝过渡。
  • 边缘平台部署:GigaBrain-0-Small轻量级版本专为NVIDIA Jetson AGX Orin等边缘平台设计,满足实际部署需求,实现在资源受限设备上的高效运行。

评分

4.8 (1280 人评分)

Comment (0)

睡觉动画