NavFoM是什么
NavFoM(Navigation Foundation Model)是银河通用联合北京大学、阿德莱德大学、浙江大学等团队发布的全球首个跨本体全域环视导航基座大模型。具备全场景支持能力,可同时适用于室内和室外环境,能在未见过的场景中实现零样本运行。NavFoM支持多种导航任务,如自然语言指令驱动的目标跟随和自主导航,能快速适配机器狗、轮式人形机器人、无人机、汽车等不同本体。核心技术包括TVI Tokens和BATS策略,建立了一个全新的通用范式:“视频流 + 文本指令 → 动作轨迹”,端到端地完成导航全过程。
NavFoM的主要功能
-
全场景支持:NavFoM能同时支持室内和室外场景,可在未见过的环境中实现零样本运行,无需额外的建图或数据采集,具有很强的环境适应性。
-
多任务支持:模型支持自然语言指令驱动的目标跟随和自主导航等不同细分导航任务,能根据不同的指令完成相应的导航动作。
-
跨本体适配:NavFoM可快速低成本适配机器狗、轮式人形、腿式人形、无人机、汽车等不同尺寸的异构本体,具有广泛的适用性。
-
技术创新:NavFoM采用TVI Tokens(Temporal-Viewpoint-Indexed Tokens)让模型理解时间与方向,以及BATS策略(Budget-Aware Token Sampling)让模型在算力受限下依然聪明,通过这些技术创新提升了模型的性能。
-
统一范式:NavFoM建立了一个全新的通用范式:“视频流 + 文本指令 → 动作轨迹”,不再依赖模块化拼接,而是端到端地完成“看到 — 理解 — 行动”的全过程,简化了导航流程。
-
数据集构建:NavFoM构建了庞大的跨任务数据集,包含约八百万条跨任务、跨本体的导航数据,以及四百万条开放问答数据,为模型的训练提供了丰富的数据支持。
NavFoM的技术原理
-
TVI Tokens(Temporal-Viewpoint-Indexed Tokens):通过时间与视角索引的标记,让模型能理解时间与方向,从而更好地处理动态环境中的导航任务。
-
BATS策略(Budget-Aware Token Sampling):在算力受限的情况下,通过预算感知的标记采样策略,确保模型依然能够高效运行,提升其在实际应用中的可行性。
-
端到端的通用范式:采用“视频流 + 文本指令 → 动作轨迹”的范式,将视觉输入、语言指令和动作输出整合到一个统一的框架中,实现从感知到行动的直接映射。
-
跨任务数据集:构建了包含约八百万条导航数据和四百万条开放问答数据的庞大跨任务数据集,为模型训练提供了丰富的多场景、多任务数据支持,提升模型的泛化能力。
NavFoM的项目地址
暂未公布相关地址
NavFoM的应用场景
-
机器人导航:在复杂环境中,如商场、机场等公共场所,机器人可以根据自然语言指令自主导航并跟随目标,实现高效的服务和引导功能。
-
自动驾驶:应用于汽车的自动驾驶系统,提升车辆在复杂路况下的自主决策和导航能力,增强自动驾驶的安全性和可靠性。
-
无人机导航:为无人机提供自主导航能力,使其能在复杂地形和环境中进行自主飞行和任务执行,如物流配送、环境监测等。
-
人形机器人:支持轮式人形、腿式人形等不同形态的人形机器人,使其能更好地适应各种环境,完成复杂的导航和交互任务。
-
开发应用模型:开发人员可以基于NavFoM作为基座,通过后训练进一步开发满足特定导航要求的应用模型,拓展其在不同领域的应用范围。