
为了解决“数据鸿沟”,VLA-AN 使用了一个混合数据集。
包含各种室内、室外场景的图片,也包含由导航指令、视觉问答、空间推理等任务构成的多模态数据(下方的饼图展示了数据组成)
如果只用无人机导航数据:模型可能会变成一个优秀的“飞行员”,但不是一个聪明的“任务理解者”。它可能飞得很稳,但无法理解“去第三个房间的白色椅子右边”这种需要空间推理和物体识别的复杂指令。
如果只用通用互联网图片数据:模型可能会认得猫猫狗狗、桌椅板凳,但它完全不知道从无人机的第一人称视角看世界是什么样子,也不知道该如何运动控制。
多模态数据的作用就是将不同形态的信息“对齐”到同一个语义空间中。
对于模型而言,RGB图像提供颜色纹理,深度图提供几何距离,语言指令提供任务目标,将这些信息融合,模型才能对环境和任务有更全面、更深刻的理解,从而做出精准的决策。
目标:将一个通用的语言模型,变成一个具备基本视觉理解能力的视觉-语言模型(VLM)
训练数据:主要使用上述的通用视觉-语言数据
达成效果:模型不再是“文盲”,它变成了一个能看懂图片、理解空间关系的“视觉专家”。此时,如果你问它问题,它能用文字回答你,但它还不知道如何控制无人机飞行。
目标:让上阶段培养的“视觉专家”学习无人机导航的专项技能
训练数据:主要使用无人机专属导航数据,并混合一部分通用数据以防遗忘基础能力
关键转变:
达成效果:模型能将语言指令和视觉场景转化为具体的飞行动作,现在能执行基本的导航任务。但面对非常复杂、需要长远规划的任务时,可能还会出错
目标:超越模仿,培养模型在复杂、未知环境中的主动决策和推理能力。
训练方法:强化学习(RL),特别是GRPO策略(deepseek-R1模型中使用到的强化学习算法)
达成效果:模型不再是机械地模仿数据,而是学会了“思考”。它能够为了长远的目标(如完成多步指令)而做出临时的局部决策(如先绕行),表现出强大的长时序任务能力和在陌生环境中的鲁棒性。
展示了模型训练的最终目标:在真实无人机上,根据自然语言指令(如“飞到放着衣服的椅子右边”),完成在复杂场景中的飞行导航。

这是LLM的“语言处理器”。它的任务是将人类输入的自然语言指令(如“飞到椅子右边”),拆分成模型能够处理的最小单元——Token(令牌/词元)。例如,“飞”、“到”、“椅子”、“右边”可能各自成为一个Token,同时还会添加一些特殊Token来表示句子的开始和结束。
经过Tokenizer处理,一段话就变成了一串数字ID,这串ID就是Language Token(语言令牌),可以输入给LLM理解。

2. 真机部署表现
平台:搭载Intel RealSense相机与Jetson Orin NX的微型无人机。
能力:
理解复杂指令(如“左转90度后向右飞向黄色柜子,找到钟表图标”),完成多步任务分解与执行。
在目标移动等动态场景中,通过重规划机制维持 90%+ 成功率。
推理效率:
7B模型解码速度 0.110 s/token,2B模型仅 0.032 s/token,满足实时需求。
采集真实场景视频,转换为高保真3D-GS模型并导入Unity引擎: Unity 是一款非常强大且流行的游戏引擎,能够高质量地渲染像3D-GS这样的复杂模型,创造出极其逼真的视觉环境。
为无人机AI创造了一个既安全(在电脑里训练,撞了也没损失)、又极其逼真(因为场景和现实几乎一样)的训练环境。
无人机AI在模拟器里学到的“飞行技巧”(比如如何识别一把真实的椅子、如何绕过一扇真实的门),就能更好地直接应用到真实世界中,从而极大地弥合了“虚拟”和“现实”之间的鸿沟。
本文作者:cc
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!