2026
“国产Lattice OS”
视觉制导技术解析
从'看见'到'命中'——天枢OS视觉制导技术解析
随着智能化战争迈入实战化、规模化博弈新阶段,无人作战装备已成为重塑现代战场规则、主导战术对抗胜负的核心力量,无人机更是凭借灵活机动、低成本、零人员伤亡的优势,成为高低烈度战场中不可或缺的核心打击载体。全球无人作战领域,美国Anduril公司依托Lattice OS无人智能操作系统,构建起全自主、可迭代、集群化的无人作战体系,牢牢占据全球无人智能装备的技术制高点,成为全球无人作战智能化、系统化发展的标杆。
立足国防装备自主可控、新质战斗力生成的国家战略需求,国内亟需一套对标国际顶尖水准、完全自主研发的无人智能操作系统,打破国外技术垄断,填补国产高端无人制导系统空白。在此背景下,北京卓翼智能科技有限公司(以下简称 “卓翼智能”)锚定打造 “中国的Anduril” 的发展愿景、树立构建 “国产Lattice OS” 的技术目标,自主研发出天枢OS。该系统为国产无人机实现从人工遥控到全自主智能作战的跨越,筑牢了核心底层技术支撑。
一、现代战场的“制导之困”
无人机已成为现代战场不可或缺的打击手段,但当前无人机打击体系正面临三个难以回避的瓶颈,在俄乌冲突等大规模高强度对抗中被反复验证和放大。
飞手生存率低
FPV自杀式无人机是目前战场上使用最广泛的低成本精确打击手段。飞手通过机载摄像头回传的第一人称视角画面操控无人机飞向目标,整个过程中飞手持续发射无线电遥控信号。电子侦察设备可对遥控信号进行频谱截获和三角定位,一旦飞手位置暴露,敌方炮火可在数分钟内完成火力覆盖。战场上已出现大量双方飞手因信号暴露被“定点清除”的案例。培养一名熟练FPV飞手需要数月时间,而摧毁他只需要一枚炮弹——这是一个不可持续的消耗方程式。
目标获取滞后
操作员通过第一人称视角飞行的窄视野画面判断目标位置,视野范围有限、信息维度单一,极易遗漏战场全局态势。发现疑似目标后,操作员需要人工判别真伪、手动操控无人机接近确认——这一系列操作以秒级延迟计。而现代战场上的高价值时敏目标,如海马斯火箭炮发射车,从停车发射到转移隐蔽通常只需三到五分钟。以秒级的发现延迟去打击分钟级转移的目标,窗口转瞬即逝。
制导链路脆弱
依赖GPS坐标的精确制导弹药,在电子战已成为标配的现代战场上,一旦进入GPS干扰区域即丧失精确打击能力,沦为“盲打”。而人在回路的遥控制导方案同样依赖持续通信链路——信号被干扰或压制,打击即告失败。通信延迟与人工反应延迟叠加之后,对高机动目标的脱靶率呈指数级上升。
这三个瓶颈指向同一个核心命题:让无人机从“被遥控”走向“自主看见→自主锁定→自主打击”。 这需要两件事同时成立——一套足够强的AI视觉感知能力,让无人机理解它正在看什么;以及一个足够可靠的控制系统,让算法能安全地转化为真实的飞行与打击动作。本文将沿着“感知”和“制导”两条技术线展开,并介绍赋予这两条线工程生命力的系统底座——天枢OS。
二、视觉感知:
无人机如何“看见”并“追踪”目标
视觉制导的第一步不是制导,而是“看见”。在GPS拒止、通信受阻的条件下,无人机唯一可靠的感知器官就是机载光学载荷。而要从原始图像中提取出可用的目标信息,需要AI检测、目标跟踪、空间解算三个环节紧密协作。
AI目标检测:
让机器理解画面中的“是什么”和“在哪里”
一张无人机航拍传回的画面,人眼看到的是一片地形、建筑、植被和移动的车辆。而AI目标检测算法需要做的事是在几百毫秒内,找出画面中每一个值得关注的目标,用边界框精确标定它的位置,并判断它属于哪一类——坦克、装甲车、发射车、还是无关的民用车辆。
以YOLO系列为代表的单阶段目标检测器,是当前在工程实用性上最成熟的方案。与传统的两阶段检测器不同,YOLO将目标检测建模为纯粹的回归问题:把输入图像划分为网格,每个网格同时预测多个边界框及其类别置信度——一次前向推理,定位和分类同时完成。这种“看图一次、答案全出”的设计哲学,使其在边缘设备上也能稳定跑到实时帧率,在速度与精度的平衡点上达到了工程实用级。
空中视角下的目标检测面临的挑战远比地面安防场景严峻:目标在画面中往往只有几十个像素大小,光照条件从正午烈阳到黄昏逆光剧烈变化,地面背景中建筑、植被、阴影交错混杂,加之战场环境下的伪装和烟尘遮挡——每一个变量都在挑战算法的鲁棒性边界。
将AI检测模型部署在机载边缘端处理,而非将视频传回地面站远程分析,这一架构选择带来了两个决定性优势。第一,消除了视频传输的带宽和压缩延迟——从采集到推理全程在机载共享内存中零拷贝传递,端到端延迟控制在毫秒级。第二,更重要的是,在通信中断的情况下,无人机依然能“用自己的眼睛和大脑”实时理解视野中的场景——感知能力不因链路状态而退化,这是“自主”二字的真正根基。
AI目标跟踪:
从“逐帧检测”到“持续锁定”
目标检测解决了“这一帧画面上有什么”,但战场不是静态画面,目标在移动,无人机自身也在高速飞行。只做逐帧检测而不做跨帧跟踪,会出现一个致命问题:无法区分“这是刚才看到的那辆发射车”和“这是另一辆发射车”——没有身份连续性,就无法形成对特定目标的持续锁定。
跟踪与检测的区别可以这样理解:检测是每一帧独立地回答“画面里有什么”,跟踪则是回答“上一帧标记的那个特定目标,这一帧跑到了什么位置”。前者无知、后者有记忆。
以ByteTrack为代表的现代多目标跟踪算法,采用了一种精巧而高效的关联策略。其核心逻辑是:并不是每一帧的检测结果都完美,偶尔会出现低置信度的“模糊”检测。传统做法会直接丢弃这些低置信度框以免引入误检,但ByteTrack的思路恰好相反——先把高置信度框与已有的跟踪轨迹做确定性匹配,匹配完成后,再将那些低置信度框与仍未匹配的轨迹尝试关联。这个“二次利用”的策略大幅降低了因某一帧检测质量波动而导致目标“跟丢”的概率。
从跟踪到“锁定”,算法的最终目标是将操作员指定的那一个特定目标持续保持在光电载荷的视野中心。这需要算法实时输出目标的像素坐标,并反馈给载荷控制系统形成伺服闭环,让目标始终稳定地出现在画面中——即“视觉锁定”状态。只有锁定了,后续的制导解算才有了输入基础。
从像素到坐标:
视觉感知的最终输出
视觉锁定给出了目标在画面中的像素位置,但制导算法需要的不是像素坐标,而是目标的真实三维空间位置——这个“世界坐标”在无人机常用的NED(北-东-地)坐标系下表达。
从“画面中的一个像素点”到“世界中的一个三维坐标”,这个过程称为目标空间解算。它需要融合多源信息:吊舱当前的方位和俯仰姿态角、激光测距仪返回的目标斜距值、以及无人机自身的GPS位置和IMU姿态。通过一系列坐标系转换(机体坐标系→吊舱坐标系→WGS84大地坐标系→局部NED坐标系),最终将目标定位到以无人机起飞点为原点的三维空间中。
一条完整的视觉感知管线至此成型:目标检测(发现)→ 目标跟踪(锁定)→ 空间解算(定位)。 这条管线在机载边缘端以每秒30帧的频率持续运行,实时为下游的制导模块输出目标的空间位置和运动速度——视觉制导的“感知层”工作到此结束,“制导层”即将登场。
三、视觉制导:
让无人机“追着目标飞”的数学原理
有了视觉感知提供的目标实时位置和速度,下一步的问题是:无人机应该怎样飞行,才能确保与目标相撞?这就是制导律要解决的核心问题。本文聚焦于经典且成熟的比例导引(Proportional Navigation, PN)算法。
基础概念:认识视线角(LOS)
在理解PN制导之前,需要先建立几个核心几何概念。这些概念不复杂,但每一处的物理含义都需要理解透彻。
视线(Line of Sight,简称LOS),是指攻击无人机与目标之间的空间连线。这根'线'是制导几何关系的核心轴线——所有的制导计算,本质上都是在描述和管理这根线的变化。
视线方位角σ(sigma),是LOS在水平面(N-E平面)上的投影与正北方向的夹角。它回答的问题是:目标相对于我,在水平面上偏左还是偏右?顺时针偏了多少度?
视线俯仰角ε(epsilon),是LOS与水平面之间的夹角。它回答的问题是:目标相对于我,在上面还是下面?上下偏了多少度?
视线角速率σ̇(sigma_dot)和ε̇(epsilon_dot),分别是LOS方位角和俯仰角随时间变化的速率。这两个量是PN制导中最核心的物理量。它们直接描述了“目标在视野中移动得有多快”——如果σ̇ 和ε̇ 都为零,意味着视线方向在空间中固定不变。而在三维空间的几何中,当两个物体沿着一条不旋转的视线相互接近时,它们最终必然相撞。这个几何事实是所有碰撞制导律的共同理论基础。
闭合速度v꜀,是攻击无人机与目标沿LOS方向的相对接近速度。正值表示正在接近,负值表示正在远离。
有了这些概念,PN制导的数学原理就可以自然地展开了。
PN比例导引的核心思想
比例导引的核心思想可以用一个球场上的直觉来理解:两名球员在球场上跑动,如果他们跑动中始终看到对方在自己视野的同一个方向(也就是LOS方向不变),那么无论两人的跑动轨迹如何曲折,他们最终一定会相撞。PN制导要做的本质工作就是——持续消除视线角速率,让LOS在空间中保持不旋转。
PN的核心公式极其简洁:
其中,acmd是制导律输出的法向加速度指令(垂直于LOS方向的加速度,用来“转动”速度方向)。N是导航比,它决定了制导的'激进程度',N越大则机动越猛、响应越快,但过大会导致振荡甚至失控。v꜀是闭合速度,反应了飞机与目标沿视线方向的相对接近速度。θ̇(可以是σ̇ 或ε̇ )是视线角速率,表征目标在视野中'移动的角速度'。
这个公式的含义直观而深刻:目标在视野中移动得越快(θ̇ 大)、飞机与目标彼此接近得越快(v꜀大),所需的法向机动加速度就越强。 PN本质上是一个比例控制器,输出量与“偏离碰撞航向的速率”成正比——偏离得越快,纠偏力度越大。这使其天然具备对运动目标的自适应能力:面对高速机动的目标,θ̇ 自然变大,PN自动输出更大的加速度来跟上;面对静止或低速目标,θ̇ 变小,PN自动收敛到一个经济的机动量。
在实际三维空间中,PN分别在方位方向和俯仰方向独立工作,产生两个正交的法向加速度分量:
(水平面内的法向加速度,负责纠正水平方向上的视线漂移)
(垂直面内的法向加速度,负责纠正垂直方向上的视线漂移)
这两个分量在LOS球坐标系下相互正交,经坐标变换后合成到NED直角坐标系中,给出最终的三轴加速度指令。
从加速度指令到飞行动作:
制导律的“最后一公里”
PN算法输出的是NED直角坐标系下的三轴加速度(an , ae, ad)——向正北加速多少、向正东加速多少、向地心加速多少。但飞控(PX4等无人机自动驾驶仪)接受的指令格式完全不同:它需要的是姿态角加推力——期望的滚转角(roll)、俯仰角(pitch)、偏航角(yaw)和油门(throttle)。从加速度到姿态,之间需要一道精确的数学映射。
映射的核心逻辑基于一个朴素的物理事实:旋翼无人机改变水平运动状态的唯一方式,就是倾斜机体,让螺旋桨的一部分推力分量指向水平方向。
水平通道映射:将NED加速度的水平分量按机头朝向投影到机体坐标系,分别得到“前向加速度”和“侧向加速度”。前向加速的需求由机身低头来实现——低头角度越大,螺旋桨在水平方向的分力越大;侧向加速的需求由机身侧倾来实现——右倾则右移。核心的约束关系是:需要向前加速多少对应多少度的低头角、需要侧向加速多少对应多少度的侧倾角,本质上都是通过重力与期望加速度的比值反解出对应的姿态角。
垂直通道映射:PN输出的垂直加速度不能直接换算为油门——开环映射下只要有模型偏差就会导致高度失控。工程上将垂直加速度叠加为期望的升降速度,再通过高度-速度PID闭环反算出油门值,用闭环的鲁棒性来吸收开环的不确定性。
航向通道:制导过程中无人机始终将机头指向目标,保持“看着目标飞”的姿态。这不仅让传感器持续对准目标不丢失,也让前向加速度方向和机头朝向一致——推力用来前进,不做多余的侧滑修正,能量利用效率最高。
四、天枢OS:
让制导算法从理论走向战场
前文所述的AI检测、目标跟踪、空间解算、PN制导——每一个环节都有成熟的理论支撑。但理论到战场之间横亘着一道巨大的工程鸿沟:这些算法如何在一个真实的无人机系统上可靠地集成、协同和运行?如何保证在通信降级、传感器异常、目标丢失等边界条件下系统不会崩溃?又如何让新算法能够快速部署而无需改动整个系统?这正是天枢OS作为无人机操作系统所解决的问题。
全栈数据流:
从“看见”到“命中”的宏观链路
在天枢OS中,视觉制导不是孤立的功能模块,而是一条从图像信号贯穿到飞行控制的精密管道:
机载相机采集 → AI目标检测 → AI目标跟踪 → 吊舱视觉锁定 → 目标空间解算(NED坐标)→ PN比例导引制导解算 → 加速度→姿态映射 → 飞控通信层 → 飞控执行 → 电机响应
这条管道的每一段之间通过标准化的ROS2话题接口解耦。检测模块将识别结果以结构化消息发布,制导模块订阅目标的空间坐标和速度,飞控通信层将姿态指令统一翻译为飞控协议下发。各模块独立开发、独立测试、独立迭代——更换检测模型不需要改动制导代码,替换制导律不需要重新标定飞控参数。整个链路从传感器输入图像到电机响应,端到端延迟控制在毫秒级。
行为树:
打击任务的“决策大脑”
一条制导公式要驱动一次成功的打击任务,还需要决策逻辑来调度流程。天枢OS采用行为树(Behavior Tree)框架——一种源自游戏AI和机器人领域的任务调度架构——来编排打击全流程。行为树将一次打击任务分解为四个阶段,以状态机驱动:
PREPARE(准备阶段):无人机首先完成航向对准——将机头转向目标方向;同时调整飞行高度。在识别出目标后,视觉自动锁定目标——随后进入下一阶段。
DIVE(俯冲制导阶段):视觉制导的核心阶段。每个控制周期内,从感知管线获取最新的目标NED坐标和速度,视线方位角/俯仰角及其角速率、闭合速度和相对距离。将这些观测量送入PN制导解算器,输出三轴加速度指令,经姿态映射后下发飞控执行。这个阶段持续运行直到撞击条件满足——三维距离低于设定阈值——则转入末端阶段。
TERMINAL(末端触发阶段):当判定已进入有效撞击距离后,触发武器通道信号,同时保持末态姿态确保撞击方向。这一阶段的设计前提是PN制导已将无人机精确引导至目标的极小范围内——末端的'最后一击'实际上在DIVE阶段已经完成了。
PAUSED(悬挂保护阶段):当视觉锁定丢失——比如目标突然被遮挡、进入阴影区、或者感知管线输出无效数据——系统不会盲目继续俯冲。而是立即切换为悬停模式,锁住当前位置等待。操作员通过地面站重新指定目标并恢复视觉锁定,可以重新进入打击流程。
行为树的一个重要特性是:整个打击流程的逻辑跳转(什么时候进入PREPARE、什么条件触发DIVE、丢失目标该怎么处理、什么情况下整体失败中止)以可视化蓝图的形式呈现——非代码人员也能直观地理解和审查任务决策逻辑。这在一个“系统行为需要被信任”的领域,价值远超技术本身。
快速迭代:
AI加速的算法开发闭环
战场上的对抗是动态博弈。对手会不断升级干扰手段、改变伪装策略和机动模式。这意味着——视觉感知模型需要持续更新以识别新目标类型,制导算法需要持续调优以适应新威胁特征,任务逻辑需要持续调整以应对新的战术想定。
天枢OS与传统“一次交付、终生不变”的无人机软件系统的根本区别在于,它围绕“算法可迭代”这个核心理念设计了整个开发体系。
三级开发入口:感知模型迭代——替换检测模型的权重文件即可切换识别能力,类别映射文件支持热更新,无需重启任何系统节点。制导算法迭代——参照例程demo节点的示范实现,新增一个节点用于编写制导律,只需要实现一个新的行为树子节点并在蓝图配置中注册,其余系统行为不受影响。
AI辅助开发工作流:方案设计与评审 → AI辅助编码实现新算法 → 拉烟测试快速验证 → 半实物仿真(HIL,软件在环+硬件在环联合)→ 仿真日志AI自动分析研判是否达成指标 → 如未达成则自动闭环迭代修复 → 验证通过后版本归档。这套工作流让制导方案从理论到在真实无人机飞控上闭环验证的周期,从天枢OS1时代的数周缩短到数天。
视觉制导落地不单单靠一个算法,而是一套集感知、规划、决策、控制于一体的底层系统。作为卓翼智能倾力打造的“国产Lattice OS”,天枢OS将所有环节标准化、模块化、可迭代化——当新的AI检测模型、新的制导算法、新的任务逻辑出现时,开发者不需要从零搭建全链路,而是在统一的系统框架下像更换零件一样接入新的模块,快速验证、快速部署。
从毫秒级AI视觉感知精准“看见”目标,到比例导引算法智能规划航线、精准“命中”目标,天枢OS完成的不仅是一次技术链路的闭环,更是国产无人作战体系从“跟跑”到“领跑”的关键跨越。在新质战斗力加速生成、国防装备智能化升级的战略背景下,卓翼智能将持续深耕无人智能核心技术,完善国产无人操作系统生态,持续迭代感知、制导、决策核心能力,赋能多场景、多品类无人装备实战应用,为我国低空经济高质量发展、智能化国防体系建设提供坚实的自主可控技术支撑,助力国产无人作战力量跻身全球领先行列