A man in a lab coat operates a control panel near a robotic arm and laptop displaying a 3D model.
A man in a lab coat operates a control panel near a robotic arm and laptop displaying a 3D model.
为敏捷机器人微调视觉语言模型(VLM) 为敏捷机器人微调视觉语言模型(VLM)

作者:Giorgio Manganini、Giulia Vilone、Mark Langtry、Prashanth Viswanath、Jim Gibbons和Paul Heraty

2025年9月24日

ADI如何减少数据依赖,加速模型开发进程

我们本应期待机器人已广泛普及于生活各处。但实际上,教会机器人执行基础任务的成本,往往高于硬件本身的价格。事实上,若将集成、操作人员培训、维护、网络安全及责任保险等成本纳入考量,机器人的总拥有成本(TCO)通常会比其标价高出50%至100%。1

每当想让机器人掌握新技能,或是优化它的现有功能时,你不得不在新的配置上投入成本。这一局限减缓了机器人的应用普及速度,尤其对“产品种类多、生产批量小”的行业影响显著。这也是为何我们常见机器人用于汽车车身制造,却鲜有用于定制化内饰生产的原因。

能像人类一样理解世界的机器人,不仅需要传感器与代码,更需具备跨模态的解读与推理能力。ADI正探索如何通过视觉语言模型(VLM)填补这一空白,目标是让机器人更高效地理解周边环境;更理想的情况是,即便在训练数据有限的条件下,也能助力机器人智能地执行任务。

攻克机器人领域的数据难题

在任何人工智能(AI)训练流程中,数据都是第一步。而机器人领域的计算机视觉任务,往往面临训练样本不足的问题。收集并标注新的大规模数据集不仅耗时,成本也十分高昂。

视觉语言模型(VLM)为这一难题提供了极具吸引力的解决方案:这类模型基于互联网级别的海量数据完成预训练,不仅能对从未接触过的任务展现出强大的零样本学习能力,还具备处理复杂多模态输入的能力。

在近期研究中,ADI位于爱尔兰利默里克的团队将VLM整合到机器人框架中,实现了以下功能:

  • 识别物体状态
  • 解读空间环境
  • 在任务执行之前验证内部状态

这种方法能让机器人借助视觉与文本线索进行上下文推理,同时提升机器人在不同任务间的灵活性与适应性。此外,这种方法减少了对僵化的预编程逻辑的依赖,使系统在应对环境变化时更具韧性。

无开销的微调方案

大模型面临的另一大挑战,是如何将模型适配到特定的应用场景中。为使通用型VLM符合目标机器人应用的需求,研究团队采用了参数高效微调(PEFT)技术,基于低秩适应(LoRA)方法。这种方法会冻结基础模型,仅对少量新增参数进行微调。结果表明,这种方法的准确度达到了与完整微调相近的水平,而计算与存储成本得到了大幅降低。

研究团队使用182张图像进行训练、102张图像进行测试,验证了PEFT在低数据场景下的有效性。如此一来,即便是计算资源或数据有限的机器人研发团队,也能轻松应用VLM。

PEFT还支持更快的实验迭代。通过最小化微调所需的参数规模,研究团队得以快速尝试不同的模型架构与任务配置,在无需承担高额训练成本的情况下,找到最优解决方案。

从真实测试中发现的核心洞见

尽管VLM在机器人领域的应用潜力已十分明确,但在真实场景落地过程中,仍暴露出若干挑战:

  • 空间推理:在杂乱或动态场景中,模型难以理解物体间的关联、因果逻辑及物理交互。
  • 提示词敏感性:与多数语言模型类似,VLM的输出结果差异显著。即便提示词仅存在细微措辞变化,也可能导致输出截然不同,因此需要精心设计提示词。
  • 集成复杂性:要想对模型进行定制化,需深入理解模型的架构,过程中既要添加任务专属提示信息,还需处理好多模态数据的对齐问题。

为解决这些问题,研究团队采用了更丰富的文本输入与提示词工程技术,通过优化提示词,引导模型输出更可靠的结果。例如,调整问题表述方式或补充背景信息后,物体检测精度与状态分类效果均得到提升。

另一项关键发现是“人类在环”(HITL)评估的重要性。在实时用户交互过程中,研究团队观察到模型对复杂细微查询的响应情况,不仅识别出模型在稳健性上的不足,也为迭代优化方案提供了依据。

迈向自然的人机交互

VLM的价值不止于提升视觉能力,更是推动机器人向更自然、更具交互性、更通用化发展的重要一步。这类模型还能处理视觉语言类任务,例如图像描述生成、视觉问答(VQA)与逻辑推理。与可解释性人工智能(XAI)原则相契合的是,VLM在感知与沟通两方面均堪称理想方案。

研究团队借助VLM开发的机器人智能体具备三大优势:

  1. 对新场景与动态环境的适应性更强
  2. 对大规模标注数据集或人工编写规则的依赖度降低
  3. 可通过自然语言提升沟通效率

研究团队将这些技术原则应用于人机交互场景,以优化用户体验。在这类场景中,机器人若能以人类语言解释自身的计划与行动,不仅有助于建立信任,还能提升易用性。操作人员可下达灵活的指令,并以自然语言接收机器人的反馈;在机器人做出行动之前,操作人员还能根据自身需求调整机器人的行动方案。

展望未来

研究团队的成果为推动可扩展、数据高效的机器人策略奠定了重要基础。

随着VLM的不断发展,研究团队看到了以下方面日益增长的潜力:

  • 将经过压缩和优化的模型部署到终端设备
  • 使用基于基准的评估,进行更清晰的安全评估
  • 将VLM与强化学习和传感器融合技术相结合,以获得更丰富的上下文理解

另一个潜在的未来方向是探索视觉-语言-行动(VLA)模型,VLA模型集成了行动、规划和执行,使机器人能够基于视觉感知和自然语言理解来决定并执行物理动作。VLA在单个系统中直接实现了“感知-理解-行动”的闭环,扩展了LLM/VLM在现实世界中执行任务的泛化能力。

ADI公司已经对其中一些模型进行了探索,并首次尝试在位于利默里克的ADI公司Catalyst™中心的真实机器人上进行测试。

结语

视觉语言模型将成为下一代机器人的核心基础,使得机器人系统不仅能通过更少的示例完成学习,还能以更直观的方式与人交互,在多样化任务中展现出类人水平的泛化能力。用户甚至有望让机器人按照用户自己的方法完成任务。


来源:

1机器人造价几何?2025年价格构成详析”,Standard Bots,2025年8月。