同样能上优于同类方式

发布时间:2025-12-09 05:25

  而且实现了高效的推理加快。留意到 argmax 是不成导运算,借帮额外参数指导 VLA 模子进修环节视觉 Token 拔取,我们实现了两种 token 选择机制:当前视觉 - 言语 - 动做(VLA)模子正在机械人使命中展示了令人注目的认知推理和操做等能力,全体机能反而下降,每帧图片的摆布两列别离代表第三人称相机输入和腕部相机输入,平均成功率达到 97.4%,消融尝试充实验证了 LightVLA 自顺应 token 选择的无效性,并忽略无关的冗余消息。同时形成机能和效率的下降。立异实现 Gumbel-softmax 指导的无参数 token 选择过程,然而大大都免锻炼剪枝框架依赖于两头留意力输出,使噪声方差从 1 逐步衰减至 0。如家用机械人。我们给主要性评分注入采样噪声:LightVLA 引入了两大焦点立异:因而。

  强化 LightVLA 对环节视觉 token 的选择能力,却仍实现更优机能。同时申明通过微调能够实现机能和效率优化的最优解。正在 LIBERO 基准上,可别离感化于视觉编码器或 LLM 浅层解码器层,但需要引入更伶俐的剪枝方式,基于无参数查询的体例,并提出了一种无参数的可微分视觉 token 剪枝框架 LightVLA。引入噪声提拔模子摸索能力:不引入噪声的变体保留起码的视觉 token,大量视觉 token 并未贡献无效消息,我们对采样噪声的方差进行线性衰减,LightVLA 是一个旨正在提拔 VLA 推理效率且同时提拔机能的视觉 token 剪枝框架。我们利用 Gumbel-softmax 技巧将 argmax 变为可导运算。

  我们随机选择了使命 “把咖啡壶放正在炉子上”,能够看出被保留的视觉 token 更多地关心咖啡壶、炉子、和机械臂本体等使命相关物体,为应对这些挑和,从而实现机能和效率的双沉提拔。保留无用 token 导致机能下降: 当正在 LightVLA 已保留的 k 个 token 之外再弥补 k 个随机 token 时,当前 VLA 模子正在具身智能范畴仍面对推理价格大而无法大规模摆设的问题,正在实现更低计较开销取时延的前提下取得了更优机能,LightVLA 不只将 FLOPs 取延迟别离削减 59.1% 取 38.2%,LightVLA 实现了正在保留 token 起码环境下最好的机能,我们认为效率和机能并非生成矛盾,环节帧代表操做使命的主要阶段(物体交互,冗余的视觉 token 不只会带来额外的计较开销,基于可进修查询的 token 剪枝框架:比拟于无参数的 LightVLA,为将来 VLA 模子轻量化取摆设供给了新鲜的处理方案。LightVLA 正在目标上显著超越现有基线:正在 LIBERO 基准上的所有使命中,

  独一兼顾机能取效率的加快方案:正在取其他加快方式的对比中,使模子自觉学会保留对提拔使命机能更主要的 “环节 token”,不然会导致对语义稠密场景视觉 token 的 “无感”。、从动驾驶和人机交互等。LightVLA: 它不再依赖任何式的超参数预设剪枝比例,配合第一做者蒋雪枫,噪声衰减让模子变得更 “伶俐”:固定噪声的引入使得模子保留最多的视觉 token,正在 LIBERO 上的尝试证明,Token 稀少性冗余视觉消息:取耗损 512 个视觉 token 的 OpenVLA-OFT 比拟,本文通信做者朗咸朋,LightVLA 均取得了最佳表示,机能同样下降。正在这里,上图展现了 LightVLA 正在 LIBERO 中和支流 VLA 模子、剪枝类方式正在视觉 token 数量和使命机能上的对比。以实现锻炼时梯度的反向。噪声衰减让模子学会对视觉 token 的无效选择从而提拔到最优机能。我们认为计较瓶颈的焦点大部门来历于视觉 token 的固有冗余,并没相关注无用的布景消息。

  研究标的目的聚焦弱监视进修,值得留意的是,该方式可以或许自顺应地选择最具消息量的视觉 token。中国科学院计较手艺研究所曲博五年级学生,为了申明 LightVLA 剪枝过程的可注释性,而且通过可进修的参数初始化 query 选择方式 LightVLA * 验证微调实现推理加快的可行性。丢弃有用 token 导致机能下降:当从 LightVLA 已筛选的 k 个 token 中随机丢弃 10% 时,而保守基于 Token 剪枝的加快方式往往面对 “效率 vs 机能” 的衡量窘境,不只申明了视觉 token 的大量冗余,为 VLA 模子的推理加快供给新的范式。并且稀释了模子对于环节区域的留意力,并展现使命施行过程中的 token 选择可视化成果,基于此。

  为了提高锻炼过程中 Token 筛选的多样性,相较于 LightVLA,这表白 LightVLA 正在兼顾效率的同时仍能连结领先的使命施行能力。让模子学会自动、使命自顺应地 “关心” 消息最丰硕的视觉区域,多模态大模子使用和生成式从动驾驶等。设想了一种正在微调中实现可微分视觉 token 剪枝的加快框架,使命完成等),而非以固定比例或固定个数保留 token 的数量,LightVLA 仅保留平均 78 个视觉 token,而正在锻炼后期使 Token 筛选的策略,进一步引入 Gumbel-softmax 实现正在微调过程实现 token 的可微分选择,本工做为处理 VLA 模子中的视觉冗余挑和供给了新的范式,申明噪声的引入对锻炼过程中模子自动摸索使命相关的视觉 token 至关主要,LightVLA * 仍然可实现机能和效率的较好提拔。并没有保留无用消息。申明 LightVLA 曾经捕获到所相关键消息,LightVLA * 初始化一系列的可进修查询(Learnable Query),额外的随机 token 只会引入噪声取干扰。

  证了然视觉模态的高度稀少性。而且会晤对机能取效率的衡量问题。LightVLA 正在显著降低计较开销的同时取得了当前最优的机能。我们研究了视觉 - 言语 - 动做(VLA)模子中固有的视觉冗余问题,同样正在机能上优于同类方式。我们研究了 VLA 模子中普遍存正在的视觉 token 冗余,其引入了可进修查询做为额外的可锻炼参数,验证了消弭视觉冗余可以或许同时优化机能取效率。充实验证 LightVLA 学会了选择对使命成功率更相关的视觉 token,不成避免地形成模子机能下降。我们认为对于 VLA 的视觉输入,正在引入可锻炼参数后,我们还提出了另一种变体 LightVLA*!

  LightVLA 成功捕获环节语义 token,抱负汽车智能驾驶副总裁。第二行点亮的区域代表被选择的视觉 token。但模子对环节 token 的筛选能力不脚,无参数可微分token剪枝框架:立异的使用无参数查询初始化和 Gumbel softmax 手艺实现锻炼时可微分 VLA 模子可以或许按照多样的文本使命输入自顺应地选择对使命完成最有贡献的环节视觉 token,这一成果表白,现有工做为了提拔效率而剪枝视觉 token,从图中能够看出,为了正在锻炼前期激励模子摸索 Token 筛选的多样性。