论文库

论文检索

搜索论文库

用中文界面检索机器人论文、作者、会议与标签，快速定位你关心的研究方向。

论文

arXiv

Mar 19, 2026

生成模型了解空间：释放隐式三维先验用于场景理解

尽管多模态大语言模型展现出令人瞩目的语义能力，它们却常受空间失明困扰，难以处理细粒度几何推理与物理动态。现有方法通常依赖显式3D模态或复杂几何支架，受限于数据稀缺与泛化挑战。本文提出范式转变，利用大规模视频生成模型内隐的空间先验。我们认为，为合成时序一致的视频，这些模型固需习得鲁棒的三维结构先验与物理规律。为此，我们引入VEGA-3D（Video Extracted Generative Awareness），一个即插即用框架，将预训练视频扩散模型重用于潜在世界模拟器。通过从中层噪声级提取时空特征，并以令牌级自适应门控融合机制将其与语义表征整合，我们在无需显式3D监督的情况下为MLLM注入密集几何线索。在3D场景理解、空间推理与具身操控基准上的广泛实验表明，本方法优于现有最佳基线，验证生成先验为物理世界理解提供可扩展基础。代码公开于https://github.com/H-EmbodVis/VEGA-3D。

Xianjin Wu, Dingkang Liang, Tianrui Feng, Kui Xia, Yumeng Zhang, Xiaofan Li, Xiao Tan, Xiang Bai

相关标签

操作

论文

arXiv

Mar 19, 2026

并非所有特征生而平等：视觉-语言-动作模型的机制研究

视觉-语言-动作（VLA）模型将感知、语言与运动控制集成于单一架构，但它们如何将多模态输入转化为动作仍不清楚。我们在跨越80M–7B参数的六个模型上，结合激活注入、稀疏自编码器（SAE）与线性探针，分析了394,000+条 rollout episodes 和四个基准。视觉通路在所有架构中主导动作生成：在空提示 episode 中注入基线激活可恢复几乎相同的行为，而跨任务注入能将机器人引导至源任务位置（99.8%的X-VLA episode 与源轨迹对齐），揭示与场景坐标绑定而非抽象任务表征的空间受限运动程序。语言敏感性取决于任务结构而非模型设计：当视觉上下文唯一指定任务时，语言被忽略；当同一场景存在多个目标时，语言变得关键（X-VLA libero_goal：正确提示94%→错误提示10%，而libero_object始终60–100%）。在三条多通路架构（PizHalf、SmolVLA、GR00T）中，专家通路编码运动程序，VLM通路编码目标语义（专家注入行为偏移达2倍），子空间注入证实二者占据可分离的激活子空间。对大多数架构，逐token SAE处理对动作保真至关重要，而X-VLA上均值池化反而提升保真。对比识别恢复82+操作概念，因果消融显示零效应率敏感区间为28–92%，与表征宽度无关。我们发布Action Atlas（https://action-atlas.com）供交互式探索全部六个模型的VLA表征。

Bryce Grant, Xijia Zhao, Peng Wang

相关标签

操作

论文

arXiv

Mar 19, 2026

MonoArt：用于单目铰接三维重建的渐进式结构推理

从单张图像重建关节式三维物体需要从有限的视觉证据中联合推断物体几何、部件结构和运动参数。关键难点在于运动线索与物体结构之间的纠缠，直接回归关节参数不稳定。现有方法通过多视图监督、基于检索的装配或辅助视频生成应对，常牺牲可扩展性或效率。我们提出MonoArt，一个基于渐进结构推理的统一框架。该框架不直接从图像特征预测关节，而是在单一架构内将视觉观测逐步转化为规范几何、结构化部件表征和运动感知嵌入。这一结构化推理过程无需外部运动模板或多阶段流水线即可实现稳定且可解释的关节推断。在PartNet-Mobility上的大量实验表明，MonoArt在重建精度和推理速度上均达最新最高水平，并进一步泛化到机器人操作与关节场景重建。

Haitian Li, Haozhe Xie, Junxiang Xu, Beichen Wen, Fangzhou Hong, Ziwei Liu

相关标签

操作

论文

arXiv

Mar 19, 2026

NavTrust：具身导航可信度基准测试

具身导航主要分为两大类：视觉-语言导航（VLN），智能体依照自然语言指令行进；以及目标-物体导航（OGN），智能体前往指定目标物体。然而，现有研究主要在理想条件下评估模型性能，忽略了现实环境中可能出现的损坏。为填补这一空白，我们提出 NavTrust，一个统一基准，在真实场景中对 RGB、深度和指令等输入模态进行系统性损坏，并评估其对导航性能的影响。据我们所知，NavTrust 是首个在统一框架下让具身导航智能体同时面对多样化 RGB-深度损坏与指令变异的基准。我们对七种最先进方法的广泛评估显示，在真实损坏下性能显著下降，揭示关键的鲁棒性缺口，并为构建更可信赖的具身导航系统提供路线图。此外，我们系统评估了四种不同的缓解策略，以增强对 RGB-深度与指令损坏的鲁棒性。我们的基线模型包括 Uni-NaVid 和 ETPNav，我们将其部署在真实移动机器人上，观察到对损坏的鲁棒性得到提升。项目网站：https://navtrust.github.io

Huaide Jiang, Yash Chaudhary, Yuping Wang, Zehao Wang, Raghav Sharma, Manan Mehta, Yang Zhou, Lichao Sun, Zhiwen Fan, Zhengzhong Tu, Jiachen Li

相关标签

论文

arXiv

Mar 19, 2026

DriveTok：用于统一多视角重建与理解的3D驾驶场景标记化

随着视觉-语言-动作模型和世界模型在自动驾驶系统中的广泛采用，可扩展的图像标记化成为视觉模态接口的关键。然而，现有标记器多为单目2D场景设计，应用于高分辨率多视角驾驶场景时效率低下且视角间不一致。为此，我们提出DriveTok，一种高效的3D驾驶场景标记器，实现统一的多视角重建与理解。DriveTok首先从视觉基础模型获取语义丰富的视觉特征，再通过3D可变形交叉注意力将其转化为场景标记。解码阶段，采用多视角Transformer从场景标记重建多视角特征，并以多头结构输出RGB、深度和语义重建。此外，直接在场景标记上接入3D头进行3D语义占位预测，增强空间感知。借助多重训练目标，DriveTok学习融合语义、几何与纹理信息的统一场景标记，实现高效多视角标记化。在nuScenes数据集的广泛实验表明，DriveTok生成的场景标记在图像重建、语义分割、深度预测和3D占位预测任务中表现优异。

Dong Zhuo, Wenzhao Zheng, Sicheng Zuo, Siming Yan, Lu Hou, Jie Zhou, Jiwen Lu

相关标签

世界模型

论文

arXiv

Mar 19, 2026

钓鱼检测中的鲁棒性、成本与攻击面集中

基于人工设计网站特征构建的钓鱼检测器在独立同分布评估下可达到近乎完美的准确率，但部署安全性取决于对部署后特征操纵的鲁棒性。我们通过一个考虑成本的逃逸框架研究这一差距，该框架在显式攻击者预算下对离散、单调的特征编辑进行建模。引入三种诊断指标：最小逃逸成本（MEC）、逃逸存活率 $S(B)$ 以及鲁棒性集中指数（RCI）。在 UCI 钓鱼网站基准（11,055 个实例，30 个三值特征）上，逻辑回归、随机森林、梯度提升树和 XGBoost 在静态评估下均实现 $\mathrm{AUC}\ge 0.979$。在预算化的“净化式”逃逸下，鲁棒性在不同架构间趋于一致：完整特征下中位 MEC 为 2，且超过 80% 的成功最小成本逃逸集中在三个低成本表层特征上。仅当特征限制移除所有主导低成本转移时，鲁棒性才得提升。在严格成本计划下，面向基础设施的特征集对集成模型呈现 17–19% 的不可行质量，而可逃逸实例的中位 MEC 保持不变。我们将此收敛形式化：若正确检测的钓鱼实例中有正比例可通过成本为最小值 $c_{\min}$ 的单一特征转移实现逃逸，则任何分类器在不修改特征表示或成本模型的情况下，都无法将对应 MEC 分位数提升至 $c_{\min}$ 以上。钓鱼检测中的对抗鲁棒性由特征经济学而非模型复杂度所支配。

Julian Allagan, Mohamed Elbakary, Zohreh Safari, Weizheng Gao, Gabrielle Morgan, Essence Morgan, Vladimir Deriglazov

相关标签

操作

论文

arXiv

Mar 19, 2026

OmniVTA：面向接触丰富机器人操作的视觉-触觉世界建模

接触密集的操控任务，如擦拭和装配，需要准确感知接触力、摩擦变化及状态转换，这些无法仅凭视觉可靠推断。尽管视-触觉融合操控日益受到关注，进展仍受两大持续限制：现有数据集规模小、任务覆盖窄，且当前方法将触觉信号视为被动观测，而非用于显式建模接触动力学或实现闭环控制。本文提出\textbf{OmniViTac}，一个大规模视-触觉-动作数据集，包含21,000+条轨迹，涵盖86项任务、100+个物体，按六种具物理基础的交互模式组织。基于此数据集，我们提出\textbf{OmniVTA}，一种基于世界模型的视-触觉操控框架，整合四个紧密耦合模块：自监督触觉编码器、双流视-触觉世界模型用于预测短程接触演化、接触感知融合策略生成动作，以及60Hz反射控制器在闭环中修正预测与实测触觉信号的偏差。覆盖全部六大交互类别的真机实验表明，OmniVTA优于现有方法，并能泛化到未见物体与几何构型，证实将预测性接触建模与高频率触觉反馈结合对接触密集操控的价值。所有数据、模型与代码将在项目网站https://mrsecant.github.io/OmniVTA公开。

Yuhang Zheng, Songen Gu, Weize Li, Yupeng Zheng, Yujie Zang, Shuai Tian, Xiang Li, Ruihai Wu, Ce Hao, Chen Gao, Si Liu, Haoran Li, Yilun Chen, Shuicheng Yan, Wenchao Ding

相关标签

世界模型操作

论文

arXiv

Mar 19, 2026

FASTER：重新思考实时流量视觉-语言-动作模型

实时执行对于在现实世界中部署视觉-语言-动作（VLA）模型至关重要。现有的异步推理方法主要优化轨迹平滑性，却忽视了对环境变化做出反应的关键延迟。本文通过重新思考动作分块策略中的反应概念，系统分析了决定反应时间的因素。我们表明，反应时间服从由首次动作时间（TTFA）与执行视界共同决定的均匀分布。此外，我们发现，在基于流的VLA中采用恒定时间表的常规做法效率低下，迫使系统必须完成全部采样步骤后才能开始任何运动，成为反应延迟的瓶颈。为此，我们提出快速动作采样以实现即时反应（FASTER）。通过引入视界感知时间表，FASTER在流采样中自适应地优先处理近期动作，将即时反应的去噪过程（例如在π₀.₅和X-VLA中）压缩十倍至单步，同时保持长视界轨迹的质量。结合流式客户端-服务器管道，FASTER在真实机器人上显著降低了有效反应延迟，尤其在消费级GPU部署时表现突出。包括高度动态的乒乓球任务在内的真实实验表明，FASTER为通用策略带来前所未有的实时响应能力，能够迅速生成准确且平滑的轨迹。

Yuxiang Lu, Zhe Liu, Xianzhe Fan, Zhenya Yang, Jinghua Hou, Junyi Li, Kaixin Ding, Hengshuang Zhao

相关标签

论文

arXiv

Mar 19, 2026

稀疏自编码器在VLA模型中揭示可解释且可操控的特征

视觉-语言-动作（VLA）模型已成为通用机器人操作的有前景方法。然而，它们的泛化并不一致：尽管这些模型在某些环境中表现令人印象深刻，但经过微调的变体往往在新对象、场景和指令上失败。我们应用机制可解释性技术以更好地理解VLA模型的内部工作机制。为了探测内部表征，我们在VLA的隐藏层激活上训练稀疏自编码器（SAE）。SAE学习一个稀疏字典，其特征作为模型计算的紧凑、可解释基。我们发现，绝大多数提取的SAE特征对应于特定训练演示中的记忆序列。然而，一些特征对应于可解释、通用且可操控的运动原语和语义属性，为VLA的可泛化性提供了有前景的一瞥。我们提出一种指标，根据特征是代表可泛化的可迁移原语还是特定情节的记忆来分类特征。我们通过在LIBERO基准上的操控实验验证这些发现。我们表明，单个SAE特征会因果影响机器人行为。操控通用特征会引发与其语义意义一致的行为，并可跨任务和场景应用。这项工作首次提供了VLA能够跨任务和场景学习可泛化特征的机制证据。我们观察到，在小规模机器人数据集上的监督微调不成比例地放大了记忆。相比之下，在更大、更多样的数据集（如DROID）上训练或使用知识隔离促进了更通用的特征。我们提供开源代码库和用户友好的界面，用于激活收集、SAE训练和特征操控。我们的项目页面位于http://drvla.github.io

Aiden Swann, Lachlain McGranahan, Hugo Buurmeijer, Monroe Kennedy, Mac Schwager

相关标签

操作

论文

arXiv

Mar 19, 2026

基于ADMM的分布式模型预测控制结合控制障碍函数实现安全的多机器人四足运动

本文提出了一种面向多机器人足式系统的全分布式模型预测控制（MPC）框架，该框架引入控制屏障函数（CBF）约束以实现安全关键轨迹规划。CBF约束的引入带来了显式的智能体间耦合，使得所得最优控制问题无法直接分解。为应对这一挑战，我们采用基于交替方向乘子法（ADMM）的结构化分布式优化框架，对集中式安全关键MPC问题进行重构。通过引入具有共识约束的新型节点-边分裂公式，所提方法将全局问题分解为可并行求解的独立节点局部和边局部二次规划，仅需邻居间通信即可实现。该方案在保持安全性与动态可行性的同时，实现了对称计算负载的全分布式轨迹优化。所提框架被集成到足式机器人的分层运动控制架构中，结合高层分布式轨迹规划、中层非线性MPC（约束单刚体动力学）以及低层全身控制（约束完整阶机器人动力学）。通过两台Unitree Go2四足机器人的硬件实验以及涉及最多四台机器人在不确定环境（含崎岖地形与外部扰动）中的数值仿真，验证了所提方法的有效性。结果表明，所提分布式公式在性能上可与集中式MPC媲美，而在四智能体场景下将每周期平均规划时间减少高达51%，实现了高效的实时分布式部署。

Yicheng Zeng, Ruturaj S. Sambhus, Basit Muhammad Imran, Jeeseop Kim, Vittorio Pastore, Kaveh Akbari Hamed

相关标签

论文

arXiv

Mar 19, 2026

含义与测量：多智能体概率基础用于视觉-语言导航

与人类协作的机器人必须将自然语言目标转化为可执行的、具身化的决策。例如，执行“走到冰箱右侧两米处”这样的指令，需要在三维场景中对语义指称、空间关系和度量约束进行具身化。尽管最新的视觉语言模型（VLMs）在语义具身化方面表现强劲，它们并未被显式设计用于在物理定义的空间中推理度量约束。本文通过实验表明，当前基于VLM的具身化方法在面对复杂的度量-语义语言查询时表现不佳。为克服这一局限，我们提出MAPG（多智能体概率具身化），一种智能体框架，将语言查询分解为结构化子成分，并分别查询VLM以对每一成分进行具身化。随后，MAPG以概率方式组合这些具身化输出，在三维空间中生成度量一致、可执行的决策。我们在HM-EQA基准上评估MAPG，结果显示其性能持续优于强基线。此外，我们引入新基准MAPG-Bench，专门用于评估度量-语义目标具身化，填补了现有语言具身化评测的空白。我们还展示了真实机器人演示，表明在具备结构化场景表示时，MAPG可超越仿真环境实现迁移。

Swagat Padhan, Lakshya Jain, Bhavya Minesh Shah, Omkar Patil, Thao Nguyen, Nakul Gopalan

相关标签

论文

arXiv

Mar 19, 2026

具有锥形柔性聚合物主干的肌腱驱动机器人：设计、制造与建模

本文介绍了采用热塑性聚氨酯（TPU）柔性锥形背骨的3D打印腱驱动连续体机器人的设计、建模与制造。该可扩展设计集成了一个电子基座外壳，可通过执行器和压缩式载荷传感器直接实现腱张力控制与感知。与许多单一用途且成本高昂的连续体机器人不同，所提出的设计强调可定制性、快速组装与低成本，同时通过几何锥形实现高曲率与增强的远端柔顺性，从而支持广泛的柔顺机器人检测与操控任务。我们基于Cosserat杆理论，采用牛顿方法建立了锥形背骨的通用正向静力学模型，将现有腱驱动Cosserat杆公式扩展为显式考虑空间变化的背骨截面几何。该模型捕捉了锥形引起的梯度刚度分布，并可系统探索构型空间随几何设计参数的变化。具体而言，我们分析了背骨锥角对机器人构型空间与可操作性的影响。该模型经运动捕捉数据验证，在通过线搜索校准杨氏模量以最小化建模误差后，实现了厘米级形状预测精度。我们进一步演示了通过沿连续体机器人布线的内窥镜抓持器，在6自由度机械臂上实现遥操作抓取。提供了参数化iLogic/CAD脚本以快速生成与缩放几何。所提出的框架为使用熔融沉积建模3D打印机制造的锥形腱驱动连续体机器人，建立了从参数化设计到受控腱驱动的简单、快速且可重复的途径。

Harald Minde Hansen, Nandita Gallacher, Nicholas B. Andrews, Kristin Y. Pettersen, Jan Tommy Gravdahl, Mario di Castro

相关标签

操作

论文

arXiv

Mar 19, 2026

非阿贝尔规范场下的反常拓扑布洛赫振荡

拓扑Bloch振荡是量子输运现象的标志，其中波包在外力与拓扑边缘态相互驱动下发生振荡运动，并可作为探测拓扑能带几何性质的强有力动力学手段。自旋轨道耦合（SOC）已成为操控材料中量子态的关键要素，其对应的规范场来源于Rashba与Dresselhaus相互作用。本文研究在Gross-Pitaevskii方程支配下的蜂窝Zeeman晶格中旋量波包的传播。通过调节Rashba与Dresselhaus SOC的相对强度，我们构建了一个非阿贝尔规范场，驱动反常拓扑Bloch振荡（ATBO）。与常规拓扑Bloch振荡（TBO）不同，这些ATBO表现出非对称运动，包括在半个振荡周期内的冻结效应，且该效应可通过SOC参数和外力进行调控。我们的结果确立了基于SOC的非阿贝尔规范场作为控制拓扑量子动力学的强大机制，对自旋电子器件与量子数据处理具有启示意义。

Chunyan Li, Ce Shang, Boris A. Malomed

相关标签

论文

arXiv

Mar 19, 2026

ATG-MoE：用于装配技能学习的混合专家自回归轨迹生成

柔性制造要求机器人系统能够适应不断变化的任务、对象和环境。然而，传统机器人编程劳动密集且缺乏灵活性，而现有的基于学习的装配方法往往存在位置泛化能力弱、多阶段设计复杂、多技能集成能力有限等问题。为此，本文提出 ATG-MoE，一种端到端自回归轨迹生成方法，采用混合专家架构从示教中学习装配技能。该方法建立从多模态输入（包括 RGB-D 观测、自然语言指令和机器人本体感知）到操作轨迹的闭环映射，融合多模态特征以实现场景与任务理解，采用自回归序列建模以生成时间连贯的轨迹，并通过混合专家架构实现统一的多技能学习。与将视觉感知与控制分离或独立训练不同技能的传统方法不同，ATG-MoE 直接将视觉信息融入轨迹生成，并支持在单一模型内高效集成多技能。我们在减压阀装配任务中的八项代表性装配技能上对方法进行训练与评估。实验结果表明，ATG-MoE 在仿真中表现强劲，平均抓取成功率为 96.3%，平均整体成功率为 91.8%，同时展现出强泛化能力和有效的多技能集成。真实世界实验进一步验证了其在多技能工业装配中的实用性。项目页面见 https://hwh23.github.io/ATG-MoE

Weihang Huang, Chaoran Zhang, Xiaoxin Deng, Hao Zhou, Zhaobo Xu, Shubo Cui, Long Zeng

相关标签

操作

论文

arXiv

Mar 19, 2026

二维钙钛矿上纳米晶体超晶格的确定性成核用于光汇聚异质结构

将具有不同维度特性的组分结合起来的半导体异质结构为调控最终材料的物理性质提供了一条有趣途径。二维卤化铅钙钛矿以扁平微晶形式结晶，具有高效的面内激子迁移率，而钙钛矿纳米晶则是带隙可调的高效发光体，并可自组装成微米级超晶格。然而，由于溶解性质失配且转移步骤复杂，将如此精细的架构整合成异质结构一直颇具挑战。本研究在PEA₂PbBr₄二维层状钙钛矿微晶的晶面上确定性生长CsPbBr₃纳米晶超晶格，实现异质结构。生长可局限于微晶的侧面，形成核-冠外延异质结构，也可沿垂直方向延伸，得到类核-壳结构。该生长方法简便、高效且通用，有望扩展至多种其他材料。我们证明这些异质结构可作为高效光捕获系统使用；事实上，能量可从二维微晶域转移至超晶格，通过调节激发通量在线性与非线性载流子复合机制之间切换。此外，利用样品冷却时CsPbBr₃纳米晶发光寿命缩短的特性，我们确保能量转移发生在纳米晶双激子和单激子衰减之后，有效延长了超晶格的辐射复合。

Umberto Filippi, Alexander Schleusener, Simone Lauciello, Roman Krahne, Dmitry Baranov, Liberato Manna, Masaru Kuno

相关标签

论文

arXiv

Mar 12, 2026

OmniStream：在连续流中掌握感知、重建与行动

现代视觉智能体需要通用、因果且具物理结构的表征，方能在实时流式环境中运行。然而，现有视觉基础模型仍呈碎片化，仅狭隘专精于图像语义感知、离线时序建模或空间几何。本文提出统一流式视觉骨干 OmniStream，可从多样视觉输入中高效感知、重建并行动。通过引入因果时空注意力与三维旋转位置嵌入（3D-RoPE），模型借持久 KV 缓存实现视频流逐帧在线处理。我们以协同多任务框架预训练 OmniStream，联合静态与时序表征学习、流式几何重建及视觉-语言对齐，涵盖 29 个数据集。广泛评估表明，即便主干完全冻结，OmniStream 仍在图像与视频探测、流式几何重建、复杂视频与空间推理以及训练时未见过的机器人操控任务上，持续媲美专用专家。本工作不追求特定榜单领先，而验证训练单一通用视觉骨干的可行性，其可泛化至语义、空间与时序推理，为交互与具身智能体迈向通用视觉理解迈出更有意义的一步。

Yibin Yan, Jilan Xu, Shangzhe Di, Haoning Wu, Weidi Xie

相关标签

操作

论文

arXiv

Mar 12, 2026

$Ψ_0$: 面向通用人形机器人运动-操作的开放基础模型

我们提出$Ψ_0$（Psi-Zero），一个用于应对挑战性人形机器人运动-操作任务的开放基础模型。现有方法常通过在人形机器人与人类数据上进行联合训练来解决这一根本问题，但我们指出，由于人类与人形机器人在运动学与动作上存在本质差异，该策略并非最优，导致尽管数据量庞大，数据利用效率与模型性能仍不尽如人意。为此，\ours\将学习过程解耦，以最大化异构数据源的利用率。具体而言，我们提出分阶段训练范式，并设定不同学习目标：首先，在大规模第一人称人类视频上自回归预训练VLM主干，以获得可泛化的视觉-动作表征；随后，在高质量人形机器人数据上后训练基于流的动作专家，以学习精确的机器人关节控制。我们的研究进一步揭示了一个关键却常被忽视的数据配方：与依赖含噪互联网片段或异构跨实体机器人数据集进行扩展的方法相反，我们证明，先在高质量第一人称人类操作数据上预训练，再在领域特定的真实人形轨迹上后训练，能够获得更优性能。大量真实实验表明，仅使用约800小时人类视频数据与30小时真实机器人数据，\ours\便取得最佳性能，在多项任务上的总体成功率比预训练数据量高出10$\times$以上的基线提升超过40%。我们将向社区开源整个生态系统，包括数据处理与训练流程、人形基础模型以及实时动作推理引擎。

Songlin Wei, Hongyi Jing, Boqian Li, Zhenyu Zhao, Jiageng Mao, Zhenhao Ni, Sicheng He, Jie Liu, Xiawei Liu, Kaidi Kang, Sheng Zang, Weiduo Yuan, Marco Pavone, Di Huang, Yue Wang

相关标签

操作人形机器人

论文

arXiv

Mar 12, 2026

潜在颜色子空间：高维混沌中的涌现秩序

文本到图像生成模型进展迅速，但实现生成图像的细粒度控制仍然困难，主要由于对语义信息如何编码的理解有限。我们针对 FLUX.1 [Dev] 的变分自编码器潜在空间，提出一种颜色表征的解释，揭示其结构反映色相、饱和度与明度。通过展示该潜在颜色子空间（LCS）解释既能预测又能显式控制颜色，我们在 FLUX 中引入一种完全无需训练、仅依赖闭式潜在空间操作的方法。代码见 https://github.com/ExplainableML/LCS。

Mateusz Pach, Jessica Bader, Quentin Bouniot, Serge Belongie, Zeynep Akata

相关标签

操作

论文

arXiv

Mar 12, 2026

HumDex：让仿人灵巧操作变得简单

本文研究仿人全身灵巧操作，其中高质量演示数据的高效收集仍是核心瓶颈。现有遥操作系统常因便携性不足、遮挡或精度欠缺而难以应对复杂全身任务。为此，我们提出HumDex——一种专为仿人全身灵巧操作设计的便携式遥操作系统。该系统利用基于IMU的动作捕捉在便携性与精度间取得平衡，实现精确全身追踪且易于部署。针对灵巧手部控制，我们进一步引入基于学习的重定向方法，无需手动调参即可生成平滑自然的手部动作。除遥操作外，HumDex还能高效采集人体运动数据。依托此能力，我们提出两阶段模仿学习框架：先在大规模人体运动数据上预训练以学习可泛化先验，再在机器人数据上微调以弥合本体差距实现精准执行。实验表明，该方法以极低的数据获取成本显著提升对新构型、物体及背景的泛化能力。整套系统完全可复现并已开源：https://github.com/physical-superintelligence-lab/HumDex

Liang Heng, Yihe Tang, Jiajun Xu, Henghui Bao, Di Huang, Yue Wang

相关标签

人形机器人操作

论文

arXiv

Mar 12, 2026

HandelBot：通过灵巧机器人策略快速适应实现真实世界钢琴演奏

数十年来，使用多指灵巧手掌握灵巧操控一直是机器人学领域的重大挑战。尽管潜力巨大，高精度任务中高质量数据收集的困难仍是主要瓶颈。强化学习与仿真到现实的迁移虽前景可期，但在要求毫米级精度的任务（如双手钢琴演奏）中，迁移策略常告失败。本文提出HandelBot框架，通过两阶段流程结合仿真策略与快速适应：首先以结构化精修阶段，依据物理 rollout 调整横向指关节以修正空间对齐；随后采用残差强化学习自主习得细粒度修正动作。在五首公认曲目的广泛硬件实验中，HandelBot成功实现精准双手钢琴演奏，系统性能比直接仿真部署提升1.8倍，仅需30分钟物理交互数据。

Amber Xie, Haozhi Qi, Dorsa Sadigh

相关标签

操作

论文

arXiv

Mar 12, 2026

用于潜在规划的时间拉直

学习良好的表征对于基于世界模型的潜在规划至关重要。尽管预训练视觉编码器能产生强大的语义视觉特征，但它们并未针对规划进行定制，且包含与规划无关甚至有害的信息。受人类视觉处理中感知拉直假说的启发，我们引入时间拉直以改进潜在规划的表征学习。通过使用曲率正则化器鼓励局部拉直的潜在轨迹，我们联合学习编码器与预测器。我们表明，以此方式降低曲率可使潜在空间中的欧氏距离更好地逼近测地距离，并改善规划目标的适定性。实验表明，时间拉直使基于梯度的规划更稳定，并在一系列目标到达任务中显著提高成功率。

Ying Wang, Oumayma Bounou, Gaoyue Zhou, Randall Balestriero, Tim G. J. Rudner, Yann LeCun, Mengye Ren

相关标签

世界模型

论文

arXiv

Mar 12, 2026

ForensicZip：更多Token更好，但在取证视觉-语言模型中并非必要

多模态大语言模型（MLLM）通过为伪造检测生成文本解释，实现可解释的多媒体取证。然而，处理密集视觉序列带来高昂计算成本，尤其在高分辨率图像与视频中。视觉token剪枝是一种实用加速策略，但现有方法多基于语义驱动，保留显著目标而丢弃背景区域，而操纵痕迹（如高频异常与时间抖动）常位于这些背景。为此，我们提出ForensicZip，一个无需训练的框架，从取证视角重新构建token压缩。ForensicZip将时间token演化建模为带松弛虚拟节点的生灭最优传输问题，量化指示瞬态生成伪影的物理不连续性。取证评分进一步将基于传输的新颖性与高频先验融合，在大压缩比下分离取证证据与语义内容。在深度伪造与AIGC基准上的实验表明，在保留10% token时，ForensicZip实现2.97倍加速与超过90%的FLOPs降低，同时保持最先进的检测性能。

Yingxin Lai, Zitong Yu, Jun Wang, Linlin Shen, Yong Xu, Xiaochun Cao

相关标签

操作

论文

arXiv

Mar 12, 2026

SaPaVe：面向机器人视觉-语言-动作模型的主动感知与操作

主动感知与操作是机器人与复杂场景交互的关键。现有方法难以将语义驱动的主动感知与鲁棒的、视角不变的执行统一起来。我们提出SaPaVe，一个端到端框架，以数据高效的方式联合学习这些能力。该方法将相机动作与操作动作解耦，而非置于共享动作空间，并采用自下而上的训练策略：首先在大规模数据集上训练语义相机控制，随后利用混合数据联合优化两种动作类型。为支持该框架，我们引入ActiveViewPose-200K，包含20万图像-语言-相机运动对的语义相机运动学习数据集，以及一个3D几何感知模块，在动态视角下提升执行鲁棒性。我们还提出ActiveManip-Bench，首个超越固定视角设置评估主动操作的基准。在仿真与真实环境中的大量实验表明，SaPaVe优于近期视觉-语言-动作模型如GR00T N1和π₀，在真实任务中成功率提高多达31.25%。这些结果表明，当采用解耦但协调的策略训练时，紧密耦合的感知与执行能够实现高效且可泛化的主动操作。项目页面：https://lmzpai.github.io/SaPaVe

Mengzhen Liu, Enshen Zhou, Cheng Chi, Yi Han, Shanyu Rong, Liming Chen, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang

相关标签

操作

论文

arXiv

Mar 12, 2026

ComFree-Sim：面向可扩展接触密集机器人仿真与控制的GPU并行解析接触物理引擎

接触密集机器人仿真的物理模拟通常受限于接触解析：主流引擎通过互补约束或约束优化强制执行非穿透和库仑摩擦，每步需迭代求解，其成本随接触密度超线性增长。我们提出ComFree-Sim，一种基于无互补接触建模的GPU并行解析接触物理引擎。ComFree-Sim利用库仑摩擦对偶锥内的阻抗式预测-校正更新，以闭式计算接触冲量。接触计算在接触对之间解耦，并在锥面片上可分离，自然映射至GPU内核，实现与接触数近线性的运行时间缩放。我们将该公式扩展至统一6D接触模型，涵盖切向、扭转和滚动摩擦，并引入实用的对偶锥阻抗启发式。ComFree-Sim以Warp实现，通过MuJoCo兼容接口作为MuJoCo Warp（MJWarp）的即插即用后端。实验在穿透、摩擦行为、稳定性及仿真运行时间缩放方面与MJWarp对比，显示在密集接触场景中近线性缩放且吞吐量提高2–3倍，物理保真度相当。我们将ComFree-Sim部署于真实多指LEAP手实时MPC灵巧手中操作及动力学感知运动重定向，证明低延迟仿真带来更高闭环成功率，并使接触密集任务的高频控制实用化。

Chetan Borse, Zhixian Xie, Wei-Cheng Huang, Wanxin Jin

相关标签

操作

论文

arXiv

Mar 12, 2026

EgoIntent：一个用于理解“做什么、为何做、下一步”的自我中心步骤级基准

多模态大语言模型（MLLMs）在多种任务中展现出卓越的视频推理能力，然而它们在自我中心视频中细粒度理解人类意图的能力仍未被充分探索。现有基准主要关注片段级意图推理，忽视了步骤级意图理解的更细粒度。然而，智能助手、机器人模仿学习和增强现实引导等应用不仅需要理解每一步“做什么”，还需知晓“为何做”以及“下一步做什么”，以便提供及时且情境感知的支持。为此，我们提出EgoIntent，一个面向自我中心视频的步骤级意图理解基准。它包含3,014个步骤，涵盖15种室内外日常生活场景，并从三个互补维度评估模型：局部意图（做什么）、全局意图（为何做）和下一步计划（下一步）。关键地，每个片段在关键结果（如接触或抓取）发生前立即截断，且不含后续步骤帧，防止未来帧泄露，实现对前瞻性步骤理解与下一步规划的纯净评估。我们评估了15个MLLM，包括最先进的闭源与开源模型。即便表现最佳的模型在三个意图维度上的平均得分也仅为33.31，凸显自我中心视频中步骤级意图理解仍是极具挑战性的问题，亟需进一步研究。

Ye Pan, Chi Kit Wong, Yuanhuiyi Lyu, Hanqian Li, Jiahao Huo, Jiacheng Chen, Lutao Jiang, Xu Zheng, Xuming Hu

相关标签

操作

论文

arXiv

Mar 12, 2026

O3N：全向开放词汇占用预测

通过全向感知理解并重建三维世界，是自主智能体与具身智能发展的必然趋势。然而，现有三维占用预测方法受限于狭窄视角输入与预定义训练分布，难以适用于需在开放世界探索中全面且安全感知场景的具身智能体。为此，我们提出 O3N——首个纯视觉、端到端的全向开放词汇占用预测框架。O3N 通过极螺旋 Mamba（PsM）模块将全向体素嵌入极螺旋拓扑，实现 360° 连续空间表征与长程上下文建模。占用代价聚合（OCA）模块在体素空间内以原则化机制统一几何与语义监督，确保重建几何与底层语义结构的一致性。此外，自然模态对齐（NMA）建立无梯度对齐通路，协调视觉特征、体素嵌入与文本语义，形成一致的“像素-体素-文本”表征三元组。在多个模型上的广泛实验表明，本方法不仅在 QuadOcc 与 Human360Occ 基准上达到最先进的性能，还展现出卓越的跨场景泛化与语义可扩展性，为通用三维世界建模铺平道路。源代码将于 https://github.com/MengfeiD/O3N 公开。

Mengfei Duan, Hao Shi, Fei Teng, Guoqiang Zhao, Yuheng Zhang, Zhiyong Li, Kailun Yang

相关标签

世界模型

论文

arXiv

Mar 12, 2026

预测与操控他人之预测

在具有私人信息的策略环境中，评估政策变动需预测均衡如何响应——但当行动重塑对手信号时，每位代理的最优反应依赖于关于信念的无限阶信念层级，该层级四十年来抗拒精确分析。我们首次给出具有内生信号的有限参与者连续时间LQG博弈的精确均衡刻画。以原生布朗冲击而非物理状态为条件——这是Harsanyi共同先验构造的动态类比——将信念层级坍缩为确定性双时核，把纳什均衡简化为无需截断且无需大群体极限的确定性不动点。该刻画产生显式的信息楔$\mathcal{V}^i_t$——一个确定性Volterra过程——为转移对手后验信念的边际价值定价。当信号外生于控制时该楔精确消失，正式划定策略性信念操控起作用的边界，并提供从信息原语到均衡结果的闭式映射。

Sam Babichenko

相关标签

操作

论文

arXiv

Mar 12, 2026

CRAFT：一种具有混合刚-柔顺应性的腱驱动手

我们推出CRAFT手，一种面向接触丰富操作的腱驱动拟人手，具备混合刚-柔顺应性。设计基于一个简单理念：手部接触并非均匀分布。冲击集中在关节，而连杆承担主要载荷。CRAFT在关节处布置软材料，保持连杆刚性，并采用滚动接触关节面使屈曲沿可重复路径运动。十五个电机置于指内，通过腱驱动手部，保持紧凑外形并减轻手指重量。结构测试表明，CRAFT在提升强度与耐久性的同时保持可比的重复精度。遥操作实验中，CRAFT改善了易碎与低摩擦物品的抓取，并在Feix分类中覆盖33/33种抓握。整机成本低于600美元，将以开源形式发布，集成基于视觉的遥操作与仿真。项目主页：http://craft-hand.github.io/

Leo Lin, Shivansh Patel, Jay Moon, Svetlana Lazebnik, Unnat Jain

相关标签

操作