2025-11-07发表2026-03-17更新深度学习3 分钟读完 (大约484个字)

Latent Action调研

Object-Centric Latent Action Learning (2025.6)

动机：视觉干扰物（如动态背景）在潜在动作学习中存在负面影响方法：预训练视频模型将视频分解为可解释对象槽，通过线性回归选择前景对象槽学习latent

动机：VLA缺乏物理知识方法：联合图像特征 + 动作特征作为latent（称为物理token），通过自回归预测未来的物理token

动机：VLA缺乏空间理解方法：通过目标检测器提取物体feature作为latent的中间监督

动机：VLA缺乏对世界的全面理解方法：将运动、深度、语义信息作为latent的中间监督

动机：VLA缺乏3D理解方法：将latent token重排列为voxel，预测多视角目标点位置，作为预测动作之前的额外目标

动机：VLA缺乏多帧历史观察序列理解，且计算成本高方法：通过预训练VLM backbone提取时空特征，并采用平均池化进行标记融合，最终通过自回归或扩散模型生成动作

Latent Action调研

Koorye

2025-11-07

2026-03-17