机器人轨迹的评价指标

新颖性

ThriftyDAgger: Budget-Aware Novelty and Risk Gating for Interactive Imitation Learning (CoRL 21 Oral, Berkeley)

  1. 通过对当前policy进行MC-Dropout,将当前状态作为输入,得到动作集合
  2. 计算方差
  3. 该指标反映了对于当前state ,模型预测的不确定性

兼容性

Eliciting compatible demonstrations for multi-human imitation learning (CoRL 23, Stanford)

提出一种兼容性的指标: 该指标反映了当前policy在新的状态下,预测动作与专家动作的相似性,如果预测准确, 结合新颖性,兼容性最终定义为: 该指标过滤掉新颖性低当前state 与训练中的state近似)且与专家动作差异大的轨迹 Pasted image 20250724165626

基于强化学习的奖励函数

VIP: Towards Universal Visual Reward and Representation via Value-Implicit Pre-Training (ICLR 23 Spotlight, Meta AI)

通过隐式价值训练学习一个奖励函数的预测网络,该网络可以在人类视频上学习,之后zero-shot迁移到机器人运动视频上,实现轨迹评分或提供密集监督 具体来说,从人类视频序列中抽取初始帧、中间相邻两帧、最终帧,通过共享的视觉编码器进行编码,之后通过一下损失进行学习: 目标吸引项:拉近初始状态与目标状态的嵌入矩阵,学习任务级语义相似性 隐式对比项:学习轨迹的内部平滑性,迫使与目标帧时间更相近的帧取得更大的相似度 学习完成之后,该网络可以为机器人轨迹视频中的每一帧评分,并通过分数值和变化量来衡量轨迹质量 Pasted image 20250724165816 ### Rank2Reward: Learning Shaped Reward Functions from Passive Video (ICRA 24, MIT) 学习两个目标: 专家分类函数:学习一个分类网络对专家/非专家数据进行二分类 排名函数:学习一个评分网络,评分随时序单调上升(越靠近目标分数越高) 合并上述两项,得到对于当前状态的最终评分函数: Pasted image 20250724173250 ## 互信息 ### Robot Data Curation with Mutual Information Estimators (25, Google/Stanford) 理论 核心思想:选择状态多样动作一致的轨迹 将上述思想转化为互信息: 第一项:状态不确定性越高,熵越大 第二项:对于某种特定的状态,动作不确定性越低(一致性越高),熵越小 两者综合,状态越不确定、动作越确定的轨迹,互信息越大

实现 由于无法直接计算互信息,文中使用基于KNN的估计方式: 1. 学习低维表征:考虑到高维KNN距离难以估计,文中首先使用VAE学习第i个状态和动作的低维投影 2. KNN估计器:利用K近邻距离估计局部密度,得到互信息的估计量 - KSG估计器: - 文中进一步简略: - 其中分别为在联合空间的K近邻距离内,状态表征和动作表征的数量 3. 计算轨迹总分:采用每一帧互信息的平均值 Pasted image 20250724180952

总结

指标 方法 物理意义 依赖数据
​新颖性​ ThriftyDAgger 预测动作的方差,反映模型对当前状态的不确定性 策略模型、状态
​兼容性​ Multi-Human Compatible Metric 结合状态常见性(新颖性低)与动作误差,去除常见但预测不准的状态 策略模型、状态、专家动作
​强化学习​ VIP (Value-Implicit Pretraining) 隐式学习当前帧与目标帧的特征距离,距离越小奖励越高 人类视频
Rank2Reward 排名分数(目标接近度) × 专家置信度的对数组合 专家视频、非专家视频
​互信息​ Robot Data Curation 状态-动作互信息估计:状态多样性高 + 动作一致性高 → 分值高 状态、动作

缺点 1. 评分粒度太小:现有方法往往针对单个状态进行评分。。。 2. 泛化能力差:需要在当前任务上学习。。。 3. 依赖专业信息:需要提供专家动作标注或模型。。。

作者

Koorye

发布于

2025-07-24

更新于

2026-03-17

许可协议