2025-07-24发表2026-03-17更新深度学习10 分钟读完 (大约1427个字)

机器人轨迹的评价指标

新颖性

ThriftyDAgger: Budget-Aware Novelty and Risk Gating for Interactive Imitation Learning (CoRL 21 Oral, Berkeley)

通过对当前policy进行MC-Dropout，将当前状态作为输入，得到动作集合
计算方差
该指标反映了对于当前state ，模型预测的不确定性

兼容性

Eliciting compatible demonstrations for multi-human imitation learning (CoRL 23, Stanford)

提出一种兼容性的指标：该指标反映了当前policy在新的状态下，预测动作与专家动作的相似性，如果预测准确，结合新颖性，兼容性最终定义为：该指标过滤掉新颖性低（当前state 与训练中的state近似）且与专家动作差异大的轨迹 Pasted image 20250724165626

基于强化学习的奖励函数

VIP: Towards Universal Visual Reward and Representation via Value-Implicit Pre-Training (ICLR 23 Spotlight, Meta AI)

通过隐式价值训练学习一个奖励函数的预测网络，该网络可以在人类视频上学习，之后zero-shot迁移到机器人运动视频上，实现轨迹评分或提供密集监督具体来说，从人类视频序列中抽取初始帧、中间相邻两帧、最终帧，通过共享的视觉编码器进行编码，之后通过一下损失进行学习： $目标吸引项隐式对比项$ 目标吸引项：拉近初始状态与目标状态的嵌入矩阵，学习任务级语义相似性 隐式对比项：学习轨迹的内部平滑性，迫使与目标帧时间更相近的帧取得更大的相似度学习完成之后，该网络可以为机器人轨迹视频中的每一帧评分，并通过分数值和变化量来衡量轨迹质量 Pasted image 20250724165816 ### Rank2Reward: Learning Shaped Reward Functions from Passive Video (ICRA 24, MIT) 学习两个目标： 专家分类函数：学习一个分类网络对专家/非专家数据进行二分类 排名函数：学习一个评分网络，评分随时序单调上升（越靠近目标分数越高）合并上述两项，得到对于当前状态的最终评分函数： $归一化排名分数专业度分数$ Pasted image 20250724173250 ## 互信息 ### Robot Data Curation with Mutual Information Estimators (25, Google/Stanford) 理论 核心思想：选择状态多样、动作一致的轨迹将上述思想转化为互信息： 第一项：状态不确定性越高，熵越大 第二项：对于某种特定的状态，动作不确定性越低（一致性越高），熵越小两者综合，状态越不确定、动作越确定的轨迹，互信息越大

实现由于无法直接计算互信息，文中使用基于KNN的估计方式： 1. 学习低维表征：考虑到高维KNN距离难以估计，文中首先使用VAE学习第i个状态和动作的低维投影 2. KNN估计器：利用K近邻距离估计局部密度，得到互信息的估计量 - KSG估计器： - 文中进一步简略： - 其中分别为在联合空间的K近邻距离内，状态表征和动作表征的数量 3. 计算轨迹总分：采用每一帧互信息的平均值 Pasted image 20250724180952

总结

指标	方法	物理意义	依赖数据
新颖性	ThriftyDAgger	预测动作的方差，反映模型对当前状态的不确定性	策略模型、状态
兼容性	Multi-Human Compatible Metric	结合状态常见性（新颖性低）与动作误差，去除常见但预测不准的状态	策略模型、状态、专家动作
强化学习	VIP (Value-Implicit Pretraining)	隐式学习当前帧与目标帧的特征距离，距离越小奖励越高	人类视频
	Rank2Reward	排名分数（目标接近度） × 专家置信度的对数组合	专家视频、非专家视频
互信息	Robot Data Curation	状态-动作互信息估计：状态多样性高 + 动作一致性高 → 分值高	状态、动作

缺点 1. 评分粒度太小：现有方法往往针对单个状态进行评分。。。 2. 泛化能力差：需要在当前任务上学习。。。 3. 依赖专业信息：需要提供专家动作标注或模型。。。

机器人轨迹的评价指标

https://koorye.github.io/blog/2025/07/24/机器人轨迹的评价指标调研/

作者

Koorye

发布于

2025-07-24

更新于

2026-03-17

许可协议

#深度学习具身智能数据集

机器人轨迹的评价指标

新颖性

ThriftyDAgger: Budget-Aware Novelty and Risk Gating for Interactive Imitation Learning (CoRL 21 Oral, Berkeley)

兼容性

Eliciting compatible demonstrations for multi-human imitation learning (CoRL 23, Stanford)

基于强化学习的奖励函数

VIP: Towards Universal Visual Reward and Representation via Value-Implicit Pre-Training (ICLR 23 Spotlight, Meta AI)

总结

作者

发布于

更新于

许可协议

分类

最新文章

标签

归档