机器人轨迹的评价指标

新颖性

ThriftyDAgger: Budget-Aware Novelty and Risk Gating for Interactive Imitation Learning (CoRL 21 Oral, Berkeley)

  1. 通过对当前policy进行MC-Dropout,将当前状态作为输入,得到动作集合
  2. 计算方差
  3. 该指标反映了对于当前state ,模型预测的不确定性
阅读更多