强化学习的state

请问老师，state里包括agent的state和最近obstacl的位置信息，当agent和最近的obstacle处于相同的状态下，其他obstacles的信息是未知的。比如A情况下，agent附近只有一个obstacl，那么agent从左或者右绕行即可，B情况下，agent和最近的obstacle与A情况相同，但存在其他的obstacle，那么agent需要绕路才可以过去。在训练结束后，agent感知到的state只有最近的obstacle，此时agent可以做出正确的action么？

64d8a38b6be75 2023-08-13 17:40 839人阅读

已点赞 0 已关注 1 写评论邀请回答