请问老师,state里包括agent的state和最近obstacl的位置信息,当agent和最近的obstacle处于相同的状态下,其他obstacles的信息是未知的。比如A情况下,agent附近只有一个obstacl,那么agent从左或者右绕行即可,B情况下,agent和最近的obstacle与A情况相同,但存在其他的obstacle,那么agent需要绕路才可以过去。在训练结束后,agent感知到的state只有最近的obstacle,此时agent可以做出正确的action么?