强化学习吧 关注:315贴子:622
  • 1回复贴,共1

DQN求助求助

只看楼主收藏回复

我创建了一个gym环境,动作空间是多维离散的,例如(2,2,2,2,2,2,2)这样的一个7维空间,但是在选择最大q值对应的动作这一块,我想让他返回的动作也是这种7维数组的动作,但是因为输出层是128,因为是动作空间里包含动作的总数也就是128个,他输出的一直是0-127中的数,有会改的大佬吗,有偿


IP属地:北京来自Android客户端1楼2023-04-18 10:53回复
    你argmax一下就行了,0-127,取出最大的那个动作的index,你是在要取七维的就建个数组,取得那个index为1,其他为0


    IP属地:安徽来自Android客户端2楼2023-05-27 23:51
    回复