动作空间可变的问题，应该如何去做【强化学习吧】

强化学习吧关注：321贴子：629

1回复贴，共1页

动作空间可变的问题，应该如何去做

请问各位大佬，通常强化学习模型的动作空间都是固定的，比如上下左右等动作。但是我现在要做一个复杂网络的路径决策场景，随机网络上的某一个点，要去另外几个指定的节点之一卸货。但是要考虑卸货点的收益，以及路径各方面因素。也就是说该模型的动作是路径的决策。但是这个动作空间会随着我随便点的位置变化而变化。这类动作空间可变的问题，各位大佬有没有什么论文可以提供参考的。

送TA礼物

IP属地:广东