使用强化学习时,递归神经网络有哪些用途?

riure 发布于 2019-11-10 最后更新 2019-11-10 12:10 61 浏览

我知道带backprop的前馈多层神经网络与强化学习一起使用可以帮助它推广我们代理的行为。这就是说,如果我们有一个很大的状态空间,我们可以做一些动作,并且它们将帮助概括整个状态空间。 反复出现的神经网络是做什么的呢?一般来说,他们使用哪些任务?

已邀请:

hid

赞同来自:

在基本的强化学习框架中假设您的州/行动/奖励序列是马尔可夫决策过程。这基本上意味着您不需要记住有关此剧集中先前状态的任何信息来做出决定。 但对于所有问题显然都不是这样。有时你需要记住一些最近的事情来做出明智的决定。有时您可以明确地将需要记住的事物构建到状态信号中,但总的来说,我们希望我们的系统能够了解它需要记住的内容。这被称为部分可观察马尔可夫决策过程(POMDP),并且有多种方法用于处理它。一种可能的解决方案是使用递归神经网络,因为它们将来自先前时间步骤的细节合并到当前决策中。

zearum

赞同来自:

内容太长未翻译