Soft-Q公式推导

带最大熵的最优策略可表示为:

则优化目标为:

定义带熵的Soft Q-value为:

其中$H$ 为熵,则:

对于策略$\pi(a|s)$,本文使用能量模型来建模,相较于高斯的单峰分布,他可以学习到多模式分布:

其中,$\varepsilon$是能量函数,可用神经网络拟合。

要想对策略$\pi$建模就必须确定能量函数,论文中使用了$Q_{soft}^\pi $来表示能量,结合玻尔兹曼分布来定义了能量函数 $\varepsilon $。然后证明了这样可以使用策略改进来学到最优策略。

根据定义,新的策略为:

这个形式与$softmax$是一致的,在Q-learning中策略是$max(Q)$ ,而基于能量模型的策略似乎就是将策略替换为$softmax(Q)$ 。策略被表示为每个动作的$Q$值相较于其他动作的$Q$值有多大优势,而这种表示是可以存在多峰的。

下面证明该策略也能通过价值迭代的方式收敛:

这个证明依赖一个不等式:

这个不等式可通过$(3)$直接得到,

  因为当左式的$\pi$替换为$\widetilde \pi$后,右侧只有KL散度式会变化,而替换后的KL散度值为0,因此替换后左式值增加,即得到$(2)$。对于$(3)$式证明如下:

注意第4个等号最后一个式子是因为中间已经将a积分掉变成了一个常数,外面积分为1。

先根据$Q_{soft}^\pi$推导其bellman递归形式:

这里特意凑出了$(2)$式中的 $H(\pi(\cdot|s)) + E_{a\sim \pi}[Q_{soft}^\pi (s,a)]$ ,然后将该不等式带入得

这就证明了根据定义的$\widetilde \pi$ 可以进行策略迭代不断改进。 即

n-step-bootstrapping

这里用了蒙特卡洛中的Variance Reduction技术——控制变量法(control variates)。