标签强化学习下的文章 - 科学空间|Scientific Spaces

15 Sep

殊途同归的策略梯度与零阶优化

By 苏剑林 | 2020-09-15 | 85693位读者 | 引用

深度学习如此成功的一个巨大原因就是基于梯度的优化算法（SGD、Adam等）能有效地求解大多数神经网络模型。然而，既然是基于梯度，那么就要求模型是可导的，但随着研究的深入，我们时常会有求解不可导模型的需求，典型的例子就是直接优化准确率、F1、BLEU等评测指标，或者在神经网络里边加入了不可导模块（比如“跳读”操作）。

Gradient

Gradient

本文将简单介绍两种求解不可导的模型的有效方法：强化学习的重要方法之一策略梯度（Policy Gradient），以及干脆不需要梯度的零阶优化（Zeroth Order Optimization）。表面上来看，这是两种思路完全不一样的优化方法，但本文将进一步证明，在一大类优化问题中，其实两者基本上是等价的。

点击阅读全文...

分类：数学研究标签：优化, 梯度, 优化器, 强化学习阅读全文 15 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前33岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

热门标签

随机文章

最近评论

苏剑林: 关于网络该预测什么目标，这个后来确实有一些争议和讨论，实际上有九种组合，可以参考：https:...
苏剑林: 我没试过，不过也就少一个自由度，猜测影响应该比较有限吧。
苏剑林: 我没看明白你这里的推导，有时间我再翻翻你提到的论文，但是“AdamW的最优学习率不会随着$\b...
苏剑林: 现在的我，似乎一看到“语义空间”这些词就有点血压飙升的感觉，脑中出现一群老古董试图用自己的古董...
苏剑林: 常规内积到加权内积的转变，至少黎曼几何了（即便直角坐标到极坐标，也可以说是黎曼几何的特例）。然...
苏剑林: 这一层的输出，就是下一层的输入，这个能理解吗？内还是外，仅仅是取决于你的视角，attnres论...
苏剑林: attention学的是$q_t, k_{\leq t}, v_{\leq t}$到$o_t$...
YameChi: 苏神，我还有另一个问题请教您，对于公式(10)中，能否直接构造一个网络，输入xt，输出为x0来...
Oriend: 苏神好，请问一下如果进一步给V也加L2 norm会有什么影响吗？V携带的信息量应该变少了，但是...
EIFY: AdamW优化器的$\Vert\boldsymbol{u}_t\Vert_{RMS}$取决于$...