包含关键字从动力学角度看优化算法的文章

10 Oct

变分自编码器 = 最小化先验分布 + 最大化互信息

By 苏剑林 | 2018-10-10 | 138030位读者 | 引用

这篇文章很简短，主要描述的是一个很有用、也不复杂、但是我居然这么久才发现的事实～

在《深度学习的互信息：无监督提取特征》一文中，我们通过先验分布和最大化互信息两个loss的加权组合来得到Deep INFOMAX模型最后的loss。在那篇文章中，虽然把故事讲完了，但是某种意义上来说，那只是个拼凑的loss。而本文则要证明那个loss可以由变分自编码器自然地导出来。

过程

不厌其烦地重复一下，变分自编码器（VAE）需要优化的loss是
$\begin{equation}\begin{aligned}&KL(\tilde{p}(x)p(z|x)\Vert q(z)q(x|z))\\ =&\iint \tilde{p}(x)p(z|x)\log \frac{\tilde{p}(x)p(z|x)}{q(x|z)q(z)} dzdx\end{aligned}\end{equation}$
相关的论述在本博客已经出现多次了。VAE中既包含编码器，又包含解码器，如果我们只需要编码特征，那么再训练一个解码器就显得很累赘了。所以重点是怎么将解码器去掉。

其实再简单不过了，把VAE的loss分开两部分

点击阅读全文...

分类：信息时代标签：变分, 互信息, vae 阅读全文 36 评论

27 Jan

“让Keras更酷一些！”：随意的输出和灵活的归一化

By 苏剑林 | 2019-01-27 | 113167位读者 | 引用

继续“让Keras更酷一些！”系列，让Keras来得更有趣些吧～

这次围绕着Keras的loss、metric、权重和进度条进行展开。

可以不要输出

一般我们用Keras定义一个模型，是这样子的：

x_in = Input(shape=(784,))
x = x_in
x = Dense(100, activation='relu')(x)
x = Dense(10, activation='softmax')(x)

model = Model(x_in, x)
model.compile(loss='categorical_crossentropy ',
              optimizer='adam',
              metrics=['accuracy'])
model.fit(x_train, y_train, epochs=5)

点击阅读全文...

分类：信息时代标签：模型, 损失函数, keras 阅读全文 30 评论

20 Aug

开源一版DGCNN阅读理解问答模型（Keras版）

By 苏剑林 | 2019-08-20 | 80958位读者 | 引用

去年写过《基于CNN的阅读理解式问答模型：DGCNN》，介绍了一个纯卷积的简单的问答模型。当时是用Tensorflow实现的，而且没有开源，这几天抽空用Keras复现了一下，决定开源。

模型综述

关于DGCNN的基本介绍，这里不再赘述。本文的模型并不是之前模型的重复实现，而是有所改动，这里只介绍一下被改动的地方。

1、这里放出的模型，线下验证集的分数大概是0.72（之前大约是0.75）；
2、本次模型以字为单位，使用笔者之前探索出来的“字词混合Embedding”（之前是以词为单位）；
3、本次模型完全去掉了人工特征（之前用了8个人工特征）；
4、本次模型去掉了位置Embedding（之前将位置Embedding拼接到输入上）；
5、模型架构和训练细节有所微调。

点击阅读全文...

分类：信息时代标签：模型, 问答阅读全文 16 评论

24 Aug

隐藏在动量中的梯度累积：少更新几步，效果反而更好？

By 苏剑林 | 2021-08-24 | 36858位读者 | 引用

我们知道，梯度累积是在有限显存下实现大batch_size训练的常用技巧。在之前的文章《用时间换取效果：Keras梯度累积优化器》中，我们就简单介绍过梯度累积的实现，大致的思路是新增一组参数来缓存梯度，最后用缓存的梯度来更新模型。美中不足的是，新增一组参数会带来额外的显存占用。

这几天笔者在思考优化器的时候，突然意识到：梯度累积其实可以内置在带动量的优化器中！带着这个思路，笔者对优化了进行了一些推导和实验，最后还得到一个有意思但又有点反直觉的结论：少更新几步参数，模型最终效果可能会变好！

注：本文下面的结果，几乎原封不动且没有引用地出现在Google的论文《Combined Scaling for Zero-shot Transfer Learning》中，在此不做过多评价，请读者自行品评。

SGDM

在正式讨论之前，我们定义函数
$\begin{equation}\chi_{t/k} = \left\{ \begin{aligned}&1,\quad t \equiv 0\,(\text{mod}\, k) \\ &0,\quad t \not\equiv 0\,(\text{mod}\, k) \end{aligned}\right.\end{equation}$
也就是说， $t$ 是一个整数，当它是 $k$ 的倍数时， $\chi_{t/k}=1$ ，否则 $\chi_{t/k}=0$ ，这其实就是一个 $t$ 能否被 $k$ 整除的示性函数。在后面的讨论中，我们将反复用到这个函数。

点击阅读全文...

分类：信息时代标签：模型, 分析, 梯度, 优化器阅读全文 3 评论

28 Apr

在bert4keras中使用混合精度和XLA加速训练

By 苏剑林 | 2022-04-28 | 31834位读者 | 引用

之前笔者一直都是聚焦于模型的构思和实现，鲜有关注模型的训练加速，像混合精度和XLA这些技术，虽然也有听过，但没真正去实践过。这两天折腾了一番，成功在bert4keras中使用了混合精度和XLA来加速训练，在此做个简单的总结，供大家参考。

本文的多数经验结论并不只限于bert4keras中使用，之所以在标题中强调bert4keras，只不过bert4keras中的模型实现相对较为规整，因此启动这些加速技巧所要做的修改相对更少。

实验环境

本文的实验显卡为3090，使用的docker镜像为nvcr.io/nvidia/tensorflow:21.09-tf1-py3，其中自带的tensorflow版本为1.15.5。另外，实验所用的bert4keras版本为0.11.3。其他环境也可以参考着弄，要注意有折腾精神，不要指望着无脑调用。

顺便提一下，3090、A100等卡只能用cuda11，而tensorflow官网的1.15版本是不支持cuda11的，如果还想用tensorflow 1.x，那么只能用nvidia亲自维护的nvidia-tensorflow，或者用其构建的docker镜像。用nvidia而不是google维护的tensorflow，除了能让你在最新的显卡用上1.x版本外，还有nvidia专门做的一些额外优化，具体文档可以参考这里。

点击阅读全文...

分类：信息时代标签：模型, 优化, 梯度阅读全文 6 评论

9 Jan

局部余弦相似度大，全局余弦相似度一定也大吗？

By 苏剑林 | 2024-01-09 | 40367位读者 | 引用

在分析模型的参数时，有些情况下我们会将模型的所有参数当成一个整体的向量，有些情况下我们则会将不同的参数拆开来看。比如，一个7B大小的LLAMA模型所拥有的70亿参数量，有时候我们会将它当成“一个70亿维的向量”，有时候我们会按照模型的实现方式将它看成“数百个不同维度的向量”，最极端的情况下，我们也会将它看成是“七十亿个1维向量”。既然有不同的看待方式，那么当我们要算一些统计指标时，也就会有不同的计算方式，即局部计算和全局计算，这引出了局部计算的指标与全局计算的指标有何关联的问题。

本文我们关心两个向量的余弦相似度。如果两个大向量的维度被拆成了若干组，同一组对应的子向量余弦相似度都很大，那么两个大向量的余弦相似度是否一定就大呢？答案是否定的。特别地，这还跟著名的“辛普森悖论”有关。

问题背景

这个问题源于笔者对优化器的参数增量导致的损失函数变化量的分析。具体来说，假设优化器的更新规则是：
$\begin{equation}\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \eta_t \boldsymbol{u}_t\end{equation}$

点击阅读全文...

分类：数学研究标签：不等式, 相似度, 悖论阅读全文 7 评论

2 Jan

为什么梯度裁剪的默认模长是1？

By 苏剑林 | 2025-01-02 | 42435位读者 | 引用

我们知道，梯度裁剪（Gradient Clipping）是让模型训练更加平稳的常用技巧。常用的梯度裁剪是根据所有参数的梯度总模长来对梯度进行裁剪，其运算可以表示为
$\begin{equation}\text{clip}(\boldsymbol{g},\tau)=\left\{\begin{aligned}&\boldsymbol{g}, &\Vert\boldsymbol{g}\Vert\leq \tau \\ &\frac{\tau}{\Vert\boldsymbol{g}\Vert}\boldsymbol{g},&\Vert\boldsymbol{g}\Vert > \tau \end{aligned}\right.\end{equation}$
这样一来， $\text{clip}(\boldsymbol{g},\tau)$ 保持跟 $\boldsymbol{g}$ 相同的方向，但模长不超过 $\tau$ 。注意这里的 $\Vert\boldsymbol{g}\Vert$ 是整个模型所有的参数梯度放在一起视为单个向量所算的模长，也就是所谓的Global Gradient Norm。

不知道大家有没有留意到一个细节：不管是数百万参数还是数百亿参数的模型， $\tau$ 的取值在很多时候都是1。这意味着什么呢？是单纯地复用默认值，还是背后隐含着什么深刻的原理呢？

点击阅读全文...

分类：信息时代标签：优化, 梯度, 学习率, 优化器阅读全文 27 评论

16 Aug

从费马大定理谈起（三）：高斯整数

By 苏剑林 | 2014-08-16 | 52840位读者 | 引用

为了拓展整数的概念，我们需要了解关于环和域这两个代数结构，这些知识在网上或者相应的抽象代数教程中都会有。抽象地提出这两个代数结构，是为了一般地处理不同的数环、数域中的性质。在自然数集 $\mathbb{N}$ 中，可以很方便定义和比较两个数字的大小，并且任意一个自然数的子集，都存在最小元素，这两点综合起来，我们就说 $\mathbb{N}$ 是“良序”的（这也是数学归纳法的基础）。在良序的结构中，很多性质的证明变得很简单，比如算术基本定理。然而，一般的数环、数域并没有这样的“良序”，比如任意两个复数就不能比较大小。因此，一般的、不基于良序的思想就显得更为重要了。

环和域

关于环（Ring）的定义，可以参考维基百科上面的“环（代数）”条目。简单来说，环指的是这样一个集合，它的元素之间可以进行加法和乘法，并满足一些必要的性质，比如运算封闭性、加法可交换性等。而数论中大多数情况下研究的是数环，它指的是集合是数集的情况，并且通常来说，元素间的加法和乘法就是普通的数的加法和乘法。比如所有的实整数就构成一个数环 $\mathbb{Z}$ ，这个数环是无限的；所有的偶整数也构成一个数环 $2\mathbb{Z}$ ；对于素数 $p$ ，在模 $p$ 之下，数集 $\{0,1,2,\dots,p-1\}$ 也构成了一个环，更特别的，它还是一个数域。

点击阅读全文...

分类：数学研究标签：复数, 数论, 费马大定理阅读全文 6 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

变分自编码器 = 最小化先验分布 + 最大化互信息

过程

“让Keras更酷一些！”：随意的输出和灵活的归一化

可以不要输出

开源一版DGCNN阅读理解问答模型（Keras版）

模型综述

隐藏在动量中的梯度累积：少更新几步，效果反而更好？

SGDM

在bert4keras中使用混合精度和XLA加速训练

实验环境

局部余弦相似度大，全局余弦相似度一定也大吗？

问题背景

为什么梯度裁剪的默认模长是1？

从费马大定理谈起（三）：高斯整数

环和域

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接