包含关键字极大似然估计的文章 - 科学空间|Scientific Spaces

7 Dec

【龟鱼记】全陶粒的同程底滤生态缸

By 苏剑林 | 2020-12-07 | 65730位读者 | 引用

最近一段时间入了水族的坑，整了个60cm×40cm的超白缸来玩，主要是龟鱼共养。个人比较追求自然仿生，所以希望能在缸里建立一个相对稳定的仿生态环境。当然，其实这都是借口，根本原因是懒得换水，也不想洗过滤棉，所以就想着依靠生态系统自身的净化能力来延长换水时间。为此，参考网上的资料搞了个同程底滤，并且根据自己的经验做了一些修改。

生态缸-俯视图

点击阅读全文...

分类：生活/情感标签：生活, 龟鱼, 生态阅读全文 14 评论

22 Jan

【搜出来的文本】⋅（三）基于BERT的文本采样

By 苏剑林 | 2021-01-22 | 101055位读者 | 引用

从这一篇开始，我们就将前面所介绍的采样算法应用到具体的文本生成例子中。而作为第一个例子，我们将介绍如何利用BERT来进行文本随机采样。所谓文本随机采样，就是从模型中随机地产生一些自然语言句子出来，通常的观点是这种随机采样是GPT2、GPT3这种单向自回归语言模型专有的功能，而像BERT这样的双向掩码语言模型（MLM）是做不到的。

事实真的如此吗？当然不是。利用BERT的MLM模型其实也可以完成文本采样，事实上它就是上一篇文章所介绍的Gibbs采样。这一事实首先由论文《BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model》明确指出。论文的标题也颇为有趣：“BERT也有嘴巴，所以它得说点什么。”现在就让我们看看BERT究竟能说出什么来～

点击阅读全文...

分类：信息时代标签：文本生成, 采样, 离散优化, MCMC 阅读全文 32 评论

5 Jun

从一个单位向量变换到另一个单位向量的正交矩阵

By 苏剑林 | 2021-06-05 | 49318位读者 | 引用

这篇文章我们来讨论一个比较实用的线性代数问题：

给定两个 $d$ 维单位（列）向量 $\boldsymbol{a},\boldsymbol{b}$ ，求一个正交矩阵 $\boldsymbol{T}$ ，使得 $\boldsymbol{b}=\boldsymbol{T}\boldsymbol{a}$ 。

由于两个向量模长相同，所以很显然这样的正交矩阵必然存在，那么，我们怎么把它找出来呢？

二维

不难想象，这本质上就是 $\boldsymbol{a},\boldsymbol{b}$ 构成的二维子平面下的向量变换（比如旋转或者镜面反射）问题，所以我们先考虑 $d=2$ 的情形。

正交分解示意图

点击阅读全文...

分类：数学研究标签：变换, 向量, 矩阵阅读全文 11 评论

8 Sep

有限内存下全局打乱几百G文件（Python）

By 苏剑林 | 2021-09-08 | 82153位读者 | 引用

这篇文章我们来做一道编程题：

如何在有限内存下全局随机打乱（Shuffle）几百G的文本文件？

题目背景其实很明朗，现在预训练模型动辄就几十甚至几百G语料了，为了让模型能更好地进行预训练，对训练语料进行一次全局的随机打乱是很有必要的。但对于很多人来说，几百G的语料往往比内存还要大，所以如何能在有限内存下做到全局的随机打乱，便是一个很值得研究的问题了。

已有工具

假设我们的文件是按行存储的，也就是一行代表一个样本，我们要做的就是按行随机打乱文件。假设我们只有一个文件，并且这个文件大小明显小于内存，那么我们可以用linux自带的shuf命令：

shuf input.txt -o output.txt

点击阅读全文...

分类：信息时代标签：编程, python 阅读全文 17 评论

4 Dec

开局一段扯，数据全靠编？真被一篇“神论文”气到了

By 苏剑林 | 2021-12-04 | 61089位读者 | 引用

这篇文章谈一下笔者被昨天出来的一篇“神论文”气到了的经历。

这篇“神论文”是《How not to Lie with a Benchmark: Rearranging NLP Leaderboards》，论文的大致内容是说目前很多排行榜算平均都用算术平均，而它认为几何平均与调和平均更加合理。最关键是它还对GLUE、SuperGLUE等榜单上的模型用几何平均和调和平均重新算了一下排名，结果发现那些超过人类的模型在新的平均方案下都没超过人类了。

看上去是不是觉得挺有意思的？我也觉得挺有意思的，所以打算写一篇博客介绍一下它。结果博客快写完了，然后在对数据的时候，发现里边表格的数据全是乱来的！！！真实的结果完全不支撑它的结论！！！所以，这篇博客就从“表扬大会”变成了“批评大会”...

点击阅读全文...

分类：信息时代,生活/情感标签：情感, 模型阅读全文 10 评论

3 Mar

指数梯度下降 + 元学习 = 自适应学习率

By 苏剑林 | 2022-03-03 | 35946位读者 | 引用

前两天刷到了Google的一篇论文《Step-size Adaptation Using Exponentiated Gradient Updates》，在其中学到了一些新的概念，所以在此记录分享一下。主要的内容有两个，一是非负优化的指数梯度下降，二是基于元学习思想的学习率调整算法，两者都颇有意思，有兴趣的读者也可以了解一下。

指数梯度下降

梯度下降大家可能听说得多了，指的是对于无约束函数 $\mathcal{L}(\boldsymbol{\theta})$ 的最小化，我们用如下格式进行更新：
$\begin{equation}\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \eta\nabla_{\boldsymbol{\theta}}\mathcal{L}(\boldsymbol{\theta}_t)\end{equation}$
其中 $\eta$ 是学习率。然而很多任务并非总是无约束的，对于最简单的非负约束，我们可以改为如下格式更新：
$\begin{equation}\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t \odot \exp\left(- \eta\nabla_{\boldsymbol{\theta}}\mathcal{L}(\boldsymbol{\theta}_t)\right)\label{eq:egd}\end{equation}$
这里的 $\odot$ 是逐位对应相乘（Hadamard积）。容易看到，只要初始化的 $\boldsymbol{\theta}_0$ 是非负的，那么在整个更新过程中 $\boldsymbol{\theta}_t$ 都会保持非负，这就是用于非负约束优化的“指数梯度下降”。

点击阅读全文...

分类：数学研究标签：优化, 梯度, 优化器阅读全文 9 评论

22 Apr

GAU-α：尝鲜体验快好省的下一代Attention

By 苏剑林 | 2022-04-22 | 54811位读者 | 引用

在《FLASH：可能是近来最有意思的高效Transformer设计》中，我们介绍了GAU（Gated Attention Unit，门控线性单元），在这里笔者愿意称之为“目前最有潜力的下一代Attention设计”，因为它真正达到了“更快（速度）、更好（效果）、更省（显存）”的特点。

然而，有些读者在自己的测试中得到了相反的结果，比如收敛更慢、效果更差等，这与笔者的测试结果大相径庭。本文就来分享一下笔者自己的训练经验，并且放出一个尝鲜版“GAU-α”供大家测试。

开源地址：https://github.com/ZhuiyiTechnology/GAU-alpha

GAU-α

首先介绍一下开源出来的“GAU-α”在CLUE任务上的成绩单：
$\small{\begin{array}{c|ccccccccccc} \hline & \text{iflytek} & \text{tnews} & \text{afqmc} & \text{cmnli} & \text{ocnli} & \text{wsc} & \text{csl} & \text{cmrc2018} & \text{c3} & \text{chid} & \text{cluener}\\ \hline \text{BERT} & 60.06 & 56.80 & 72.41 & 79.56 & 73.93 & 78.62 & 83.93 & 56.17 & 60.54 & 85.69 & 79.45 \\ \text{RoBERTa} & 60.64 & \textbf{58.06} & 74.05 & 81.24 & 76.00 & \textbf{87.50} & 84.50 & 56.54 & 67.66 & 86.71 & 79.47\\ \text{RoFormer} & 60.91 & 57.54 & 73.52 & 80.92 & \textbf{76.07} & 86.84 & 84.63 & 56.26 & 67.24 & 86.57 & 79.72\\ \text{RoFormerV2}^* & 60.87 & 56.54 & 72.75 & 80.34 & 75.36 & 80.92 & 84.67 & 57.91 & 64.62 & 85.09 & \textbf{81.08}\\ \hline \text{GAU-}\alpha & \textbf{61.41} & 57.76 & \textbf{74.17} & \textbf{81.82} & 75.86 & 79.93 & \textbf{85.67} & \textbf{58.09} & \textbf{68.24} & \textbf{87.91} & 80.01\\ \hline \end{array}}$

点击阅读全文...

分类：信息时代标签：语言模型, attention, 预训练阅读全文 13 评论

28 Apr

在bert4keras中使用混合精度和XLA加速训练

By 苏剑林 | 2022-04-28 | 31265位读者 | 引用

之前笔者一直都是聚焦于模型的构思和实现，鲜有关注模型的训练加速，像混合精度和XLA这些技术，虽然也有听过，但没真正去实践过。这两天折腾了一番，成功在bert4keras中使用了混合精度和XLA来加速训练，在此做个简单的总结，供大家参考。

本文的多数经验结论并不只限于bert4keras中使用，之所以在标题中强调bert4keras，只不过bert4keras中的模型实现相对较为规整，因此启动这些加速技巧所要做的修改相对更少。

实验环境

本文的实验显卡为3090，使用的docker镜像为nvcr.io/nvidia/tensorflow:21.09-tf1-py3，其中自带的tensorflow版本为1.15.5。另外，实验所用的bert4keras版本为0.11.3。其他环境也可以参考着弄，要注意有折腾精神，不要指望着无脑调用。

顺便提一下，3090、A100等卡只能用cuda11，而tensorflow官网的1.15版本是不支持cuda11的，如果还想用tensorflow 1.x，那么只能用nvidia亲自维护的nvidia-tensorflow，或者用其构建的docker镜像。用nvidia而不是google维护的tensorflow，除了能让你在最新的显卡用上1.x版本外，还有nvidia专门做的一些额外优化，具体文档可以参考这里。

点击阅读全文...

分类：信息时代标签：模型, 优化, 梯度阅读全文 6 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

【龟鱼记】全陶粒的同程底滤生态缸

【搜出来的文本】⋅（三）基于BERT的文本采样

从一个单位向量变换到另一个单位向量的正交矩阵

二维

有限内存下全局打乱几百G文件（Python）

已有工具

开局一段扯，数据全靠编？真被一篇“神论文”气到了

指数梯度下降 + 元学习 = 自适应学习率

指数梯度下降

GAU-α：尝鲜体验快好省的下一代Attention

GAU-α

在bert4keras中使用混合精度和XLA加速训练

实验环境

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接