包含关键字多视图的文章 - 科学空间|Scientific Spaces

5 Dec

万能的seq2seq：基于seq2seq的阅读理解问答

By 苏剑林 | 2019-12-05 | 81345位读者 | 引用

今天给bert4keras新增加了一个例子：阅读理解式问答（task_reading_comprehension_by_seq2seq.py），语料跟之前一样，都是用WebQA和SogouQA，最终的得分在0.77左右（单模型，没精调）。

用seq2seq做阅读理解的模型图示

方法简述

由于这次主要目的是给bert4keras增加demo，因此效率就不是主要关心的目标了。这次的目标主要是通用性和易用性，所以用了最万能的方案——seq2seq来实现做阅读理解。

用seq2seq做的话，基本不用怎么关心模型设计，只要把篇章和问题拼接起来，然后预测答案就行了。此外，seq2seq的方案还自然地包括了判断篇章有无答案的方法，以及自然地导出一种多篇章投票的思路。总而言之，不考虑效率的话，seq2seq做阅读理解是一种相当优雅的方案。

这次实现seq2seq还是用UNILM的方案，如果还不了解的读者，可以先阅读《从语言模型到Seq2Seq：Transformer如戏，全靠Mask》了解相应内容。

点击阅读全文...

分类：信息时代标签：问答, 语言模型, 文本生成阅读全文 21 评论

28 Mar

分享：用LaTeX+MathJax画一个三维三阶环方

By 苏剑林 | 2019-03-28 | 17977位读者 | 引用

昨天看到数学研发论坛在讨论三维三阶幻方，论坛里的各大牛都已经讨论得差不多了，我也没什么好插话的。然后突发奇想，能不能用纯LaTeX画出一个这样的立体幻方出来？

昨天下午折腾了好一会儿，最后只抛出了个半成品，然后经过论坛的mathe大佬继续完善后，终于成功地画出来了：
$$\begin{array}{ccccccccccc}
& & & & 4 & —& —& — & — & 25 & —& —& — & — & 11
\\
& & & \require{HTML} \style{display: inline-block; transform: rotate(45deg)}{|} &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} & && &\require{HTML} \style{display: inline-block; transform: rotate(45deg)}{|} &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} && &&\require{HTML} \style{display: inline-block; transform: rotate(45deg)}{|} &|
\\
& & 14 & — & — & —& — & 22 & — & — & — & —& 7 & & |
\\
& \require{HTML} \style{display: inline-block; transform: rotate(45deg)}{|} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}}& &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} & &\require{HTML} \style{display: inline-block; transform: rotate(45deg)}{|} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}}& & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}}&&\require{HTML} \style{display: inline-block; transform: rotate(45deg)}{|} & | & & | \\
24 & — & —& —& — & 1 & —& —& — & — & 18 & & | & & |\\
|& & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} & &\color{red}{13} &| & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}} &\color{red}{27} & | & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}} & | &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}}&5\\
|& & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} & \require{HTML} \style{display: inline-block; transform: rotate(45deg); opacity:0.5;}{\color{red}{\vdots}} &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} & | & & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} &\require{HTML} \style{display: inline-block; transform: rotate(45deg); opacity:0.5;}{\color{red}{\vdots}} &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} &| & & |&\require{HTML} \style{display: inline-block; transform: rotate(45deg)}{|} &|\\
|& & \color{red}{8} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}}& | &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}} & \color{red}{12} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}} &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}}& | &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}}&22&&|\\
|&\require{HTML} \style{display: inline-block; transform: rotate(45deg); opacity:0.5;}{\color{red}{\vdots}} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} & & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} & | &\require{HTML} \style{display: inline-block; transform: rotate(45deg); opacity:0.5;}{\color{red}{\vdots}} &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} & & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}}& | &\require{HTML} \style{display: inline-block; transform: rotate(45deg)}{|} & | &&|\\
15 & — & —& —& — & 3 & — & — & —& —& 21 & & | & &|\\
|& & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} & & \color{red}{9} &| &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}} & \color{red}{26} &|&\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}}&|&\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}}&6\\
|& & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}}&\require{HTML} \style{display: inline-block; transform: rotate(45deg); opacity:0.5;}{\color{red}{\vdots}} & &| & &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} &\require{HTML} \style{display: inline-block; transform: rotate(45deg); opacity:0.5;}{\color{red}{\vdots}} &&|&&|&\style{display: inline-block; transform: rotate(45deg)}{|}\\
|& &\color{red}{16} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}} &|&\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}}& \color{red}{8} &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}}&\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}}& | & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}}&17\\
|& \require{HTML} \style{display: inline-block; transform: rotate(45deg); opacity:0.5;}{\color{red}{\vdots}}& & & &|& \require{HTML} \style{display: inline-block; transform: rotate(45deg); opacity:0.5;}{\color{red}{\vdots}} &&&& | & \require{HTML} \style{display: inline-block; transform: rotate(45deg)}{|}\\
23 & — & — & — & — & 2 & — & — & — & — & 19\\
\end{array}$$

事实上代码里边还内嵌了一些HTML代码，所以不算是严格的纯LaTeX代码，应该说是LaTeX+MathJax的结合。

分类：数学研究标签：趣味, 幻方, 分享阅读全文抢沙发

14 Dec

基于Conditional Layer Normalization的条件文本生成

By 苏剑林 | 2019-12-14 | 106125位读者 | 引用

从文章《从语言模型到Seq2Seq：Transformer如戏，全靠Mask》中我们可以知道，只要配合适当的Attention Mask，Bert（或者其他Transformer模型）就可以用来做无条件生成（Language Model）和序列翻译（Seq2Seq）任务。

可如果是有条件生成呢？比如控制文本的类别，按类别随机生成文本，也就是Conditional Language Model；又比如传入一副图像，来生成一段相关的文本描述，也就是Image Caption。

Keras：Tensorflow的黄金标准

By 苏剑林 | 2019-11-06 | 71972位读者 | 引用

这两周投入了比较多的精力去做bert4keras的开发，除了一些API的规范化工作外，其余的主要工作量是构建预训练部分的代码。在昨天，预训练代码基本构建完毕，并同时在TPU/多GPU环境下测试通过，从而有志（有算力）改进预训练模型的同学多了一个选择。——这可能是目前最为清晰易懂的bert及其预训练代码。

预训练代码链接： https://github.com/bojone/bert4keras/tree/master/pretraining

经过这两周的开发（填坑），笔者的最大感想就是：Keras已经成为了tensorflow的黄金标准了。只要你的代码按照Keras的标准规范写，那可以轻松迁移到tf.keras中去，继而可以非常轻松地在TPU或多GPU环境下训练，真正的几乎是一劳永逸。相反，如果你的写法过于灵活，包括像笔者之前介绍的很多“移花接木”式的Keras技巧，就可能会有不少问题，甚至可能出现的一种情况是：就算你已经在多GPU上跑通了，在TPU上你也死活调不通。

Keras和Tensorflow

点击阅读全文...

分类：信息时代标签：keras 阅读全文 19 评论

19 Apr

从DCGAN到SELF-MOD：GAN的模型架构发展一览

By 苏剑林 | 2019-04-19 | 75587位读者 | 引用

事实上，O-GAN的发现，已经达到了我对GAN的理想追求，使得我可以很惬意地跳出GAN的大坑了。所以现在我会试图探索更多更广的研究方向，比如NLP中还没做过的任务，又比如图神经网络，又或者其他有趣的东西。

不过，在此之前，我想把之前的GAN的学习结果都记录下来。

这篇文章中，我们来梳理一下GAN的架构发展情况，当然主要的是生成器的发展，判别器一直以来的变动都不大。还有，本文介绍的是GAN在图像方面的模型架构发展，跟NLP的SeqGAN没什么关系。

此外，关于GAN的基本科普，本文就不再赘述了。

棋盘效应图示，体现为放大之后出现如国际象棋棋盘一样的交错效应。图片来自文章《Deconvolution and Checkerboard Artifacts》

点击阅读全文...

分类：信息时代标签：模型, GAN, 生成模型阅读全文 13 评论

11 Nov

JoSE：球面上的词向量和句向量

By 苏剑林 | 2019-11-11 | 61536位读者 | 引用

这篇文章介绍一个发表在NeurIPS 2019的做词向量和句向量的模型JoSE（Joint Spherical Embedding），论文名字是《Spherical Text Embedding》。JoSE模型思想上和方法上传承自Doc2Vec，评测结果更加漂亮，但写作有点故弄玄虚之感。不过笔者决定写这篇文章，是因为觉得里边的某些分析过程有点意思，可能会对一般的优化问题都有些参考价值。

优化目标

在思想上，这篇文章基本上跟Doc2Vec是一致的：为了训练句向量，把句子用一个id表示，然后把它也当作一个词，跟句内所有的词都共现，最后训练一个Skip Gram模型，训练的方式都是基于负采样的。跟Doc2Vec不一样的是，JoSE将全体向量的模长都归一化了（也就是只考虑单位球面上的向量），然后训练目标没有用交叉熵，而是用hinge loss：
\begin{equation}\max(0, m - \cos(\boldsymbol{u}, \boldsymbol{v}) - \cos(\boldsymbol{u}, \boldsymbol{d}) + \cos(\boldsymbol{u}', \boldsymbol{v}) + \cos(\boldsymbol{u}', \boldsymbol{d})\label{eq:loss}\end{equation}

点击阅读全文...

分类：信息时代标签：几何, 自然语言处理, 词向量, NLP 阅读全文 20 评论

28 Apr

“让Keras更酷一些！”：中间变量、权重滑动和安全生成器

By 苏剑林 | 2019-04-28 | 94616位读者 | 引用

继续“让Keras更酷一些”之旅。

今天我们会用Keras实现灵活地输出任意中间变量，还有无缝地进行权重滑动平均，最后顺便介绍一下生成器的进程安全写法。

首先是输出中间变量。在自定义层时，我们可能希望查看中间变量，这些需求有些是比较容易实现的，比如查看中间某个层的输出，只需要将截止到这个层的部分模型保存为一个新模型即可，但有些需求是比较困难的，比如在使用Attention层时我们可能希望查看那个Attention矩阵的值，如果用构建新模型的方法则会非常麻烦。而本文则给出一种简单的方法，彻底满足这个需求。

接着是权重滑动平均。权重滑动平均是稳定、加速模型训练甚至提升模型效果的一种有效方法，很多大型模型（尤其是GAN）几乎都用到了权重滑动平均。一般来说权重滑动平均是作为优化器的一部分，所以一般需要重写优化器才能实现它。本文介绍一个权重滑动平均的实现，它可以无缝插入到任意Keras模型中，不需要自定义优化器。

至于生成器的进程安全写法，则是因为Keras读取生成器的时候，用到了多进程，如果生成器本身也包含了一些多进程操作，那么可能就会导致异常，所以需要解决这个这个问题。

点击阅读全文...

分类：信息时代标签：模型, 优化, keras 阅读全文 34 评论

3 May

从动力学角度看优化算法（四）：GAN的第三个阶段

By 苏剑林 | 2019-05-03 | 88270位读者 | 引用

在对GAN的学习和思考过程中，我发现我不仅学习到了一种有效的生成模型，而且它全面地促进了我对各种模型各方面的理解，比如模型的优化和理解视角、正则项的意义、损失函数与概率分布的联系、概率推断等等。GAN不单单是一个“造假的玩具”，而是具有深刻意义的概率模型和推断方法。

作为事后的总结，我觉得对GAN的理解可以粗糙地分为三个阶段：

1、样本阶段：在这个阶段中，我们了解了GAN的“鉴别者-造假者”诠释，懂得从这个原理出发来写出基本的GAN公式（如原始GAN、LSGAN），比如判别器和生成器的loss，并且完成简单GAN的训练；同时，我们知道GAN有能力让图片更“真”，利用这个特性可以把GAN嵌入到一些综合模型中。
2、分布阶段：在这个阶段中，我们会从概率分布及其散度的视角来分析GAN，典型的例子是WGAN和f-GAN，同时能基本理解GAN的训练困难问题，比如梯度消失和mode collapse等，甚至能基本地了解变分推断，懂得自己写出一些概率散度，继而构造一些新的GAN形式。
3、动力学阶段：在这个阶段中，我们开始结合优化器来分析GAN的收敛过程，试图了解GAN是否能真的达到理论的均衡点，进而理解GAN的loss和正则项等因素如何影响的收敛过程，由此可以针对性地提出一些训练策略，引导GAN模型到达理论均衡点，从而提高GAN的效果。

点击阅读全文...

分类：信息时代标签：微分方程, 动力学, GAN, 生成模型, 优化器阅读全文 24 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

万能的seq2seq：基于seq2seq的阅读理解问答

方法简述

分享：用LaTeX+MathJax画一个三维三阶环方

基于Conditional Layer Normalization的条件文本生成

相关工作

Keras：Tensorflow的黄金标准

从DCGAN到SELF-MOD：GAN的模型架构发展一览

JoSE：球面上的词向量和句向量

优化目标

“让Keras更酷一些！”：中间变量、权重滑动和安全生成器

从动力学角度看优化算法（四）：GAN的第三个阶段

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接