包含关键字极大似然估计的文章 - 科学空间|Scientific Spaces

10 Mar

“让Keras更酷一些！”：分层的学习率和自由的梯度

By 苏剑林 | 2019-03-10 | 98618位读者 | 引用

高举“让Keras更酷一些！”大旗，让Keras无限可能～

今天我们会用Keras做到两件很重要的事情：分层设置学习率和灵活操作梯度。

首先是分层设置学习率，这个用途很明显，比如我们在fine tune已有模型的时候，有些时候我们会固定一些层，但有时候我们又不想固定它，而是想要它以比其他层更低的学习率去更新，这个需求就是分层设置学习率了。对于在Keras中分层设置学习率，网上也有一定的探讨，结论都是要通过重写优化器来实现。显然这种方法不论在实现上还是使用上都不友好。

然后是操作梯度。操作梯度一个最直接的例子是梯度裁剪，也就是把梯度控制在某个范围内，Keras内置了这个方法。但是Keras内置的是全局的梯度裁剪，假如我要给每个梯度设置不同的裁剪方式呢？甚至我有其他的操作梯度的思路，那要怎么实施呢？不会又是重写优化器吧？

本文就来为上述问题给出尽可能简单的解决方案。

点击阅读全文...

分类：信息时代标签：模型, keras, 梯度, 学习率阅读全文 29 评论

18 Feb

恒等式 det(exp(A)) = exp(Tr(A)) 赏析

By 苏剑林 | 2019-02-18 | 64684位读者 | 引用

本文的主题是一个有趣的矩阵行列式的恒等式
\begin{equation}\det(\exp(\boldsymbol{A})) = \exp(\text{Tr}(\boldsymbol{A}))\label{eq:main}\end{equation}
这个恒等式在挺多数学和物理的计算中都出现过，笔者都在不同的文献中看到过好几次了。

注意左端是矩阵的指数，然后求行列式，这两步都是计算量非常大的运算；右端仅仅是矩阵的迹（一个标量），然后再做标量的指数。两边的计算量差了不知道多少倍，然而它们居然是相等的！这不得不说是一个神奇的事实。

所以，本文就来好好欣赏一个这个恒等式。

点击阅读全文...

分类：数学研究标签：分析, 矩阵, 行列式阅读全文 12 评论

22 Feb

巧断梯度：单个loss实现GAN模型

By 苏剑林 | 2019-02-22 | 44747位读者 | 引用

我们知道普通的模型都是搭好架构，然后定义好loss，直接扔给优化器训练就行了。但是GAN不一样，一般来说它涉及有两个不同的loss，这两个loss需要交替优化。现在主流的方案是判别器和生成器都按照1:1的次数交替训练（各训练一次，必要时可以给两者设置不同的学习率，即TTUR），交替优化就意味我们需要传入两次数据（从内存传到显存）、执行两次前向传播和反向传播。

如果我们能把这两步合并起来，作为一步去优化，那么肯定能节省时间的，这也就是GAN的同步训练。

（注：本文不是介绍新的GAN，而是介绍GAN的新写法，这只是一道编程题，不是一道算法题～）

如果在TF中

点击阅读全文...

分类：信息时代标签：GAN, 生成模型, keras, 梯度阅读全文 7 评论

26 Mar

科学空间浏览指南（FAQ）

By 苏剑林 | 2019-03-26 | 129126位读者 | 引用

事实上，除了写博客内容，在这几年里，笔者是花了相当一部分时间来做科学空间的“表面功夫”，为此还专门学了一点php、css和js。虽然不敢说精益求精，但总体来说网站的浏览体验应该比前几年要好得多。

考虑到有些读者可能需要的功能，但一时半会未必能留意到，遂来整理一些站内技巧。

文章篇

什么环境阅读文章最佳？

两年前科学空间就已经加入了响应式设计，自动适应不同分辨率的屏幕。因此，不管哪个分辨率的环境应该都能看清文字内容，唯一的问题是，在小屏幕手机下公式可能会显示不全或者错位。为了较好地阅读公式，最好在7寸以上的屏幕上阅读。如果一定要用小屏幕的手机，可以考虑横屏阅读。

点击阅读全文...

分类：问题百科标签：网站, 问题, faq 阅读全文 21 评论

28 Mar

分享：用LaTeX+MathJax画一个三维三阶环方

By 苏剑林 | 2019-03-28 | 18703位读者 | 引用

昨天看到数学研发论坛在讨论三维三阶幻方，论坛里的各大牛都已经讨论得差不多了，我也没什么好插话的。然后突发奇想，能不能用纯LaTeX画出一个这样的立体幻方出来？

昨天下午折腾了好一会儿，最后只抛出了个半成品，然后经过论坛的mathe大佬继续完善后，终于成功地画出来了：
$$\begin{array}{ccccccccccc}
& & & & 4 & —& —& — & — & 25 & —& —& — & — & 11
\\
& & & \require{HTML} \style{display: inline-block; transform: rotate(45deg)}{|} &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} & && &\require{HTML} \style{display: inline-block; transform: rotate(45deg)}{|} &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} && &&\require{HTML} \style{display: inline-block; transform: rotate(45deg)}{|} &|
\\
& & 14 & — & — & —& — & 22 & — & — & — & —& 7 & & |
\\
& \require{HTML} \style{display: inline-block; transform: rotate(45deg)}{|} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}}& &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} & &\require{HTML} \style{display: inline-block; transform: rotate(45deg)}{|} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}}& & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}}&&\require{HTML} \style{display: inline-block; transform: rotate(45deg)}{|} & | & & | \\
24 & — & —& —& — & 1 & —& —& — & — & 18 & & | & & |\\
|& & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} & &\color{red}{13} &| & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}} &\color{red}{27} & | & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}} & | &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}}&5\\
|& & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} & \require{HTML} \style{display: inline-block; transform: rotate(45deg); opacity:0.5;}{\color{red}{\vdots}} &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} & | & & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} &\require{HTML} \style{display: inline-block; transform: rotate(45deg); opacity:0.5;}{\color{red}{\vdots}} &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} &| & & |&\require{HTML} \style{display: inline-block; transform: rotate(45deg)}{|} &|\\
|& & \color{red}{8} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}}& | &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}} & \color{red}{12} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}} &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}}& | &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}}&22&&|\\
|&\require{HTML} \style{display: inline-block; transform: rotate(45deg); opacity:0.5;}{\color{red}{\vdots}} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} & & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} & | &\require{HTML} \style{display: inline-block; transform: rotate(45deg); opacity:0.5;}{\color{red}{\vdots}} &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} & & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}}& | &\require{HTML} \style{display: inline-block; transform: rotate(45deg)}{|} & | &&|\\
15 & — & —& —& — & 3 & — & — & —& —& 21 & & | & &|\\
|& & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} & & \color{red}{9} &| &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}} & \color{red}{26} &|&\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}}&|&\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}}&6\\
|& & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}}&\require{HTML} \style{display: inline-block; transform: rotate(45deg); opacity:0.5;}{\color{red}{\vdots}} & &| & &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\vdots}} &\require{HTML} \style{display: inline-block; transform: rotate(45deg); opacity:0.5;}{\color{red}{\vdots}} &&|&&|&\style{display: inline-block; transform: rotate(45deg)}{|}\\
|& &\color{red}{16} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}} & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}} &|&\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}}& \color{red}{8} &\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}}&\require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}}& | & \require{HTML} \style{display: inline-block; opacity:0.5;}{\color{red}{\cdots}}&17\\
|& \require{HTML} \style{display: inline-block; transform: rotate(45deg); opacity:0.5;}{\color{red}{\vdots}}& & & &|& \require{HTML} \style{display: inline-block; transform: rotate(45deg); opacity:0.5;}{\color{red}{\vdots}} &&&& | & \require{HTML} \style{display: inline-block; transform: rotate(45deg)}{|}\\
23 & — & — & — & — & 2 & — & — & — & — & 19\\
\end{array}$$

事实上代码里边还内嵌了一些HTML代码，所以不算是严格的纯LaTeX代码，应该说是LaTeX+MathJax的结合。

分类：数学研究标签：趣味, 幻方, 分享阅读全文抢沙发

14 Dec

基于Conditional Layer Normalization的条件文本生成

By 苏剑林 | 2019-12-14 | 112544位读者 | 引用

从文章《从语言模型到Seq2Seq：Transformer如戏，全靠Mask》中我们可以知道，只要配合适当的Attention Mask，Bert（或者其他Transformer模型）就可以用来做无条件生成（Language Model）和序列翻译（Seq2Seq）任务。

可如果是有条件生成呢？比如控制文本的类别，按类别随机生成文本，也就是Conditional Language Model；又比如传入一副图像，来生成一段相关的文本描述，也就是Image Caption。

端午&高考乱弹：怀念的，也许只是怀念本身

By 苏剑林 | 2019-06-07 | 49409位读者 | 引用

今天是端午节，祝大家诸事顺利。另外，今天也是高考的第一天，还是祝大家诸事顺利。

在这样的节日/特殊日子中，总能勾起很多回忆，产生诸多怀念。昨天我也在QQ空间和朋友圈发了这么一条：

想起当年今日，我观测到了金星凌日。如果各位还没看过，那不好意思了，还要再等98年。

点击阅读全文...

分类：生活/情感标签：生活, 节日, 情感阅读全文 13 评论

26 Dec

“非自回归”也不差：基于MLM的阅读理解问答

By 苏剑林 | 2019-12-26 | 81701位读者 | 引用

前段时间写了《万能的seq2seq：基于seq2seq的阅读理解问答》，探索了以最通用的seq2seq的方式来做阅读理解式问答，并且取得相当不错的成绩（单模型0.77，超过参加比赛时精调的最佳模型）。这篇文章我们继续做这个任务，不过换一个思路，直接基于MLM模型来做，最终成绩基本一致，但能提高预测速度。

用MLM做阅读理解的模型图示（其中[M]表示[MASK]标记）

点击阅读全文...

分类：信息时代标签：问答, 语言模型, 生成模型, 文本生成阅读全文 23 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

“让Keras更酷一些！”：分层的学习率和自由的梯度

恒等式 det(exp(A)) = exp(Tr(A)) 赏析

巧断梯度：单个loss实现GAN模型

如果在TF中

科学空间浏览指南（FAQ）

文章篇

什么环境阅读文章最佳？

分享：用LaTeX+MathJax画一个三维三阶环方

基于Conditional Layer Normalization的条件文本生成

相关工作

端午&高考乱弹：怀念的，也许只是怀念本身

“非自回归”也不差：基于MLM的阅读理解问答

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接