包含关键字小波变换的文章 - 科学空间|Scientific Spaces

8 Jul

用时间换取效果：Keras梯度累积优化器

By 苏剑林 | 2019-07-08 | 75802位读者 | 引用

现在Keras中你也可以用小的batch size实现大batch size的效果了——只要你愿意花$n$倍的时间，可以达到$n$倍batch size的效果，而不需要增加显存。

Github地址：https://github.com/bojone/accum_optimizer_for_keras

扯淡

在一两年之前，做NLP任务都不用怎么担心OOM问题，因为相比CV领域的模型，其实大多数NLP模型都是很浅的，极少会显存不足。幸运或者不幸的是，Bert出世了，然后火了。Bert及其后来者们（GPT-2、XLNET等）都是以足够庞大的Transformer模型为基础，通过足够多的语料预训练模型，然后通过fine tune的方式来完成特定的NLP任务。

点击阅读全文...

分类：信息时代标签：keras, 梯度, 优化器阅读全文 24 评论

21 Jul

思考：两个椭圆片能粘合成一个立体吗？

By 苏剑林 | 2019-07-21 | 55835位读者 | 引用

前两周又在群里看到一个颇为有趣的问题：两个同样大小的椭圆片可以沿着它们的长轴弯曲，沿着边缘线粘贴，能完美地贴合成一个封闭立体吗？问题来源于知乎《两个椭圆片可否以柱面弯曲边缘完美贴合？》。

两个椭圆片粘合图示（截取自知乎上提问的图示）

问题可以用只言片语表达清楚，甚至普通读者都能理解，而问题本身是有一定难度的，这就符合了一个漂亮的问题的条件，所以也就吸引了笔者陆陆续续思考了好多天，最终在昨天算是给出了这类问题通用的列方程思路和数值求解方案，而今天则完成了理论证明，确认两个相同椭圆片总是可以完美贴合。

点击阅读全文...

分类：数学研究标签：证明, 方程, 曲线阅读全文 12 评论

27 Oct

什么时候多进程的加速比可以大于1？

By 苏剑林 | 2019-10-27 | 55243位读者 | 引用

多进程或者多线程等并行加速目前已经不是什么难事了，相信很多读者都体验过。一般来说，我们会有这样的结论：多进程的加速比很难达到1。换句话说，当你用10进程去并行跑一个任务时，一般只能获得不到10倍的加速，而且进程越多，这个加速比往往就越低。

要注意，我们刚才说“很难达到1”，说明我们的潜意识里就觉得加速比最多也就是1。理论上确实是的，难不成用10进程还能获得20倍的加速？这不是天上掉馅饼吗？不过我前几天确实碰到了一个加速比远大于1的例子，所以在这里跟大家分享一下。

词频统计

我的原始任务是统计词频：我有很多文章，然后我们要对这些文章进行分词，最后汇总出一个词频表出来。一般的写法是这样的：

tokens = {}

for text in read_texts():
    for token in tokenize(text):
        tokens[token] = tokens.get(token, 0) + 1

这种写法在我统计THUCNews全部文章的词频时，大概花了20分钟。

点击阅读全文...

分类：信息时代标签：编程, python 阅读全文 13 评论

30 Jul

Keras实现两个优化器：Lookahead和LazyOptimizer

By 苏剑林 | 2019-07-30 | 44209位读者 | 引用

最近用Keras实现了两个优化器，也算是有点实现技巧，遂放在一起写篇文章简介一下（如果只有一个的话我就不写了）。这两个优化器的名字都挺有意思的，一个是look ahead（往前看？），一个是lazy（偷懒？），难道是两个完全不同的优化思路么？非也非也～只能说发明者们起名字太有创意了。

Lookahead

首先登场的是Lookahead优化器，它源于论文《Lookahead Optimizer: k steps forward, 1 step back》，是最近才提出来的优化器，有意思的是大牛Hinton和Adam的作者之一Jimmy Ba也出现在了论文作者列表当中，有这两个大神加持，这个优化器的出现便吸引了不少目光。

点击阅读全文...

分类：信息时代标签：keras, 优化器阅读全文 7 评论

9 Aug

seq2seq之双向解码

By 苏剑林 | 2019-08-09 | 44311位读者 | 引用

在文章《玩转Keras之seq2seq自动生成标题》中我们已经基本探讨过seq2seq，并且给出了参考的Keras实现。

本文则将这个seq2seq再往前推一步，引入双向的解码机制，它在一定程度上能提高生成文本的质量（尤其是生成较长文本时）。本文所介绍的双向解码机制参考自《Synchronous Bidirectional Neural Machine Translation》，最后笔者也是用Keras实现的。

Seq2Seq的双向解码机制图示

背景介绍

研究过seq2seq的读者都知道，常见的seq2seq的解码过程是从左往右逐字（词）生成的，即根据encoder的结果先生成第一个字；然后根据encoder的结果以及已经生成的第一个字，来去生成第二个字；再根据encoder的结果和前两个字，来生成第三个词；依此类推。总的来说，就是在建模如下概率分解
\begin{equation}p(Y|X)=p(y_1|X)p(y_2|X,y_1)p(y_3|X,y_1,y_2)\cdots\label{eq:p}\end{equation}

点击阅读全文...

分类：信息时代标签：模型, NLP, keras, 文本生成阅读全文 6 评论

3 Sep

百度实体链接比赛后记：行为建模和实体链接

By 苏剑林 | 2019-09-03 | 80038位读者 | 引用

前几个月曾参加了百度的实体链接比赛，这是CCKS2019的评测任务之一，官方称之为“实体链指”，比赛于前几个星期完全结束。笔者最终的F1是0.78左右（冠军是0.80），排在第14名，成绩并不突出（唯一的特色是模型很轻量级，GTX1060都可以轻松跑起来），所以本文只是纯粹的记录过程，大牛们请一笑置之～

本文的实体链接模型总图（可以点击查看大图）

赛题介绍

所谓实体链接，主要指的是在已有一个知识库的情况下，预测输入query的某个实体对应知识库id。也就是说，知识库里边记录了很多实体，对于同一个名字的实体可能会有多个解释，每个解释用一个唯一id编号，我们要做的就是预测query中的实体究竟对应哪一个解释（id）。这是基于知识图谱的问答系统的必要步骤。

点击阅读全文...

分类：信息时代标签：模型, NLP, NER 阅读全文 23 评论

9 Sep

重新写了之前的新词发现算法：更快更好的新词发现

By 苏剑林 | 2019-09-09 | 92173位读者 | 引用

新词发现是NLP的基础任务之一，主要是希望通过无监督发掘一些语言特征（主要是统计特征），来判断一批语料中哪些字符片段可能是一个新词。本站也多次围绕“新词发现”这个话题写过文章，比如：

《新词发现的信息熵方法与实现》
《【中文分词系列】 2. 基于切分的新词发现》
《【中文分词系列】 5. 基于语言模型的无监督分词》
《【中文分词系列】 7. 深度学习分词？只需一个词典！》
《【中文分词系列】 8. 更好的新词发现算法》
《分享一次专业领域词汇的无监督挖掘》

在这些文章之中，笔者觉得理论最漂亮的是《基于语言模型的无监督分词》，而作为新词发现算法来说综合性能比较好的应该是《更好的新词发现算法》，本文就是复现这篇文章的新词发现算法。

点击阅读全文...

分类：信息时代标签：分词, 无监督, NLP, 新词发现阅读全文 30 评论

31 Oct

从去噪自编码器到生成模型

By 苏剑林 | 2019-10-31 | 102284位读者 | 引用

在我看来，几大顶会之中，ICLR的论文通常是最有意思的，因为它们的选题和风格基本上都比较轻松活泼、天马行空，让人有脑洞大开之感。所以，ICLR 2020的投稿论文列表出来之后，我也抽时间粗略过了一下这些论文，确实发现了不少有意思的工作。

其中，我发现了两篇利用去噪自编码器的思想做生成模型的论文，分别是《Learning Generative Models using Denoising Density Estimators》和《Annealed Denoising Score Matching: Learning Energy-Based Models in High-Dimensional Spaces》。由于常规做生成模型的思路我基本都有所了解，所以这种“别具一格”的思路就引起了我的兴趣。细读之下，发现两者的出发点是一致的，但是具体做法又有所不同，最终的落脚点又是一样的，颇有“一题多解”的美妙，遂将这两篇论文放在一起，对比分析一翻。

fashion mnist、CelebA、cifar10上的生成效果

点击阅读全文...

分类：信息时代标签：生成模型, 编码, 梯度, 去噪阅读全文 35 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

用时间换取效果：Keras梯度累积优化器

扯淡

思考：两个椭圆片能粘合成一个立体吗？

什么时候多进程的加速比可以大于1？

词频统计

Keras实现两个优化器：Lookahead和LazyOptimizer

Lookahead

seq2seq之双向解码

背景介绍

百度实体链接比赛后记：行为建模和实体链接

赛题介绍

重新写了之前的新词发现算法：更快更好的新词发现

从去噪自编码器到生成模型

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接