包含关键字算子与线性常微分方程的文章

2 Dec

最小熵原理（四）：“物以类聚”之从图书馆到词向量

By 苏剑林 | 2018-12-02 | 92962位读者 | 引用

从第一篇看下来到这里，我们知道所谓“最小熵原理”就是致力于降低学习成本，试图用最小的成本完成同样的事情。所以整个系列就是一个“偷懒攻略”。那偷懒的秘诀是什么呢？答案是“套路”，所以本系列又称为“套路宝典”。

本篇我们介绍图书馆里边的套路。

先抛出一个问题：词向量出现在什么时候？是2013年Mikolov的Word2Vec？还是是2003年Bengio大神的神经语言模型？都不是，其实词向量可以追溯到千年以前，在那古老的图书馆中...

图书馆一角（图片来源于百度搜索）

走进图书馆

图书馆里有词向量？还是千年以前？在哪本书？我去借来看看。

放书的套路

其实不是哪本书，而是放书的套路。

很明显，图书馆中书的摆放是有“套路”的：它们不是随机摆放的，而是分门别类地放置的，比如数学类放一个区，文学类放一个区，计算机类也放一个区；同一个类也有很多子类，比如数学类中，数学分析放一个子区，代数放一个子区，几何放一个子区，等等。读者是否思考过，为什么要这么分类放置？分类放置有什么好处？跟最小熵又有什么关系？

点击阅读全文...

分类：信息时代标签：熵, 聚类, 词向量, 无监督, 最小熵阅读全文 20 评论

30 Jan

能量视角下的GAN模型（一）：GAN＝“挖坑”＋“跳坑”

By 苏剑林 | 2019-01-30 | 94102位读者 | 引用

“看那挖坑的人，有啥不一样～”

在这个系列中，我们尝试从能量的视角理解GAN。我们会发现这个视角如此美妙和直观，甚至让人拍案叫绝。

本视角直接受启发于Benjio团队的新作《Maximum Entropy Generators for Energy-Based Models》，这篇文章前几天出现在arxiv上。当然，能量模型与GAN的联系由来已久，并不是这篇文章的独创，只不过这篇文章做得仔细和完善一些。另外本文还补充了自己的一些理解和思考上去，力求更为易懂和完整。

作为第一篇文章，我们先来给出一个直白的类比推导：GAN实际上就是一场前仆后继（前挖后跳？）的“挖坑”与“跳坑”之旅～

总的来说，本文的大致内容如下：

1、给出了GAN/WGAN的清晰直观的能量图像；
2、讨论了判别器（能量函数）的训练情况和策略；
3、指出了梯度惩罚一个非常漂亮而直观的能量解释；
4、讨论了GAN中优化器的选择问题。

点击阅读全文...

分类：信息时代标签：概率, 能量, GAN, 生成模型阅读全文 33 评论

27 Jan

“让Keras更酷一些！”：随意的输出和灵活的归一化

By 苏剑林 | 2019-01-27 | 101399位读者 | 引用

继续“让Keras更酷一些！”系列，让Keras来得更有趣些吧～

这次围绕着Keras的loss、metric、权重和进度条进行展开。

可以不要输出

一般我们用Keras定义一个模型，是这样子的：

x_in = Input(shape=(784,))
x = x_in
x = Dense(100, activation='relu')(x)
x = Dense(10, activation='softmax')(x)

model = Model(x_in, x)
model.compile(loss='categorical_crossentropy ',
              optimizer='adam',
              metrics=['accuracy'])
model.fit(x_train, y_train, epochs=5)

点击阅读全文...

分类：信息时代标签：模型, 损失函数, keras 阅读全文 30 评论

26 Feb

非对抗式生成模型GLANN的简单介绍

By 苏剑林 | 2019-02-26 | 67344位读者 | 引用

前段时间看到facebook发表了一个非对抗的生成模型GLANN（去年12月挂在arxiv上），号称用非对抗的方式也能生成1024的高清人脸，于是饶有兴致地阅读了一番，确实有点收获，但也有点失望。至于为啥失望，大家阅读下去就明白了。

原论文：《Non-Adversarial Image Synthesis with Generative Latent Nearest Neighbors》

机器之心介绍：《为什么让GAN一家独大？Facebook提出非对抗式生成方法GLANN》

效果图：

GLANN效果图

点击阅读全文...

分类：信息时代标签：概率, 生成模型阅读全文 14 评论

26 Mar

科学空间浏览指南（FAQ）

By 苏剑林 | 2019-03-26 | 129756位读者 | 引用

事实上，除了写博客内容，在这几年里，笔者是花了相当一部分时间来做科学空间的“表面功夫”，为此还专门学了一点php、css和js。虽然不敢说精益求精，但总体来说网站的浏览体验应该比前几年要好得多。

考虑到有些读者可能需要的功能，但一时半会未必能留意到，遂来整理一些站内技巧。

文章篇

什么环境阅读文章最佳？

两年前科学空间就已经加入了响应式设计，自动适应不同分辨率的屏幕。因此，不管哪个分辨率的环境应该都能看清文字内容，唯一的问题是，在小屏幕手机下公式可能会显示不全或者错位。为了较好地阅读公式，最好在7寸以上的屏幕上阅读。如果一定要用小屏幕的手机，可以考虑横屏阅读。

点击阅读全文...

分类：问题百科标签：网站, 问题, faq 阅读全文 21 评论

14 Mar

圆周率节快乐！|| 原来已经写了十年博客～

By 苏剑林 | 2019-03-14 | 74875位读者 | 引用

今天是3月14日，刚好是3.14，也就是很多理科生都喜欢调侃的“圆周率节”（π day）～

π能否表示为一个分数？

点击阅读全文...

分类：生活/情感标签：生活, 节日, 情感, 数学家阅读全文 23 评论

5 Dec

万能的seq2seq：基于seq2seq的阅读理解问答

By 苏剑林 | 2019-12-05 | 87129位读者 | 引用

今天给bert4keras新增加了一个例子：阅读理解式问答（task_reading_comprehension_by_seq2seq.py），语料跟之前一样，都是用WebQA和SogouQA，最终的得分在0.77左右（单模型，没精调）。

用seq2seq做阅读理解的模型图示

方法简述

由于这次主要目的是给bert4keras增加demo，因此效率就不是主要关心的目标了。这次的目标主要是通用性和易用性，所以用了最万能的方案——seq2seq来实现做阅读理解。

用seq2seq做的话，基本不用怎么关心模型设计，只要把篇章和问题拼接起来，然后预测答案就行了。此外，seq2seq的方案还自然地包括了判断篇章有无答案的方法，以及自然地导出一种多篇章投票的思路。总而言之，不考虑效率的话，seq2seq做阅读理解是一种相当优雅的方案。

这次实现seq2seq还是用UNILM的方案，如果还不了解的读者，可以先阅读《从语言模型到Seq2Seq：Transformer如戏，全靠Mask》了解相应内容。

点击阅读全文...

分类：信息时代标签：问答, 语言模型, 文本生成阅读全文 21 评论

6 Nov

Keras：Tensorflow的黄金标准

By 苏剑林 | 2019-11-06 | 75346位读者 | 引用

这两周投入了比较多的精力去做bert4keras的开发，除了一些API的规范化工作外，其余的主要工作量是构建预训练部分的代码。在昨天，预训练代码基本构建完毕，并同时在TPU/多GPU环境下测试通过，从而有志（有算力）改进预训练模型的同学多了一个选择。——这可能是目前最为清晰易懂的bert及其预训练代码。

预训练代码链接： https://github.com/bojone/bert4keras/tree/master/pretraining

经过这两周的开发（填坑），笔者的最大感想就是：Keras已经成为了tensorflow的黄金标准了。只要你的代码按照Keras的标准规范写，那可以轻松迁移到tf.keras中去，继而可以非常轻松地在TPU或多GPU环境下训练，真正的几乎是一劳永逸。相反，如果你的写法过于灵活，包括像笔者之前介绍的很多“移花接木”式的Keras技巧，就可能会有不少问题，甚至可能出现的一种情况是：就算你已经在多GPU上跑通了，在TPU上你也死活调不通。

Keras和Tensorflow

点击阅读全文...

分类：信息时代标签：keras 阅读全文 19 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

最小熵原理（四）：“物以类聚”之从图书馆到词向量

走进图书馆

放书的套路

能量视角下的GAN模型（一）：GAN＝“挖坑”＋“跳坑”

“让Keras更酷一些！”：随意的输出和灵活的归一化

可以不要输出

非对抗式生成模型GLANN的简单介绍

科学空间浏览指南（FAQ）

文章篇

什么环境阅读文章最佳？

圆周率节快乐！|| 原来已经写了十年博客～

万能的seq2seq：基于seq2seq的阅读理解问答

方法简述

Keras：Tensorflow的黄金标准

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接