包含关键字分层学习率的文章 - 科学空间|Scientific Spaces

14 Mar

泰迪杯赛前培训之数据挖掘与建模“慢谈”

By 苏剑林 | 2017-03-14 | 32112位读者 | 引用

泰迪杯赛前培训

应广州泰迪科技公司之邀，给泰迪杯数据挖掘竞赛录制了赛前培训视频，内容基本上是各种常见的数学模型及入门用法，以一种比较独特的思路，将朴素贝叶斯、HMM、逻辑回归、组合模型、神经网络、深度学习等等串了起来。视频讲解难度为入门级，当然，真的要融合贯通所有内容，恐怕要骨灰级。

不管怎么样，简单分享一下，欢迎大家留言讨论、建议甚至批评。

PPT下载：泰迪杯赛前培训ppt.zip

视频地址：http://moodle.tipdm.com/course/view.php?id=18

分类：信息时代标签：数据挖掘阅读全文 5 评论

24 Apr

【语料】2500万中文三元组！

By 苏剑林 | 2017-04-24 | 88261位读者 | 引用

闲聊

这两年，知识图谱、问答系统、聊天机器人等领域是越来越火了。知识图谱是一个很泛化的概念，在我看来，涉及到知识库的构建、检索、利用等机器学习相关的内容，都算知识图谱。当然，这也不是个什么定义，只是个人的直观感觉。

做知识图谱的读者都知道，三元组是结构化知识的一种方法，是做知识型问答系统的重要组成部分。对于英文领域，已经有一些较大的开源的三元组语料库，而很显然，中文目前还没有这样的语料库共享（哪怕有人爬取到了，也珍藏起来了）。笔者前段时间写了个百度百科的爬虫，爬了一段时间，抓了几百万个百度百科的词条。其中不少词条含有一些结构化的信息，直接抽取出来，就是有效的“三元组”了，可以用来做知识图谱。本文分享的三元组语料正是由此而来，共有2500万个三元组。

百度百科的三元组

点击阅读全文...

分类：资源共享标签：问答, 语料, 数据集阅读全文 16 评论

8 Aug

【备忘】谈谈dropout

By 苏剑林 | 2017-08-08 | 33198位读者 | 引用

其实这只是一篇备忘...

dropout是深度学习中防止过拟合的一项有效措施，当然，就其思想而言，dropout其实也不仅仅可以用在深度学习中，还可以用在传统的机器学习方法中，只不过在深度学习的神经网络框架下，dropout显得更为自然罢了。

做了什么

dropout是怎么操作的？一般来做，对于输入的张量$x$，dropout就是将部分元素置零，然后将置零后的结果做一个尺度变换。具体来说，以Keras的Dropout(0.6)(x)为例，实际上等价于numpy做的这件事情

import numpy as np

x = np.random.random((10,100)) #模拟一个batch_size=10、维度为100的输入
def Dropout(x, drop_proba):
    return x*np.random.choice(
                              [0,1], 
                              x.shape,  
                              p=[drop_proba,1-drop_proba]
                             )/(1.-drop_proba)

print Dropout(x, 0.6)

点击阅读全文...

分类：信息时代标签：深度学习阅读全文 3 评论

30 Jan

【分享】千万级百度知道语料

By 苏剑林 | 2018-01-30 | 81510位读者 | 引用

发布

2018年01月30日

数目

共1千万条

格式

[
  {
    "url": "http://zhidao.baidu.com/question/565618371557484884.html",
    "question": "学文员有哪些专科学校",
    "tags": [
      "学校",
      "专科",
      "院校信息"
    ]
  },
  {
    "url": "http://zhidao.baidu.com/question/2079794100345438428.html",
    "question": "网赌和澳门赌有区别吗",
    "tags": [
      "网络",
      "澳门",
      "赌博"
    ]
  }
]

点击阅读全文...

分类：资源共享标签：自然语言处理, 语料, 数据集阅读全文 15 评论

8 Sep

“让Keras更酷一些！”：小众的自定义优化器

By 苏剑林 | 2018-09-08 | 85793位读者 | 引用

沿着之前的《“让Keras更酷一些！”：精巧的层与花式的回调》写下去～

今天我们来看一个小众需求：自定义优化器。

细想之下，不管用什么框架，自定义优化器这个需求可谓真的是小众中的小众。一般而言，对于大多数任务我们都可以无脑地直接上Adam，而调参炼丹高手一般会用SGD来调出更好的效果，换言之不管是高手新手，都很少会有自定义优化器的需求。

那这篇文章还有什么价值呢？有些场景下会有一点点作用。比如通过学习Keras中的优化器写法，你可以对梯度下降等算法有进一步的认识，你还可以顺带看到Keras的源码是多么简洁优雅。此外，有时候我们可以通过自定义优化器来实现自己的一些功能，比如给一些简单的模型（例如Word2Vec）重写优化器（直接写死梯度，而不是用自动求导），可以使得算法更快；自定义优化器还可以实现诸如“软batch”的功能。

Keras优化器

我们首先来看Keras中自带优化器的代码，位于：
https://github.com/keras-team/keras/blob/master/keras/optimizers.py

点击阅读全文...

分类：信息时代标签：keras, 优化器阅读全文 23 评论

10 Oct

变分自编码器 = 最小化先验分布 + 最大化互信息

By 苏剑林 | 2018-10-10 | 124586位读者 | 引用

这篇文章很简短，主要描述的是一个很有用、也不复杂、但是我居然这么久才发现的事实～

在《深度学习的互信息：无监督提取特征》一文中，我们通过先验分布和最大化互信息两个loss的加权组合来得到Deep INFOMAX模型最后的loss。在那篇文章中，虽然把故事讲完了，但是某种意义上来说，那只是个拼凑的loss。而本文则要证明那个loss可以由变分自编码器自然地导出来。

过程

不厌其烦地重复一下，变分自编码器（VAE）需要优化的loss是
\begin{equation}\begin{aligned}&KL(\tilde{p}(x)p(z|x)\Vert q(z)q(x|z))\\
=&\iint \tilde{p}(x)p(z|x)\log \frac{\tilde{p}(x)p(z|x)}{q(x|z)q(z)} dzdx\end{aligned}\end{equation}
相关的论述在本博客已经出现多次了。VAE中既包含编码器，又包含解码器，如果我们只需要编码特征，那么再训练一个解码器就显得很累赘了。所以重点是怎么将解码器去掉。

其实再简单不过了，把VAE的loss分开两部分

点击阅读全文...

分类：信息时代标签：变分, 互信息, vae 阅读全文 36 评论

10 Dec

BiGAN-QP：简单清晰的编码&生成模型

By 苏剑林 | 2018-12-10 | 65429位读者 | 引用

前不久笔者通过直接在对偶空间中分析的思路，提出了一个称为GAN-QP的对抗模型框架，它的特点是可以从理论上证明既不会梯度消失，又不需要L约束，使得生成模型的搭建和训练都得到简化。

GAN-QP是一个对抗框架，所以理论上原来所有的GAN任务都可以往上面试试。前面《不用L约束又不会梯度消失的GAN，了解一下？》一文中我们只尝试了标准的随机生成任务，而这篇文章中我们尝试既有生成器、又有编码器的情况：BiGAN-QP。

BiGAN与BiGAN-QP

注意这是BiGAN，不是前段时间很火的BigGAN，BiGAN是双向GAN（Bidirectional GAN），提出于《Adversarial feature learning》一文，同期还有一篇非常相似的文章叫做《Adversarially Learned Inference》，提出了叫做ALI的模型，跟BiGAN差不多。总的来说，它们都是往普通的GAN模型中加入了编码器，使得模型既能够具有普通GAN的随机生成功能，又具有编码器的功能，可以用来提取有效的特征。把GAN-QP这种对抗模式用到BiGAN中，就得到了BiGAN-QP。

话不多说，先来上效果图（左边是原图，右边是重构）：

BiGAN-QP重构效果图

点击阅读全文...

分类：信息时代标签：无监督, GAN, 生成模型, 编码阅读全文 13 评论

7 Nov

WGAN-div：一个默默无闻的WGAN填坑者

By 苏剑林 | 2018-11-07 | 155605位读者 | 引用

今天我们来谈一下Wasserstein散度，简称“W散度”。注意，这跟Wasserstein距离（Wasserstein distance，简称“W距离”，又叫Wasserstein度量、Wasserstein metric）是不同的两个东西。

本文源于论文《Wasserstein Divergence for GANs》，论文中提出了称为WGAN-div的GAN训练方案。这是一篇我很是欣赏却默默无闻的paper，我只是找文献时偶然碰到了它。不管英文还是中文界，它似乎都没有流行起来，但是我感觉它是一个相当漂亮的结果。

WGAN-div的部分样本（2w iter）

如果读者需要入门一下WGAN的相关知识，不妨请阅读拙作《互怼的艺术：从零直达WGAN-GP》。

WGAN

我们知道原始的GAN（SGAN）会有可能存在梯度消失的问题，因此WGAN横空出世了。

W距离

WGAN引入了最优传输里边的W距离来度量两个分布的距离：
\begin{equation}W_c[\tilde{p}(x), q(x)] = \inf_{\gamma\in \Pi(\tilde{p}(x), q(x))} \mathbb{E}_{(x,y)\sim \gamma}[c(x,y)] \end{equation}
这里的$\tilde{p}(x)$是真实样本的分布，$q(x)$是伪造分布，$c(x,y)$是传输成本，论文中用的是$c(x,y)=\Vert x-y\Vert$；而$\gamma\in \Pi(\tilde{p}(x), q(x))$的意思是说：$\gamma$是任意关于$x, y$的二元分布，其边缘分布则为$\tilde{p}(x)$和$q(y)$。直观来看，$\gamma$描述了一个运输方案，而$c(x,y)$则是运输成本，$W_c[\tilde{p}(x), q(x)]$就是说要找到成本最低的那个运输方案所对应的成本作为分布度量。

点击阅读全文...

分类：信息时代标签：GAN, 生成模型, 度量阅读全文 50 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

泰迪杯赛前培训之数据挖掘与建模“慢谈”

【语料】2500万中文三元组！

闲聊

【备忘】谈谈dropout

做了什么

【分享】千万级百度知道语料

发布

数目

格式

“让Keras更酷一些！”：小众的自定义优化器

Keras优化器

变分自编码器 = 最小化先验分布 + 最大化互信息

过程

BiGAN-QP：简单清晰的编码&生成模型

BiGAN与BiGAN-QP

WGAN-div：一个默默无闻的WGAN填坑者

WGAN

W距离

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接