包含关键字 adam优化器的文章 - 科学空间|Scientific Spaces

12 Apr

信息抽取

众所周知，百度知道上有大量的人提了大量的问题，并且得到大量的回复。然而，百度知道上的回复者貌似懒人居多，他们往往喜欢直接在网上复制粘贴一大片来作为回答内容，而且这些内容可能跟问题相关，也可能跟问题不相关，比如

https://zhidao.baidu.com/question/557785746.html
问：广州白云山海拨多高
答：广州白云山（Guangzhou Baiyun Mountain），是新 “羊城八景”之首、国家4A级景区和国家重点风景名胜区。它位于广州市的东北部，为南粤名山之一，自古就有“羊城第一秀”之称。山体相当宽阔，由30多座山峰组成，为广东最高峰九连山的支脉。面积20.98平方公里，主峰摩星岭高382米（注：最新测绘高度为372.6米——国家测绘局，2008年），峰峦重叠，溪涧纵横，登高可俯览全市，遥望珠江。每当雨后天晴或暮春时节，山间白云缭绕，蔚为奇观，白云山之名由此得来

点击阅读全文...

分类：资源共享标签：问答, 语料, 数据集阅读全文 40 评论

23 Apr

科学空间添加新域名kexue.fm

By 苏剑林 | 2017-04-23 | 32943位读者 | 引用

在上个月，偶然间发现kexue.fm这个域名还没被注册，感觉挺不错的，所以赶紧把它注册了。

事实上，笔者一直以来都挺喜欢fm这个后缀的域名，因为FM也是电台的简写，fm域名的网站，从域名上就给人一种听电台般的惬意。刚好，顺手注册了kexue.fm这个域名，感觉很配本博客“科学空间”这个名字，也很符合本博客创办之初的理念——让科学流行起来——这也意味着科学会像听电台般舒服。当然，另一方面，它也更加好记。域名在大概一个月前就注册好了，但域名的备案，前前后后花了差不多一个月的时间，所以到现在才加上到科学空间中。如今科学空间的服务器也已经迁移到了阿里云。

原来的域名spaces.ac.cn也会一直保留着，双域名皆可访问。此外，申请了@spaces.ac.cn后缀邮箱的读者也不用担心，这个邮箱也会一直保留着。

欢迎大家多用新域名访问^_^

分类：生活/情感标签：网站阅读全文 3 评论

24 Apr

【语料】2500万中文三元组！

By 苏剑林 | 2017-04-24 | 90834位读者 | 引用

闲聊

这两年，知识图谱、问答系统、聊天机器人等领域是越来越火了。知识图谱是一个很泛化的概念，在我看来，涉及到知识库的构建、检索、利用等机器学习相关的内容，都算知识图谱。当然，这也不是个什么定义，只是个人的直观感觉。

做知识图谱的读者都知道，三元组是结构化知识的一种方法，是做知识型问答系统的重要组成部分。对于英文领域，已经有一些较大的开源的三元组语料库，而很显然，中文目前还没有这样的语料库共享（哪怕有人爬取到了，也珍藏起来了）。笔者前段时间写了个百度百科的爬虫，爬了一段时间，抓了几百万个百度百科的词条。其中不少词条含有一些结构化的信息，直接抽取出来，就是有效的“三元组”了，可以用来做知识图谱。本文分享的三元组语料正是由此而来，共有2500万个三元组。

百度百科的三元组

点击阅读全文...

分类：资源共享标签：问答, 语料, 数据集阅读全文 16 评论

27 May

【不可思议的Word2Vec】5. Tensorflow版的Word2Vec

By 苏剑林 | 2017-05-27 | 111841位读者 | 引用

本文封装了一个比较完整的Word2Vec，其模型部分使用tensorflow实现。本文的目的并非只是再造一次Word2Vec这个轮子，而是通过这个例子来熟悉tensorflow的写法，并且测试笔者设计的一种新的softmax loss的效果，为后面研究语言模型的工作做准备。

不同的地方

Word2Vec的基本的数学原理，请移步到《【不可思议的Word2Vec】 1.数学原理》一文查看。本文的主要模型还是CBOW或者Skip-Gram，但在loss设计上有所不同。本文还是使用了完整的softmax结构，而不是huffmax softmax或者负采样方案，但是在训练softmax时，使用了基于随机负采样的交叉熵作为loss。这种loss与已有的nce_loss和sampled_softmax_loss都不一样，这里姑且命名为random softmax loss。

另外，在softmax结构中，一般是$\text{softmax}(Wx+b)$这样的形式，考虑到$W$矩阵的形状事实上跟词向量矩阵的形状是一样的，因此本文考虑了softmax层与词向量层共享权重的模型（这时候直接让$b$为0），这种模型等效于原有的Word2Vec的负采样方案~~，也类似于glove词向量的~~词共现矩阵分解，但由于使用了交叉熵损失，理论上收敛更快，而且训练结果依然具有softmax的预测概率意义（相比之下，已有的Word2Vec负样本模型训练完之后，最后模型的输出值是没有意义的，只有词向量是有意义的。）。同时，由于共享了参数，因此词向量的更新更为充分，读者不妨多多测试这种方案。

点击阅读全文...

分类：信息时代标签：深度学习, 词向量, Word2Vec 阅读全文 22 评论

8 Jun

互怼的艺术：从零直达WGAN-GP

By 苏剑林 | 2017-06-08 | 296149位读者 | 引用

前言

GAN，全称Generative Adversarial Nets，中文名是生成对抗式网络。对于GAN来说，最通俗的解释就是“伪造者-鉴别者”的解释，如艺术画的伪造者和鉴别者。一开始伪造者和鉴别者的水平都不高，但是鉴别者还是比较容易鉴别出伪造者伪造出来的艺术画。但随着伪造者对伪造技术的学习后，其伪造的艺术画会让鉴别者识别错误；或者随着鉴别者对鉴别技术的学习后，能够很简单的鉴别出伪造者伪造的艺术画。这是一个双方不断学习技术，以达到最高的伪造和鉴别水平的过程。然而，稍微深入了解的读者就会发现，跟现实中的造假者不同，造假者会与时俱进地使用新材料新技术来造假，而GAN最神奇而又让人困惑的地方是它能够将随机噪声映射为我们所希望的正样本，有噪声就有正样本，这不是无本生意吗，多划算～

另一个情况是，自从WGAN提出以来，基本上GAN的主流研究都已经变成了WGAN上去了，但WGAN的形式事实上已经跟“伪造者-鉴别者”差得比较远了。而且WGAN虽然最后的形式并不复杂，但是推导过程却用到了诸多复杂的数学，使得我无心研读原始论文。这迫使我要找从一条简明直观的线索来理解GAN。幸好，经过一段时间的思考，有点收获。

点击阅读全文...

分类：信息时代标签：概率, 无监督, GAN, 生成模型阅读全文 110 评论

8 Aug

【备忘】谈谈dropout

By 苏剑林 | 2017-08-08 | 34022位读者 | 引用

其实这只是一篇备忘...

dropout是深度学习中防止过拟合的一项有效措施，当然，就其思想而言，dropout其实也不仅仅可以用在深度学习中，还可以用在传统的机器学习方法中，只不过在深度学习的神经网络框架下，dropout显得更为自然罢了。

做了什么

dropout是怎么操作的？一般来做，对于输入的张量$x$，dropout就是将部分元素置零，然后将置零后的结果做一个尺度变换。具体来说，以Keras的Dropout(0.6)(x)为例，实际上等价于numpy做的这件事情

import numpy as np

x = np.random.random((10,100)) #模拟一个batch_size=10、维度为100的输入
def Dropout(x, drop_proba):
    return x*np.random.choice(
                              [0,1], 
                              x.shape,  
                              p=[drop_proba,1-drop_proba]
                             )/(1.-drop_proba)

print Dropout(x, 0.6)

点击阅读全文...

分类：信息时代标签：深度学习阅读全文 3 评论

16 Jul

Linux下的误删大坑与简单的恢复技巧

By 苏剑林 | 2017-07-16 | 29118位读者 | 引用

警告

以下内容包含诸多高危动作，请勿随意模仿。未成年人请在父母的陪同下观看～(^_^）

自杀式

Linux系统（下面内容同时适用于Mac OS）以开源自由闻名，然而有些时候它也开放过头了，而笔者也被它无比开发的特性坑了好几次（当然，主要是笔者使用习惯不好），遂总结分享，供大家娱乐。

最经典的例子就是，通过以下命令就可以实现“自杀”：

sudo rm / -rf

这就把你的Linux系统给毁了。显然，如果是在Windows中，这相当于在操作系统中格式化系统盘，这是绝对不允许的。

点击阅读全文...

分类：信息时代标签：linux, 技巧阅读全文 1 评论

14 Oct

训练集、验证集和测试集的意义

By 苏剑林 | 2017-10-14 | 51305位读者 | 引用

在有监督的机器学习中，经常会说到训练集（train)、验证集（validation）和测试集（test），这三个集合的区分可能会让人糊涂，特别是，有些读者搞不清楚验证集和测试集有什么区别。

划分

如果我们自己已经有了一个大的标注数据集，想要完成一个有监督模型的测试，那么通常使用均匀随机抽样的方式，将数据集划分为训练集、验证集、测试集，这三个集合不能有交集，常见的比例是8:1:1，当然比例是人为的。从这个角度来看，三个集合都是同分布的。

点击阅读全文...

分类：信息时代标签：模型, 深度学习阅读全文 3 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

【语料】百度的中文问答数据集WebQA

信息抽取

科学空间添加新域名kexue.fm

【语料】2500万中文三元组！

闲聊

【不可思议的Word2Vec】5. Tensorflow版的Word2Vec

不同的地方

互怼的艺术：从零直达WGAN-GP

前言

【备忘】谈谈dropout

做了什么

Linux下的误删大坑与简单的恢复技巧

警告

自杀式

训练集、验证集和测试集的意义

划分

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接