包含关键字自注意力的文章 - 科学空间|Scientific Spaces

7 Apr

【不可思议的Word2Vec】 3.提取关键词

By 苏剑林 | 2017-04-07 | 203621位读者 | 引用

本文主要是给出了关键词的一种新的定义，并且基于Word2Vec给出了一个实现方案。这种关键词的定义是自然的、合理的，Word2Vec只是一个简化版的实现方案，可以基于同样的定义，换用其他的模型来实现。

说到提取关键词，一般会想到TF-IDF和TextRank，大家是否想过，Word2Vec还可以用来提取关键词？而且，用Word2Vec提取关键词，已经初步含有了语义上的理解，而不仅仅是简单的统计了，而且还是无监督的！

什么是关键词？

诚然，TF-IDF和TextRank是两种提取关键词的很经典的算法，它们都有一定的合理性，但问题是，如果从来没看过这两个算法的读者，会感觉简直是异想天开的结果，估计很难能够从零把它们构造出来。也就是说，这两种算法虽然看上去简单，但并不容易想到。试想一下，没有学过信息相关理论的同学，估计怎么也难以理解为什么IDF要取一个对数？为什么不是其他函数？又有多少读者会破天荒地想到，用PageRank的思路，去判断一个词的重要性？

说到底，问题就在于：提取关键词和文本摘要，看上去都是一个很自然的任务，有谁真正思考过，关键词的定义是什么？这里不是要你去查汉语词典，获得一大堆文字的定义，而是问你数学上的定义。关键词在数学上的合理定义应该是什么？或者说，我们获取关键词的目的是什么？

点击阅读全文...

分类：信息时代标签：词向量, Word2Vec, 语言模型阅读全文 54 评论

12 Apr

【语料】百度的中文问答数据集WebQA

By 苏剑林 | 2017-04-12 | 227797位读者 | 引用

信息抽取

众所周知，百度知道上有大量的人提了大量的问题，并且得到大量的回复。然而，百度知道上的回复者貌似懒人居多，他们往往喜欢直接在网上复制粘贴一大片来作为回答内容，而且这些内容可能跟问题相关，也可能跟问题不相关，比如

https://zhidao.baidu.com/question/557785746.html
问：广州白云山海拨多高
答：广州白云山（Guangzhou Baiyun Mountain），是新 “羊城八景”之首、国家4A级景区和国家重点风景名胜区。它位于广州市的东北部，为南粤名山之一，自古就有“羊城第一秀”之称。山体相当宽阔，由30多座山峰组成，为广东最高峰九连山的支脉。面积20.98平方公里，主峰摩星岭高382米（注：最新测绘高度为372.6米——国家测绘局，2008年），峰峦重叠，溪涧纵横，登高可俯览全市，遥望珠江。每当雨后天晴或暮春时节，山间白云缭绕，蔚为奇观，白云山之名由此得来

点击阅读全文...

分类：资源共享标签：问答, 语料, 数据集阅读全文 40 评论

24 Apr

【语料】2500万中文三元组！

By 苏剑林 | 2017-04-24 | 91710位读者 | 引用

闲聊

这两年，知识图谱、问答系统、聊天机器人等领域是越来越火了。知识图谱是一个很泛化的概念，在我看来，涉及到知识库的构建、检索、利用等机器学习相关的内容，都算知识图谱。当然，这也不是个什么定义，只是个人的直观感觉。

做知识图谱的读者都知道，三元组是结构化知识的一种方法，是做知识型问答系统的重要组成部分。对于英文领域，已经有一些较大的开源的三元组语料库，而很显然，中文目前还没有这样的语料库共享（哪怕有人爬取到了，也珍藏起来了）。笔者前段时间写了个百度百科的爬虫，爬了一段时间，抓了几百万个百度百科的词条。其中不少词条含有一些结构化的信息，直接抽取出来，就是有效的“三元组”了，可以用来做知识图谱。本文分享的三元组语料正是由此而来，共有2500万个三元组。

百度百科的三元组

点击阅读全文...

分类：资源共享标签：问答, 语料, 数据集阅读全文 16 评论

1 May

【不可思议的Word2Vec】 4.不一样的“相似”

By 苏剑林 | 2017-05-01 | 145841位读者 | 引用

相似度的定义

当用Word2Vec得到词向量后，一般我们会用余弦相似度来比较两个词的相似程度，定义为
$$\cos (\boldsymbol{x}, \boldsymbol{y}) = \frac{\boldsymbol{x}\cdot\boldsymbol{y}}{|\boldsymbol{x}|\times|\boldsymbol{y}|}$$
有了这个相似度概念，我们既可以比较任意两个词之间的相似度，也可以找出跟给定词最相近的词语。这在gensim的Word2Vec中，由most_similar函数实现。

等等！我们很快给出了相似度的计算公式，可是我们居然还没有“定义”相似！连相似都没有定义，怎么就得到了评估相似度的数学公式了呢？

要注意，这不是一个可以随意忽略的问题。很多时候我们都不知道我们干的是什么，就直接去干了。好比上一篇文章说到提取关键词，相信很多人都未曾想过，什么是关键词，难道就仅仅说关键词就是很“关键”的词？而如果想到，关键词就是用来估计文章大概讲什么的，这样我们就得到一种很自然的关键词定义
$$keywords = \mathop{\text{argmax}}_{w\in s}p(s|w)$$
进而可以用各种方法对它建模。

回到本文的主题来，相似度怎么定义呢？答案是：看场景定义所需要的相似。

点击阅读全文...

分类：信息时代标签：词向量, Word2Vec, 互信息阅读全文 40 评论

4 May

记录一次半监督的情感分析

By 苏剑林 | 2017-05-04 | 53502位读者 | 引用

本文是一次不怎么成功的半监督学习的尝试：在IMDB的数据集上，用随机抽取的1000个标注样本训练一个文本情感分类模型，并且在余下的49000个测试样本中，测试准确率为73.48%。

思路

本文的思路来源于OpenAI的这篇文章：
《OpenAI新研究发现无监督情感神经元：可直接调控生成文本的情感》

文章里边介绍了一种无监督（实际上是半监督）做情感分类的模型的方法，并且实验效果很好。然而文章里边的实验很庞大，对于个人来说几乎不可能重现（在4块Pascal GPU花了1个月时间训练）。不过，文章里边的思想是很简单的，根据里边的思想，我们可以做个“山寨版”的。思路如下：

我们一般用深度学习做情感分类，比较常规的思路就是Embedding层+LSTM层+Dense层(Sigmoid激活)，我们常说的词向量，相当于预训练了Embedding层（这一层的参数量最大，最容易过拟合），而OpenAI的思想就是，为啥不连LSTM层一并预训练了呢？预训练的方法也是用语言模型来训练。当然，为了使得预训练的结果不至于丢失情感信息，LSTM的隐藏层节点要大一些。

点击阅读全文...

分类：信息时代标签：深度学习, 文本挖掘阅读全文 6 评论

17 May

如何“扒”站？手把手教你爬百度百科～

By 苏剑林 | 2017-05-17 | 33692位读者 | 引用

最近有需求要爬一些儿童故事类的语料用来训练词向量，因此找了一些童话故事网把整站的童话文章爬了下来。下面分享一下用Python实现的这个过程，并把之前爬取百度百科的经验，结合着分享出来。本教程适合于以下需求：需要遍历爬取指定的网站、并且指定网站没有反爬虫措施。在这种前提之下，所考验我们的仅仅是遍历算法和编程技巧了。

假设

再次表明我们的假设：

1、需要遍历整个网站来爬取我们需要的信息；
2、网站没有反爬虫措施；
3、网站的所有页面，总可以通过网站首页，逐步点击超链接来到达。

点击阅读全文...

分类：信息时代标签：爬虫, 语料阅读全文抢沙发

27 Aug

fashion mnist的一个baseline (MobileNet 95%)

By 苏剑林 | 2017-08-27 | 82353位读者 | 引用

浅尝

昨天简单试了一下在fashion mnist的gan模型，发现还能work，当然那个尝试也没什么技术水平，就是把原来的脚本改一下路径跑了就完事。今天回到fashion mnist本身的主要任务——10分类，用Keras测了一下一些模型在上面的分类效果，最后得到了94.5%左右的准确率，加上随机翻转的数据扩增能做到95%。

首先随便手写了一些模型的组合，测试发现准确率都不大好，看来对于这个数据集来说，自己构思模型是比较困难的了，于是想着用现成的模型结构。一说到现成的cnn模型，基本上我们都会想到VGG、ResNet、inception、Xception等，但这些模型为解决imagenet的1000分类问题而设计，用到这个入门级别的数据集上似乎过于庞大了，而且也容易过拟合。后来突然想起，Keras好像自带了个叫MobileNet的模型，查看了一下模型权重，发现参数量不大，但是容量应该还是可以的，故选用MobileNet做实验。

深究

点击阅读全文...

分类：信息时代标签：神经网络, 深度学习阅读全文 12 评论

27 May

【不可思议的Word2Vec】5. Tensorflow版的Word2Vec

By 苏剑林 | 2017-05-27 | 112701位读者 | 引用

本文封装了一个比较完整的Word2Vec，其模型部分使用tensorflow实现。本文的目的并非只是再造一次Word2Vec这个轮子，而是通过这个例子来熟悉tensorflow的写法，并且测试笔者设计的一种新的softmax loss的效果，为后面研究语言模型的工作做准备。

不同的地方

Word2Vec的基本的数学原理，请移步到《【不可思议的Word2Vec】 1.数学原理》一文查看。本文的主要模型还是CBOW或者Skip-Gram，但在loss设计上有所不同。本文还是使用了完整的softmax结构，而不是huffmax softmax或者负采样方案，但是在训练softmax时，使用了基于随机负采样的交叉熵作为loss。这种loss与已有的nce_loss和sampled_softmax_loss都不一样，这里姑且命名为random softmax loss。

另外，在softmax结构中，一般是$\text{softmax}(Wx+b)$这样的形式，考虑到$W$矩阵的形状事实上跟词向量矩阵的形状是一样的，因此本文考虑了softmax层与词向量层共享权重的模型（这时候直接让$b$为0），这种模型等效于原有的Word2Vec的负采样方案~~，也类似于glove词向量的~~词共现矩阵分解，但由于使用了交叉熵损失，理论上收敛更快，而且训练结果依然具有softmax的预测概率意义（相比之下，已有的Word2Vec负样本模型训练完之后，最后模型的输出值是没有意义的，只有词向量是有意义的。）。同时，由于共享了参数，因此词向量的更新更为充分，读者不妨多多测试这种方案。

点击阅读全文...

分类：信息时代标签：深度学习, 词向量, Word2Vec 阅读全文 22 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

【不可思议的Word2Vec】 3.提取关键词

什么是关键词？

【语料】百度的中文问答数据集WebQA

信息抽取

【语料】2500万中文三元组！

闲聊

【不可思议的Word2Vec】 4.不一样的“相似”

相似度的定义

记录一次半监督的情感分析

思路

如何“扒”站？手把手教你爬百度百科～

假设

fashion mnist的一个baseline (MobileNet 95%)

浅尝

深究

【不可思议的Word2Vec】5. Tensorflow版的Word2Vec

不同的地方

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接