包含关键字自回归的文章 - 科学空间|Scientific Spaces

2 Apr

【不可思议的Word2Vec】 1.数学原理

By 苏剑林 | 2017-04-02 | 56107位读者 | 引用

对于了解深度学习、自然语言处理NLP的读者来说，Word2Vec可以说是家喻户晓的工具，尽管不是每一个人都用到了它，但应该大家都会听说过它——Google出品的高效率的获取词向量的工具。

Word2Vec不可思议？

大多数人都是将Word2Vec作为词向量的等价名词，也就是说，纯粹作为一个用来获取词向量的工具，关心模型本身的读者并不多。可能是因为模型过于简化了，所以大家觉得这样简化的模型肯定很不准确，所以没法用，但它的副产品词向量的质量反而还不错。没错，如果是作为语言模型来说，Word2Vec实在是太粗糙了。

但是，为什么要将它作为语言模型来看呢？抛开语言模型的思维约束，只看模型本身，我们就会发现，Word2Vec的两个模型 —— CBOW和Skip-Gram —— 实际上大有用途，它们从不同角度来描述了周围词与当前词的关系，而很多基本的NLP任务，都是建立在这个关系之上，如关键词抽取、逻辑推理等。这几篇文章就是希望能够抛砖引玉，通过介绍Word2Vec模型本身，以及几个看上去“不可思议”的用法，来提供一些研究此类问题的新思路。

点击阅读全文...

分类：信息时代标签：词向量, Word2Vec, 语言模型阅读全文 4 评论

3 Apr

【不可思议的Word2Vec】 2.训练好的模型

By 苏剑林 | 2017-04-03 | 425604位读者 | 引用

由于后面几篇要讲解Word2Vec怎么用，因此笔者先训练好了一个Word2Vec模型。为了节约读者的时间，并且保证读者可以复现后面的结果，笔者决定把这个训练好的模型分享出来，用Gensim训练的。单纯的词向量并不大，但第一篇已经说了，我们要用到完整的Word2Vec模型，因此我将完整的模型分享出来了，包含四个文件，所以文件相对大一些。

提醒读者的是，如果你想获取完整的Word2Vec模型，又不想改源代码，那么Python的Gensim库应该是你唯一的选择，据我所知，其他版本的Word2Vec最后都是只提供词向量给我们，没有完整的模型。

对于做知识挖掘来说，显然用知识库语料（如百科语料）训练的Word2Vec效果会更好。但百科语料我还在爬取中，爬完了我再训练一个模型，到时再分享。

模型概况

这个模型的大概情况如下：
$$\begin{array}{c|c}
\hline
\text{训练语料} & \text{微信公众号的文章，多领域，属于中文平衡语料}\\
\hline
\text{语料数量} & \text{800万篇，总词数达到650亿}\\
\hline
\text{模型词数} & \text{共352196词，基本是中文词，包含常见英文词}\\
\hline
\text{模型结构} & \text{Skip-Gram + Huffman Softmax}\\
\hline
\text{向量维度} & \text{256维}\\
\hline
\text{分词工具} & \text{结巴分词，加入了有50万词条的词典，关闭了新词发现}\\
\hline
\text{训练工具} & \text{Gensim的Word2Vec，服务器训练了7天}\\
\hline
\text{其他情况} & \text{窗口大小为10，最小词频是64，迭代了10次}\\
\hline
\end{array}$$

点击阅读全文...

分类：信息时代标签：词向量, Word2Vec, 语言模型阅读全文 144 评论

7 Apr

【不可思议的Word2Vec】 3.提取关键词

By 苏剑林 | 2017-04-07 | 196375位读者 | 引用

本文主要是给出了关键词的一种新的定义，并且基于Word2Vec给出了一个实现方案。这种关键词的定义是自然的、合理的，Word2Vec只是一个简化版的实现方案，可以基于同样的定义，换用其他的模型来实现。

说到提取关键词，一般会想到TF-IDF和TextRank，大家是否想过，Word2Vec还可以用来提取关键词？而且，用Word2Vec提取关键词，已经初步含有了语义上的理解，而不仅仅是简单的统计了，而且还是无监督的！

什么是关键词？

诚然，TF-IDF和TextRank是两种提取关键词的很经典的算法，它们都有一定的合理性，但问题是，如果从来没看过这两个算法的读者，会感觉简直是异想天开的结果，估计很难能够从零把它们构造出来。也就是说，这两种算法虽然看上去简单，但并不容易想到。试想一下，没有学过信息相关理论的同学，估计怎么也难以理解为什么IDF要取一个对数？为什么不是其他函数？又有多少读者会破天荒地想到，用PageRank的思路，去判断一个词的重要性？

说到底，问题就在于：提取关键词和文本摘要，看上去都是一个很自然的任务，有谁真正思考过，关键词的定义是什么？这里不是要你去查汉语词典，获得一大堆文字的定义，而是问你数学上的定义。关键词在数学上的合理定义应该是什么？或者说，我们获取关键词的目的是什么？

点击阅读全文...

分类：信息时代标签：词向量, Word2Vec, 语言模型阅读全文 54 评论

12 Apr

【语料】百度的中文问答数据集WebQA

By 苏剑林 | 2017-04-12 | 220764位读者 | 引用

信息抽取

众所周知，百度知道上有大量的人提了大量的问题，并且得到大量的回复。然而，百度知道上的回复者貌似懒人居多，他们往往喜欢直接在网上复制粘贴一大片来作为回答内容，而且这些内容可能跟问题相关，也可能跟问题不相关，比如

https://zhidao.baidu.com/question/557785746.html
问：广州白云山海拨多高
答：广州白云山（Guangzhou Baiyun Mountain），是新 “羊城八景”之首、国家4A级景区和国家重点风景名胜区。它位于广州市的东北部，为南粤名山之一，自古就有“羊城第一秀”之称。山体相当宽阔，由30多座山峰组成，为广东最高峰九连山的支脉。面积20.98平方公里，主峰摩星岭高382米（注：最新测绘高度为372.6米——国家测绘局，2008年），峰峦重叠，溪涧纵横，登高可俯览全市，遥望珠江。每当雨后天晴或暮春时节，山间白云缭绕，蔚为奇观，白云山之名由此得来

点击阅读全文...

分类：资源共享标签：问答, 语料, 数据集阅读全文 40 评论

24 Apr

【语料】2500万中文三元组！

By 苏剑林 | 2017-04-24 | 87253位读者 | 引用

闲聊

这两年，知识图谱、问答系统、聊天机器人等领域是越来越火了。知识图谱是一个很泛化的概念，在我看来，涉及到知识库的构建、检索、利用等机器学习相关的内容，都算知识图谱。当然，这也不是个什么定义，只是个人的直观感觉。

做知识图谱的读者都知道，三元组是结构化知识的一种方法，是做知识型问答系统的重要组成部分。对于英文领域，已经有一些较大的开源的三元组语料库，而很显然，中文目前还没有这样的语料库共享（哪怕有人爬取到了，也珍藏起来了）。笔者前段时间写了个百度百科的爬虫，爬了一段时间，抓了几百万个百度百科的词条。其中不少词条含有一些结构化的信息，直接抽取出来，就是有效的“三元组”了，可以用来做知识图谱。本文分享的三元组语料正是由此而来，共有2500万个三元组。

百度百科的三元组

点击阅读全文...

分类：资源共享标签：问答, 语料, 数据集阅读全文 16 评论

1 May

【不可思议的Word2Vec】 4.不一样的“相似”

By 苏剑林 | 2017-05-01 | 139137位读者 | 引用

相似度的定义

当用Word2Vec得到词向量后，一般我们会用余弦相似度来比较两个词的相似程度，定义为
$$\cos (\boldsymbol{x}, \boldsymbol{y}) = \frac{\boldsymbol{x}\cdot\boldsymbol{y}}{|\boldsymbol{x}|\times|\boldsymbol{y}|}$$
有了这个相似度概念，我们既可以比较任意两个词之间的相似度，也可以找出跟给定词最相近的词语。这在gensim的Word2Vec中，由most_similar函数实现。

等等！我们很快给出了相似度的计算公式，可是我们居然还没有“定义”相似！连相似都没有定义，怎么就得到了评估相似度的数学公式了呢？

要注意，这不是一个可以随意忽略的问题。很多时候我们都不知道我们干的是什么，就直接去干了。好比上一篇文章说到提取关键词，相信很多人都未曾想过，什么是关键词，难道就仅仅说关键词就是很“关键”的词？而如果想到，关键词就是用来估计文章大概讲什么的，这样我们就得到一种很自然的关键词定义
$$keywords = \mathop{\text{argmax}}_{w\in s}p(s|w)$$
进而可以用各种方法对它建模。

回到本文的主题来，相似度怎么定义呢？答案是：看场景定义所需要的相似。

点击阅读全文...

分类：信息时代标签：词向量, Word2Vec, 互信息阅读全文 40 评论

17 May

如何“扒”站？手把手教你爬百度百科～

By 苏剑林 | 2017-05-17 | 32922位读者 | 引用

最近有需求要爬一些儿童故事类的语料用来训练词向量，因此找了一些童话故事网把整站的童话文章爬了下来。下面分享一下用Python实现的这个过程，并把之前爬取百度百科的经验，结合着分享出来。本教程适合于以下需求：需要遍历爬取指定的网站、并且指定网站没有反爬虫措施。在这种前提之下，所考验我们的仅仅是遍历算法和编程技巧了。

假设

再次表明我们的假设：

1、需要遍历整个网站来爬取我们需要的信息；
2、网站没有反爬虫措施；
3、网站的所有页面，总可以通过网站首页，逐步点击超链接来到达。

点击阅读全文...

分类：信息时代标签：爬虫, 语料阅读全文抢沙发

27 Aug

fashion mnist的一个baseline (MobileNet 95%)

By 苏剑林 | 2017-08-27 | 79333位读者 | 引用

浅尝

昨天简单试了一下在fashion mnist的gan模型，发现还能work，当然那个尝试也没什么技术水平，就是把原来的脚本改一下路径跑了就完事。今天回到fashion mnist本身的主要任务——10分类，用Keras测了一下一些模型在上面的分类效果，最后得到了94.5%左右的准确率，加上随机翻转的数据扩增能做到95%。

首先随便手写了一些模型的组合，测试发现准确率都不大好，看来对于这个数据集来说，自己构思模型是比较困难的了，于是想着用现成的模型结构。一说到现成的cnn模型，基本上我们都会想到VGG、ResNet、inception、Xception等，但这些模型为解决imagenet的1000分类问题而设计，用到这个入门级别的数据集上似乎过于庞大了，而且也容易过拟合。后来突然想起，Keras好像自带了个叫MobileNet的模型，查看了一下模型权重，发现参数量不大，但是容量应该还是可以的，故选用MobileNet做实验。

深究

点击阅读全文...

分类：信息时代标签：神经网络, 深度学习阅读全文 12 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

【不可思议的Word2Vec】 1.数学原理

Word2Vec不可思议？

【不可思议的Word2Vec】 2.训练好的模型

模型概况

【不可思议的Word2Vec】 3.提取关键词

什么是关键词？

【语料】百度的中文问答数据集WebQA

信息抽取

【语料】2500万中文三元组！

闲聊

【不可思议的Word2Vec】 4.不一样的“相似”

相似度的定义

如何“扒”站？手把手教你爬百度百科～

假设

fashion mnist的一个baseline (MobileNet 95%)

浅尝

深究

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接