包含关键字 G 的文章 - 科学空间|Scientific Spaces

7 Apr

【不可思议的Word2Vec】 3.提取关键词

By 苏剑林 | 2017-04-07 | 202880位读者 | 引用

本文主要是给出了关键词的一种新的定义，并且基于Word2Vec给出了一个实现方案。这种关键词的定义是自然的、合理的，Word2Vec只是一个简化版的实现方案，可以基于同样的定义，换用其他的模型来实现。

说到提取关键词，一般会想到TF-IDF和TextRank，大家是否想过，Word2Vec还可以用来提取关键词？而且，用Word2Vec提取关键词，已经初步含有了语义上的理解，而不仅仅是简单的统计了，而且还是无监督的！

什么是关键词？

诚然，TF-IDF和TextRank是两种提取关键词的很经典的算法，它们都有一定的合理性，但问题是，如果从来没看过这两个算法的读者，会感觉简直是异想天开的结果，估计很难能够从零把它们构造出来。也就是说，这两种算法虽然看上去简单，但并不容易想到。试想一下，没有学过信息相关理论的同学，估计怎么也难以理解为什么IDF要取一个对数？为什么不是其他函数？又有多少读者会破天荒地想到，用PageRank的思路，去判断一个词的重要性？

说到底，问题就在于：提取关键词和文本摘要，看上去都是一个很自然的任务，有谁真正思考过，关键词的定义是什么？这里不是要你去查汉语词典，获得一大堆文字的定义，而是问你数学上的定义。关键词在数学上的合理定义应该是什么？或者说，我们获取关键词的目的是什么？

点击阅读全文...

分类：信息时代标签：词向量, Word2Vec, 语言模型阅读全文 54 评论

12 Apr

【语料】百度的中文问答数据集WebQA

By 苏剑林 | 2017-04-12 | 227101位读者 | 引用

信息抽取

众所周知，百度知道上有大量的人提了大量的问题，并且得到大量的回复。然而，百度知道上的回复者貌似懒人居多，他们往往喜欢直接在网上复制粘贴一大片来作为回答内容，而且这些内容可能跟问题相关，也可能跟问题不相关，比如

https://zhidao.baidu.com/question/557785746.html
问：广州白云山海拨多高
答：广州白云山（Guangzhou Baiyun Mountain），是新 “羊城八景”之首、国家4A级景区和国家重点风景名胜区。它位于广州市的东北部，为南粤名山之一，自古就有“羊城第一秀”之称。山体相当宽阔，由30多座山峰组成，为广东最高峰九连山的支脉。面积20.98平方公里，主峰摩星岭高382米（注：最新测绘高度为372.6米——国家测绘局，2008年），峰峦重叠，溪涧纵横，登高可俯览全市，遥望珠江。每当雨后天晴或暮春时节，山间白云缭绕，蔚为奇观，白云山之名由此得来

点击阅读全文...

分类：资源共享标签：问答, 语料, 数据集阅读全文 40 评论

23 Apr

科学空间添加新域名kexue.fm

By 苏剑林 | 2017-04-23 | 33063位读者 | 引用

在上个月，偶然间发现kexue.fm这个域名还没被注册，感觉挺不错的，所以赶紧把它注册了。

事实上，笔者一直以来都挺喜欢fm这个后缀的域名，因为FM也是电台的简写，fm域名的网站，从域名上就给人一种听电台般的惬意。刚好，顺手注册了kexue.fm这个域名，感觉很配本博客“科学空间”这个名字，也很符合本博客创办之初的理念——让科学流行起来——这也意味着科学会像听电台般舒服。当然，另一方面，它也更加好记。域名在大概一个月前就注册好了，但域名的备案，前前后后花了差不多一个月的时间，所以到现在才加上到科学空间中。如今科学空间的服务器也已经迁移到了阿里云。

原来的域名spaces.ac.cn也会一直保留着，双域名皆可访问。此外，申请了@spaces.ac.cn后缀邮箱的读者也不用担心，这个邮箱也会一直保留着。

欢迎大家多用新域名访问^_^

分类：生活/情感标签：网站阅读全文 3 评论

24 Apr

【语料】2500万中文三元组！

By 苏剑林 | 2017-04-24 | 91429位读者 | 引用

闲聊

这两年，知识图谱、问答系统、聊天机器人等领域是越来越火了。知识图谱是一个很泛化的概念，在我看来，涉及到知识库的构建、检索、利用等机器学习相关的内容，都算知识图谱。当然，这也不是个什么定义，只是个人的直观感觉。

做知识图谱的读者都知道，三元组是结构化知识的一种方法，是做知识型问答系统的重要组成部分。对于英文领域，已经有一些较大的开源的三元组语料库，而很显然，中文目前还没有这样的语料库共享（哪怕有人爬取到了，也珍藏起来了）。笔者前段时间写了个百度百科的爬虫，爬了一段时间，抓了几百万个百度百科的词条。其中不少词条含有一些结构化的信息，直接抽取出来，就是有效的“三元组”了，可以用来做知识图谱。本文分享的三元组语料正是由此而来，共有2500万个三元组。

百度百科的三元组

点击阅读全文...

分类：资源共享标签：问答, 语料, 数据集阅读全文 16 评论

1 May

【不可思议的Word2Vec】 4.不一样的“相似”

By 苏剑林 | 2017-05-01 | 145248位读者 | 引用

相似度的定义

当用Word2Vec得到词向量后，一般我们会用余弦相似度来比较两个词的相似程度，定义为
$$\cos (\boldsymbol{x}, \boldsymbol{y}) = \frac{\boldsymbol{x}\cdot\boldsymbol{y}}{|\boldsymbol{x}|\times|\boldsymbol{y}|}$$
有了这个相似度概念，我们既可以比较任意两个词之间的相似度，也可以找出跟给定词最相近的词语。这在gensim的Word2Vec中，由most_similar函数实现。

等等！我们很快给出了相似度的计算公式，可是我们居然还没有“定义”相似！连相似都没有定义，怎么就得到了评估相似度的数学公式了呢？

要注意，这不是一个可以随意忽略的问题。很多时候我们都不知道我们干的是什么，就直接去干了。好比上一篇文章说到提取关键词，相信很多人都未曾想过，什么是关键词，难道就仅仅说关键词就是很“关键”的词？而如果想到，关键词就是用来估计文章大概讲什么的，这样我们就得到一种很自然的关键词定义
$$keywords = \mathop{\text{argmax}}_{w\in s}p(s|w)$$
进而可以用各种方法对它建模。

回到本文的主题来，相似度怎么定义呢？答案是：看场景定义所需要的相似。

点击阅读全文...

分类：信息时代标签：词向量, Word2Vec, 互信息阅读全文 40 评论

4 May

记录一次半监督的情感分析

By 苏剑林 | 2017-05-04 | 53385位读者 | 引用

本文是一次不怎么成功的半监督学习的尝试：在IMDB的数据集上，用随机抽取的1000个标注样本训练一个文本情感分类模型，并且在余下的49000个测试样本中，测试准确率为73.48%。

思路

本文的思路来源于OpenAI的这篇文章：
《OpenAI新研究发现无监督情感神经元：可直接调控生成文本的情感》

文章里边介绍了一种无监督（实际上是半监督）做情感分类的模型的方法，并且实验效果很好。然而文章里边的实验很庞大，对于个人来说几乎不可能重现（在4块Pascal GPU花了1个月时间训练）。不过，文章里边的思想是很简单的，根据里边的思想，我们可以做个“山寨版”的。思路如下：

我们一般用深度学习做情感分类，比较常规的思路就是Embedding层+LSTM层+Dense层(Sigmoid激活)，我们常说的词向量，相当于预训练了Embedding层（这一层的参数量最大，最容易过拟合），而OpenAI的思想就是，为啥不连LSTM层一并预训练了呢？预训练的方法也是用语言模型来训练。当然，为了使得预训练的结果不至于丢失情感信息，LSTM的隐藏层节点要大一些。

点击阅读全文...

分类：信息时代标签：深度学习, 文本挖掘阅读全文 6 评论

17 May

如何“扒”站？手把手教你爬百度百科～

By 苏剑林 | 2017-05-17 | 33636位读者 | 引用

最近有需求要爬一些儿童故事类的语料用来训练词向量，因此找了一些童话故事网把整站的童话文章爬了下来。下面分享一下用Python实现的这个过程，并把之前爬取百度百科的经验，结合着分享出来。本教程适合于以下需求：需要遍历爬取指定的网站、并且指定网站没有反爬虫措施。在这种前提之下，所考验我们的仅仅是遍历算法和编程技巧了。

假设

再次表明我们的假设：

1、需要遍历整个网站来爬取我们需要的信息；
2、网站没有反爬虫措施；
3、网站的所有页面，总可以通过网站首页，逐步点击超链接来到达。

点击阅读全文...

分类：信息时代标签：爬虫, 语料阅读全文抢沙发

27 Aug

fashion mnist的一个baseline (MobileNet 95%)

By 苏剑林 | 2017-08-27 | 82175位读者 | 引用

浅尝

昨天简单试了一下在fashion mnist的gan模型，发现还能work，当然那个尝试也没什么技术水平，就是把原来的脚本改一下路径跑了就完事。今天回到fashion mnist本身的主要任务——10分类，用Keras测了一下一些模型在上面的分类效果，最后得到了94.5%左右的准确率，加上随机翻转的数据扩增能做到95%。

首先随便手写了一些模型的组合，测试发现准确率都不大好，看来对于这个数据集来说，自己构思模型是比较困难的了，于是想着用现成的模型结构。一说到现成的cnn模型，基本上我们都会想到VGG、ResNet、inception、Xception等，但这些模型为解决imagenet的1000分类问题而设计，用到这个入门级别的数据集上似乎过于庞大了，而且也容易过拟合。后来突然想起，Keras好像自带了个叫MobileNet的模型，查看了一下模型权重，发现参数量不大，但是容量应该还是可以的，故选用MobileNet做实验。

深究

点击阅读全文...

分类：信息时代标签：神经网络, 深度学习阅读全文 12 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

【不可思议的Word2Vec】 3.提取关键词

什么是关键词？

【语料】百度的中文问答数据集WebQA

信息抽取

科学空间添加新域名kexue.fm

【语料】2500万中文三元组！

闲聊

【不可思议的Word2Vec】 4.不一样的“相似”

相似度的定义

记录一次半监督的情感分析

思路

如何“扒”站？手把手教你爬百度百科～

假设

fashion mnist的一个baseline (MobileNet 95%)

浅尝

深究

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接