包含关键字分层学习率的文章 - 科学空间|Scientific Spaces

30 Mar

文本情感分类（四）：更好的损失函数

By 苏剑林 | 2017-03-30 | 122270位读者 | 引用

文本情感分类其实就是一个二分类问题，事实上，对于分类模型，都会存在这样一个毛病：优化目标跟考核指标不一致。通常来说，对于分类（包括多分类），我们都会采用交叉熵作为损失函数，它的来源就是最大似然估计（参考《梯度下降和EM算法：系出同源，一脉相承》）。但是，我们最后的评估目标，并非要看交叉熵有多小，而是看模型的准确率。一般来说，交叉熵很小，准确率也会很高，但这个关系并非必然的。

要平均，不一定要拔尖

一个更通俗的例子是：一个数学老师，在努力提高同学们的平均分，但期末考核的指标却是及格率（60分及格）。假如平均分是100分（也就意味着所有同学都考到了100分），那么自然及格率是100%，这是最理想的。但现实不一定这么美好，平均分越高，只要平均分还没有达到100，那么及格率却不一定越高，比如两个人分别考40和90，那么平均分就是65，及格率只有50%；如果两个人的成绩都是60，平均分就是60，及格率却有100%。这也就是说，平均分可以作为一个目标，但这个目标并不直接跟考核目标挂钩。
那么，为了提升最后的考核目标，这个老师应该怎么做呢？很显然，首先看看所有学生中，哪些同学已经及格了，及格的同学先不管他们，而针对不及格的同学进行补课加强，这样一来，原则上来说有很多不及格的同学都能考上60分了，也有可能一些本来及格的同学考不够60分了，但这个过程可以迭代，最终使得大家都在60分以上，当然，最终的平均分不一定很高，但没办法，谁叫考核目标是及格率呢？

点击阅读全文...

分类：信息时代标签：深度学习, 文本挖掘, 损失函数阅读全文 29 评论

3 Apr

【不可思议的Word2Vec】 2.训练好的模型

By 苏剑林 | 2017-04-03 | 429367位读者 | 引用

由于后面几篇要讲解Word2Vec怎么用，因此笔者先训练好了一个Word2Vec模型。为了节约读者的时间，并且保证读者可以复现后面的结果，笔者决定把这个训练好的模型分享出来，用Gensim训练的。单纯的词向量并不大，但第一篇已经说了，我们要用到完整的Word2Vec模型，因此我将完整的模型分享出来了，包含四个文件，所以文件相对大一些。

提醒读者的是，如果你想获取完整的Word2Vec模型，又不想改源代码，那么Python的Gensim库应该是你唯一的选择，据我所知，其他版本的Word2Vec最后都是只提供词向量给我们，没有完整的模型。

对于做知识挖掘来说，显然用知识库语料（如百科语料）训练的Word2Vec效果会更好。但百科语料我还在爬取中，爬完了我再训练一个模型，到时再分享。

模型概况

这个模型的大概情况如下：
$$\begin{array}{c|c}
\hline
\text{训练语料} & \text{微信公众号的文章，多领域，属于中文平衡语料}\\
\hline
\text{语料数量} & \text{800万篇，总词数达到650亿}\\
\hline
\text{模型词数} & \text{共352196词，基本是中文词，包含常见英文词}\\
\hline
\text{模型结构} & \text{Skip-Gram + Huffman Softmax}\\
\hline
\text{向量维度} & \text{256维}\\
\hline
\text{分词工具} & \text{结巴分词，加入了有50万词条的词典，关闭了新词发现}\\
\hline
\text{训练工具} & \text{Gensim的Word2Vec，服务器训练了7天}\\
\hline
\text{其他情况} & \text{窗口大小为10，最小词频是64，迭代了10次}\\
\hline
\end{array}$$

点击阅读全文...

分类：信息时代标签：词向量, Word2Vec, 语言模型阅读全文 144 评论

1 May

【不可思议的Word2Vec】 4.不一样的“相似”

By 苏剑林 | 2017-05-01 | 140500位读者 | 引用

相似度的定义

当用Word2Vec得到词向量后，一般我们会用余弦相似度来比较两个词的相似程度，定义为
$$\cos (\boldsymbol{x}, \boldsymbol{y}) = \frac{\boldsymbol{x}\cdot\boldsymbol{y}}{|\boldsymbol{x}|\times|\boldsymbol{y}|}$$
有了这个相似度概念，我们既可以比较任意两个词之间的相似度，也可以找出跟给定词最相近的词语。这在gensim的Word2Vec中，由most_similar函数实现。

等等！我们很快给出了相似度的计算公式，可是我们居然还没有“定义”相似！连相似都没有定义，怎么就得到了评估相似度的数学公式了呢？

要注意，这不是一个可以随意忽略的问题。很多时候我们都不知道我们干的是什么，就直接去干了。好比上一篇文章说到提取关键词，相信很多人都未曾想过，什么是关键词，难道就仅仅说关键词就是很“关键”的词？而如果想到，关键词就是用来估计文章大概讲什么的，这样我们就得到一种很自然的关键词定义
$$keywords = \mathop{\text{argmax}}_{w\in s}p(s|w)$$
进而可以用各种方法对它建模。

回到本文的主题来，相似度怎么定义呢？答案是：看场景定义所需要的相似。

点击阅读全文...

分类：信息时代标签：词向量, Word2Vec, 互信息阅读全文 40 评论

27 Aug

fashion mnist的一个baseline (MobileNet 95%)

By 苏剑林 | 2017-08-27 | 80012位读者 | 引用

浅尝

昨天简单试了一下在fashion mnist的gan模型，发现还能work，当然那个尝试也没什么技术水平，就是把原来的脚本改一下路径跑了就完事。今天回到fashion mnist本身的主要任务——10分类，用Keras测了一下一些模型在上面的分类效果，最后得到了94.5%左右的准确率，加上随机翻转的数据扩增能做到95%。

首先随便手写了一些模型的组合，测试发现准确率都不大好，看来对于这个数据集来说，自己构思模型是比较困难的了，于是想着用现成的模型结构。一说到现成的cnn模型，基本上我们都会想到VGG、ResNet、inception、Xception等，但这些模型为解决imagenet的1000分类问题而设计，用到这个入门级别的数据集上似乎过于庞大了，而且也容易过拟合。后来突然想起，Keras好像自带了个叫MobileNet的模型，查看了一下模型权重，发现参数量不大，但是容量应该还是可以的，故选用MobileNet做实验。

深究

点击阅读全文...

分类：信息时代标签：神经网络, 深度学习阅读全文 12 评论

27 May

【不可思议的Word2Vec】5. Tensorflow版的Word2Vec

By 苏剑林 | 2017-05-27 | 109751位读者 | 引用

本文封装了一个比较完整的Word2Vec，其模型部分使用tensorflow实现。本文的目的并非只是再造一次Word2Vec这个轮子，而是通过这个例子来熟悉tensorflow的写法，并且测试笔者设计的一种新的softmax loss的效果，为后面研究语言模型的工作做准备。

不同的地方

Word2Vec的基本的数学原理，请移步到《【不可思议的Word2Vec】 1.数学原理》一文查看。本文的主要模型还是CBOW或者Skip-Gram，但在loss设计上有所不同。本文还是使用了完整的softmax结构，而不是huffmax softmax或者负采样方案，但是在训练softmax时，使用了基于随机负采样的交叉熵作为loss。这种loss与已有的nce_loss和sampled_softmax_loss都不一样，这里姑且命名为random softmax loss。

另外，在softmax结构中，一般是$\text{softmax}(Wx+b)$这样的形式，考虑到$W$矩阵的形状事实上跟词向量矩阵的形状是一样的，因此本文考虑了softmax层与词向量层共享权重的模型（这时候直接让$b$为0），这种模型等效于原有的Word2Vec的负采样方案~~，也类似于glove词向量的~~词共现矩阵分解，但由于使用了交叉熵损失，理论上收敛更快，而且训练结果依然具有softmax的预测概率意义（相比之下，已有的Word2Vec负样本模型训练完之后，最后模型的输出值是没有意义的，只有词向量是有意义的。）。同时，由于共享了参数，因此词向量的更新更为充分，读者不妨多多测试这种方案。

点击阅读全文...

分类：信息时代标签：深度学习, 词向量, Word2Vec 阅读全文 22 评论

6 Jun

通用爬虫探索（一）：适用一般网站的爬虫

By 苏剑林 | 2017-06-06 | 38268位读者 | 引用

这是笔者参加今年的泰迪杯C题的论文简化版。虽然最后只评上了一个安慰奖，但个人感觉里边有些思路对爬虫工作还是有些参加价值的。所以还是放出来供大家参考一下。

简介

一个爬虫可以分为两个步骤：1.把网页下载下来；2.从网页中把所需要的信息抽取出来。这两个步骤都存在相应的技术难点。对于第一个步骤，难度在于如何应对各大网站的反爬虫措施，如访问频率过高则封IP或者给出验证码等，这需要根据不同网站的不同反爬虫措施来设计，理论上不存在通用的可能性。对于第二个步骤，传统的做法是设计对应的正则表达式，随着网站设计上日益多样化，正则表达式的写法也相应变得困难。

显然，想要得到一个通用的爬虫方案，用传统的正则表达式的方案是相当困难的。但如果我们跳出正则表达式的思维局限，从全局的思维来看网站，结合DOM树来解析，那么可以得到一个相当通用的方案。因此，本文的主要内容，是围绕着爬虫的第二个步骤进行展开。本文的工作分为两个部分进行：首先，提出了一个适用于一般网站的信息抽取方案，接着，将这个方案细化，落实到论坛的信息抽取上。

点击阅读全文...

分类：信息时代标签：网站, 爬虫阅读全文 1 评论

6 Jun

通用爬虫探索（二）：落实到论坛爬取上

By 苏剑林 | 2017-06-06 | 25310位读者 | 引用

前述的方案，如果爬取的页面仅仅有单一的有效区域，如博客页、新闻页等，那么基本上来说已经足够了。但是，诸如像论坛这样的具有比较明显的层次划分的网站，我们需要进一步细分。因为经过上述步骤，我们虽然能够把有效文本提取出来，但结果是把所有文本放在一块了。

深度优先

而为了给内容进一步“分块”，我们还需要利用DOM树的位置信息。如上一篇的DOM树图，我们需要给每个节点和叶子都编号，即我们需要一个遍历DOM树的方式。这里我们采用“深度优先”的方案。

深度优先搜索算法（英语：Depth-First-Search，简称DFS）是一种用于遍历或搜索树或图的算法。沿着树的深度遍历树的节点，尽可能深的搜索树的分支。当节点v的所在边都己被探寻过，搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发现的节点，则选择其中一个作为源节点并重复以上过程，整个进程反复进行直到所有节点都被访问为止。

点击阅读全文...

分类：信息时代标签：网站, 爬虫阅读全文抢沙发

7 Jun

通用爬虫探索（三）：效果展示与代码

By 苏剑林 | 2017-06-07 | 54156位读者 | 引用

部分效果

部分网站的爬取效果。其中图1是本博客的爬取效果，表明该方案是适用一般网站的；图2和图3是两个开源的论坛程序搭建起来的论坛的爬取效果，表明对于开源程序能够正常爬取；图4是对著名的天涯论坛的爬取效果，表明哪怕是公司内部开发的论坛，也具有不错的效果。

6-blog

点击阅读全文...

分类：信息时代标签：网站, 爬虫阅读全文 10 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

文本情感分类（四）：更好的损失函数

要平均，不一定要拔尖

【不可思议的Word2Vec】 2.训练好的模型

模型概况

【不可思议的Word2Vec】 4.不一样的“相似”

相似度的定义

fashion mnist的一个baseline (MobileNet 95%)

浅尝

深究

【不可思议的Word2Vec】5. Tensorflow版的Word2Vec

不同的地方

通用爬虫探索（一）：适用一般网站的爬虫

简介

通用爬虫探索（二）：落实到论坛爬取上

深度优先

通用爬虫探索（三）：效果展示与代码

部分效果

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接