包含关键字 keras 的文章 - 科学空间|Scientific Spaces

13 Jan

【中文分词系列】 6. 基于全卷积网络的中文分词

By 苏剑林 | 2017-01-13 | 52396位读者 | 引用

之前已经写过用LSTM来做分词的方案了，今天再来一篇用CNN的，准确来说是FCN，全卷积网络。其实这个模型的主要目的并非研究中文分词，而是练习tensorflow。从两年前就开始用Keras了，可以说对它比较熟了，也渐渐发现了它的一些不足，比如处理变长输入时不方便、加入自定义的约束比较困难等，所以干脆试试原生的tensorflow了，试了之后发现其实也不复杂。嗯，都是python，能有多复杂。本文就是练习一下如何用tensorflow处理不定长输入任务，以中文分词为例，并在最后加入了硬解码，将深度学习与词典分词结合了起来。

CNN

另外，就是关于FCN的。放到语言任务中看，（一维）卷积其实就是ngram模型，从这个角度来看其实CNN远比RNN来得自然，RNN好像就是为序列任务精心设计的，而CNN则是传统ngram模型的一个延伸。另外不管CNN和RNN都有权值共享，看上去只是为了降低运算量的一个折中选择，但事实上里边大有道理。CNN中的权值共享是平移不变性的必然结果，而不是仅仅是降低运算量的一个选择，试想一下，将一幅图像平移一点点，或者在一个句子前插入一个无意义的空格（导致后面所有字都向后平移了一位），这样应该给出一个相似甚至相同的结果，而这要求卷积必然是权值共享的，即权值不能跟位置有关系。

点击阅读全文...

分类：信息时代标签：深度学习, 分词, 自然语言处理阅读全文 10 评论

6 Mar

【中文分词系列】 7. 深度学习分词？只需一个词典！

By 苏剑林 | 2017-03-06 | 102059位读者 | 引用

这个系列慢慢写到第7篇，基本上也把分词的各种模型理清楚了，除了一些细微的调整（比如最后的分类器换成CRF）外，剩下的就看怎么玩了。基本上来说，要速度，就用基于词典的分词，要较好地解决组合歧义何和新词识别，则用复杂模型，比如之前介绍的LSTM、FCN都可以。但问题是，用深度学习训练分词器，需要标注语料，这费时费力，仅有的公开的几个标注语料，又不可能赶得上时效，比如，几乎没有哪几个公开的分词系统能够正确切分出“扫描二维码，关注微信号”来。

本文就是做了这样的一个实验，仅用一个词典，就完成了一个深度学习分词器的训练，居然效果还不错！这种方案可以称得上是半监督的，甚至是无监督的。

点击阅读全文...

分类：信息时代标签：分词, 自然语言处理, 无监督, 新词发现阅读全文 22 评论

30 Mar

文本情感分类（四）：更好的损失函数

By 苏剑林 | 2017-03-30 | 106838位读者 | 引用

文本情感分类其实就是一个二分类问题，事实上，对于分类模型，都会存在这样一个毛病：优化目标跟考核指标不一致。通常来说，对于分类（包括多分类），我们都会采用交叉熵作为损失函数，它的来源就是最大似然估计（参考《梯度下降和EM算法：系出同源，一脉相承》）。但是，我们最后的评估目标，并非要看交叉熵有多小，而是看模型的准确率。一般来说，交叉熵很小，准确率也会很高，但这个关系并非必然的。

要平均，不一定要拔尖

一个更通俗的例子是：一个数学老师，在努力提高同学们的平均分，但期末考核的指标却是及格率（60分及格）。假如平均分是100分（也就意味着所有同学都考到了100分），那么自然及格率是100%，这是最理想的。但现实不一定这么美好，平均分越高，只要平均分还没有达到100，那么及格率却不一定越高，比如两个人分别考40和90，那么平均分就是65，及格率只有50%；如果两个人的成绩都是60，平均分就是60，及格率却有100%。这也就是说，平均分可以作为一个目标，但这个目标并不直接跟考核目标挂钩。
那么，为了提升最后的考核目标，这个老师应该怎么做呢？很显然，首先看看所有学生中，哪些同学已经及格了，及格的同学先不管他们，而针对不及格的同学进行补课加强，这样一来，原则上来说有很多不及格的同学都能考上60分了，也有可能一些本来及格的同学考不够60分了，但这个过程可以迭代，最终使得大家都在60分以上，当然，最终的平均分不一定很高，但没办法，谁叫考核目标是及格率呢？

点击阅读全文...

分类：信息时代标签：深度学习, 文本挖掘, 损失函数阅读全文 29 评论

4 May

记录一次半监督的情感分析

By 苏剑林 | 2017-05-04 | 46368位读者 | 引用

本文是一次不怎么成功的半监督学习的尝试：在IMDB的数据集上，用随机抽取的1000个标注样本训练一个文本情感分类模型，并且在余下的49000个测试样本中，测试准确率为73.48%。

思路

本文的思路来源于OpenAI的这篇文章：
《OpenAI新研究发现无监督情感神经元：可直接调控生成文本的情感》

文章里边介绍了一种无监督（实际上是半监督）做情感分类的模型的方法，并且实验效果很好。然而文章里边的实验很庞大，对于个人来说几乎不可能重现（在4块Pascal GPU花了1个月时间训练）。不过，文章里边的思想是很简单的，根据里边的思想，我们可以做个“山寨版”的。思路如下：

我们一般用深度学习做情感分类，比较常规的思路就是Embedding层+LSTM层+Dense层(Sigmoid激活)，我们常说的词向量，相当于预训练了Embedding层（这一层的参数量最大，最容易过拟合），而OpenAI的思想就是，为啥不连LSTM层一并预训练了呢？预训练的方法也是用语言模型来训练。当然，为了使得预训练的结果不至于丢失情感信息，LSTM的隐藏层节点要大一些。

点击阅读全文...

分类：信息时代标签：深度学习, 文本挖掘阅读全文 6 评论

27 Aug

fashion mnist的一个baseline (MobileNet 95%)

By 苏剑林 | 2017-08-27 | 70315位读者 | 引用

浅尝

昨天简单试了一下在fashion mnist的gan模型，发现还能work，当然那个尝试也没什么技术水平，就是把原来的脚本改一下路径跑了就完事。今天回到fashion mnist本身的主要任务——10分类，用Keras测了一下一些模型在上面的分类效果，最后得到了94.5%左右的准确率，加上随机翻转的数据扩增能做到95%。

首先随便手写了一些模型的组合，测试发现准确率都不大好，看来对于这个数据集来说，自己构思模型是比较困难的了，于是想着用现成的模型结构。一说到现成的cnn模型，基本上我们都会想到VGG、ResNet、inception、Xception等，但这些模型为解决imagenet的1000分类问题而设计，用到这个入门级别的数据集上似乎过于庞大了，而且也容易过拟合。后来突然想起，Keras好像自带了个叫MobileNet的模型，查看了一下模型权重，发现参数量不大，但是容量应该还是可以的，故选用MobileNet做实验。

深究

点击阅读全文...

分类：信息时代标签：神经网络, 深度学习阅读全文 12 评论

24 Jul

基于Xception的腾讯验证码识别（样本+代码）

By 苏剑林 | 2017-07-24 | 82957位读者 | 引用

去年的时候，有幸得到网友提供的一批腾讯验证码样本，因此也研究了一下，过程记录在《端到端的腾讯验证码识别（46%正确率）》中。

后来，这篇文章引起了不少读者的兴趣，有求样本的，有求模型的，有一起讨论的，让我比较意外。事实上，原来的模型做得比较粗糙，尤其是准确率难登大雅之台，参考价值不大。这几天重新折腾了一下，弄了个准确率高一点的模型，同时也把样本公开给大家。

模型的思路跟《端到端的腾讯验证码识别（46%正确率）》是一样的，只不过把CNN部分换成了现成的Xception结构，当然，读者也可以换VGG、Resnet50等玩玩，事实上对验证码识别来说，这些模型都能够胜任。我挑选Xception，是因为它层数不多，模型权重也较小，我比较喜欢而已。

代码

点击阅读全文...

分类：信息时代标签：图像, 深度学习, 数据集阅读全文 13 评论

8 Aug

【备忘】谈谈dropout

By 苏剑林 | 2017-08-08 | 27996位读者 | 引用

其实这只是一篇备忘...

dropout是深度学习中防止过拟合的一项有效措施，当然，就其思想而言，dropout其实也不仅仅可以用在深度学习中，还可以用在传统的机器学习方法中，只不过在深度学习的神经网络框架下，dropout显得更为自然罢了。

做了什么

dropout是怎么操作的？一般来做，对于输入的张量$x$，dropout就是将部分元素置零，然后将置零后的结果做一个尺度变换。具体来说，以Keras的Dropout(0.6)(x)为例，实际上等价于numpy做的这件事情

import numpy as np

x = np.random.random((10,100)) #模拟一个batch_size=10、维度为100的输入
def Dropout(x, drop_proba):
    return x*np.random.choice(
                              [0,1], 
                              x.shape,  
                              p=[drop_proba,1-drop_proba]
                             )/(1.-drop_proba)

print Dropout(x, 0.6)

点击阅读全文...

分类：信息时代标签：深度学习阅读全文抢沙发

10 Sep

RNN模型中输入的重要性的评估

By 苏剑林 | 2017-09-10 | 26052位读者 | 引用

Saliency Maps for RNN

RNN是很多序列任务的不二法门，比如文本分类任务的常用方法就是“词向量+LSTM+全连接分类器”。如下图

RNN分类器

假如这样的一个模型可以良好地工作，那么现在考虑一个任务是：如何衡量输入$w_1,\dots,w_n$对最终的分类结果的影响的重要程度（Saliency）呢？例如假设这是一个情感分类任务，那么怎么找出是哪些词对最终的分类有较为重要的影响呢？本文给出了一个较为直接的思路。

思路的原理很简单，因为我们是将RNN最后一步的状态向量（也就是绿色阴影所代表的向量）传递给后面的分类器进行分类的，因此最后一步的状态向量$\boldsymbol{h}_n$就是一个目标向量。而RNN是一个递推的过程，

点击阅读全文...

分类：信息时代标签：深度学习阅读全文 2 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

【中文分词系列】 6. 基于全卷积网络的中文分词

CNN

【中文分词系列】 7. 深度学习分词？只需一个词典！

文本情感分类（四）：更好的损失函数

要平均，不一定要拔尖

记录一次半监督的情感分析

思路

fashion mnist的一个baseline (MobileNet 95%)

浅尝

深究

基于Xception的腾讯验证码识别（样本+代码）

代码

【备忘】谈谈dropout

做了什么

RNN模型中输入的重要性的评估

Saliency Maps for RNN

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接