苏剑林发布的文章 - 科学空间|Scientific Spaces

13 Oct

基于fine tune的图像分类（百度分狗竞赛）

By 苏剑林 | 2017-10-13 | 34879位读者 | 引用

baidu_jingsai

前两年百度的大数据竞赛都是自然语言处理方面的，今年画风一转，变成了图像的细颗粒度分类，赛题内容就是将宠物狗归为100类中的其中一类。这个任务本身是很平凡的，做法也很常规，无外乎就是数据扩增、imagenet模型的fine tune、模型集成三个方面。笔者并不擅长于模型集成，只做了前面两个步骤，成绩也非常一般（准确率80%上下）。但感觉里边的某些代码可能对读者有帮助，遂共享一翻。下面结合着代码来讲解。

比赛官网（随时有失效的可能）：http://js.baidu.com

模型

模型主要用tensorflow+keras实现。首先自然是导入各种模块

#! -*- coding:utf-8 -*-

import numpy as np
from scipy import misc
import tensorflow as tf
from keras.applications.xception import Xception,preprocess_input
from keras.layers import Input,Dense,Lambda,Embedding
from keras.layers.merge import multiply
from keras import backend as K
from keras.models import Model
from keras.optimizers import SGD
from tqdm import tqdm
import glob
np.random.seed(2017)
tf.set_random_seed(2017)

点击阅读全文...

分类：信息时代标签：分类, 图像, 深度学习阅读全文 2 评论

6 Oct

从马尔科夫过程到主方程（推导过程）

By 苏剑林 | 2017-10-06 | 93654位读者 | 引用

主方程（master equation）是对随机过程进行建模的重要方法，它代表着马尔科夫过程的微分形式，我们的专业主要工具之一就是主方程，说宏大一点，量子力学和统计力学等也不外乎是主方程的一个特例。

然而，笔者阅读了几个著作，比如《统计物理现代教程》，还有我导师的《生物系统的随机动力学》，我发现这些著作对于主方程的推导都很模糊，他们在着力解释结果的意义，但并不说明结果的思想来源，因此其过程难以让人信服。而知乎上有人提问《如何理解马尔科夫过程的主方程的推导过程？》但没有得到很好的答案，也表明了这个事实。

马尔可夫过程

主方程是用来描述马尔科夫过程的，而马尔科夫过程可以理解为运动的无记忆性，说通俗点，就是下一刻的概率分布，只跟当前时刻有关，跟历史状态无关。用概率公式写出来就是（这里只考虑连续型概率，因此这里的$p$是概率密度）：
$$\begin{equation}\label{eq:maerkefu}p(x,\tau)=\int p(x,\tau|y,t) p(y,t) dy\end{equation}$$
这里的积分区域是全空间。这里的$p(x,\tau|y,t)$称为跃迁概率，即已经确定了$t$时刻来到了$y$位置后、在$\tau$时刻达到$x$的概率密度，这个式子的物理意义是很明显的，就不多做解释了。

点击阅读全文...

分类：数学研究标签：概率, 主方程阅读全文 14 评论

10 Sep

RNN模型中输入的重要性的评估

By 苏剑林 | 2017-09-10 | 38526位读者 | 引用

Saliency Maps for RNN

RNN是很多序列任务的不二法门，比如文本分类任务的常用方法就是“词向量+LSTM+全连接分类器”。如下图

RNN分类器

假如这样的一个模型可以良好地工作，那么现在考虑一个任务是：如何衡量输入$w_1,\dots,w_n$对最终的分类结果的影响的重要程度（Saliency）呢？例如假设这是一个情感分类任务，那么怎么找出是哪些词对最终的分类有较为重要的影响呢？本文给出了一个较为直接的思路。

思路的原理很简单，因为我们是将RNN最后一步的状态向量（也就是绿色阴影所代表的向量）传递给后面的分类器进行分类的，因此最后一步的状态向量$\boldsymbol{h}_n$就是一个目标向量。而RNN是一个递推的过程，

点击阅读全文...

分类：信息时代标签：深度学习阅读全文 6 评论

3 Sep

开学啦！咱们来做完形填空～（讯飞杯）

By 苏剑林 | 2017-09-03 | 249225位读者 | 引用

前言

从今年开始，CCL会议将计划同步举办评测活动。笔者这段时间在一创业公司实习，公司也报名参加这个评测，最后实现上就落在我这里，今年的评测任务是阅读理解，名曰《第一届“讯飞杯”中文机器阅读理解评测》。虽说是阅读理解，但事实上任务比较简单，是属于完形填空类型的，即一段材料中挖了一个空，从上下文中选一个词来填入这个空中。最后我们的模型是单系统排名第6，验证集准确率为73.55%，测试集准确率为75.77%，大家可以在这里观摩排行榜。（“广州火焰信息科技有限公司”就是文本的模型）

事实上，这个数据集和任务格式是哈工大去年提出的，所以这次的评测也是哈工大跟科大讯飞一起联合举办的。哈工大去年的论文《Consensus Attention-based Neural Networks for Chinese Reading Comprehension》就研究过另一个同样格式但不同内容的数据集，是用通用的阅读理解模型做的（通用的阅读理解是指给出材料和问题，从材料中找到问题的答案，完形填空可以认为是通用阅读理解的一个非常小的子集）。

虽然，在这次评测任务的介绍中，评测方总有意无意地引导我们将这个问题理解为阅读理解问题。但笔者觉得，阅读理解本身就难得多，这个就一完形填空，只要把它作为纯粹的完形填空题做就是了，所以本文仅仅是采用类似语言模型的做法来做。这种做法的好处是思路简明直观，计算量低（在笔者的GTX1060上可以跑到batch size为160），便于实验。

模型

回到模型上，我们的模型其实比较简单，完全紧扣了“从上下文中选一个词来填空”这一思想，示意图如下。

完形填空模型

点击阅读全文...

分类：信息时代标签：神经网络, 机器学习, 比赛阅读全文 49 评论

27 Aug

fashion mnist的一个baseline (MobileNet 95%)

By 苏剑林 | 2017-08-27 | 98786位读者 | 引用

浅尝

昨天简单试了一下在fashion mnist的gan模型，发现还能work，当然那个尝试也没什么技术水平，就是把原来的脚本改一下路径跑了就完事。今天回到fashion mnist本身的主要任务——10分类，用Keras测了一下一些模型在上面的分类效果，最后得到了94.5%左右的准确率，加上随机翻转的数据扩增能做到95%。

首先随便手写了一些模型的组合，测试发现准确率都不大好，看来对于这个数据集来说，自己构思模型是比较困难的了，于是想着用现成的模型结构。一说到现成的cnn模型，基本上我们都会想到VGG、ResNet、inception、Xception等，但这些模型为解决imagenet的1000分类问题而设计，用到这个入门级别的数据集上似乎过于庞大了，而且也容易过拟合。后来突然想起，Keras好像自带了个叫MobileNet的模型，查看了一下模型权重，发现参数量不大，但是容量应该还是可以的，故选用MobileNet做实验。

深究

点击阅读全文...

分类：信息时代标签：神经网络, 深度学习阅读全文 12 评论

26 Aug

fashion-mnist的gan玩具

By 苏剑林 | 2017-08-26 | 71075位读者 | 引用

fashion_mnist_demo

mnist的手写数字识别数据集一直是各种机器学习算法的试金石之一，最近有个新的数据集要向它叫板，称为fashion-mnist，内容是衣服鞋帽等分类。为了便于用户往fashion-mnist迁移，作者把数据集做成了几乎跟mnist手写数字识别数据集一模一样——同样数量、尺寸的图片，同样是10分类，甚至连数据打包和命名都跟mnist一样。看来fashion mnist为了取代mnist，也是拼了，下足了功夫，一切都做得一模一样，最大限度降低了使用成本～这叫板的心很坚定呀。

叫板的原因很简单——很多人吐槽，如果一个算法在mnist没用，那就一定没用了，但如果一个算法在mnist上有效，那它也不见得在真实问题中有效～也就是说，这个数据集太简单，没啥代表性。

fashion-mnist的github：https://github.com/zalandoresearch/fashion-mnist/

点击阅读全文...

分类：信息时代标签：深度学习, GAN, 生成模型阅读全文 8 评论

8 Aug

【备忘】谈谈dropout

By 苏剑林 | 2017-08-08 | 45740位读者 | 引用

其实这只是一篇备忘...

dropout是深度学习中防止过拟合的一项有效措施，当然，就其思想而言，dropout其实也不仅仅可以用在深度学习中，还可以用在传统的机器学习方法中，只不过在深度学习的神经网络框架下，dropout显得更为自然罢了。

做了什么

dropout是怎么操作的？一般来做，对于输入的张量$x$，dropout就是将部分元素置零，然后将置零后的结果做一个尺度变换。具体来说，以Keras的Dropout(0.6)(x)为例，实际上等价于numpy做的这件事情

import numpy as np

x = np.random.random((10,100)) #模拟一个batch_size=10、维度为100的输入
def Dropout(x, drop_proba):
    return x*np.random.choice(
                              [0,1], 
                              x.shape,  
                              p=[drop_proba,1-drop_proba]
                             )/(1.-drop_proba)

print Dropout(x, 0.6)

点击阅读全文...

分类：信息时代标签：深度学习阅读全文 6 评论

6 Aug

【不可思议的Word2Vec】6. Keras版的Word2Vec

By 苏剑林 | 2017-08-06 | 183677位读者 | 引用

前言

看过我之前写的TF版的Word2Vec后，Keras群里的Yin神问我有没有Keras版的。事实上在做TF版之前，我就写过Keras版的，不过没有保留，所以重写了一遍，更高效率，代码也更好看了。纯Keras代码实现Word2Vec，原理跟《【不可思议的Word2Vec】5. Tensorflow版的Word2Vec》是一样的，现在放出来，我想，会有人需要的。（比如，自己往里边加一些额外输入，然后做更好的词向量模型？）

由于Keras同时支持tensorflow、theano、cntk等多个后端，这就等价于实现了多个框架的Word2Vec了。嗯，这样想就高大上了，哈哈～

代码

点击阅读全文...

分类：信息时代标签：词向量, Word2Vec, keras 阅读全文 47 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

基于fine tune的图像分类（百度分狗竞赛）

模型

从马尔科夫过程到主方程（推导过程）

马尔可夫过程

RNN模型中输入的重要性的评估

Saliency Maps for RNN

开学啦！咱们来做完形填空～（讯飞杯）

前言

模型

fashion mnist的一个baseline (MobileNet 95%)

浅尝

深究

fashion-mnist的gan玩具

【备忘】谈谈dropout

做了什么

【不可思议的Word2Vec】6. Keras版的Word2Vec

前言

代码

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接