包含关键字多视图的文章 - 科学空间|Scientific Spaces

22 Jul

Keras中自定义复杂的loss函数

By 苏剑林 | 2017-07-22 | 411053位读者 | 引用

Keras是一个搭积木式的深度学习框架，用它可以很方便且直观地搭建一些常见的深度学习模型。在tensorflow出来之前，Keras就已经几乎是当时最火的深度学习框架，以theano为后端，而如今Keras已经同时支持四种后端：theano、tensorflow、cntk、mxnet（前三种官方支持，mxnet还没整合到官方中），由此可见Keras的魅力。

Keras是很方便，然而这种方便不是没有代价的，最为人诟病之一的缺点就是灵活性较低，难以搭建一些复杂的模型。的确，Keras确实不是很适合搭建复杂的模型，但并非没有可能，而是搭建太复杂的模型所用的代码量，跟直接用tensorflow写也差不了多少。但不管怎么说，Keras其友好、方便的特性（比如那可爱的训练进度条），使得我们总有使用它的场景。这样，如何更灵活地定制Keras模型，就成为一个值得研究的课题了。这篇文章我们来关心自定义loss。

输入-输出设计

Keras的模型是函数式的，即有输入，也有输出，而loss即为预测值与真实值的某种误差函数。Keras本身也自带了很多loss函数，如mse、交叉熵等，直接调用即可。而要自定义loss，最自然的方法就是仿照Keras自带的loss进行改写。

点击阅读全文...

分类：信息时代标签：模型, 深度学习, 损失函数, keras 阅读全文 157 评论

16 Oct

如何划分一个跟测试集更接近的验证集？

By 苏剑林 | 2020-10-16 | 51861位读者 | 引用

不管是打比赛、做实验还是搞工程，我们经常会遇到训练集与测试集分布不一致的情况。一般来说我们会从训练集中划分出来一个验证集，通过这个验证集来调整一些超参数（参考《训练集、验证集和测试集的意义》），比如控制模型的训练轮数以防止过拟合。然而，如果验证集本身跟测试集差别比较大，那么验证集上很好的模型也不代表在测试集上很好，因此如何让划分出来验证集跟测试集的分布差异更小一些，是一个值得研究的题目。

两种情况

首先，明确一下，本文所考虑的，是能给拿到测试集数据本身、但不知道测试集标签的场景。如果是那种提交模型封闭评测的场景，我们完全看不到测试集的，那就没什么办法了。为什么会出现测试集跟训练集分布不一致的现象呢？主要有两种情况。

点击阅读全文...

分类：信息时代标签：模型, 概率, 优化, 采样阅读全文 16 评论

10 Sep

RNN模型中输入的重要性的评估

By 苏剑林 | 2017-09-10 | 28404位读者 | 引用

Saliency Maps for RNN

RNN是很多序列任务的不二法门，比如文本分类任务的常用方法就是“词向量+LSTM+全连接分类器”。如下图

RNN分类器

假如这样的一个模型可以良好地工作，那么现在考虑一个任务是：如何衡量输入$w_1,\dots,w_n$对最终的分类结果的影响的重要程度（Saliency）呢？例如假设这是一个情感分类任务，那么怎么找出是哪些词对最终的分类有较为重要的影响呢？本文给出了一个较为直接的思路。

思路的原理很简单，因为我们是将RNN最后一步的状态向量（也就是绿色阴影所代表的向量）传递给后面的分类器进行分类的，因此最后一步的状态向量$\boldsymbol{h}_n$就是一个目标向量。而RNN是一个递推的过程，

点击阅读全文...

分类：信息时代标签：深度学习阅读全文 2 评论

6 Oct

从马尔科夫过程到主方程（推导过程）

By 苏剑林 | 2017-10-06 | 68880位读者 | 引用

主方程（master equation）是对随机过程进行建模的重要方法，它代表着马尔科夫过程的微分形式，我们的专业主要工具之一就是主方程，说宏大一点，量子力学和统计力学等也不外乎是主方程的一个特例。

然而，笔者阅读了几个著作，比如《统计物理现代教程》，还有我导师的《生物系统的随机动力学》，我发现这些著作对于主方程的推导都很模糊，他们在着力解释结果的意义，但并不说明结果的思想来源，因此其过程难以让人信服。而知乎上有人提问《如何理解马尔科夫过程的主方程的推导过程？》但没有得到很好的答案，也表明了这个事实。

马尔可夫过程

主方程是用来描述马尔科夫过程的，而马尔科夫过程可以理解为运动的无记忆性，说通俗点，就是下一刻的概率分布，只跟当前时刻有关，跟历史状态无关。用概率公式写出来就是（这里只考虑连续型概率，因此这里的$p$是概率密度）：
$$\begin{equation}\label{eq:maerkefu}p(x,\tau)=\int p(x,\tau|y,t) p(y,t) dy\end{equation}$$
这里的积分区域是全空间。这里的$p(x,\tau|y,t)$称为跃迁概率，即已经确定了$t$时刻来到了$y$位置后、在$\tau$时刻达到$x$的概率密度，这个式子的物理意义是很明显的，就不多做解释了。

点击阅读全文...

分类：数学研究标签：概率, 主方程阅读全文 12 评论

13 Oct

基于fine tune的图像分类（百度分狗竞赛）

By 苏剑林 | 2017-10-13 | 27217位读者 | 引用

baidu_jingsai

前两年百度的大数据竞赛都是自然语言处理方面的，今年画风一转，变成了图像的细颗粒度分类，赛题内容就是将宠物狗归为100类中的其中一类。这个任务本身是很平凡的，做法也很常规，无外乎就是数据扩增、imagenet模型的fine tune、模型集成三个方面。笔者并不擅长于模型集成，只做了前面两个步骤，成绩也非常一般（准确率80%上下）。但感觉里边的某些代码可能对读者有帮助，遂共享一翻。下面结合着代码来讲解。

比赛官网（随时有失效的可能）：http://js.baidu.com

模型

模型主要用tensorflow+keras实现。首先自然是导入各种模块

#! -*- coding:utf-8 -*-

import numpy as np
from scipy import misc
import tensorflow as tf
from keras.applications.xception import Xception,preprocess_input
from keras.layers import Input,Dense,Lambda,Embedding
from keras.layers.merge import multiply
from keras import backend as K
from keras.models import Model
from keras.optimizers import SGD
from tqdm import tqdm
import glob
np.random.seed(2017)
tf.set_random_seed(2017)

点击阅读全文...

分类：信息时代标签：分类, 图像, 深度学习阅读全文 2 评论

14 Oct