包含关键字 r 的文章 - 科学空间|Scientific Spaces

3 Sep

开学啦！咱们来做完形填空～（讯飞杯）

By 苏剑林 | 2017-09-03 | 207177位读者 | 引用

前言

从今年开始，CCL会议将计划同步举办评测活动。笔者这段时间在一创业公司实习，公司也报名参加这个评测，最后实现上就落在我这里，今年的评测任务是阅读理解，名曰《第一届“讯飞杯”中文机器阅读理解评测》。虽说是阅读理解，但事实上任务比较简单，是属于完形填空类型的，即一段材料中挖了一个空，从上下文中选一个词来填入这个空中。最后我们的模型是单系统排名第6，验证集准确率为73.55%，测试集准确率为75.77%，大家可以在这里观摩排行榜。（“广州火焰信息科技有限公司”就是文本的模型）

事实上，这个数据集和任务格式是哈工大去年提出的，所以这次的评测也是哈工大跟科大讯飞一起联合举办的。哈工大去年的论文《Consensus Attention-based Neural Networks for Chinese Reading Comprehension》就研究过另一个同样格式但不同内容的数据集，是用通用的阅读理解模型做的（通用的阅读理解是指给出材料和问题，从材料中找到问题的答案，完形填空可以认为是通用阅读理解的一个非常小的子集）。

虽然，在这次评测任务的介绍中，评测方总有意无意地引导我们将这个问题理解为阅读理解问题。但笔者觉得，阅读理解本身就难得多，这个就一完形填空，只要把它作为纯粹的完形填空题做就是了，所以本文仅仅是采用类似语言模型的做法来做。这种做法的好处是思路简明直观，计算量低（在笔者的GTX1060上可以跑到batch size为160），便于实验。

模型

回到模型上，我们的模型其实比较简单，完全紧扣了“从上下文中选一个词来填空”这一思想，示意图如下。

完形填空模型

点击阅读全文...

分类：信息时代标签：神经网络, 机器学习, 比赛阅读全文 49 评论

3 Jul

《交换代数导引》参考答案

By 苏剑林 | 2017-07-03 | 35897位读者 | 引用

这学期我们的一门课是《交换代数》，是本科抽象代数的升级版。我们用的教材是Atiyah的《Introduction to Commutative Algebra》（交换代数导引），而且根据老师的上课安排，还需要我们把部分课后习题完成并讲解...不得不说这门课上得真累啊～

习题做到后面，我干脆懒得起草稿了，直接把做的答案用LaTeX录入了，既方便排版也方便修改。在这里分享给有需要的读者～答案是用中文写的，注释比较详细，适合刚学这门课的同学～

笔者所做的部分：《交换代数导引》参考答案.pdf

当然这份答案只包括老师对我们的要求的那部分习题，下面是网上搜索到的完整的习题解答，英文版的：

网上找到的答案：Jeffrey Daniel Kasik Carlson - Exercises to Atiya.pdf

如果答案有问题，欢迎留言指出。

分类：数学研究标签：代数阅读全文抢沙发

16 Jul

Linux下的误删大坑与简单的恢复技巧

By 苏剑林 | 2017-07-16 | 29214位读者 | 引用

警告

以下内容包含诸多高危动作，请勿随意模仿。未成年人请在父母的陪同下观看～(^_^）

自杀式

Linux系统（下面内容同时适用于Mac OS）以开源自由闻名，然而有些时候它也开放过头了，而笔者也被它无比开发的特性坑了好几次（当然，主要是笔者使用习惯不好），遂总结分享，供大家娱乐。

最经典的例子就是，通过以下命令就可以实现“自杀”：

sudo rm / -rf

这就把你的Linux系统给毁了。显然，如果是在Windows中，这相当于在操作系统中格式化系统盘，这是绝对不允许的。

点击阅读全文...

分类：信息时代标签：linux, 技巧阅读全文 1 评论

16 Oct

如何划分一个跟测试集更接近的验证集？

By 苏剑林 | 2020-10-16 | 59768位读者 | 引用

不管是打比赛、做实验还是搞工程，我们经常会遇到训练集与测试集分布不一致的情况。一般来说我们会从训练集中划分出来一个验证集，通过这个验证集来调整一些超参数（参考《训练集、验证集和测试集的意义》），比如控制模型的训练轮数以防止过拟合。然而，如果验证集本身跟测试集差别比较大，那么验证集上很好的模型也不代表在测试集上很好，因此如何让划分出来验证集跟测试集的分布差异更小一些，是一个值得研究的题目。

两种情况

首先，明确一下，本文所考虑的，是能给拿到测试集数据本身、但不知道测试集标签的场景。如果是那种提交模型封闭评测的场景，我们完全看不到测试集的，那就没什么办法了。为什么会出现测试集跟训练集分布不一致的现象呢？主要有两种情况。

点击阅读全文...

分类：信息时代标签：模型, 概率, 优化, 采样阅读全文 16 评论

6 Oct

从马尔科夫过程到主方程（推导过程）

By 苏剑林 | 2017-10-06 | 76036位读者 | 引用

主方程（master equation）是对随机过程进行建模的重要方法，它代表着马尔科夫过程的微分形式，我们的专业主要工具之一就是主方程，说宏大一点，量子力学和统计力学等也不外乎是主方程的一个特例。

然而，笔者阅读了几个著作，比如《统计物理现代教程》，还有我导师的《生物系统的随机动力学》，我发现这些著作对于主方程的推导都很模糊，他们在着力解释结果的意义，但并不说明结果的思想来源，因此其过程难以让人信服。而知乎上有人提问《如何理解马尔科夫过程的主方程的推导过程？》但没有得到很好的答案，也表明了这个事实。

马尔可夫过程

主方程是用来描述马尔科夫过程的，而马尔科夫过程可以理解为运动的无记忆性，说通俗点，就是下一刻的概率分布，只跟当前时刻有关，跟历史状态无关。用概率公式写出来就是（这里只考虑连续型概率，因此这里的$p$是概率密度）：
$$\begin{equation}\label{eq:maerkefu}p(x,\tau)=\int p(x,\tau|y,t) p(y,t) dy\end{equation}$$
这里的积分区域是全空间。这里的$p(x,\tau|y,t)$称为跃迁概率，即已经确定了$t$时刻来到了$y$位置后、在$\tau$时刻达到$x$的概率密度，这个式子的物理意义是很明显的，就不多做解释了。

点击阅读全文...

分类：数学研究标签：概率, 主方程阅读全文 12 评论

13 Oct

基于fine tune的图像分类（百度分狗竞赛）

By 苏剑林 | 2017-10-13 | 29115位读者 | 引用

baidu_jingsai

前两年百度的大数据竞赛都是自然语言处理方面的，今年画风一转，变成了图像的细颗粒度分类，赛题内容就是将宠物狗归为100类中的其中一类。这个任务本身是很平凡的，做法也很常规，无外乎就是数据扩增、imagenet模型的fine tune、模型集成三个方面。笔者并不擅长于模型集成，只做了前面两个步骤，成绩也非常一般（准确率80%上下）。但感觉里边的某些代码可能对读者有帮助，遂共享一翻。下面结合着代码来讲解。

比赛官网（随时有失效的可能）：http://js.baidu.com

模型

模型主要用tensorflow+keras实现。首先自然是导入各种模块

#! -*- coding:utf-8 -*-

import numpy as np
from scipy import misc
import tensorflow as tf
from keras.applications.xception import Xception,preprocess_input
from keras.layers import Input,Dense,Lambda,Embedding
from keras.layers.merge import multiply
from keras import backend as K
from keras.models import Model
from keras.optimizers import SGD
from tqdm import tqdm
import glob
np.random.seed(2017)
tf.set_random_seed(2017)

点击阅读全文...

分类：信息时代标签：分类, 图像, 深度学习阅读全文 2 评论

13 Oct