包含关键字 Transformer升级之路的文章 - 科学空间|Scientific Spaces

26 Aug

fashion-mnist的gan玩具

By 苏剑林 | 2017-08-26 | 58090位读者 | 引用

fashion_mnist_demo

mnist的手写数字识别数据集一直是各种机器学习算法的试金石之一，最近有个新的数据集要向它叫板，称为fashion-mnist，内容是衣服鞋帽等分类。为了便于用户往fashion-mnist迁移，作者把数据集做成了几乎跟mnist手写数字识别数据集一模一样——同样数量、尺寸的图片，同样是10分类，甚至连数据打包和命名都跟mnist一样。看来fashion mnist为了取代mnist，也是拼了，下足了功夫，一切都做得一模一样，最大限度降低了使用成本～这叫板的心很坚定呀。

叫板的原因很简单——很多人吐槽，如果一个算法在mnist没用，那就一定没用了，但如果一个算法在mnist上有效，那它也不见得在真实问题中有效～也就是说，这个数据集太简单，没啥代表性。

fashion-mnist的github：https://github.com/zalandoresearch/fashion-mnist/

点击阅读全文...

分类：信息时代标签：深度学习, GAN, 生成模型阅读全文 8 评论

23 Dec

鬼斧神工：求n维球的体积

By 苏剑林 | 2014-12-23 | 109185位读者 | 引用

今天早上同学问了我有关伽马函数和$n$维空间的球体积之间的关系，我记得我以前想要研究，但是并没有落实。既然她提问了，那么就完成这未完成的计划吧。

标准思路

简单来说，$n$维球体积就是如下$n$重积分
$$V_n(r)=\int_{x_1^2+x_2^2+\dots+x_n^2\leq r^2}dx_1 dx_2\dots dx_n$$
用更加几何的思路，我们通过一组平行面（$n-1$维的平行面）分割，使得$n$维球分解为一系列近似小柱体，因此，可以得到递推公式
$$V_n (r)=\int_{-r}^r V_{n-1} \left(\sqrt{r^2-t^2}\right)dt$$
设$t=r\sin\theta_1$，就有
$$V_n (r)=r\int_{-\frac{\pi}{2}}^{\frac{\pi}{2}} V_{n-1} \left(r\cos\theta_1\right)\cos\theta_1 d\theta_1$$

点击阅读全文...

分类：数学研究标签：微积分, 积分, 分析阅读全文 16 评论

27 Mar

海伦公式的一个别致的物理推导

By 苏剑林 | 2015-03-27 | 51023位读者 | 引用

海伦公式是已知三角形三边的长度$a,b,c$来求面积$S$的公式，是一个相当漂亮的公式，它不算复杂，同时它关于$a,b,c$是对称的，充分体现了三边的同等地位。可是，这样具有对称美的公式推导，往往要经过一个不对称的过程，比如维基百科上的证明，这未免有点美中不足。本文的目的，就是想为此补充一个对称的推导。本文题目为“物理推导”，关键在于“推导”而不是“证明”，同时这里的“物理”并非是通过物理类比而来，而是推导的思想和方法很具有“物理味道”。

$$\sqrt{p(p-a)(p-b)(p-c)}$$

在推导开始之前，笔者给出一个评论：海伦公式似乎是由三边长求三角形面积的所有可能的公式之中最简单的一个。

点击阅读全文...

分类：数学研究标签：物理, 面积阅读全文 7 评论

2 May

寻求一个光滑的最大值函数

By 苏剑林 | 2015-05-02 | 128645位读者 | 引用

在最优化问题中，求一个函数的最大值或最小值，最直接的方法是求导，然后比较各阶极值的大小。然而，我们所要优化的函数往往不一定可导，比如函数中含有最大值函数$\max(x,y)$的。这时候就得求助于其他思路了。有一个很巧妙的思路是，将这些不可导函数用一个可导的函数来近似它，从而我们用求极值的方法来求出它近似的最优值。本文的任务，就是探究一个简单而有用的函数，它能够作为最大值函数的近似，并且具有多阶导数。下面是笔者给出的一个推导过程。

在数学分析中，笔者已经学习过一个关于最大值函数的公式，即当$x \geq 0, y \geq 0$时，我们有
$$\max(x,y)=\frac{1}{2}\left(|x+y|+|x-y|\right)\tag{1}$$
那么，为了寻求一个最大值的函数，我们首先可以考虑寻找一个能够近似表示绝对值$|x|$的函数，这样我们就把问题从二维降低到一维了。那么，哪个函数可以使用呢？

点击阅读全文...

分类：数学研究标签：函数, 极值, 光滑阅读全文 44 评论

6 Jun

闲聊：神经网络与深度学习

By 苏剑林 | 2015-06-06 | 68198位读者 | 引用

神经网络

在所有机器学习模型之中，也许最有趣、最深刻的便是神经网络模型了。笔者也想献丑一番，说一次神经网络。当然，本文并不打算从头开始介绍神经网络，只是谈谈我对神经网络的个人理解。如果希望进一步了解神经网络与深度学习的朋友，请移步阅读下面的教程：
http://deeplearning.stanford.edu/wiki/index.php/UFLDL教程

http://blog.csdn.net/zouxy09/article/details/8775360

机器分类

这里以分类工作为例，数据挖掘或机器学习中，有很多分类的问题，比如讲一句话的情况进行分类，粗略点可以分类为“积极”或“消极”，精细点分为开心、生气、忧伤等；另外一个典型的分类问题是手写数字识别，也就是将图片分为10类（0,1,2,3,4,5,6,7,8,9）。因此，也产生了很多分类的模型。

点击阅读全文...

分类：信息时代标签：神经网络, 深度学习, 机器学习阅读全文 16 评论

22 Jun

文本情感分类（一）：传统模型

By 苏剑林 | 2015-06-22 | 223951位读者 | 引用

前言：四五月份的时候，我参加了两个数据挖掘相关的竞赛，分别是物电学院举办的“亮剑杯”，以及第三届 “泰迪杯”全国大学生数据挖掘竞赛。很碰巧的是，两个比赛中，都有一题主要涉及到中文情感分类工作。在做“亮剑杯”的时候，由于我还是初涉，水平有限，仅仅是基于传统的思路实现了一个简单的文本情感分类模型。而在后续的“泰迪杯”中，由于学习的深入，我已经基本了解深度学习的思想，并且用深度学习的算法实现了文本情感分类模型。因此，我打算将两个不同的模型都放到博客中，供读者参考。刚入门的读者，可以从中比较两者的不同，并且了解相关思路。高手请一笑置之。

基于情感词典

人的最简单的判断思维

点击阅读全文...

分类：信息时代标签：python, 机器学习, 数据挖掘, 文本挖掘阅读全文 59 评论

2 Jul

用Pandas实现高效的Apriori算法

By 苏剑林 | 2015-07-02 | 141616位读者 | 引用

最新更新：《用Numpy实现高效的Apriori算法》

最近在做数据挖掘相关的工作，阅读到了Apriori算法。平时由于没有涉及到相关领域，因此对Apriori算法并不了解，而如今工作上遇到了，就不得不认真学习一下了。Apriori算法是一个寻找关联规则的算法，也就是从一大批数据中找到可能的逻辑，比如“条件A+条件B”很有可能推出“条件C”（A+B-->C），这就是一个关联规则。具体来讲，比如客户买了A商品后，往往会买B商品（反之，买了B商品不一定会买A商品），或者更复杂的，买了A、B两种商品的客户，很有可能会再买C商品（反之也不一定）。有了这些信息，我们就可以把一些商品组合销售，以获得更高的收益。而寻求关联规则的算法，就是关联分析算法。

啤酒与尿布

关联算法的案例中，最为人老生常谈的应该是“啤酒与尿布”了。“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中，超市管理人员发现“啤酒与尿布两件看上去毫无关系的商品会经常出现在同一个购物篮中”。经过分析，原来在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲前去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒，这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。因此，沃尔玛尝试将啤酒与尿布摆放在相同的区域，让年轻的父亲可以同时找到这两件商品。事实是效果相当不错！

点击阅读全文...

分类：信息时代标签：python, 数据挖掘, 关联分析阅读全文 30 评论

30 Aug

封闭曲线所围成的面积：一个新技巧

By 苏剑林 | 2015-08-30 | 62650位读者 | 引用

本文主要做了一个尝试，尝试不通过Green公式而实现将封闭曲线的面积与线积分相互转换。这种转换的思路，因为仅仅利用了二重积分的积分变换，较为容易理解，而且易于推广。至于这种技巧是否真正具有实际价值，还请读者评论。

假设平面上一条简单封闭曲线由以下参数方程给出：
$$\begin{equation}\left\{\begin{aligned}x = f(t)\\y = g(t)\end{aligned}\right.\end{equation}$$
其中参数$t$位于某个区间$[a,b]$上，即$f(a)=f(b),g(a)=g(b)$。现在的问题是，求该封闭曲线围成的区域的面积。

点击阅读全文...

分类：数学研究标签：积分, 变换阅读全文 5 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

fashion-mnist的gan玩具

鬼斧神工：求n维球的体积

标准思路

海伦公式的一个别致的物理推导

寻求一个光滑的最大值函数

闲聊：神经网络与深度学习

机器分类

文本情感分类（一）：传统模型

基于情感词典

用Pandas实现高效的Apriori算法

啤酒与尿布

封闭曲线所围成的面积：一个新技巧

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接