包含关键字回归问题的文章 - 科学空间|Scientific Spaces

26 Aug

fashion-mnist的gan玩具

By 苏剑林 | 2017-08-26 | 57663位读者 | 引用

fashion_mnist_demo

mnist的手写数字识别数据集一直是各种机器学习算法的试金石之一，最近有个新的数据集要向它叫板，称为fashion-mnist，内容是衣服鞋帽等分类。为了便于用户往fashion-mnist迁移，作者把数据集做成了几乎跟mnist手写数字识别数据集一模一样——同样数量、尺寸的图片，同样是10分类，甚至连数据打包和命名都跟mnist一样。看来fashion mnist为了取代mnist，也是拼了，下足了功夫，一切都做得一模一样，最大限度降低了使用成本～这叫板的心很坚定呀。

叫板的原因很简单——很多人吐槽，如果一个算法在mnist没用，那就一定没用了，但如果一个算法在mnist上有效，那它也不见得在真实问题中有效～也就是说，这个数据集太简单，没啥代表性。

fashion-mnist的github：https://github.com/zalandoresearch/fashion-mnist/

点击阅读全文...

分类：信息时代标签：深度学习, GAN, 生成模型阅读全文 8 评论

22 Dec

将多项式分解为两个不可约多项式之和

By 苏剑林 | 2014-12-22 | 38163位读者 | 引用

在高等代数的多项式一章中，通常会有这样的一道练习题：

证明任意有理数域上的多项式都能够表示为两个有理数域上的不可约多项式之和。

这是道简单的练习题，证明方法有多种。首先来介绍一个巧妙的证法。

一个巧妙证明

有理数域上的多项式问题等价于整数域上的多项式问题，因此，只需要对整数域上的多项式进行证明（这步转换使得我们可以使用艾森斯坦判别法）。设$f(x)$是整数域上的一个$n$次多项式：
$$f(x)=a_n x^n+a_{n-1} x^{n-1}+\dots+a_1 x+a_0$$
我们只需要注意到
$$p f(x)=\left[p f(x)+x^n+p\right]-(x^{n}+p)$$

点击阅读全文...

分类：数学研究标签：代数, 多项式, 分解阅读全文 2 评论

6 Jan

借助变分法变换坐标

By 苏剑林 | 2015-01-06 | 35398位读者 | 引用

ODE的坐标变换

熟悉理论力学的读者应该能够领略到变分法在变换坐标系中的作用。比如，如果要将下面的平面二体问题方程
$$\left\{\begin{aligned}\frac{d^2 x}{dt^t}=\frac{-\mu x}{(x^2+y^2)^{3/2}}\\
\frac{d^2 y}{dt^t}=\frac{-\mu y}{(x^2+y^2)^{3/2}}\end{aligned}\right.\tag{1}$$
变换到极坐标系下，如果直接代入计算，将会是一道十分繁琐的计算题。但是，我们知道，上述方程只不过是作用量
$$S=\int \left[\frac{1}{2}\left(\dot{x}^2+\dot{y}^2\right)+\frac{\mu}{\sqrt{x^2+y^2}}\right]dt\tag{2}$$
变分之后的拉格朗日方程，那么我们就可以直接对作用量进行坐标变换。而由于作用量一般只涉及到了一阶导数，因此作用量的变换一般来说比较简单。比如，很容易写出，$(2)$在极坐标下的形式为
$$S=\int \left[\frac{1}{2}\left(\dot{r}^2+r^2\dot{\theta}^2\right)+\frac{\mu}{r}\right]dt\tag{3}$$
对$(3)$进行变分，得到的拉格朗日方程为
$$\left\{\begin{aligned}&\ddot{r}=r\dot{\theta}^2-\frac{\mu}{r^2}\\
&\frac{d}{dt}\left(r^2\dot{\theta}\right)=0\end{aligned}\right.\tag{4}$$
就这样完成了坐标系的变换。如果想直接代入$(1)$暴力计算，那么请参考《方程与宇宙》:二体问题的来来去去(一)

点击阅读全文...

分类：数学研究,物理化学标签：微分方程, 分析, 变分, 作用量阅读全文 4 评论

16 Jan

勒贝格(Lebesgue)控制收敛定理

By 苏剑林 | 2015-01-16 | 83305位读者 | 引用

实变函数中有一个勒贝格控制收敛定理，一般认为它是判断积分和取极限可交换的很好用的方法。勒贝格控制收敛定理是说，如果定义在集合$E$上的函数列$\left\{f_n(x)\right\}$满足$|f_n(x)|\leq F(x)$，而$F(x)$在$E$上可积，那么积分和取极限就可以交换，即
$$\lim_{n\to\infty}\left(\int_E f_n (x)dx\right)=\int_E \left(\lim_{n\to\infty}f_n (x)\right)dx$$
本文不打算谈该定理的证明，只是谈谈该定理的应用相关的话题。首先，请有兴趣的读者，做做以下题目：
$$\lim_{n\to\infty}\left(\int_0^1 \frac{n^2 x}{1+n^4 x^4}dx\right)$$

点击阅读全文...

分类：数学研究标签：不等式, 积分阅读全文 5 评论

19 Apr

柯西命题：盯着它到显然成立为止！

By 苏剑林 | 2015-04-19 | 43232位读者 | 引用

数学分析中数列极限部分，有一个很基本的“柯西命题”：

如果$\lim_{n\to\infty} x_n=a$，则
$$\lim_{n\to\infty}\frac{x_1+x_2+\dots+x_n}{n}=a$$

本文所要谈的便是这个命题，当然还包括类似的一些题目。

柯西命题的证明

柯西命题的证明并不难，只需要根据极限收敛的定义，由于$\lim_{n\to\infty} x_n=a$，所以任意给定$\varepsilon > 0$，存在足够大的$N$，使得对于任意的$n > N$，都有
$$\left|x_n - a\right| < \varepsilon/2\quad(\forall n > N)$$

点击阅读全文...

分类：数学研究标签：极限, 分析阅读全文 3 评论

2 May

寻求一个光滑的最大值函数

By 苏剑林 | 2015-05-02 | 127458位读者 | 引用

在最优化问题中，求一个函数的最大值或最小值，最直接的方法是求导，然后比较各阶极值的大小。然而，我们所要优化的函数往往不一定可导，比如函数中含有最大值函数$\max(x,y)$的。这时候就得求助于其他思路了。有一个很巧妙的思路是，将这些不可导函数用一个可导的函数来近似它，从而我们用求极值的方法来求出它近似的最优值。本文的任务，就是探究一个简单而有用的函数，它能够作为最大值函数的近似，并且具有多阶导数。下面是笔者给出的一个推导过程。

在数学分析中，笔者已经学习过一个关于最大值函数的公式，即当$x \geq 0, y \geq 0$时，我们有
$$\max(x,y)=\frac{1}{2}\left(|x+y|+|x-y|\right)\tag{1}$$
那么，为了寻求一个最大值的函数，我们首先可以考虑寻找一个能够近似表示绝对值$|x|$的函数，这样我们就把问题从二维降低到一维了。那么，哪个函数可以使用呢？

点击阅读全文...

分类：数学研究标签：函数, 极值, 光滑阅读全文 44 评论

16 Apr

采样定理：有限个点构建出整个函数

By 苏剑林 | 2015-04-16 | 30401位读者 | 引用

假设我们在听一首歌，那么听完这首歌之后，我们实际上在做这样的一个过程：耳朵接受了一段时间内的声波刺激，从而引起了大脑活动的变化。而这首歌，也就是这段时间内的声波，可以用时间$t$的函数$f(t)$描述，这个函数的区间是有限的，比如$t\in[0,T]$。接着假设另外一个场景——我们要用电脑录下我们唱的歌。这又是怎样一个过程呢？要注意电脑的信号是离散化的，而声波是连续的，因此，电脑要把歌曲记录下来，只能对信号进行采样记录。原则上来说，采集的点越多，就能够越逼真地还原我们的歌声。可是有一个问题，采集多少点才足够呢？在信息论中，一个著名的“采样定理”（又称香农采样定理，奈奎斯特采样定理）告诉我们：只需要采集有限个样本点，就能够完整地还原我们的输入信号来！

采集有限个点就能够还原一个连续的函数？这是怎么做到的？下面我们来解释这个定理。

任意给定一个函数，一般来说我们都可以将它做傅里叶变换：
$$F(\omega)=\int_{-\infty}^{+\infty} f(t)e^{i\omega t}dt\tag{1}$$
虽然我们的积分限写了正负无穷，但是由于$f(t)$是有限区间内的函数，所以上述积分区间实际上是有限的。

点击阅读全文...

分类：数学研究标签：积分, fourier, 采样阅读全文 3 评论

6 May

记录一次爬取淘宝/天猫评论数据的过程

By 苏剑林 | 2015-05-06 | 167044位读者 | 引用

笔者最近迷上了数据挖掘和机器学习，要做数据分析首先得有数据才行。对于我等平民来说，最廉价的获取数据的方法，应该是用爬虫在网络上爬取数据了。本文记录一下笔者爬取天猫某商品的全过程，淘宝上面的店铺也是类似的做法，不赘述。主要是分析页面以及用Python实现简单方便的抓取。

笔者使用的工具如下

Python 3——极其方便的编程语言。选择3.x的版本是因为3.x对中文处理更加友好。
Pandas——Python的一个附加库，用于数据整理。
IE 11——分析页面请求过程（其他类似的流量监控工具亦可）。
剩下的还有requests,re，这些都是Python自带的库。

实例页面（美的某热水器）：http://detail.tmall.com/item.htm?id=41464129793

点击阅读全文...

分类：信息时代标签：网站, 爬虫阅读全文 45 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

fashion-mnist的gan玩具

将多项式分解为两个不可约多项式之和

一个巧妙证明

借助变分法变换坐标

ODE的坐标变换

勒贝格(Lebesgue)控制收敛定理

柯西命题：盯着它到显然成立为止！

柯西命题的证明

寻求一个光滑的最大值函数

采样定理：有限个点构建出整个函数

记录一次爬取淘宝/天猫评论数据的过程

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接