包含关键字《方程与宇宙》的文章 - 科学空间|Scientific Spaces

22 Feb

炼钢.vs.做菜：淬火与过冷河

By 苏剑林 | 2014-02-22 | 40426位读者 | 引用

牛腩过冷河

除了数学物理和中国象棋，我闲时也喜欢弄一下吃的。看到各种菜料经过自己的加工变成佳肴，也是一件美不胜收的事情；有时看到同样的菜料能够做出不同款式、不同味道的菜时，更是其乐无穷。作为广东人，我很自豪于其中一句话：“广东人吃所有东西——天上飞的，除了飞机；地上爬的，除了火车；水中游的，除了潜艇”。虽然不免有些夸张，但这句话充分显示了广东人（或者说岭南地区）饮食和烹饪的强大本领。我的厨房技术来源于我妈妈，小时候妈妈在家里做菜，由于是烧柴草生火，所以我得在灶前看好火。于是看火之时也在看妈妈做菜，久而久之，也会学会了一些做菜的方法。而现在，妈妈仍是家里的厨房好手，而我也不时进入厨房，做做自己喜欢吃的东西。谢谢我的好妈妈！

炼钢

本文叫“炼钢.vs.做菜”，这两者基本上是风牛马不相及，不过我却发现它们有一点点相似的技巧。已不记得什么时候了，在一本自然科学的书上，我曾看到过炼钢的两种技术：淬火和退火（后来发现还有正火、回火等，原理类似）。简单来说，淬火是将一块钢铁烧红，然后放进冷水中迅速冷却（也就是加热到一定温度，然后迅速冷却），如此重复，便可使得钢铁变硬，但同时也会更脆；退火则刚刚相反，它是将钢铁烧红后，让它自然冷却（有必要时，想办法降低冷却速度），如此一来，钢铁变软了，也变韧了。正火、回火均与退火类似，只是在细节上不同。通过淬火和退火的适当组合，可以生产出硬度和韧度都适当的钢铁。

点击阅读全文...

分类：生活/情感标签：物理, 化学, 厨房阅读全文 4 评论

12 Oct

集合的划分与贝尔数

By 苏剑林 | 2014-10-12 | 36001位读者 | 引用

集合上的一个等价关系决定了几何的一个划分，反之亦然，这直观上是不难理解的。但是，如果我要问一个有$n$个元素的有限集合，共有多少种不同的划分呢？以前感觉这也是一个很简单的问题，就没去细想，但前天抽象代数老师提到这是一个有相当难度的题目，于是研究了一下，发现里面大有文章。这里把我的研究过程简单分享一下，读者可以从中看到如何“从零到有”的过程。

以下假设有$n$个元素的有限集合为$\{1,2,\dots,n\}$，记它的划分数为$B(n)$。

前期：暴力计算

$n=3$的情况不难列出：
$$\begin{aligned}&\{\{1,2,3\}\},\{\{1,2\},\{3\}\},\{\{1,3\},\{2\}\},\\
&\{\{2,3\},\{1\}\},\{\{1\},\{2\},\{3\}\}\end{aligned}$$

点击阅读全文...

分类：数学研究标签：生成函数, 分拆, 集合阅读全文 1 评论

6 Jun

闲聊：神经网络与深度学习

By 苏剑林 | 2015-06-06 | 69961位读者 | 引用

神经网络

在所有机器学习模型之中，也许最有趣、最深刻的便是神经网络模型了。笔者也想献丑一番，说一次神经网络。当然，本文并不打算从头开始介绍神经网络，只是谈谈我对神经网络的个人理解。如果希望进一步了解神经网络与深度学习的朋友，请移步阅读下面的教程：
http://deeplearning.stanford.edu/wiki/index.php/UFLDL教程

http://blog.csdn.net/zouxy09/article/details/8775360

机器分类

这里以分类工作为例，数据挖掘或机器学习中，有很多分类的问题，比如讲一句话的情况进行分类，粗略点可以分类为“积极”或“消极”，精细点分为开心、生气、忧伤等；另外一个典型的分类问题是手写数字识别，也就是将图片分为10类（0,1,2,3,4,5,6,7,8,9）。因此，也产生了很多分类的模型。

点击阅读全文...

分类：信息时代标签：神经网络, 深度学习, 机器学习阅读全文 17 评论

15 Jul

漫话模型|模型与选芒果

By 苏剑林 | 2015-07-15 | 38546位读者 | 引用

很多人觉得“模型”、“大数据”、“机器学习”这些字眼很高大很神秘，事实上，它跟我们生活中选水果差不了多少。本文用了几千字，来试图教会大家怎么选芒果...

模型的比喻

芒果

假如我要从一批芒果中，找出好吃的那个来。而我不能直接切开芒果尝尝，所以我只能观察芒果，能观察到的量有颜色、表面的气味、大小等等，这些就是我们能够收集到的信息（特征）。

生活中还要很多这样的例子，比如买火柴（可能年轻的城里人还没见过火柴？），如何判断一盒火柴的质量？难道要每根火柴都划划，看看着不着火？显然不行，我们最多也只能划几根，全部划了，火柴也不成火柴了。当然，我们还能看看火柴的样子，闻闻火柴的气味，这些动作是可以接受的。

点击阅读全文...

分类：信息时代标签：模型, 机器学习阅读全文 4 评论

17 Jun

OCR技术浅探：2. 背景与假设

By 苏剑林 | 2016-06-17 | 39033位读者 | 引用

研究背景

关于光学字符识别(Optical Character Recognition, 下面都简称OCR)，是指将图像上的文字转化为计算机可编辑的文字内容，众多的研究人员对相关的技术研究已久，也有不少成熟的OCR技术和产品产生，比如汉王OCR、ABBYY FineReader、Tesseract OCR等. 值得一提的是，ABBYY FineReader不仅正确率高(包括对中文的识别)，而且还能保留大部分的排版效果，是一个非常强大的OCR商业软件.

然而，在诸多的OCR成品中，除了Tesseract OCR外，其他的都是闭源的、甚至是商业的软件，我们既无法将它们嵌入到我们自己的程序中，也无法对其进行改进. 开源的唯一选择是Google的Tesseract OCR，但它的识别效果不算很好，而且中文识别正确率偏低，有待进一步改进.

综上所述，不管是为了学术研究还是实际应用，都有必要对OCR技术进行探究和改进. 我们队伍将完整的OCR系统分为“特征提取”、“文字定位”、“光学识别”、“语言模型”四个方面，逐步进行解决，最终完成了一个可用的、完整的、用于印刷文字的OCR系统. 该系统可以初步用于电商、微信等平台的图片文字识别，以判断上面信息的真伪.

研究假设

在本文中，我们假设图像的文字部分有以下的特征：

点击阅读全文...

分类：信息时代标签：图像, 数据挖掘, OCR, 文字阅读全文 5 评论

19 Aug

【中文分词系列】 3. 字标注法与HMM模型

By 苏剑林 | 2016-08-19 | 85860位读者 | 引用

在这篇文章中，我们暂停查词典方法的介绍，转而介绍字标注的方法。前面已经提到过，字标注是通过给句子中每个字打上标签的思路来进行分词，比如之前提到过的，通过4标签来进行标注（single，单字成词；begin，多字词的开头；middle，三字以上词语的中间部分；end，多字词的结尾。均只取第一个字母。），这样，“为人民服务”就可以标注为“sbebe”了。4标注不是唯一的标注方式，类似地还有6标注，理论上来说，标注越多会越精细，理论上来说效果也越好，但标注太多也可能存在样本不足的问题，一般常用的就是4标注和6标注。

值得一提的是，这种通过给每个字打标签、进而将问题转化为序列到序列的学习，不仅仅是一种分词方法，还是一种解决大量自然语言问题的思路，比如命名实体识别等任务，同样可以用标注的方法来做。回到分词来，通过字标注法来进行分词的模型有隐马尔科夫模型（HMM）、最大熵模型（ME）、条件随机场模型（CRF），它们在精度上都是递增的，据说目前公开评测中分词效果最好的是4标注的CRF。然而，在本文中，我们要讲解的是最不精确的HMM。因为在我看来，它并非一个特定的模型，而是解决一大类问题的通用思想，一种简化问题的学问。

这一切，还得从概率模型谈起。

点击阅读全文...

分类：信息时代标签：概率, python, 分词, HMM, 自然语言处理阅读全文 23 评论

3 Dec

词向量与Embedding究竟是怎么回事？

By 苏剑林 | 2016-12-03 | 280386位读者 | 引用

词向量，英文名叫Word Embedding，按照字面意思，应该是词嵌入。说到词向量，不少读者应该会立马想到Google出品的Word2Vec，大牌效应就是不一样。另外，用Keras之类的框架还有一个Embedding层，也说是将词ID映射为向量。由于先入为主的意识，大家可能就会将词向量跟Word2Vec等同起来，而反过来问“Embedding是哪种词向量？”这类问题，尤其是对于初学者来说，应该是很混淆的。事实上，哪怕对于老手，也不一定能够很好地说清楚。

这一切，还得从one hot说起...

五十步笑百步

one hot，中文可以翻译为“独热”，是最原始的用来表示字、词的方式。为了简单，本文以字为例，词也是类似的。假如词表中有“科、学、空、间、不、错”六个字，one hot就是给这六个字分别用一个0-1编码：
$$\begin{array}{c|c}\hline\text{科} & [1, 0, 0, 0, 0, 0]\\
\text{学} & [0, 1, 0, 0, 0, 0]\\
\text{空} & [0, 0, 1, 0, 0, 0]\\
\text{间} & [0, 0, 0, 1, 0, 0]\\
\text{不} & [0, 0, 0, 0, 1, 0]\\
\text{错} & [0, 0, 0, 0, 0, 1]\\
\hline
\end{array}$$

点击阅读全文...

分类：信息时代标签：深度学习, 自然语言处理阅读全文 68 评论

15 Jan

SVD分解(一)：自编码器与人工智能

By 苏剑林 | 2017-01-15 | 50499位读者 | 引用

咋看上去，SVD分解是比较传统的数据挖掘手段，自编码器是深度学习中一个比较“先进”的概念，应该没啥交集才对。而本文则要说，如果不考虑激活函数，那么两者将是等价的。进一步的思考就可以发现，不管是SVD还是自编码器，我们降维，并不是纯粹地为了减少储存量或者减少计算量，而是“智能”的初步体现。

等价性

假设有一个$m$行$n$列的庞大矩阵$M_{m\times n}$，这可能使得计算甚至存储上都成问题，于是考虑一个分解，希望找到矩阵$A_{m\times k}$和$B_{k\times n}$，使得
$$M_{m\times n}=A_{m\times k}\times B_{k\times n}$$
这里的乘法是矩阵乘法。如图

SVD

点击阅读全文...

分类：信息时代标签：深度学习, SVD, 智能阅读全文 9 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

炼钢.vs.做菜：淬火与过冷河

集合的划分与贝尔数

闲聊：神经网络与深度学习

机器分类

漫话模型|模型与选芒果

模型的比喻

OCR技术浅探：2. 背景与假设

研究背景

研究假设

【中文分词系列】 3. 字标注法与HMM模型

词向量与Embedding究竟是怎么回事？

五十步笑百步

SVD分解(一)：自编码器与人工智能

等价性

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接