《虚拟的实在(2)》——为什么引力如此复杂?
By 苏剑林 | 2013-06-07 | 32747位读者 | 引用上一篇文章里我已经从我自己的理解角度简单说了一下场论的必要性,这次让我们再次谈到这个话题,企图在文字层面上得到更深入的认识。
上一两周的时间,我一直在找资料,主要是线性引力的资料,并且发现了很多有趣的东西,在此一并与大家分享一下。首先,当我在Google中输入“线性引力”时,我发现了一本“奇书”,一本名副其实的“巨著”——《引力论》!洋洋1300多页的大作,三位“超级巨星”——C.W.麦思纳(Charles W.Misner)、K.S.索恩(Kip S.Thorne)、J.A.惠勒(John Archibald Wheeler)——联合编写,恐怕再也找不到哪本书可以PK它的“全明星阵容”了。该书英文名为Gravitation,中文是由台湾翻译的,繁体中文版。全书讲述了引力的研究历史和发展情况,更重要的是几乎每一处历史都给出了数学论证!最最重要的,作者惠勒还是跟爱因斯坦同一个研究时代的人,我们可以最真实的感受到那年代的研究。看到这里,我就迫不及待地想买了,由于各种原因,我们很难买到,到图书馆找,发现有英文版的,就马上借过来了,另外因为买不到中文版,我只好到网上买了电子版,然后打印出来了。不过不是很清晰,而且自我感觉中文翻译不是很好(当然,已经够我们阅读了)。
《新理解矩阵5》:体积=行列式
By 苏剑林 | 2013-12-25 | 48724位读者 | 引用在文章《新理解矩阵3》:行列式的点滴中,笔者首次谈及到了行列式的几何意义,它代表了n维的“平行多面体”的“体积”。然而,这篇文章写于我初学矩阵之时,有些论述并不严谨,甚至有些错误。最近笔者在写期末论文的时候,研究了超复数的相关内容,而行列式的几何意义在我的超复数研究中具有重要作用,因此把行列式的几何意义重新研究了一翻,修正了部分错误,故发此文,与大家分享。
一个$n$阶矩阵$A$可以看成是$n$个$n$维列向量$\boldsymbol{x}_1,\boldsymbol{x}_2,...,\boldsymbol{x}_n$的集合
$$A=(\boldsymbol{x}_1,\boldsymbol{x}_2,\dots,\boldsymbol{x}_n)$$
从代数的角度来看,这构成了一个矩阵;从几何的角度来看,这$n$个向量可以建立一个平行$n$维体。比如:平行四边形就是“平行二维体”,平行六面体就是“平行三维体”,高阶的只需要相应类比,不需要真正想象出高维空间的立体是什么样。
收到新版《量子力学与路径积分》
By 苏剑林 | 2015-06-06 | 41270位读者 | 引用今天收到高教出版社的王超编辑寄来的费曼著作新版《量子力学与路径积分》了,兴奋ing...
《量子力学与路径积分》是费曼的一本经典著作,更是量子力学的经典著作——它是我目前读过的唯一一本从路径积分出发、并且以路径积分为第一性原理的量子力学著作(徐一鸿的《简明量子场论》好象是我读过的唯一一本纯粹以路径积分为方法的量子场论著作,也非常不错),其它类型的量子力学著作,也有部分谈到路径积分,但无一不是从哈密顿形式中引出路径积分的,在那种情况之下,路径积分只能算是一个推论。但是路径积分明明就作为量子力学的三种形式之一,它应该是可以作为量子力学的基本原理来提出的,而不应该作为另一种形式的推论。费曼做了尝试——从路径积分出发讲解量子力学,而且显然这种尝试是很成功的,至少对于我来说,路径积分是一种非常容易理解的量子力学形式。(这也许跟我的数学基础有关)
《Attention is All You Need》浅读(简介+代码)
By 苏剑林 | 2018-01-06 | 883464位读者 | 引用2017年中,有两篇类似同时也是笔者非常欣赏的论文,分别是FaceBook的《Convolutional Sequence to Sequence Learning》和Google的《Attention is All You Need》,它们都算是Seq2Seq上的创新,本质上来说,都是抛弃了RNN结构来做Seq2Seq任务。
这篇博文中,笔者对《Attention is All You Need》做一点简单的分析。当然,这两篇论文本身就比较火,因此网上已经有很多解读了(不过很多解读都是直接翻译论文的,鲜有自己的理解),因此这里尽可能多自己的文字,尽量不重复网上各位大佬已经说过的内容。
序列编码
深度学习做NLP的方法,基本上都是先将句子分词,然后每个词转化为对应的词向量序列。这样一来,每个句子都对应的是一个矩阵$\boldsymbol{X}=(\boldsymbol{x}_1,\boldsymbol{x}_2,\dots,\boldsymbol{x}_t)$,其中$\boldsymbol{x}_i$都代表着第$i$个词的词向量(行向量),维度为$d$维,故$\boldsymbol{X}\in \mathbb{R}^{n\times d}$。这样的话,问题就变成了编码这些序列了。
第一个基本的思路是RNN层,RNN的方案很简单,递归式进行:
\begin{equation}\boldsymbol{y}_t = f(\boldsymbol{y}_{t-1},\boldsymbol{x}_t)\end{equation}
不管是已经被广泛使用的LSTM、GRU还是最近的SRU,都并未脱离这个递归框架。RNN结构本身比较简单,也很适合序列建模,但RNN的明显缺点之一就是无法并行,因此速度较慢,这是递归的天然缺陷。另外我个人觉得RNN无法很好地学习到全局的结构信息,因为它本质是一个马尔科夫决策过程。
【中文分词系列】 5. 基于语言模型的无监督分词
By 苏剑林 | 2016-09-12 | 152239位读者 | 引用迄今为止,前四篇文章已经介绍了分词的若干思路,其中有基于最大概率的查词典方法、基于HMM或LSTM的字标注方法等。这些都是已有的研究方法了,笔者所做的就只是总结工作而已。查词典方法和字标注各有各的好处,我一直在想,能不能给出一种只需要大规模语料来训练的无监督分词模型呢?也就是说,怎么切分,应该是由语料来决定的,跟语言本身没关系。说白了,只要足够多语料,就可以告诉我们怎么分词。
看上去很完美,可是怎么做到呢?《2.基于切分的新词发现》中提供了一种思路,但是不够彻底。那里居于切分的新词发现方法确实可以看成一种无监督分词思路,它就是用一个简单的凝固度来判断某处该不该切分。但从分词的角度来看,这样的分词系统未免太过粗糙了。因此,我一直想着怎么提高这个精度,前期得到了一些有意义的结果,但都没有得到一个完整的理论。而最近正好把这个思路补全了。因为没有查找到类似的工作,所以这算是笔者在分词方面的一点原创工作了。
语言模型
首先简单谈一下语言模型。
最近评论