相对论、对称和第四维
By 苏剑林 | 2012-05-01 | 82095位读者 | 引用这篇文章其实在年初就完成了。
众所周知,我们生活在一个平坦的世界中。正如我们能够感受到的那样,在这个被称为“欧几里得平直空间”的世界里,空间里两点间的最短曲线是两点间的直线段,空间里的任意直角三角形都满足勾股定理,每个物体都有着自己的长、宽、高,它们都随着时间的流逝而运动着。这种世界观把时间独立于空间之外,作为一个独特的研究对象。但是自爱因斯坦在1905年发表狭义相对论以来,我们的宇宙就被描述成为了由三维空间和一维时间组成的“四维时空”,在这里,时间和空间的地位是等价的。不少同好们也许会感到非常困惑:即使证明了时间与空间的确存在着某种联系,也不必要把时间描述成是世界的一维吧?在我们的感官里,时间明明就和空间的三维差别甚大,时间和空间怎么能够等同起来呢?其实答案很简单:为了美。把时间看成与空间等价的一维之后,整个力学体系体现出一种前所未有的对称美,这种美不仅让人赏心悦目,而且极大地方便了我们进一步处理问题。
对称
站长注:这篇文章来源于网络,原文是繁体中文版本,我经过修改整理而成。它原来是《费曼的6堂Easy物理课》这本书的解说,但是由于内容上的详细和扼要,我更愿意把它当做物理学家费曼的解说,与大家分享。
伟哉!费曼
社会上普遍有种错误的想法,总以为科学是完全客观的,不但不会因人而异,更不会感情用事。对比之下,科学以外的各种人类活动,则多多少少会受到一般潮流动向、突发的时尚风潮,以及当事人的性格、偏好所左右。唯有科学,得受制于科学社群都同意的规则、步骤,与严密的测试、检验。科学仅着重于得到的结论,而不在乎谁是做研究、做实验的人。
以上说法显然是无稽之谈,科学既然靠人推动,就跟其他人类活动相同,都会受到大环境趋势及个人意念的影响。在科学领域,研究潮流的趋向受到主题素材选择的影响并不大,却相当取决于当时科学家对整个世界的看法。
2012诺贝尔奖...
By 苏剑林 | 2012-10-11 | 38153位读者 | 引用又是一年诺奖公布时......每年的这个时候,诺贝尔奖又会被热门地提及到,现在三个自然科学方面的奖项都已经公开了。简略收集如下:
诺贝尔生理学或医学奖
京都大学物质-细胞统合系统据点iPS细胞研究中心主任长山中伸弥(Shinya Yamanaka)、英国发育生物学家约翰-戈登因(John B. Gurdon)。
原因:在细胞核重新编程研究领域的杰出贡献而获奖。所谓细胞核重编程即将成年体细胞重新诱导回早期干细胞状态,以用于形成各种类型的细胞,应用于临床医学。细胞核重编程指细胞内的基因表达由一种类型变成另一种类型。通过这一技术,可在同一个体上将较容易获得的细胞(如皮肤细胞)类型转变成另一种较难获得的细胞类型(如脑细胞)。这一技术的实现将能避免异体移植产生的排异反应。
新科学家:割裂时间空间,统一相对论量子论
By 苏剑林 | 2013-01-16 | 28300位读者 | 引用这篇文章源于《新科学家》2010年8月7日刊,它介绍了物理学家Horava为了统一相对论和量子力学,把广义相对论的时空联系割裂的尝试。在相对论中,时间和空间结合成了不可分割的整体。而现在,有物理学家却要把时间与空间分开,来建立让广义相对论和量子力学相调和的统一理论。我对这个理论挺感兴趣的,当然,我还没有能力弄懂它。只是它符合了我们大多数人的一个直觉,就是时间总有跟空间不同的地方,它们之间不应该完全等同起来。不过,事实如何,只有未来的实验能够严重了。
本文并没有官方的中文译文,现载的译文来自“译言网”。译文有一些翻译不大正当的地方,由于时间限制,无法一一修正,但是我觉得对于理解本文内容已经足够了。如果有疑问,不妨参考后边的英文原文,并在此提出与大家讨论。
对爱因斯坦的反思:空间-时间耦合的物理数学的终结
纠结于融合引力和量子力学的物理学家们正向着一个受到铅笔芯启发的理论欢呼雀跃,这个理论可以很简单地让他们取得成功。
它曾是一个改变了我们思考空间和时间的方式的报告。那一年是1908年,德国数学家赫尔曼-闵可夫斯基正尝试着理解爱因斯坦火热的新思想——即我们现在所熟知的狭义相对论,它描述当物质运动很快时它们是如何收缩以及时间是如何扭曲的。“从此独立的空间和时间将注定淡出到纯粹的虚幻中,”闵可夫斯基说道:“而只有两者的统一才能保证一个独立的现实世界。”
素数之美1:所有素数之积
By 苏剑林 | 2014-07-30 | 33782位读者 | 引用在之前的欧拉数学中,我们计算过所有素数的倒数之和,得出素数的倒数之和是发散的,从而这也是一个关于素数个数为无穷的证明。在本篇文章中,我们尝试计算所有素数之积,通过一个简单的技巧,得到素数之积的一个上限(以后我们也会计算下限),从而也得到$\pi(n)$的一个上限公式。更重要的,该估计是初等地证明Bertrand假设(说的是n与2n之间定有一个素数)的重要基础之一。本文内容部分参考自《数学天书中的证明》和《解析和概率数论导引》。
素数之积
笔者已经说过,数论的神奇之处就是它总是出人意料地把数学的不同领域联系了起来。读者很快就可以看到,本文的证明和组合数学有重要联系(但仅仅是简单的联系)。关于素数之积,我们有以下结论:
不超过$n$的所有素数之积小于$4^{n-1}$。
【理解黎曼几何】2. 从勾股定理到黎曼度量
By 苏剑林 | 2016-10-14 | 76193位读者 | 引用黎曼度量
几何,英文名是Geometry,原意是大地测量。既然是测量,就必须有参考物,还有得知道如何计算距离。
有了参照物,我们就可以建立坐标系,把每个点的坐标都写下来,至于计算距离,我们有伟大的勾股定理:
$$ds^2 = dx^2 + dy^2 \tag{1} $$
但这里我们忽略了两个问题。
第一个问题是,我们不一定使用直角坐标系,如果使用极坐标,那么应该是
$$ds^2 = dr^2 + r^2 d\theta^2 \tag{2} $$
因此可以联想,最一般的形式应该是
$$ds^2 = E(x^1, x^2)(dx^1)^2 + 2F(x^1, x^2)dx^1 dx^2 + G(x^1, x^2)(dx^2)^2 \tag{3} $$
这里的$x^1,x^2$是广义坐标,使用上标而不是下标来标记序号,是为了跟传统的教材记号一致。那这公式是什么意思呢?其实很简单,正如我们没理由要求全世界都使用人民币一样,我们没必要要求世界各地都使用同一个坐标系,而更合理的做法是,每一处地方都使用自己的坐标系(局部坐标系),然后给出当地计算距离的方法。因此,上述公式正是说,在位置$(x^1, x^2)$处计算向量$(dx^1, dx^2)$的长度的公式(当地的勾股定理)是$ds^2 = E(x^1, x^2)(dx^1)^2 + 2F(x_1, x_2)dx^1 dx^2 + G(x^1, x^2)(dx^2)^2$。
现在可以用Keras玩中文GPT2了(GPT2_ML)
By 苏剑林 | 2020-03-16 | 96169位读者 | 引用前段时间留意到有大牛开源了一个中文的GPT2模型,是最大的15亿参数规模的,看作者给的demo,生成效果还是蛮惊艳的,就想着加载到自己的bert4keras来玩玩。不过早期的bert4keras整体架构写得比较“死”,集成多个不同的模型很不方便。前两周终于看不下去了,把bert4keras的整体结构重写了一遍,现在的bert4keras总能算比较灵活地编写各种Transformer结构的模型了,比如GPT2、T5等都已经集成在里边了。
GPT2科普
GPT,相信很多读者都听说过它了,简单来说,它就是一个基于Transformer结构的语言模型,源自论文《GPT:Improving Language Understanding by Generative Pre-Training》,但它又不是为了做语言模型而生,它是通过语言模型来预训练自身,然后在下游任务微调,提高下游任务的表现。它是“Transformer + 预训练 + 微调”这种模式的先驱者,相对而言,BERT都算是它的“后辈”,而GPT2,则是GPT的升级版——模型更大,训练数据更多——模型最大版的参数量达到了15亿。
“噪声对比估计”杂谈:曲径通幽之妙
By 苏剑林 | 2018-06-13 | 179319位读者 | 引用说到噪声对比估计,或者“负采样”,大家可能立马就想到了Word2Vec。事实上,它的含义远不止于此,噪音对比估计(NCE, Noise Contrastive Estimation)是一个迂回但却异常精美的技巧,它使得我们在没法直接完成归一化因子(也叫配分函数)的计算时,就能够去估算出概率分布的参数。本文就让我们来欣赏一下NCE的曲径通幽般的美妙。
注:由于出发点不同,本文所介绍的“噪声对比估计”实际上更偏向于所谓的“负采样”技巧,但两者本质上是一样的,在此不作区分。
问题起源
问题的根源是难分难舍的指数概率分布~
指数族分布
在很多问题中都会出现指数族分布,即对于某个变量$\boldsymbol{x}$的概率$p(\boldsymbol{x})$,我们将其写成
$$p(\boldsymbol{x}) = \frac{e^{G(\boldsymbol{x})}}{Z}\tag{1}$$
其中$G(\boldsymbol{x})$是$\boldsymbol{x}$的某个“能量”函数,而$Z=\sum_{\boldsymbol{x}} e^{G(\boldsymbol{x})}$则是归一化常数,也叫配分函数。这种分布也称为“玻尔兹曼分布”。
最近评论