费曼路径积分思想的发展(三)
By 苏剑林 | 2012-12-27 | 20068位读者 | 引用3、费曼图和量子电动力学的重整化
在1947年美国避难岛(Shelter Island)会议上,兰姆报导了他的重大发现,即现今所称的兰姆位移;氢原子的$2S_{\frac{1}{2}}$能级比$2P_{\frac{1}{2}}$高出约1000MHz。而按照狄拉克理论,对纯库仑相互作用的电子-质子系统,这两个能级应该是简并的。人们很快就认识到,该位移应归之于一阶近似的辐射校正[19]。贝特用一个电子的校正质量就非相对论近似得出了氢原子nS能级的位移公:
$$\frac{8}{3\pi}(\frac{e^2}{\hbar c})Ry \frac{Z^4}{n^3} Ln\frac{K}{ < E_n-E_m > _{AV}}$$
果壳中的条件随机场(CRF In A Nutshell)
By 苏剑林 | 2017-11-25 | 111536位读者 | 引用本文希望用尽可能简短的语言把CRF(条件随机场,Conditional Random Field)的原理讲清楚,这里In A Nutshell在英文中其实有“导论”、“科普”等意思(霍金写过一本《果壳中的宇宙》,这里东施效颦一下)。
网上介绍CRF的文章,不管中文英文的,基本上都是先说一些概率图的概念,然后引入特征的指数公式,然后就说这是CRF。所谓“概率图”,只是一个形象理解的说法,然而如果原理上说不到点上,你说太多形象的比喻,反而让人糊里糊涂,以为你只是在装逼。(说到这里我又想怼一下了,求解神经网络,明明就是求一下梯度,然后迭代一下,这多好理解,偏偏还弄个装逼的名字叫“反向传播”,如果不说清楚它的本质是求导和迭代求解,一下子就说反向传播,有多少读者会懂?)
好了,废话说完了,来进入正题。
逐标签Softmax
CRF常见于序列标注相关的任务中。假如我们的模型输入为$Q$,输出目标是一个序列$a_1,a_2,\dots,a_n$,那么按照我们通常的建模逻辑,我们当然是希望目标序列的概率最大
$$P(a_1,a_2,\dots,a_n|Q)$$
不管用传统方法还是用深度学习方法,直接对完整的序列建模是比较艰难的,因此我们通常会使用一些假设来简化它,比如直接使用朴素假设,就得到
$$P(a_1,a_2,\dots,a_n|Q)=P(a_1|Q)P(a_2|Q)\dots P(a_n|Q)$$
ON-LSTM:用有序神经元表达层次结构
By 苏剑林 | 2019-05-28 | 189490位读者 | 引用今天介绍一个有意思的LSTM变种:ON-LSTM,其中“ON”的全称是“Ordered Neurons”,即有序神经元,换句话说这种LSTM内部的神经元是经过特定排序的,从而能够表达更丰富的信息。ON-LSTM来自文章《Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks》,顾名思义,将神经元经过特定排序是为了将层级结构(树结构)整合到LSTM中去,从而允许LSTM能自动学习到层级结构信息。这篇论文还有另一个身份:ICLR 2019的两篇最佳论文之一,这表明在神经网络中融合层级结构(而不是纯粹简单地全向链接)是很多学者共同感兴趣的课题。
笔者留意到ON-LSTM是因为机器之心的介绍,里边提到它除了提高了语言模型的效果之外,甚至还可以无监督地学习到句子的句法结构!正是这一点特性深深吸引了我,而它最近获得ICLR 2019最佳论文的认可,更是坚定了我要弄懂它的决心。认真研读、推导了差不多一星期之后,终于有点眉目了,遂写下此文。
在正式介绍ON-LSTM之后,我忍不住要先吐槽一下这篇文章实在是写得太差了,将一个明明很生动形象的设计,讲得异常晦涩难懂,其中的核心是$\tilde{f}_t$和$\tilde{i}_t$的定义,文中几乎没有任何铺垫就贴了出来,也没有多少诠释,开始的读了好几次仍然像天书一样...总之,文章写法实在不敢恭维~
积分梯度:一种新颖的神经网络可视化方法
By 苏剑林 | 2020-06-28 | 88763位读者 | 引用本文介绍一种神经网络的可视化方法:积分梯度(Integrated Gradients),它首先在论文《Gradients of Counterfactuals》中提出,后来《Axiomatic Attribution for Deep Networks》再次介绍了它,两篇论文作者都是一样的,内容也大体上相同,后一篇相对来说更易懂一些,如果要读原论文的话,建议大家优先读后一篇。当然,它已经是2016~2017年间的工作了,“新颖”说的是它思路上的创新有趣,而不是指最近发表。
所谓可视化,简单来说就是对于给定的输入$x$以及模型$F(x)$,我们想办法指出$x$的哪些分量对模型的决策有重要影响,或者说对$x$各个分量的重要性做个排序,用专业的话术来说那就是“归因”。一个朴素的思路是直接使用梯度$\nabla_x F(x)$来作为$x$各个分量的重要性指标,而积分梯度是对它的改进。然而,笔者认为,很多介绍积分梯度方法的文章(包括原论文),都过于“生硬”(形式化),没有很好地突出积分梯度能比朴素梯度更有效的本质原因。本文试图用自己的思路介绍一下积分梯度方法。
也许不少同好已经在一些书籍上看到过这样的论述:
各向同性的薄球壳,其内部任意一点所受到来自球壳的引力为0。
这是一个很神奇的事情,因为这意味着这是一个均匀引力场,虽然我们在很多问题上都假设了引力场均匀,但是我们却很难知道如何构造一个真正的均匀引力场(而构造一个真正的均匀力场都分析某些问题是很有用的,例如推导一些比例系数),现在眼前就摆着一个均匀引力场了。并且利用它我们就可以计算均匀实心球内部一点所受到的引力(等于它与一个球体的引力)。而关于它的证明,当然也可以利用微积分的知识,可是我们在这里介绍一个初等的方法,相信它会使我们更加感受到物理的神奇和有趣。
有限Vs无限:无穷电荷板的场|平行板电容
By 苏剑林 | 2011-02-26 | 49039位读者 | 引用地球引力场的悬链线方程
By 苏剑林 | 2011-05-15 | 60289位读者 | 引用之前曾在《自然极值》系列文章中提到过均匀重力场下的悬链线形状问题,并且在那文章中向读者提出:在一个质点(地球)引力场中的悬链线形状会是怎么样的。说实话,提出这个问题的时候,我还不懂怎么解答这个问题,不过现在会了,回头一看,已经几个月了,时间过得真快...
与之前的思路一样,我们依旧采用的是“平衡态公理”,即总势能最小。从天体力学中我们知道,任意两个质点间的势能为$-\frac{Gm_1 m_2}{r}$。对于本题的悬链线问题,我们可以把地球放到坐标原点位置,而悬链的两个固定点分别为$(x_1,y_1)$和$(x_2,y_2)$,链的总长度为l。即
$$\int_{x_1}^{x_2} \sqrt{dx^2+dy^2}=l$$
最近评论