15 Sep

殊途同归的策略梯度与零阶优化

深度学习如此成功的一个巨大原因就是基于梯度的优化算法(SGD、Adam等)能有效地求解大多数神经网络模型。然而,既然是基于梯度,那么就要求模型是可导的,但随着研究的深入,我们时常会有求解不可导模型的需求,典型的例子就是直接优化准确率、F1、BLEU等评测指标,或者在神经网络里边加入了不可导模块(比如“跳读”操作)。

Gradient

Gradient

本文将简单介绍两种求解不可导的模型的有效方法:强化学习的重要方法之一策略梯度(Policy Gradient),以及干脆不需要梯度的零阶优化(Zeroth Order Optimization)。表面上来看,这是两种思路完全不一样的优化方法,但本文将进一步证明,在一大类优化问题中,其实两者基本上是等价的。

点击阅读全文...

8 Apr

盘点主流的图像扩散模型作品,我们会发现一个特点:当前多数做高分辨率图像生成(下面简称“大图生成”)的工作,都是先通过Encoder变换到Latent空间进行的(即LDM,Latent Diffusion Model),直接在原始Pixel空间训练的扩散模型,大多数分辨率都不超过64*64,而恰好,LDM通过AutoEncoder变换后的Latent,大小通常也不超过64*64。这就自然引出了一系列问题:扩散模型是不是对于高分辨率生成存在固有困难?能否在Pixel空间直接生成高分辨率图像?

论文《Simple diffusion: End-to-end diffusion for high resolution images》尝试回答了这个问题,它通过“信噪比”分析了大图生成的困难,并以此来优化noise schdule,同时提出只需在最低分辨率feature上对架构进行scale up、多尺度Loss等技巧来保证训练效率和效果,这些改动使得原论文成功在Pixel空间上训练了分辨率高达1024*1024的图像扩散模型。

点击阅读全文...

10 Jul

弹簧双体运动

这也是我们期末考的题目,是理综的物理题之一。

一个零质量的理想弹簧两端分别系着一个质量为m的质点物体(A左B右),现给A一个向右的速度v0,使得整体开始运动。问弹簧压缩到最短时弹性势能是多少?以及B质点的最大速度是多少?

高中生是通过结合动量守恒和能量守恒来求解的。而我希望通过微分方程把握这个运动的整体信息,顺便验证弹簧能否将A的速度v0完全传递给B。

点击阅读全文...

9 Jan

不可能事件——一道经典电磁感应题的错误

相信高二理科的学生都会做过这样的一道题目:

光滑导轨-电磁感应

光滑导轨-电磁感应

水平放置于匀强磁场中的光滑导轨上,磁感应强度为B,平衡导轨的距离为L,有一根导体棒ab,用恒力F作用在ab上,由静止开始运动,回路总电阻为R,求ab的最大速度。

对于高二学生来说,这样的题目是很好解决的。只要列出
$E=BLv,I=\frac{E}{R},f_1=BIL$,并根据当匀速运动时速度最大,由受力平衡有$f_1=F$,解得
(E:感应电动势;I:感应电流;f1:安培力)
$$v=\frac{FR}{B^2 L^2}$$

点击阅读全文...

11 Dec

薛定谔方程的启发式推导

===聊聊天===

上个月在网上买了三本相对论教材和一本《量子力学概论》,本打算好好研究下相对论的数学体系,可是书到了之后,我却深深地被量子力学吸引住了,不停在研读。而且在研究量子力学的同时,我的线性代数和微分方程知识也增加了不少,这确实是我没有想到的。在我看来,不管是狭义相对论还是广义相对论,它本质上都是一种几何理论,你总要想象从一个参考系观测会发生什么,然后从另外一个参考系又会看到什么;而量子力学虽然对我来讲一切都是新鲜的,但是它的数学性比较强,主要是微分方程的求解和理解。我想这也是我对量子力学更感兴趣的原因吧,因为我善于代数而不善于几何。

量子力学中让我最神往的内容莫过于费曼所发明的路径积分形式。资料记载费曼用他发明的方法在一个晚上就算出了别人几个月才算出来的结果,可见路径积分形式的优越性。当然,我也清楚,这个路径积分并不简单,它涉及到了泛函积分这一非常高深的内容,对于我这个连数学分析都还没有学好的小孩来说,泛函是难以触摸的。不过,我还是尽量想办法向它靠近。为此,我还浏览到了一些不少让人兴奋的内容,比如薛定谔的方程的推导、力学-光学类比、雅可比方程等等。

很遗憾,在正统的量子力学教材中,这些让我很兴奋的内容却鲜有涉及,有的话大多数都是一笔带过的感觉。多数量子力学不会讲到路径积分,就算有也只是作为附录。对于薛定谔方程的推导,也没有涉及到。这也让我养成了一个习惯意识:书本最有趣的东西往往都是在附录。所以对于教科书,那么写得正正式式的内容我一概没有兴趣,那些附录内容才是我最喜欢读的。可是,那些让人兴奋的内容却不一定是很难的,就像下面的薛定谔方程的启发式推导,它不仅不难,而且易于理解。

===薛定谔方程===

在量子力学诞生之前,科学家已经通过实验发现光既有波动性也有粒子性,而德布罗意提出也同时具有波动性和粒子性,这些都奠定了量子力学的基础。根据量子论,一个光子的能量可以由$E=h\nu=\hbar (2\pi \nu)$,其中$\nu$是频率,$\hbar=\frac{h}{2\pi}$,h是普朗克常数,习惯记$\omega=2\pi \nu$,即$E=\hbar \omega$。

点击阅读全文...

25 Mar

一本对称闯物理:相对论力学(二)

从这个系列的第一篇文章到本文,已经隔了好多天。其实本文的内容是跟第一篇的内容同时完成的,为什么这么久才更新呢?原因有二,其一是随着春天的到来人也开始懒起来了,颓废呀~;其二,我在思考着规范变换的问题。按照朗道《场论》的逻辑,发展完质点力学理论后,下一步就是发展场论,诸如电磁场、引力场等。但是场论中有个让我比较困惑的东西,即场论存在着“规范不变性”。按照一般观点,我们是将规范不变性看作是电磁场方程的一个结果,即推导出电磁场的方程后,“发现”它具有规范不变性。但是如果用本文的方法,即假定场有这种对称性,然后就可以构建出场方程了。可是,为什么场存在着规范不变性,我还未能思考清楚。据我阅读到的资料来看,这个不变性似乎跟广义不变性有关(电磁场也是,这似乎说明即使在平直时空的电磁场理论中也暗示了广义不变性?)。还有,似乎这个不变性需要在量子场论中才能得到比较满意的解释,可是这样的话,就离我还很远了。

好吧,我们还是先回到相对论力学的推导中。

“无”中生有

上一篇文章我们已经构建了相对论力学的无穷小生成元,并进行了延拓。我已经说过,仅需要无穷小的变换形式,就可以构建出完成的相对论力学定律出来(当然这需要一些比较“显然”的假设)。这是个几乎从“无”到有的过程,也是本文标题的含义所在。另一方面,这种从局部到整体的可能性,也给我们带来一些启示:假如方法是普适的,那么可以由此构造出我们需要的物理定律来,包括电磁场、引力场方程等。(当然,我离这个目标还有点远。)

点击阅读全文...

3 Apr

【不可思议的Word2Vec】 2.训练好的模型

由于后面几篇要讲解Word2Vec怎么用,因此笔者先训练好了一个Word2Vec模型。为了节约读者的时间,并且保证读者可以复现后面的结果,笔者决定把这个训练好的模型分享出来,用Gensim训练的。单纯的词向量并不大,但第一篇已经说了,我们要用到完整的Word2Vec模型,因此我将完整的模型分享出来了,包含四个文件,所以文件相对大一些。

提醒读者的是,如果你想获取完整的Word2Vec模型,又不想改源代码,那么Python的Gensim库应该是你唯一的选择,据我所知,其他版本的Word2Vec最后都是只提供词向量给我们,没有完整的模型

对于做知识挖掘来说,显然用知识库语料(如百科语料)训练的Word2Vec效果会更好。但百科语料我还在爬取中,爬完了我再训练一个模型,到时再分享。

模型概况

这个模型的大概情况如下:
$$\begin{array}{c|c}
\hline
\text{训练语料} & \text{微信公众号的文章,多领域,属于中文平衡语料}\\
\hline
\text{语料数量} & \text{800万篇,总词数达到650亿}\\
\hline
\text{模型词数} & \text{共352196词,基本是中文词,包含常见英文词}\\
\hline
\text{模型结构} & \text{Skip-Gram + Huffman Softmax}\\
\hline
\text{向量维度} & \text{256维}\\
\hline
\text{分词工具} & \text{结巴分词,加入了有50万词条的词典,关闭了新词发现}\\
\hline
\text{训练工具} & \text{Gensim的Word2Vec,服务器训练了7天}\\
\hline
\text{其他情况} & \text{窗口大小为10,最小词频是64,迭代了10次}\\
\hline
\end{array}$$

点击阅读全文...

4 Feb

[春礼]《方程与宇宙》:圆形限制性三体问题(七)

平面圆形限制性三体问题运动方程及能量积分
plane circular restricted three-body problem
02.04有重要修正!!

寒假一个很大的目标就是能够在三体问题的周期轨道上有点突破,于是就出动了“向量”、“复分析”、“微分方程”等理论“核武”,遗憾的是,“有心栽花花不开”,到今天还是没有多少进展。不过俗语也说“无心插柳柳成荫”,也不错。今天回看《天体力学引论》中的“圆形限制性三体问题”,经过一番思考,利用这些天的思考方法重新推导出了其运动方程和能量积分,也算是“意外收获”在此作为春节礼物与大家分享。

平面圆形限制性三体问题

平面圆形限制性三体问题

所谓“圆形限制性三体问题”,就是指两个大质量天体(质点)在它们相互引力作用下做圆周运动,假设第三天体(质量趋于0)只受到这两个天体的引力作用而不影响两个天体运行的一种运动情况。由于普通三体问题无法积分,而这个“限制性模型”能够把问题化简不少(不过还是不能积分出来的),因此也得到了一定应用。它的应用条件是:第三体质量小(如当前航天器与地球、太阳)、短程。注意短程也是相当重要的条件之一,注意短程也是相当重要的条件之一,质量越小应用范围越大。要是质量大的话,就不能计算太长的路程。

点击阅读全文...