3 Apr

Bias项的神奇作用:RoPE + Bias = 更好的长度外推性

【注:后来经过反复测试发现,发现此篇文章的长度外推结果可复现性比较不稳定(可能跟模型结构、超参数等紧密相关),请自行斟酌使用。】

万万没想到,Bias项能跟Transformer的长度外推性联系在一起!

长度外推性是我们希望Transformer具有的一个理想性质,笔者曾在《Transformer升级之路:7、长度外推性与局部注意力》《Transformer升级之路:8、长度外推性与位置鲁棒性》系统地介绍过这一问题。至于Bias项(偏置项),目前的主流观点是当模型足够大时,Bias项不会有什么特别的作用,所以很多模型选择去掉Bias项,其中代表是Google的T5PaLM,我们后面做的RoFormerV2GAU-α也沿用了这个做法。

那么,这两个看上去“风牛马不相及”的东西,究竟是怎么联系起来的呢?Bias项真的可以增强Transformer的长度外推性?且听笔者慢慢道来。

点击阅读全文...

21 Feb

“闭门造车”之多模态思路浅谈(一):无损

这篇文章分享一下笔者关于多模态模型架构的一些闭门造车的想法,或者说一些猜测。

最近Google的Gemini 1.5和OpenAI的Sora再次点燃了不少人对多模态的热情,只言片语的技术报告也引起了大家对其背后模型架构的热烈猜测。不过,本文并非是为了凑这个热闹才发出来的,事实上其中的一些思考由来已久,最近才勉强捋顺了一下,遂想写出来跟大家交流一波,刚好碰上了两者的发布。

事先声明,“闭门造车”一词并非自谦,笔者的大模型实践本就“乏善可陈”,而多模态实践更是几乎“一片空白”,本文确实只是根据以往文本生成和图像生成的一些经验所做的“主观臆测”。

问题背景

首先简化一下问题,本文所讨论的多模态,主要指图文混合的双模态,即输入和输出都可以是图文。可能有不少读者的第一感觉是:多模态模型难道不也是烧钱堆显卡,Transformer“一把梭”,最终“大力出奇迹”吗?

点击阅读全文...

29 Mar

在这个系列的第二篇文章《Transformer升级之路:2、博采众长的旋转式位置编码》中,笔者提出了旋转位置编码(RoPE)——通过绝对位置的形式实现相对位置编码的方案。一开始RoPE是针对一维序列如文本、音频等设计的(RoPE-1D),后来在《Transformer升级之路:4、二维位置的旋转式位置编码》中我们将它推广到了二维序列(RoPE-2D),这适用于图像的ViT。然而,不管是RoPE-1D还是RoPE-2D,它们的共同特点都是单一模态,即纯文本或者纯图像输入场景,那么对于多模态如图文混合输入场景,RoPE该做如何调整呢?

笔者搜了一下,发现鲜有工作讨论这个问题,主流的做法似乎都是直接展平所有输入,然后当作一维输入来应用RoPE-1D,因此连RoPE-2D都很少见。且不说这种做法会不会成为图像分辨率进一步提高时的效果瓶颈,它终究是显得不够优雅。所以,接下来我们试图探寻两者的一个自然结合。

旋转位置

RoPE名称中的“旋转”一词,来源于旋转矩阵$\boldsymbol{\mathcal{R}}_n=\begin{pmatrix}\cos n\theta & -\sin n\theta\\ \sin n\theta & \cos n\theta\end{pmatrix}$,它满足
\begin{equation}\boldsymbol{\mathcal{R}}_m^{\top}\boldsymbol{\mathcal{R}}_n=\boldsymbol{\mathcal{R}}_{n-m}\end{equation}

点击阅读全文...

16 Oct

相对论和量子力学的初探

=====大学学习=====

上大学已经一个多月了,除去军训的两周和国庆放假的一周,到现在已经是第三周上课了。我是数学专业的,由于是那个勷勤创新班,它希望我们都向研究型数学的方向发展,所以给我们“更多的自由研究时间”,所以课程比一般的班还少一点。由于高中已经对高等数学有个大概的了解,所以一开始让很多同学都喊苦的数学分析、解析几何于我而言都还是比较容易接受的。但从另外一个角度上来讲,我感觉我学得快的原因,倒不全是以前的积累,而是因为个人的学习方式。我不喜欢跟着老师的步伐走,我喜欢而且需要深入地思考和理解一个问题,希冀达到一理通百理明的效果,而不是做完一题紧接着下一题。因为我认为这种竞赛式的学习不能给我们带来实质性的进步,而且有可能抹杀了我们的创造力。

1979年爱因斯坦邮票

1979年爱因斯坦邮票

没有应用的数学是很枯燥乏味的,数学不能脱离物理、化学等领域。当然“应用”这个词有很广泛的意思,它不一定在实际生活中起到了立竿见影的作用,而是所有在非数学领域中体现了数学之美的例子都可以叫做数学应用,或者有趣的数学。所以,在经历了一两周纯粹地研究数学之后,我感觉我不能再这样下去了,与其零散地涉猎各个方面的知识,倒不如现在开始就系统地学习一些学科以外的科学知识。于是,我决定重拾高中还没有完成的事情——学习相对论和量子力学——所谓现代物理的两大支柱。

点击阅读全文...

18 Oct

证明光速不变的一个理想实验??

在狭义相对论发表之前和之后,都有不少实验从不同角度论证了它的正确性。这些实验大多数是实际测量得出结果的,当然也存在着一些“理想实验”,这些实验只需要一定的逻辑推理,而实际上是无法完成的。下面就是我很久之前在某本书(很抱歉,我真的忘记书名了)看到的一个用来推翻光速可叠加的伽利略变换的理想实验。它只用寥寥几句,就好像已经证明了“c+c=c”(c是真空中的光速)的事实。可是“c+c=c”在狭义相对论上是作为原理出现的,是不可能通过逻辑推理来证明的。事实究竟如何?我们先来看这个实验。

光速不变的理想实验

光速不变的理想实验

任意选定一个坐标原点。设想原点的正北方$c\cdot t_0$处有一架以光速$c$朝南运行的飞机1;原点的正西方$c\cdot t_0$处有一架以光速$c$朝东运行的飞机2。假设就这样匀速运动着,显然,$t_0$时间后,将会发生惨剧(飞机相撞)。

点击阅读全文...

11 Nov

《新理解矩阵4》:相似矩阵的那些事儿

这篇文章估计是这个系列最后一篇了,也许以后会继续谈到线性代数,但是将会独立开来讲述。本文主要讲的是相似矩阵的一些事情,本文的观点很是粗糙,自己感觉都有点模糊,因此请读者细细阅读。在孟岩的文章里头,它对矩阵及其相似有了一个非常精彩的描述:

“矩阵是线性空间中的线性变换的一个描述。在一个线性空间中,只要我们选定一组基,那么对于任何一个线性变换,都能够用一个确定的矩阵来加以描述。”

同样的,对于一个线性变换,只要你选定一组基,那么就可以找到一个矩阵来描述这个线性变换。换一组基,就得到一个不同的矩阵。所有这些矩阵都是这同一个线性变换的描述,但又都不是线性变换本身。

点击阅读全文...

8 Nov

力学系统及其对偶性(一)

写在前头

经过两年多的开发,本站所用的Typecho终于发布了新版,虽然还是beta,但是我还是迫不及待地升级了。当然,前台并没有变化,但是几乎整个程序都是重构了的,后台也更加清爽了。本文是新版程度的第一篇文章,使用Markdowm语法编写。

----------

牛顿Vs胡克

在所有的力学系统中,最简单的或许就是简谐运动了。它由一个最简单的常系数线性微分方程组描述:
$$\ddot{\boldsymbol{x}}+\omega^2 \boldsymbol{x}=0$$

这也就是物体在弹性形变的胡克定律所描述的力的作用下的运动情况。我们可以很快用三角函数写出该方程的精确解。相比之下,二体问题的解就复杂多了,虽然二体问题也是精确可解的,但是显然没有简谐运动那样简单明了。然而,除了都是有心力之外,它们之间还有一个共同点,它们的运动轨道都是椭圆!(严格来说是圆锥曲线,因为还可能有抛物线跟双曲线,但是不失一般性,本文只分析椭圆轨道)两者之间是否存在着某种联系呢?如果可以将二体问题转变为简谐运动,那么分析过程应该可以大大化简了?

点击阅读全文...

15 Apr

第四波:2^29360741-1不是素数!

第四个数字也完成了测试,这次的结果依然是否定的:$2^{29360741}-1$不是素数!
大概半年内不会有新的结果了,呵呵。

[Comm thread Apr 15 19:04] Sending result to server: UID: bojone/bojone, M29360741 is not prime. Res64: 622E909193F04555. We4: CA6D304A,26268761,00000000, AID:
[Comm thread Apr 15 19:04]
[Comm thread Apr 15 19:05] PrimeNet success code with additional info:
[Comm thread Apr 15 19:05] LL test successfully completes double-check of M29360741
[Comm thread Apr 15 19:05] CPU credit is 29.1976 GHz-days.
[Comm thread Apr 15 19:05] Done communicating with server.