包含关键字外微分浅谈的文章 - 科学空间|Scientific Spaces

2 Nov

利用CUR分解加速交互式相似度模型的检索

By 苏剑林 | 2022-11-02 | 27278位读者 | 引用

文本相似度有“交互式”和“特征式”两种做法，想必很多读者对此已经不陌生，之前笔者也写过一篇文章《CoSENT（二）：特征式匹配与交互式匹配有多大差距？》来对比两者的效果。总的来说，交互式相似度效果通常会好些，但直接用它来做大规模检索是不现实的，而特征式相似度则有着更快的检索速度，以及稍逊一筹的效果。

因此，如何在保证交互式相似度效果的前提下提高它的检索速度，是学术界一直都有在研究的课题。近日，论文《Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix Factorization》提出了一份新的答卷：CUR分解。

CUR分解示意图

点击阅读全文...

分类：信息时代标签：矩阵, 语义, 语义相似度阅读全文 11 评论

9 Oct

“十字架”组合计数问题浅试

By 苏剑林 | 2022-10-09 | 19108位读者 | 引用

昨天在这个公众号文章看到了一道据说答案有争议的“十字架”组合计数问题：

一个正方形中，如果四条边有两条是$i$色，另外两条是其他两种不同颜色，那么称这个正方形是“$i$色主导”的。考虑如下由16条线段、5个正方形组成的“十字架”图形，每条边染上红、黄、蓝三色之一，使得横向和竖向三个正方形的主导色均不相同，问有多少种不同的染色方法。
“十字架”示意图

链接的文章有两个答案：吴康老师的54432，以及王慧兴老师的27216。本文先通过编程确认王慧兴老师的27216是正确答案，然后给出自己的理论分析过程。

点击阅读全文...

分类：数学研究标签：证明, 数学, 组合数学阅读全文 4 评论

30 Nov

用理论物理来卷机器学习已经不是什么新鲜事了，比如上个月介绍的《生成扩散模型漫谈（十三）：从万有引力到扩散模型》就是经典一例。最近一篇新出的论文《Self-Supervised Learning based on Heat Equation》，顾名思义，用热传导方程来做（图像领域的）自监督学习，引起了笔者的兴趣。这种物理方程如何在机器学习中发挥作用？同样的思路能否迁移到NLP中？让我们一起来读读论文。

基本方程

如下图，左边是物理中热传导方程的解，右端则是CAM、积分梯度等显著性方法得到的归因热力图，可以看到两者有一定的相似之处，于是作者认为热传导方程可以作为好的视觉特征的一个重要先验。

热方程的热力图（左）和视觉模型的热力图（右）

点击阅读全文...

分类：信息时代标签：物理, 无监督阅读全文 9 评论

28 Dec

Transformer升级之路：6、旋转位置编码的完备性分析

By 苏剑林 | 2022-12-28 | 37547位读者 | 引用

在去年的文章《Transformer升级之路：2、博采众长的旋转式位置编码》中，笔者提出了旋转位置编码（RoPE），当时的出发点只是觉得用绝对位置来实现相对位置是一件“很好玩的事情”，并没料到其实际效果还相当不错，并为大家所接受，不得不说这真是一个意外之喜。后来，在《Transformer升级之路：4、二维位置的旋转式位置编码》中，笔者讨论了二维形式的RoPE，并研究了用矩阵指数表示的RoPE的一般解。

既然有了一般解，那么自然就会引出一个问题：我们常用的RoPE，只是一个以二维旋转矩阵为基本单元的分块对角矩阵，如果换成一般解，理论上效果会不会更好呢？本文就来回答这个问题。

指数通解

在《Transformer升级之路：4、二维位置的旋转式位置编码》中，我们将RoPE抽象地定义为任意满足下式的方阵
\begin{equation}\boldsymbol{\mathcal{R}}_m^{\top}\boldsymbol{\mathcal{R}}_n=\boldsymbol{\mathcal{R}}_{n-m}\label{eq:re}\end{equation}

点击阅读全文...

分类：信息时代标签：矩阵, attention, 位置编码, rope 阅读全文 16 评论

4 Jan

智能家居之热水器零冷水技术原理浅析

By 苏剑林 | 2023-01-04 | 41432位读者 | 引用

如果家庭使用单一的热水器集中供热水，那么当我们想要用热水时，往往需要先放一段时间的冷水，而如果放冷水时间比较长的话，就会比较影响体验。所谓零冷水，实际上就是想办法提前把热水管中的冷水排放掉，以达到（几乎）瞬间出热水的效果。事实上，零冷水并不是什么高大上的技术，但可能由于观念没跟上、理解上有误等原因，零冷水技术还没有在家庭中得到普及，不过随着大家对生活品质的要求越来越高，零冷水确实在慢慢流行起来了。

本文来简单分析一下零冷水技术的实现原理，包括各种方案的优缺点和自省DIY的参考思路。

理想的零冷水方案

写在前面

在文章开始，需要纠正很多人的一个错误观念：零冷水不是为了省钱，而是为了提升生活品质。如果你是省钱最大的心态，那么接下来的内容就可以不用看了，零冷水技术对你毫无价值。

点击阅读全文...

分类：生活/情感标签：智能家居阅读全文 16 评论

17 Apr

梯度视角下的LoRA：简介、分析、猜测及推广

By 苏剑林 | 2023-04-17 | 69362位读者 | 引用

随着ChatGPT及其平替的火热，各种参数高效（Parameter-Efficient）的微调方法也“水涨船高”，其中最流行的方案之一就是本文的主角LoRA了，它出自论文《LoRA: Low-Rank Adaptation of Large Language Models》。LoRA方法上比较简单直接，而且也有不少现成实现，不管是理解还是使用都很容易上手，所以本身也没太多值得细写的地方了。

然而，直接实现LoRA需要修改网络结构，这略微麻烦了些，同时LoRA给笔者的感觉是很像之前的优化器AdaFactor，所以笔者的问题是：能否从优化器角度来分析和实现LoRA呢？本文就围绕此主题展开讨论。

方法简介

以往的一些结果（比如《Exploring Aniversal Intrinsic Task Subspace via Prompt Tuning》）显示，尽管预训练模型的参数量很大，但每个下游任务对应的本征维度（Intrinsic Dimension）并不大，换句话说，理论上我们可以微调非常小的参数量，就能在下游任务取得不错的效果。

LoRA借鉴了上述结果，提出对于预训练的参数矩阵$W_0\in\mathbb{R}^{n\times m}$，我们不去直接微调$W_0$，而是对增量做低秩分解假设：
\begin{equation}W = W_0 + A B,\qquad A\in\mathbb{R}^{n\times r},B\in\mathbb{R}^{r\times m}\end{equation}

点击阅读全文...

分类：数学研究标签：梯度, 优化器, 低秩, lora 阅读全文 34 评论

14 Mar

缓解交叉熵过度自信的一个简明方案

By 苏剑林 | 2023-03-14 | 30620位读者 | 引用

众所周知，分类问题的常规评估指标是正确率，而标准的损失函数则是交叉熵，交叉熵有着收敛快的优点，但它并非是正确率的光滑近似，这就带来了训练和预测的不一致性问题。另一方面，当训练样本的预测概率很低时，交叉熵会给出一个非常巨大的损失（趋于$-\log 0^{+}=\infty$），这意味着交叉熵会特别关注预测概率低的样本——哪怕这个样本可能是“脏数据”。所以，交叉熵训练出来的模型往往有过度自信现象，即每个样本都给出较高的预测概率，这会带来两个副作用：一是对脏数据的过度拟合带来的效果下降，二是预测的概率值无法作为不确定性的良好指标。

围绕交叉熵的改进，学术界一直都有持续输出，目前这方面的研究仍处于“八仙过海，各显神通”的状态，没有标准答案。在这篇文章中，我们来学习一下论文《Tailoring Language Generation Models under Total Variation Distance》给出的该问题的又一种简明的候选方案。

点击阅读全文...

分类：信息时代标签：优化, 损失函数, 光滑阅读全文 14 评论

11 Feb

测试函数法推导连续性方程和Fokker-Planck方程

By 苏剑林 | 2023-02-11 | 30839位读者 | 引用

在文章《生成扩散模型漫谈（六）：一般框架之ODE篇》中，我们推导了SDE的Fokker-Planck方程；而在《生成扩散模型漫谈（十二）：“硬刚”扩散ODE》中，我们单独推导了ODE的连续性方程。它们都是描述随机变量沿着SDE/ODE演化的分布变化方程，连续性方程是Fokker-Planck方程的特例。在推导Fokker-Planck方程时，我们将泰勒展开硬套到了狄拉克函数上，虽然结果是对的，但未免有点不伦不类；在推导连续性方程时，我们结合了雅可比行列式和泰勒展开，方法本身比较常规，但没法用来推广到Fokker-Planck方程。

这篇文章我们介绍“测试函数法”，它是推导连续性方程和Fokker-Planck方程的标准方法之一，其分析过程比较正规，并且适用场景也比较广。

点击阅读全文...

分类：数学研究标签：概率, 微分方程, 随机, 扩散阅读全文 22 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

利用CUR分解加速交互式相似度模型的检索

“十字架”组合计数问题浅试

用热传导方程来指导自监督学习

基本方程

Transformer升级之路：6、旋转位置编码的完备性分析

指数通解

智能家居之热水器零冷水技术原理浅析

写在前面

梯度视角下的LoRA：简介、分析、猜测及推广

方法简介

缓解交叉熵过度自信的一个简明方案

测试函数法推导连续性方程和Fokker-Planck方程

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接