包含关键字图圣经网络的文章 - 科学空间|Scientific Spaces

9 Oct

“十字架”组合计数问题浅试

By 苏剑林 | 2022-10-09 | 19104位读者 | 引用

昨天在这个公众号文章看到了一道据说答案有争议的“十字架”组合计数问题：

一个正方形中，如果四条边有两条是$i$色，另外两条是其他两种不同颜色，那么称这个正方形是“$i$色主导”的。考虑如下由16条线段、5个正方形组成的“十字架”图形，每条边染上红、黄、蓝三色之一，使得横向和竖向三个正方形的主导色均不相同，问有多少种不同的染色方法。
“十字架”示意图

链接的文章有两个答案：吴康老师的54432，以及王慧兴老师的27216。本文先通过编程确认王慧兴老师的27216是正确答案，然后给出自己的理论分析过程。

点击阅读全文...

分类：数学研究标签：证明, 数学, 组合数学阅读全文 4 评论

22 Dec

上周笔者写了《生成扩散模型漫谈（十四）：构建ODE的一般步骤（上）》（当时还没有“上”这个后缀），本以为已经窥见了构建ODE扩散模型的一般规律，结果不久后评论区大神 @gaohuazuo 就给出了一个构建格林函数更高效、更直观的方案，让笔者自愧不如。再联想起之前大神之前在《生成扩散模型漫谈（十二）：“硬刚”扩散ODE》同样也给出了一个关于扩散ODE的精彩描述（间接启发了上一篇博客的结果），大神的洞察力不得不让人叹服。

经过讨论和思考，笔者发现大神的思路本质上就是一阶偏微分方程的特征线法，通过构造特定的向量场保证初值条件，然后通过求解微分方程保证终值条件，同时保证了初值和终值条件，真的非常巧妙！最后，笔者将自己的收获总结成此文，作为上一篇的后续。

前情回顾

简单回顾一下上一篇文章的结果。假设随机变量$\boldsymbol{x}_0\in\mathbb{R}^d$连续地变换成$\boldsymbol{x}_T$，其变化规律服从ODE
\begin{equation}\frac{d\boldsymbol{x}_t}{dt}=\boldsymbol{f}_t(\boldsymbol{x}_t)\label{eq-ode}\end{equation}

点击阅读全文...

分类：信息时代标签：微分方程, 生成模型, 扩散, 格林函数阅读全文 5 评论

30 Nov

用热传导方程来指导自监督学习

By 苏剑林 | 2022-11-30 | 28825位读者 | 引用

用理论物理来卷机器学习已经不是什么新鲜事了，比如上个月介绍的《生成扩散模型漫谈（十三）：从万有引力到扩散模型》就是经典一例。最近一篇新出的论文《Self-Supervised Learning based on Heat Equation》，顾名思义，用热传导方程来做（图像领域的）自监督学习，引起了笔者的兴趣。这种物理方程如何在机器学习中发挥作用？同样的思路能否迁移到NLP中？让我们一起来读读论文。

基本方程

如下图，左边是物理中热传导方程的解，右端则是CAM、积分梯度等显著性方法得到的归因热力图，可以看到两者有一定的相似之处，于是作者认为热传导方程可以作为好的视觉特征的一个重要先验。

热方程的热力图（左）和视觉模型的热力图（右）

点击阅读全文...

分类：信息时代标签：物理, 无监督阅读全文 9 评论

15 Dec

生成扩散模型漫谈（十四）：构建ODE的一般步骤（上）

By 苏剑林 | 2022-12-15 | 52738位读者 | 引用

书接上文，在《生成扩散模型漫谈（十三）：从万有引力到扩散模型》中，我们介绍了一个由万有引力启发的、几何意义非常清晰的ODE式生成扩散模型。有的读者看了之后就疑问：似乎“万有引力”并不是唯一的选择，其他形式的力是否可以由同样的物理绘景构建扩散模型？另一方面，该模型在物理上确实很直观，但还欠缺从数学上证明最后确实能学习到数据分布。

本文就尝试从数学角度比较精确地回答“什么样的力场适合构建ODE式生成扩散模型”这个问题。

基础结论

要回答这个问题，需要用到在《生成扩散模型漫谈（十二）：“硬刚”扩散ODE》中我们推导过的一个关于常微分方程对应的分布变化的结论。

考虑$\boldsymbol{x}_t\in\mathbb{R}^d, t\in[0,T]$的一阶（常）微分方程（组）
\begin{equation}\frac{d\boldsymbol{x}_t}{dt}=\boldsymbol{f}_t(\boldsymbol{x}_t)\label{eq:ode}\end{equation}

点击阅读全文...

分类：信息时代标签：微分方程, 生成模型, 扩散, 格林函数阅读全文 20 评论

4 Jan

智能家居之热水器零冷水技术原理浅析

By 苏剑林 | 2023-01-04 | 41424位读者 | 引用

如果家庭使用单一的热水器集中供热水，那么当我们想要用热水时，往往需要先放一段时间的冷水，而如果放冷水时间比较长的话，就会比较影响体验。所谓零冷水，实际上就是想办法提前把热水管中的冷水排放掉，以达到（几乎）瞬间出热水的效果。事实上，零冷水并不是什么高大上的技术，但可能由于观念没跟上、理解上有误等原因，零冷水技术还没有在家庭中得到普及，不过随着大家对生活品质的要求越来越高，零冷水确实在慢慢流行起来了。

本文来简单分析一下零冷水技术的实现原理，包括各种方案的优缺点和自省DIY的参考思路。

理想的零冷水方案

写在前面

在文章开始，需要纠正很多人的一个错误观念：零冷水不是为了省钱，而是为了提升生活品质。如果你是省钱最大的心态，那么接下来的内容就可以不用看了，零冷水技术对你毫无价值。

点击阅读全文...

分类：生活/情感标签：智能家居阅读全文 16 评论

12 Jan

Transformer升级之路：7、长度外推性与局部注意力

By 苏剑林 | 2023-01-12 | 85361位读者 | 引用

对于Transformer模型来说，其长度的外推性是我们一直在追求的良好性质，它是指我们在短序列上训练的模型，能否不用微调地用到长序列上并依然保持不错的效果。之所以追求长度外推性，一方面是理论的完备性，觉得这是一个理想模型应当具备的性质，另一方面也是训练的实用性，允许我们以较低成本（在较短序列上）训练出一个长序列可用的模型。

下面我们来分析一下加强Transformer长度外推性的关键思路，并由此给出一个“超强基线”方案，然后我们带着这个“超强基线”来分析一些相关的研究工作。

思维误区

第一篇明确研究Transformer长度外推性的工作应该是ALIBI，出自2021年中期，距今也不算太久。为什么这么晚（相比Transformer首次发表的2017年）才有人专门做这个课题呢？估计是因为我们长期以来，都想当然地认为Transformer的长度外推性是位置编码的问题，找到更好的位置编码就行了。

点击阅读全文...

分类：信息时代标签：语言模型, attention, 位置编码, 外推阅读全文 43 评论

25 Apr

注意力和Softmax的两点有趣发现：鲁棒性和信息量

By 苏剑林 | 2023-04-25 | 28477位读者 | 引用

最近几周笔者一直都在思考注意力机制的相关性质，在这个过程中对注意力及Softmax有了更深刻的理解。在这篇文章中，笔者简单分享其中的两点：

1、Softmax注意力天然能够抵御一定的噪声扰动；
2、从信息熵角度也可以对初始化问题形成直观理解。

鲁棒性

基于Softmax归一化的注意力机制，可以写为
\begin{equation}o = \frac{\sum\limits_{i=1}^n e^{s_i} v_i}{\sum\limits_{i=1}^n e^{s_i}}\end{equation}
有一天笔者突然想到一个问题：如果往$s_i$中加入独立同分布的噪声会怎样？

点击阅读全文...

分类：数学研究标签：信息, 熵, attention 阅读全文 11 评论

16 Feb

Google新搜出的优化器Lion：效率与效果兼得的“训练狮”

By 苏剑林 | 2023-02-16 | 47486位读者 | 引用

昨天在Arixv上发现了Google新发的一篇论文《Symbolic Discovery of Optimization Algorithms》，主要是讲自动搜索优化器的，咋看上去没啥意思，因为类似的工作也有不少，大多数结果都索然无味。然而，细读之下才发现别有洞天，原来作者们通过数千TPU小时的算力搜索并结合人工干预，得到了一个速度更快、显存更省的优化器Lion（EvoLved Sign Momentum，不得不吐槽这名字起得真勉强），并在图像分类、图文匹配、扩散模型、语言模型预训练和微调等诸多任务上做了充分的实验，多数任务都显示Lion比目前主流的AdamW等优化器有着更好的效果。

更省显存还更好效果，真可谓是鱼与熊掌都兼得了，什么样的优化器能有这么强悍的性能？本文一起来欣赏一下论文的成果。

先说结果

本文主要关心搜索出来的优化器本身，所以关于搜索过程的细节就不讨论了，对此有兴趣读者自行看原论文就好。Lion优化器的更新过程为
\begin{equation}\text{Lion}:=\left\{\begin{aligned}
&\boldsymbol{u}_t = \text{sign}\big(\beta_1 \boldsymbol{m}_{t-1} + \left(1 - \beta_1\right) \boldsymbol{g}_t\big) \\
&\boldsymbol{\theta}_t = \boldsymbol{\theta}_{t-1} - \eta_t (\boldsymbol{u}_t \color{skyblue}{ + \lambda_t \boldsymbol{\theta}_{t-1}}) \\
&\boldsymbol{m}_t = \beta_2 \boldsymbol{m}_{t-1} + \left(1 - \beta_2\right) \boldsymbol{g}_t
\end{aligned}\right.\end{equation}

点击阅读全文...

分类：信息时代标签：分析, 优化, 优化器阅读全文 19 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

“十字架”组合计数问题浅试

生成扩散模型漫谈（十五）：构建ODE的一般步骤（中）

前情回顾

用热传导方程来指导自监督学习

基本方程

生成扩散模型漫谈（十四）：构建ODE的一般步骤（上）

基础结论

智能家居之热水器零冷水技术原理浅析

写在前面

Transformer升级之路：7、长度外推性与局部注意力

思维误区

注意力和Softmax的两点有趣发现：鲁棒性和信息量

鲁棒性

Google新搜出的优化器Lion：效率与效果兼得的“训练狮”

先说结果

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接