包含关键字小波变换的文章 - 科学空间|Scientific Spaces

25 Oct

圆内随机n点在同一个圆心角为θ的扇形的概率

By 苏剑林 | 2022-10-25 | 28002位读者 | 引用

这几天网上热传了一道“四鸭共半圆”题目：

四鸭共半圆问题

可能有不少读者看到后也尝试做过，就连李永乐老师也专门开了一节课讲这道题（参考《圆形水池四只鸭子在同一个半圆里，概率有多大？》）。就这道题目本身而言，答案并不算困难，可以有很多方法算出来。稍微有难度的是它的推广版本，也就是本文标题所描述的，将鸭子的数目一般化为$n$只，将半圆一般化为圆心角为$\theta$的扇形。更有趣的是，当$\theta \leq \pi$时，依然有比较初等的解法，但是当$\theta > \pi$后，复杂度开始“剧增”...

点击阅读全文...

分类：数学研究标签：概率, 竞赛, 随机阅读全文 12 评论

9 Oct

“十字架”组合计数问题浅试

By 苏剑林 | 2022-10-09 | 14907位读者 | 引用

昨天在这个公众号文章看到了一道据说答案有争议的“十字架”组合计数问题：

一个正方形中，如果四条边有两条是$i$色，另外两条是其他两种不同颜色，那么称这个正方形是“$i$色主导”的。考虑如下由16条线段、5个正方形组成的“十字架”图形，每条边染上红、黄、蓝三色之一，使得横向和竖向三个正方形的主导色均不相同，问有多少种不同的染色方法。
“十字架”示意图

链接的文章有两个答案：吴康老师的54432，以及王慧兴老师的27216。本文先通过编程确认王慧兴老师的27216是正确答案，然后给出自己的理论分析过程。

点击阅读全文...

分类：数学研究标签：证明, 数学, 组合数学阅读全文 4 评论

4 Jan

智能家居之热水器零冷水技术原理浅析

By 苏剑林 | 2023-01-04 | 31304位读者 | 引用

如果家庭使用单一的热水器集中供热水，那么当我们想要用热水时，往往需要先放一段时间的冷水，而如果放冷水时间比较长的话，就会比较影响体验。所谓零冷水，实际上就是想办法提前把热水管中的冷水排放掉，以达到（几乎）瞬间出热水的效果。事实上，零冷水并不是什么高大上的技术，但可能由于观念没跟上、理解上有误等原因，零冷水技术还没有在家庭中得到普及，不过随着大家对生活品质的要求越来越高，零冷水确实在慢慢流行起来了。

本文来简单分析一下零冷水技术的实现原理，包括各种方案的优缺点和自省DIY的参考思路。

理想的零冷水方案

写在前面

在文章开始，需要纠正很多人的一个错误观念：零冷水不是为了省钱，而是为了提升生活品质。如果你是省钱最大的心态，那么接下来的内容就可以不用看了，零冷水技术对你毫无价值。

点击阅读全文...

分类：生活/情感标签：智能家居阅读全文 16 评论

25 Apr

注意力和Softmax的两点有趣发现：鲁棒性和信息量

By 苏剑林 | 2023-04-25 | 22809位读者 | 引用

最近几周笔者一直都在思考注意力机制的相关性质，在这个过程中对注意力及Softmax有了更深刻的理解。在这篇文章中，笔者简单分享其中的两点：

1、Softmax注意力天然能够抵御一定的噪声扰动；
2、从信息熵角度也可以对初始化问题形成直观理解。

鲁棒性

基于Softmax归一化的注意力机制，可以写为
\begin{equation}o = \frac{\sum\limits_{i=1}^n e^{s_i} v_i}{\sum\limits_{i=1}^n e^{s_i}}\end{equation}
有一天笔者突然想到一个问题：如果往$s_i$中加入独立同分布的噪声会怎样？

点击阅读全文...

分类：数学研究标签：信息, 熵, attention 阅读全文 11 评论

17 Apr

梯度视角下的LoRA：简介、分析、猜测及推广

By 苏剑林 | 2023-04-17 | 50802位读者 | 引用

随着ChatGPT及其平替的火热，各种参数高效（Parameter-Efficient）的微调方法也“水涨船高”，其中最流行的方案之一就是本文的主角LoRA了，它出自论文《LoRA: Low-Rank Adaptation of Large Language Models》。LoRA方法上比较简单直接，而且也有不少现成实现，不管是理解还是使用都很容易上手，所以本身也没太多值得细写的地方了。

然而，直接实现LoRA需要修改网络结构，这略微麻烦了些，同时LoRA给笔者的感觉是很像之前的优化器AdaFactor，所以笔者的问题是：能否从优化器角度来分析和实现LoRA呢？本文就围绕此主题展开讨论。

方法简介

以往的一些结果（比如《Exploring Universal Intrinsic Task Subspace via Prompt Tuning》）显示，尽管预训练模型的参数量很大，但每个下游任务对应的本征维度（Intrinsic Dimension）并不大，换句话说，理论上我们可以微调非常小的参数量，就能在下游任务取得不错的效果。

LoRA借鉴了上述结果，提出对于预训练的参数矩阵$W_0\in\mathbb{R}^{m\times n}$，我们不去直接微调$W_0$，而是对增量做低秩分解假设：
\begin{equation}W = W_0 + U V,\qquad U\in\mathbb{R}^{m\times r},V\in\mathbb{R}^{r\times n}\end{equation}
其中$U,V$之一用全零初始化，$W_0$固定不变，优化器只优化$U,V$。由于本征维度很小的结论，所以$r$我们可以取得很小，很多时候我们甚至可以直接取$1$。所以说，LoRA是一种参数高效的微调方法，至少被优化的参数量大大降低了。

点击阅读全文...

分类：数学研究标签：语言模型, 梯度, 优化器, 低秩阅读全文 32 评论

14 Mar

缓解交叉熵过度自信的一个简明方案

By 苏剑林 | 2023-03-14 | 23242位读者 | 引用

众所周知，分类问题的常规评估指标是正确率，而标准的损失函数则是交叉熵，交叉熵有着收敛快的优点，但它并非是正确率的光滑近似，这就带来了训练和预测的不一致性问题。另一方面，当训练样本的预测概率很低时，交叉熵会给出一个非常巨大的损失（趋于$-\log 0^{+}=\infty$），这意味着交叉熵会特别关注预测概率低的样本——哪怕这个样本可能是“脏数据”。所以，交叉熵训练出来的模型往往有过度自信现象，即每个样本都给出较高的预测概率，这会带来两个副作用：一是对脏数据的过度拟合带来的效果下降，二是预测的概率值无法作为不确定性的良好指标。

围绕交叉熵的改进，学术界一直都有持续输出，目前这方面的研究仍处于“八仙过海，各显神通”的状态，没有标准答案。在这篇文章中，我们来学习一下论文《Tailoring Language Generation Models under Total Variation Distance》给出的该问题的又一种简明的候选方案。

点击阅读全文...

分类：信息时代标签：优化, 损失函数, 光滑阅读全文 14 评论

11 Feb

测试函数法推导连续性方程和Fokker-Planck方程

By 苏剑林 | 2023-02-11 | 20468位读者 | 引用

在文章《生成扩散模型漫谈（六）：一般框架之ODE篇》中，我们推导了SDE的Fokker-Planck方程；而在《生成扩散模型漫谈（十二）：“硬刚”扩散ODE》中，我们单独推导了ODE的连续性方程。它们都是描述随机变量沿着SDE/ODE演化的分布变化方程，连续性方程是Fokker-Planck方程的特例。在推导Fokker-Planck方程时，我们将泰勒展开硬套到了狄拉克函数上，虽然结果是对的，但未免有点不伦不类；在推导连续性方程时，我们结合了雅可比行列式和泰勒展开，方法本身比较常规，但没法用来推广到Fokker-Planck方程。

这篇文章我们介绍“测试函数法”，它是推导连续性方程和Fokker-Planck方程的标准方法之一，其分析过程比较正规，并且适用场景也比较广。

点击阅读全文...

分类：数学研究标签：概率, 微分方程, 随机, 扩散阅读全文 21 评论

14 Feb

生成扩散模型漫谈（十六）：W距离 ≤ 得分匹配

By 苏剑林 | 2023-02-14 | 18038位读者 | 引用

Wasserstein距离（下面简称“W距离”），是基于最优传输思想来度量两个概率分布差异程度的距离函数，笔者之前在《从Wasserstein距离、对偶理论到WGAN》等博文中也做过介绍。对于很多读者来说，第一次听说W距离，是因为2017年出世的WGAN，它开创了从最优传输视角来理解GAN的新分支，也提高了最优传输理论在机器学习中的地位。很长一段时间以来，GAN都是生成模型领域的“主力军”，直到最近这两年扩散模型异军突起，GAN的风头才有所下降，但其本身仍不失为一个强大的生成模型。

从形式上来看，扩散模型和GAN差异很明显，所以其研究一直都相对独立。不过，去年底的一篇论文《Score-based Generative Modeling Secretly Minimizes the Wasserstein Distance》打破了这个隔阂：它证明了扩散模型的得分匹配损失可以写成W距离的上界形式。这意味着在某种程度上，最小化扩散模型的损失函数，实则跟WGAN一样，都是在最小化两个分布的W距离。

点击阅读全文...

分类：数学研究,信息时代标签：微分方程, GAN, 生成模型, 扩散阅读全文 5 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

圆内随机n点在同一个圆心角为θ的扇形的概率

“十字架”组合计数问题浅试

智能家居之热水器零冷水技术原理浅析

写在前面

注意力和Softmax的两点有趣发现：鲁棒性和信息量

鲁棒性

梯度视角下的LoRA：简介、分析、猜测及推广

方法简介

缓解交叉熵过度自信的一个简明方案

测试函数法推导连续性方程和Fokker-Planck方程

生成扩散模型漫谈（十六）：W距离 ≤ 得分匹配

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接