包含关键字算子与线性常微分方程的文章

5 Mar

短文本匹配Baseline：脱敏数据使用预训练模型的尝试

By 苏剑林 | 2021-03-05 | 86114位读者 | 引用

最近凑着热闹玩了玩全球人工智能技术创新大赛中的“小布助手对话短文本语义匹配”赛道，其任务就是常规的短文本句子对二分类任务，这任务在如今各种预训练Transformer“横行”的时代已经没啥什么特别的难度了，但有意思的是，这次比赛脱敏了，也就是每个字都被影射为数字ID了，我们无法得到原始文本。

在这种情况下，还能用BERT等预训练模型吗？用肯定是可以用的，但需要一些技巧，并且可能还需要再预训练一下。本文分享一个baseline，它将分类、预训练和半监督学习都结合在了一起，能够用于脱敏数据任务。

本文模型示意图

点击阅读全文...

分类：信息时代标签：语言模型, 语义, 语义相似度阅读全文 39 评论

29 Jun

UniVAE：基于Transformer的单模型、多尺度的VAE模型

By 苏剑林 | 2021-06-29 | 56329位读者 | 引用

大家都知道，Transformer的$\mathscr{O}(n^2)$复杂度是它的“硬伤”之一。不过凡事有弊亦有利，$\mathscr{O}(n^2)$的复杂度也为Transformer带来很大的折腾空间，我们可以灵活地定制不同的attention mask，来设计出不同用途的Transformer模型来，比如UniLM、K-BERT等。

本文介绍笔者构思的一个能用于文本的UniVAE模型，它沿用类似UniLM的思路，将VAE做到了一个Transformer模型里边，并且还具备多尺度特性～

UniAE式Attention关联示意图

点击阅读全文...

分类：信息时代标签：变分, 无监督, vae, attention 阅读全文 25 评论

9 Dec

变分自编码器（八）：估计样本概率密度

By 苏剑林 | 2021-12-09 | 46529位读者 | 引用

在本系列的前面几篇文章中，我们已经从多个角度来理解了VAE，一般来说，用VAE是为了得到一个生成模型，或者是做更好的编码模型，这都是VAE的常规用途。但除了这些常规应用外，还有一些“小众需求”，比如用来估计$x$的概率密度，这在做压缩的时候通常会用到。

本文就从估计概率密度的角度来了解和推导一下VAE模型。

两个问题

所谓估计概率密度，就是在已知样本$x_1,x_2,\cdots,x_N\sim \tilde{p}(x)$的情况下，用一个待定的概率密度簇$q_{\theta}(x)$去拟合这批样本，拟合的目标一般是最小化负对数似然：
\begin{equation}\mathbb{E}_{x\sim \tilde{p}(x)}[-\log q_{\theta}(x)] = -\frac{1}{N}\sum_{i=1}^N \log q_{\theta}(x_i)\label{eq:mle}\end{equation}

点击阅读全文...

分类：信息时代标签：概率, 变分, vae, 生成模型阅读全文 16 评论

3 Mar

指数梯度下降 + 元学习 = 自适应学习率

By 苏剑林 | 2022-03-03 | 21855位读者 | 引用

前两天刷到了Google的一篇论文《Step-size Adaptation Using Exponentiated Gradient Updates》，在其中学到了一些新的概念，所以在此记录分享一下。主要的内容有两个，一是非负优化的指数梯度下降，二是基于元学习思想的学习率调整算法，两者都颇有意思，有兴趣的读者也可以了解一下。

指数梯度下降

梯度下降大家可能听说得多了，指的是对于无约束函数$\mathcal{L}(\boldsymbol{\theta})$的最小化，我们用如下格式进行更新：
\begin{equation}\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \eta\nabla_{\boldsymbol{\theta}}\mathcal{L}(\boldsymbol{\theta}_t)\end{equation}
其中$\eta$是学习率。然而很多任务并非总是无约束的，对于最简单的非负约束，我们可以改为如下格式更新：
\begin{equation}\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t \odot \exp\left(- \eta\nabla_{\boldsymbol{\theta}}\mathcal{L}(\boldsymbol{\theta}_t)\right)\label{eq:egd}\end{equation}
这里的$\odot$是逐位对应相乘（Hadamard积）。容易看到，只要初始化的$\boldsymbol{\theta}_0$是非负的，那么在整个更新过程中$\boldsymbol{\theta}_t$都会保持非负，这就是用于非负约束优化的“指数梯度下降”。

点击阅读全文...

分类：数学研究标签：优化, 梯度, 优化器阅读全文 9 评论

10 May

logsumexp运算的几个不等式

By 苏剑林 | 2022-05-10 | 16050位读者 | 引用

$\text{logsumexp}$是机器学习经常遇到的运算，尤其是交叉熵的相关实现和推导中都会经常出现，同时它还是$\max$的光滑近似（参考《寻求一个光滑的最大值函数》）。设$x=(x_1,x_2,\cdots,x_n)$，$\text{logsumexp}$定义为
\begin{equation}\text{logsumexp}(x)=\log\sum_{i=1}^n e^{x_i}\end{equation}
本文来介绍$\text{logsumexp}$的几个在理论推导中可能用得到的不等式。

基本界

记$x_{\max} = \max(x_1,x_2,\cdots,x_n)$，那么显然有
\begin{equation}e^{x_{\max}} < \sum_{i=1}^n e^{x_i} \leq \sum_{i=1}^n e^{x_{\max}} = ne^{x_{\max}}\end{equation}
各端取对数即得
\begin{equation}x_{\max} < \text{logsumexp}(x) \leq x_{\max} + \log n\end{equation}

点击阅读全文...

分类：数学研究标签：不等式, 函数阅读全文 5 评论

19 Jul

生成扩散模型漫谈（三）：DDPM = 贝叶斯 + 去噪

By 苏剑林 | 2022-07-19 | 85219位读者 | 引用

到目前为止，笔者给出了生成扩散模型DDPM的两种推导，分别是《生成扩散模型漫谈（一）：DDPM = 拆楼 + 建楼》中的通俗类比方案和《生成扩散模型漫谈（二）：DDPM = 自回归式VAE》中的变分自编码器方案。两种方案可谓各有特点，前者更为直白易懂，但无法做更多的理论延伸和定量理解，后者理论分析上更加完备一些，但稍显形式化，启发性不足。

贝叶斯定理（来自维基百科）

在这篇文章中，我们再分享DDPM的一种推导，它主要利用到了贝叶斯定理来简化计算，整个过程的“推敲”味道颇浓，很有启发性。不仅如此，它还跟我们后面将要介绍的DDIM模型有着紧密的联系。

点击阅读全文...

分类：信息时代标签：概率, 生成模型, DDPM, 扩散阅读全文 74 评论

5 Dec

智能家居之小爱同学控制极米投影仪的简单方案

By 苏剑林 | 2022-12-05 | 23483位读者 | 引用

前段时间买了一个极米投影仪，开始折腾才发现极米跟小米基本没啥关系，它根本无法跟小爱同学互动。在众多名字带“米”的品牌中，极米是为数不多的无法接入米家生态的品牌，想必有不少用户开始都会被极米这个名字误导，关键是极米投影仪还在小米商城上有得卖（捂脸）。

买都买了，还过了七天无理由，退是退不成了，只能试着折腾一下，看看能不能强行互动。

现有方案

首先网上搜了一下，网友给出的参考方案大体上有几种，一种是用“米家智能插座 + 上电自动开机”来控制开关机（事实上主要的联动就是开关机了），一种是接入Home Assistant后通过ADB控制，还有一种是修改遥控器，给遥控器加入红外模块，继而用小爱同学的红外遥控功能。

点击阅读全文...

分类：生活/情感标签：生活, 智能家居阅读全文 3 评论

25 Oct

圆内随机n点在同一个圆心角为θ的扇形的概率

By 苏剑林 | 2022-10-25 | 25898位读者 | 引用

这几天网上热传了一道“四鸭共半圆”题目：

四鸭共半圆问题

可能有不少读者看到后也尝试做过，就连李永乐老师也专门开了一节课讲这道题（参考《圆形水池四只鸭子在同一个半圆里，概率有多大？》）。就这道题目本身而言，答案并不算困难，可以有很多方法算出来。稍微有难度的是它的推广版本，也就是本文标题所描述的，将鸭子的数目一般化为$n$只，将半圆一般化为圆心角为$\theta$的扇形。更有趣的是，当$\theta \leq \pi$时，依然有比较初等的解法，但是当$\theta > \pi$后，复杂度开始“剧增”...

点击阅读全文...

分类：数学研究标签：概率, 竞赛, 随机阅读全文 12 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

短文本匹配Baseline：脱敏数据使用预训练模型的尝试

UniVAE：基于Transformer的单模型、多尺度的VAE模型

变分自编码器（八）：估计样本概率密度

两个问题

指数梯度下降 + 元学习 = 自适应学习率

指数梯度下降

logsumexp运算的几个不等式

基本界

生成扩散模型漫谈（三）：DDPM = 贝叶斯 + 去噪

智能家居之小爱同学控制极米投影仪的简单方案

现有方案

圆内随机n点在同一个圆心角为θ的扇形的概率

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接