包含关键字最大值函数的文章 - 科学空间|Scientific Spaces

9 Nov

CoSENT（三）：作为交互式相似度的损失函数

By 苏剑林 | 2022-11-09 | 31120位读者 | 引用

在《CoSENT（一）：比Sentence-BERT更有效的句向量方案》中，笔者提出了名为“CoSENT”的有监督句向量方案，由于它是直接训练cos相似度的，跟评测目标更相关，因此通常能有着比Sentence-BERT更好的效果以及更快的收敛速度。在《CoSENT（二）：特征式匹配与交互式匹配有多大差距？》中我们还比较过它跟交互式相似度模型的差异，显示它在某些任务上的效果还能直逼交互式相似度模型。

然而，当时笔者是一心想找一个更接近评测目标的Sentence-BERT替代品，所以结果都是面向有监督句向量的，即特征式相似度模型。最近笔者突然反应过来，CoSENT其实也能作为交互式相似度模型的损失函数。那么它跟标准选择交叉熵相比孰优孰劣呢？本文来补充这部分实验。

点击阅读全文...

分类：信息时代标签：语义, 语义相似度, 对比学习阅读全文 10 评论

11 Feb

测试函数法推导连续性方程和Fokker-Planck方程

By 苏剑林 | 2023-02-11 | 32413位读者 | 引用

在文章《生成扩散模型漫谈（六）：一般框架之ODE篇》中，我们推导了SDE的Fokker-Planck方程；而在《生成扩散模型漫谈（十二）：“硬刚”扩散ODE》中，我们单独推导了ODE的连续性方程。它们都是描述随机变量沿着SDE/ODE演化的分布变化方程，连续性方程是Fokker-Planck方程的特例。在推导Fokker-Planck方程时，我们将泰勒展开硬套到了狄拉克函数上，虽然结果是对的，但未免有点不伦不类；在推导连续性方程时，我们结合了雅可比行列式和泰勒展开，方法本身比较常规，但没法用来推广到Fokker-Planck方程。

这篇文章我们介绍“测试函数法”，它是推导连续性方程和Fokker-Planck方程的标准方法之一，其分析过程比较正规，并且适用场景也比较广。

点击阅读全文...

分类：数学研究标签：概率, 微分方程, 随机, 扩散阅读全文 22 评论

13 Oct

EMO：基于最优传输思想设计的分类损失函数

By 苏剑林 | 2023-10-13 | 53550位读者 | 引用

众所周知，分类任务的标准损失是交叉熵（Cross Entropy，等价于最大似然MLE，即Maximum Likelihood Estimation），它有着简单高效的特点，但在某些场景下也暴露出一些问题，如偏离评价指标、过度自信等，相应的改进工作也有很多，此前我们也介绍过一些，比如《再谈类别不平衡问题：调节权重与魔改Loss的对比联系》、《如何训练你的准确率？》、《缓解交叉熵过度自信的一个简明方案》等。由于LLM的训练也可以理解为逐token的分类任务，默认损失也是交叉熵，因此这些改进工作在LLM流行的今天依然有一定的价值。

在这篇文章中，我们介绍一篇名为《EMO: Earth Mover Distance Optimization for Auto-Regressive Language Modeling》的工作，它基于最优传输思想提出了新的改进损失函数EMO，声称能大幅提高LLM的微调效果。其中细节如何？让我们一探究竟。

点击阅读全文...

分类：信息时代标签：概率, 优化, 损失函数, 最优传输阅读全文 16 评论

27 Jun

重温SSM（四）：有理生成函数的新视角

By 苏剑林 | 2024-06-27 | 16979位读者 | 引用

在前三篇文章中，我们较为详细地讨论了HiPPO和S4的大部分数学细节。那么，对于接下来的第四篇文章，大家预期我们会讨论什么工作呢？S5、Mamba乃至Mamba2？都不是。本系列文章主要关心SSM的数学基础，旨在了解SSM的同时也补充自己的数学能力。而在上一篇文章我们简单提过S5和Mamba，S5是S4的简化版，相比S4基本上没有引入新的数学技巧，而Mamba系列虽然表现优异，但它已经将$A$简化为对角矩阵，所用到的数学技巧就更少了，它更多的是体现了工程方面的能力。

这篇文章我们来学习一篇暂时还声名不显的新工作《State-Free Inference of State-Space Models: The Transfer Function Approach》（简称RFT），它提出了一个新方案，将SSM的训练、推理乃至参数化，都彻底转到了生成函数空间中，为SSM的理解和应用开辟了新的视角

基础回顾

首先我们简单回顾一下上一篇文章关于S4的探讨结果。S4基于如下线性RNN
\begin{equation}\begin{aligned}
x_{k+1} =&\, \bar{A} x_k + \bar{B} u_k \\
y_{k+1} =&\, \bar{C}^* x_{k+1} \\
\end{aligned}\label{eq:linear}\end{equation}

点击阅读全文...

分类：数学研究标签：生成函数, 线性, RNN, ssm 阅读全文 3 评论

21 Feb

把地球放到“宇宙中心”...

By 苏剑林 | 2010-02-21 | 29883位读者 | 引用

Solar_sys

虽然地心说早已站不住脚了，但是我们的确是站在地球上观测宇宙的，我们得把地球视为静止的，才能满足我们日常的观测所需。也就是说，必须得以地球为参照系。这样，我们其实也就重新树立了地球的“宇宙中心”地位。最典型的模型就是所谓的天球坐标系，它的本质就是把地球看做宇宙的中心...

点击阅读全文...

分类：天文探索标签：坐标, 变换阅读全文 2 评论

27 Nov

《自然极值》系列——1.前言

By 苏剑林 | 2010-11-27 | 52365位读者 | 引用

附：期中考过后，课程紧了，自由时间少了，因此科学空间的更新也放缓了。不过BoJone也会尽量地更新一些内容，和大家一同分享学习的乐趣。

闭区间[a,b]上的连续函数?(x)，其最大值为红色点，最小值为蓝色点

上一周和这一周的时间里，BoJone将自己学习物理和极值的一些内容进行了总结和整合，写成了《自然极值》一文。因此从今天起，到十二月的大多数时间里，科学空间将和大家讲述并讨论关于“极值”的问题，希望读者会喜欢这部分内容。当然，我不是专业的研究人员，更不是经验丰富的物理和数学教师，甚至可以说是一个“乳臭未干的小子”，因此，错误在所难免，只希望同好不吝指出，更希冀能够起到我抛出的这一块“砖”能够引出美妙的“玉”。

点击阅读全文...

分类：数学研究标签：物理, 极值, 自然阅读全文 8 评论

26 Dec

《自然极值》系列——8.极值分析

By 苏剑林 | 2010-12-26 | 46076位读者 | 引用

《非线性泛函分析及其应用,第3卷,变分法及最优化》

本篇文章是《自然极值》系列最后一篇文章，估计也是2010年最后一篇文章了。在这个美好的2010年，想必大家一定收获匪浅，BoJone也在2010年成长了很多。在2010年的尾声，BoJone和科学空间都祝大家在新的一年里更加开心快乐，在科学的道路上更快速地前行。

在本文，BoJone将与大家讨论求极值的最基本原理。这一探讨思路受到了天才的费恩曼所著《费恩曼物理讲义》的启迪。我们分别对函数求极值（求导）和泛函数极值（变分）进行一些简略的分析。

一、函数求极值

对于一个函数$y=f(x)$，设想它在$x=x_0$处取到最大值，那么显然对于很小的增量$\Delta x$，有
$$f(x_0+\Delta x) \leq f(x_0)\tag{3}$$根据泰勒级数，我们有
$f(x_0+\Delta x)=f(x_0)+f'(x_0)\Delta x$————(4)

点击阅读全文...

分类：数学研究标签：2010, 极值, 分析, 变分, 2011 阅读全文 8 评论

13 Feb

Designing GANs：又一个GAN生产车间

By 苏剑林 | 2020-02-13 | 33549位读者 | 引用

在2018年的文章里《f-GAN简介：GAN模型的生产车间》笔者介绍了f-GAN，并评价其为GAN模型的“生产车间”，顾名思义，这是指它能按照固定的流程构造出很多不同形式的GAN模型来。前几天在arxiv上看到了新出的一篇论文《Designing GANs: A Likelihood Ratio Approach》（后面简称Designing GANs或原论文），发现它在做跟f-GAN同样的事情，但走的是一条截然不同的路（不过最后其实是殊途同归），整篇论文颇有意思，遂在此分享一番。

f-GAN回顾

从《f-GAN简介：GAN模型的生产车间》中我们可以知道，f-GAN的首要步骤是找到满足如下条件的函数$f$：

1、$f$是非负实数到实数的映射（$\mathbb{R}^* \to \mathbb{R}$）；
2、$f(1)=0$；
3、$f$是凸函数。

点击阅读全文...

分类：数学研究,信息时代标签：微积分, GAN, 生成模型阅读全文 4 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

CoSENT（三）：作为交互式相似度的损失函数

测试函数法推导连续性方程和Fokker-Planck方程

EMO：基于最优传输思想设计的分类损失函数

重温SSM（四）：有理生成函数的新视角

基础回顾

把地球放到“宇宙中心”...

《自然极值》系列——1.前言

《自然极值》系列——8.极值分析

Designing GANs：又一个GAN生产车间

f-GAN回顾

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接