CoSENT(三):作为交互式相似度的损失函数
By 苏剑林 | 2022-11-09 | 30111位读者 | 引用在《CoSENT(一):比Sentence-BERT更有效的句向量方案》中,笔者提出了名为“CoSENT”的有监督句向量方案,由于它是直接训练cos相似度的,跟评测目标更相关,因此通常能有着比Sentence-BERT更好的效果以及更快的收敛速度。在《CoSENT(二):特征式匹配与交互式匹配有多大差距?》中我们还比较过它跟交互式相似度模型的差异,显示它在某些任务上的效果还能直逼交互式相似度模型。
然而,当时笔者是一心想找一个更接近评测目标的Sentence-BERT替代品,所以结果都是面向有监督句向量的,即特征式相似度模型。最近笔者突然反应过来,CoSENT其实也能作为交互式相似度模型的损失函数。那么它跟标准选择交叉熵相比孰优孰劣呢?本文来补充这部分实验。
测试函数法推导连续性方程和Fokker-Planck方程
By 苏剑林 | 2023-02-11 | 30824位读者 | 引用在文章《生成扩散模型漫谈(六):一般框架之ODE篇》中,我们推导了SDE的Fokker-Planck方程;而在《生成扩散模型漫谈(十二):“硬刚”扩散ODE》中,我们单独推导了ODE的连续性方程。它们都是描述随机变量沿着SDE/ODE演化的分布变化方程,连续性方程是Fokker-Planck方程的特例。在推导Fokker-Planck方程时,我们将泰勒展开硬套到了狄拉克函数上,虽然结果是对的,但未免有点不伦不类;在推导连续性方程时,我们结合了雅可比行列式和泰勒展开,方法本身比较常规,但没法用来推广到Fokker-Planck方程。
这篇文章我们介绍“测试函数法”,它是推导连续性方程和Fokker-Planck方程的标准方法之一,其分析过程比较正规,并且适用场景也比较广。
EMO:基于最优传输思想设计的分类损失函数
By 苏剑林 | 2023-10-13 | 52125位读者 | 引用众所周知,分类任务的标准损失是交叉熵(Cross Entropy,等价于最大似然MLE,即Maximum Likelihood Estimation),它有着简单高效的特点,但在某些场景下也暴露出一些问题,如偏离评价指标、过度自信等,相应的改进工作也有很多,此前我们也介绍过一些,比如《再谈类别不平衡问题:调节权重与魔改Loss的对比联系》、《如何训练你的准确率?》、《缓解交叉熵过度自信的一个简明方案》等。由于LLM的训练也可以理解为逐token的分类任务,默认损失也是交叉熵,因此这些改进工作在LLM流行的今天依然有一定的价值。
在这篇文章中,我们介绍一篇名为《EMO: Earth Mover Distance Optimization for Auto-Regressive Language Modeling》的工作,它基于最优传输思想提出了新的改进损失函数EMO,声称能大幅提高LLM的微调效果。其中细节如何?让我们一探究竟。
新词发现的信息熵方法与实现
By 苏剑林 | 2015-10-26 | 107098位读者 | 引用在本博客的前面文章中,已经简单提到过中文文本处理与挖掘的问题了,中文数据挖掘与英语同类问题中最大的差别是,中文没有空格,如果要较好地完成语言任务,首先得分词。目前流行的分词方法都是基于词库的,然而重要的问题就来了:词库哪里来?人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词等——而这往往是语言任务的关键地方。因此,中文语言处理很核心的一个任务就是完善新词发现算法。
新词发现说的就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。前两天我去小虾的公司膜拜,并且试着加入了他们的一个开发项目中,主要任务就是网络文章处理。因此,补习了一下新词发现的算法知识,参考了Matrix67.com的文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》,尤其是里边的信息熵思想,并且根据他的思路,用Python写了个简单的脚本。
级数求和——近似的无穷级数
By 苏剑林 | 2010-09-10 | 47375位读者 | 引用级数是数学的一门很具有实用性的分支,而级数求和则是级数研究中的核心内容之一。很多问题都可以表示成一个级数的和或积,也就是$\sum_{i=1}^n f(i)$或者是$\prod_{i=1}^n f(i)$类型的运算。其中,$\ln(\prod_{i=1}^n f(i))=\sum_{i=1}^n \ln(f(i))=k$,因此$\prod_{i=1}^n f(i)=e^k$,也就是说,级数求积也可以变为级数求和来计算,换言之我们可以把精力放到级数求和上去。
为了解决一般的级数求和问题,我们考虑以下方程的解:
$$f(x+\epsilon)-f(x)=g(x)\tag{1}$$其中g(x)是已知的以x为变量的函数式,$\epsilon $是常数,初始条件是$f(k)=b$,要求f(x)的表达式。
施密特系统的校正镜方程求解
By 苏剑林 | 2011-02-11 | 31799位读者 | 引用非抛物面望远镜的校正镜方程求解
The Corrector Plate of Non-parabola Telescope
本文在牧夫天文论坛的讨论:
http://www.astronomy.ac/bbs/thread-160257-1-1.html
为了克服折射望远镜的色差问题,1670年,牛顿制造了第一台实用的反射式望远镜,将望远镜的主镜由玻璃透镜换成了抛物反射面,从而消除了色差。然而,相比球面镜,大口径的抛物面并不容易磨制。因为制作大球面镜只需要将曲率相等的小镜片相对自由组合在一起就行了,而抛物线每点的曲率并不相等,所以需要逐个磨制曲率不等的小镜片,并按照严格的顺序组合起来。这无疑大大增加了磨制难度。
为了解决这一难题,天文学家们想到了一个折衷的办法:以球面为主镜,并配以校正镜来校正球差。迎着这一思路,施密特望远镜随之而生。而当代的大望远镜基本上都是沿用这一思路。然而,校正镜是一个比抛物面更加复杂的四次曲面,磨制工艺要求更高,因此,校正镜也不宜过大。
对称多项式不等式的“物理证明”
By 苏剑林 | 2011-08-13 | 35771位读者 | 引用本文将再次谈到对称这个话题,不过这一次的对象不是“等式”,而是“不等式”。
在数学研究中,我们经常会遇到各种各样的函数式子,其中有相当一部分是“对称”的。什么是对称的函数呢?对称有很多种说法,但是针对于多元对称式,我们的定义为满足$f(x_1,x_2,...,x_n)=f(y_1,y_2,...,y_n)$的函数,其中$(y_1,y_2,...,y_n)$是$(x_1,x_2,...,x_n)$的任意一个排列。通俗来讲,就是将式子中任意两个未知数交换位置,得到的式子还是和原来的式子一样。例如$\sin x+\sin y$,把$x,y$交换位置后得到$\sin y+\sin x$,还是和原来的一样;再如$xy+yz+zx$,将y,z互换后可以得到$xz+zy+yx$,结果还是和原式一样;等等。有些对称的函数是一个n次的多项式,那么就叫它为n次对称多项式,上边的例子$xz+zy+yx$就是一个三元二次对称多项式。
最近评论