logsumexp运算的几个不等式
By 苏剑林 | 2022-05-10 | 22119位读者 | 引用$\text{logsumexp}$是机器学习经常遇到的运算,尤其是交叉熵的相关实现和推导中都会经常出现,同时它还是$\max$的光滑近似(参考《寻求一个光滑的最大值函数》)。设$x=(x_1,x_2,\cdots,x_n)$,$\text{logsumexp}$定义为
\begin{equation}\text{logsumexp}(x)=\log\sum_{i=1}^n e^{x_i}\end{equation}
本文来介绍$\text{logsumexp}$的几个在理论推导中可能用得到的不等式。
基本界
记$x_{\max} = \max(x_1,x_2,\cdots,x_n)$,那么显然有
\begin{equation}e^{x_{\max}} < \sum_{i=1}^n e^{x_i} \leq \sum_{i=1}^n e^{x_{\max}} = ne^{x_{\max}}\end{equation}
各端取对数即得
\begin{equation}x_{\max} < \text{logsumexp}(x) \leq x_{\max} + \log n\end{equation}
CoSENT(三):作为交互式相似度的损失函数
By 苏剑林 | 2022-11-09 | 30617位读者 | 引用在《CoSENT(一):比Sentence-BERT更有效的句向量方案》中,笔者提出了名为“CoSENT”的有监督句向量方案,由于它是直接训练cos相似度的,跟评测目标更相关,因此通常能有着比Sentence-BERT更好的效果以及更快的收敛速度。在《CoSENT(二):特征式匹配与交互式匹配有多大差距?》中我们还比较过它跟交互式相似度模型的差异,显示它在某些任务上的效果还能直逼交互式相似度模型。
然而,当时笔者是一心想找一个更接近评测目标的Sentence-BERT替代品,所以结果都是面向有监督句向量的,即特征式相似度模型。最近笔者突然反应过来,CoSENT其实也能作为交互式相似度模型的损失函数。那么它跟标准选择交叉熵相比孰优孰劣呢?本文来补充这部分实验。
哈哈,我的“《圣经》”到了
By 苏剑林 | 2013-06-27 | 54502位读者 | 引用预报日食——当一回天文学家
By 苏剑林 | 2009-07-12 | 18297位读者 | 引用互联网的虚拟操作系统:全球主操作系统
By 苏剑林 | 2009-08-02 | 16110位读者 | 引用我们经常听到在政治、军事等问题上,以色列和巴勒斯坦有多少的冲突,打了多少的仗,这就是所谓的“巴以冲突”。可是,在IT技术领域,两国的技术人员却跨越隔离墙的重重障碍,携手开发出全球的又一个“第一”。
在经过了三年的开发之后,以色列的一家软件开发公司近日宣布推出全球首款基于互联网的虚拟操作系统。运用这一系统,用户可以在世界上任何地方直接读取自己个人电脑上的桌面和数据。
Ghost官方网站:http://g.ho.st
这款操作系统叫作“Ghost”,其中文名称为“精灵”,英文名,全称Global Hosted Operating System,意思是“全球主操作系统”,Ghost是全球首款基于网络的“云计算”操作系统。目前该系统可以提供包括简体中文在内的20种语言的版本,全球用户已经达到20万。
经典电视剧:《仙剑奇侠传3》专辑
By 苏剑林 | 2009-08-05 | 23796位读者 | 引用校准你的钟表(时间科普网站)
By 苏剑林 | 2009-08-16 | 31772位读者 | 引用前几天由于复位了BIOS,时间也复位了,因此,第一件事便是调整好时间。对于一个科学爱好者(特别是天文爱好者),精确的时间是必不可少的。
现在为大家提供一个“时间科普网站”:http://www.time.ac.cn (中文,北京时间)
除了让你能够调整时间,该网站还提供了一些时间的Flash:
(1)圆形钟表:http://www.time.ac.cn/img/clock.swf
(2)电子时钟:http://www.time.ac.cn/ntsctime/Time-Clock-Green-14-7.swf
(3)精确时间:http://www.time.ac.cn/img/digitalclock.swf
读者可根据自己网站的不同来进行调用这些Flash。
最近评论