包含关键字密度变分自编码的文章 - 科学空间|Scientific Spaces

3 Jul

《交换代数导引》参考答案

By 苏剑林 | 2017-07-03 | 38985位读者 | 引用

这学期我们的一门课是《交换代数》，是本科抽象代数的升级版。我们用的教材是Atiyah的《Introduction to Commutative Algebra》（交换代数导引），而且根据老师的上课安排，还需要我们把部分课后习题完成并讲解...不得不说这门课上得真累啊～

习题做到后面，我干脆懒得起草稿了，直接把做的答案用LaTeX录入了，既方便排版也方便修改。在这里分享给有需要的读者～答案是用中文写的，注释比较详细，适合刚学这门课的同学～

笔者所做的部分：《交换代数导引》参考答案.pdf

当然这份答案只包括老师对我们的要求的那部分习题，下面是网上搜索到的完整的习题解答，英文版的：

网上找到的答案：Jeffrey Daniel Kasik Carlson - Exercises to Atiya.pdf

如果答案有问题，欢迎留言指出。

分类：数学研究标签：代数阅读全文抢沙发

27 Oct

什么时候多进程的加速比可以大于1？

By 苏剑林 | 2019-10-27 | 65105位读者 | 引用

多进程或者多线程等并行加速目前已经不是什么难事了，相信很多读者都体验过。一般来说，我们会有这样的结论：多进程的加速比很难达到1。换句话说，当你用10进程去并行跑一个任务时，一般只能获得不到10倍的加速，而且进程越多，这个加速比往往就越低。

要注意，我们刚才说“很难达到1”，说明我们的潜意识里就觉得加速比最多也就是1。理论上确实是的，难不成用10进程还能获得20倍的加速？这不是天上掉馅饼吗？不过我前几天确实碰到了一个加速比远大于1的例子，所以在这里跟大家分享一下。

词频统计

我的原始任务是统计词频：我有很多文章，然后我们要对这些文章进行分词，最后汇总出一个词频表出来。一般的写法是这样的：

tokens = {}

for text in read_texts():
    for token in tokenize(text):
        tokens[token] = tokens.get(token, 0) + 1

这种写法在我统计THUCNews全部文章的词频时，大概花了20分钟。

点击阅读全文...

分类：信息时代标签：编程, python 阅读全文 13 评论

29 Dec

ReLU函数，也就是 $\max(x,0)$ ，是最常见的激活函数之一，然而它在 $x=0$ 处的不可导通常也被视为一个“槽点”。为此，有诸多的光滑近似被提出，比如SoftPlus、GeLU、Swish等，不过这些光滑近似无一例外地至少都使用了指数运算 $e^x$ （SoftPlus还用到了对数），从“精打细算”的角度来看，计算量还是不小的（虽然当前在GPU加速之下，我们很少去感知这点计算量了）。最近有一篇论文《Squareplus: A Softplus-Like Algebraic Rectifier》提了一个更简单的近似，称为SquarePlus，我们也来讨论讨论。

需要事先指出的是，笔者是不建议大家花太多时间在激活函数的选择和设计上的，所以虽然分享了这篇论文，但主要是提供一个参考结果，并充当一道练习题来给大家“练练手”。

定义

SquarePlus的形式很简单，只用到了加、乘、除和开方：
$\begin{equation}\text{SquarePlus}(x)=\frac{x+\sqrt{x^2+b}}{2}\end{equation}$

点击阅读全文...

分类：数学研究标签：函数, 近似, 分析阅读全文 4 评论

10 May

logsumexp运算的几个不等式

By 苏剑林 | 2022-05-10 | 26767位读者 | 引用

$\text{logsumexp}$ 是机器学习经常遇到的运算，尤其是交叉熵的相关实现和推导中都会经常出现，同时它还是 $\max$ 的光滑近似（参考《寻求一个光滑的最大值函数》）。设 $x=(x_1,x_2,\cdots,x_n)$ ， $\text{logsumexp}$ 定义为
$\begin{equation}\text{logsumexp}(x)=\log\sum_{i=1}^n e^{x_i}\end{equation}$
本文来介绍 $\text{logsumexp}$ 的几个在理论推导中可能用得到的不等式。

基本界

记 $x_{\max} = \max(x_1,x_2,\cdots,x_n)$ ，那么显然有
$\begin{equation}e^{x_{\max}} < \sum_{i=1}^n e^{x_i} \leq \sum_{i=1}^n e^{x_{\max}} = ne^{x_{\max}}\end{equation}$
各端取对数即得
$\begin{equation}x_{\max} < \text{logsumexp}(x) \leq x_{\max} + \log n\end{equation}$

点击阅读全文...

分类：数学研究标签：不等式, 函数阅读全文 5 评论

9 Nov

CoSENT（三）：作为交互式相似度的损失函数

By 苏剑林 | 2022-11-09 | 37729位读者 | 引用

在《CoSENT（一）：比Sentence-BERT更有效的句向量方案》中，笔者提出了名为“CoSENT”的有监督句向量方案，由于它是直接训练cos相似度的，跟评测目标更相关，因此通常能有着比Sentence-BERT更好的效果以及更快的收敛速度。在《CoSENT（二）：特征式匹配与交互式匹配有多大差距？》中我们还比较过它跟交互式相似度模型的差异，显示它在某些任务上的效果还能直逼交互式相似度模型。

然而，当时笔者是一心想找一个更接近评测目标的Sentence-BERT替代品，所以结果都是面向有监督句向量的，即特征式相似度模型。最近笔者突然反应过来，CoSENT其实也能作为交互式相似度模型的损失函数。那么它跟标准选择交叉熵相比孰优孰劣呢？本文来补充这部分实验。

点击阅读全文...

分类：信息时代标签：语义, 语义相似度, 对比学习阅读全文 10 评论

27 Jun

哈哈，我的“《圣经》”到了

By 苏剑林 | 2013-06-27 | 58661位读者 | 引用

之前已经稍微提及到了MTW的《引力论》，这本由C.W.麦思纳（Charles W.Misner）、K.S.索恩（Kip S.Thorne）、J.A.惠勒（John Archibald Wheeler）联合编写的广义相对论教材，被誉为引力中的“《圣经》”。自从我看到它的信息开始，我就一直对它念念不忘，一直希望能找到那本台湾翻译的中文版。无奈天朝的各种因素，让我难以如愿。通过翻墙到PChome的全球购物，结合各种手段，我终于买到了这本《圣经》！

引力论1

点击阅读全文...

分类：生活/情感标签：引力, 书籍阅读全文 7 评论

12 Jul

预报日食——当一回天文学家

By 苏剑林 | 2009-07-12 | 19793位读者 | 引用

预报天象，一般只是专业的天文研究人员的事情，我们这些业余的一般只是查找相关信息而已。但是，自从有了计算机(PC)以后，个人预报天象是完全可能的。现在，就发布我在1个多月前写好的一篇关于“日全食”的文章，教大家如何使用Stellarium来精确地预报自己所在地的天象情况。现在，就让我们当一回天文学家。