10 Apr

分享一次专业领域词汇的无监督挖掘

去年 Data Fountain 曾举办了一个“电力专业领域词汇挖掘”的比赛,该比赛有意思的地方在于它是一个“无监督”的比赛,也就是说它考验的是从大量的语料中无监督挖掘专业词汇的能力。

这个显然确实是工业界比较有价值的一个能力,又想着我之前也在无监督新词发现中做过一定的研究,加之“无监督比赛”的新颖性,所以当时毫不犹豫地参加了,然而最终排名并不靠前~

不管怎样,还是分享一下我自己的做法,这是一个真正意义上的无监督做法,也许会对部分读者有些参考价值。

基准对比

首先,新词发现部分,用到了我自己写的库nlp zero,基本思路是先分别对“比赛所给语料”、“自己爬的一部分百科百科语料”做新词发现,然后两者进行对比,就能找到一批“比赛所给语料”的特征词。

点击阅读全文...

20 Sep

自然数集中 N = ab + c 时 a + b + c 的最小值

前天晚上微信群里有群友提出了一个问题:

对于一个任意整数$N > 100$,求一个近似算法,使得$N=a\times b+c$(其中$a,b,c$都是非负整数),并且令$a+b+c$尽量地小。

初看这道题,笔者第一感觉就是“这还需要算法?”,因为看上去自由度太大了,应该能求出个解析解才对,于是简单分析了一下之后就给出了个“答案”,结果很快就有群友给出了反例。这时,笔者才意识到这题并非那么平凡,随后正式推导了一番,总算得到了一个可行的算法。正当笔者以为这个问题已经结束时,另一个数学群的群友精妙地构造了新的参数化,证明了算法的复杂度还可以进一步下降!

整个过程波澜起伏,让笔者获益匪浅,遂将过程记录在此,与大家分享。

点击阅读全文...

27 Feb

纠缠的时空(二):洛仑兹变换的矩阵(续)

在上一篇文章中,我们以矩阵的方式推导出了洛仑兹变换。矩阵表述不仅仅具有形式上的美,还具有很重要的实用价值,比如可以很方便地寻找各种不变量。当洛仑兹变换用矩阵的方式表达出来后,很多线性代数中已知的理论都可以用在上边。在这篇小小的续集中,我们将尝试阐述这个思想。

本文中,继续设光速$c=1$。

我们已经得到了洛仑兹变换的矩阵形式:
\begin{equation}\left[\begin{array}{c} x\\t \end{array}\right]=\frac{1}{\sqrt{1-v^2}}\left[\begin{array}{c c}1 & v\\ v & 1 \end{array}\right]\left[\begin{array}{c}x'\\t' \end{array}\right]\end{equation}

点击阅读全文...

11 Jan

你可能不需要BERT-flow:一个线性变换媲美BERT-flow

BERT-flow来自论文《On the Sentence Embeddings from Pre-trained Language Models》,中了EMNLP 2020,主要是用flow模型校正了BERT出来的句向量的分布,从而使得计算出来的cos相似度更为合理一些。由于笔者定时刷Arixv的习惯,早在它放到Arxiv时笔者就看到了它,但并没有什么兴趣,想不到前段时间小火了一把,短时间内公众号、知乎等地出现了不少的解读,相信读者们多多少少都被它刷屏了一下。

从实验结果来看,BERT-flow确实是达到了一个新SOTA,但对于这一结果,笔者的第一感觉是:不大对劲!当然,不是说结果有问题,而是根据笔者的理解,flow模型不大可能发挥关键作用。带着这个直觉,笔者做了一些分析,果不其然,笔者发现尽管BERT-flow的思路没有问题,但只要一个线性变换就可以达到相近的效果,flow模型并不是十分关键。

余弦相似度的假设

一般来说,我们语义相似度比较或检索,都是给每个句子算出一个句向量来,然后算它们的夹角余弦来比较或者排序。那么,我们有没有思考过这样的一个问题:余弦相似度对所输入的向量提出了什么假设呢?或者说,满足什么条件的向量用余弦相似度做比较效果会更好呢?

点击阅读全文...

5 Jun

从一个单位向量变换到另一个单位向量的正交矩阵

这篇文章我们来讨论一个比较实用的线性代数问题:

给定两个$d$维单位(列)向量$\boldsymbol{a},\boldsymbol{b}$,求一个正交矩阵$\boldsymbol{T}$,使得$\boldsymbol{b}=\boldsymbol{T}\boldsymbol{a}$。

由于两个向量模长相同,所以很显然这样的正交矩阵必然存在,那么,我们怎么把它找出来呢?

二维

不难想象,这本质上就是$\boldsymbol{a},\boldsymbol{b}$构成的二维子平面下的向量变换(比如旋转或者镜面反射)问题,所以我们先考虑$d=2$的情形。

正交分解示意图

正交分解示意图

点击阅读全文...

6 Sep

【NASA每日一图】微波背景辐射双极化

图片说明:微波背景辐射,版权:DMR, COBE, NASA, Four-Year Sky Map

图片说明:微波背景辐射,版权:DMR, COBE, NASA, Four-Year Sky Map

点击阅读全文...

1 Feb

纠缠的时空(一):洛仑兹变换的矩阵

我现在是越来越佩服爱因斯坦了,他的相对论是他天才的思想的充分体现。只有当相对论提出之后,宏观物理的大多数现象和规律才得到了统一的描述。狭义相对论中爱因斯坦对我们速度叠加常识的否定已经显示了他莫大的勇气,而一项头脑风暴性的工作——广义相对论则将他惊人的创造力体现得完美无瑕。我是被量子力学的数学吸引的,于相对论则是被相对论美妙的逻辑体系吸引。当然,其中也有相当美妙的数学。

狭义相对论中的核心内容之一就是被称为洛仑兹变换的东西,这在相对论发表之前已经由洛仑兹推导出来了,只不过他不承认他的物理意义,也就没有就此进行一次物理革命,革命的任务则由爱因斯坦完成。很久前我就已经看过洛仑兹变换的推导,那是直接设一种线性关系来求解的。但是我总感觉那样的推导不够清晰(也许是我的理解方式有问题吧),而且没有说明狭义相对论的两条原理如何体现出现。所以在研究过矩阵之后,我就尝试用矩阵来推导洛仑兹变换,发现效果挺好的,而且我觉得能够体现出相对论中的对称性。

两条原理

1、狭义相对性原理:在所有惯性系中,物理定律有相同的表达形式。这是力学相对性原理的推广,它适用于一切物理定律,其本质是所有惯性系平权。

2、光速不变原理:所有惯性系中,真空中的光速都等于c=299 792 458 m/s,与光源运动无关。迈克耳孙-莫雷实验是其有力证明。

点击阅读全文...

25 Apr

傅里叶变换:只需要异想天开?

在对数学或物理进行事后分析,往往会发现一些奇怪的现象,也有可能得到一些更为深刻有趣的结果。比如本文所要谈及的傅里叶变换,可以由一种“异想天开”的思路得来。

洛朗展式

我们知道,在原点处形态良好的函数,可以展开为泰勒级数
$$f(x)=\sum_{n=0}^{\infty}a_n x^n$$
我们发现,上面的幂都是正的,为什么不能包含$x$的负数次幂呢?比如$\frac{\sin z}{z^2}$展开为
$$\frac{1}{z}-\frac{z}{6}+\frac{z^3}{120}\dots$$
显然也是一件合理的事情。于是,结合复变函数,我们得到解析函数的洛朗展式
$$f(z)=\sum_{n=-\infty}^{+\infty}a_n z^n$$
这是函数的双边展开。其中

点击阅读全文...