19 Nov

更别致的词向量模型(一):simpler glove

如果问我哪个是最方便、最好用的词向量模型,我觉得应该是word2vec,但如果问我哪个是最漂亮的词向量模型,我不知道,我觉得各个模型总有一些不足的地方。且不说试验效果好不好(这不过是评测指标的问题),就单看理论也没有一个模型称得上漂亮的。

本文讨论了一些大家比较关心的词向量的问题,很多结论基本上都是实验发现的,缺乏合理的解释,包括:

如果去构造一个词向量模型?

为什么用余弦值来做近义词搜索?向量的内积又是什么含义?

词向量的模长有什么特殊的含义?

为什么词向量具有词类比性质?(国王-男人+女人=女王)

得到词向量后怎么构建句向量?词向量求和作为简单的句向量的依据是什么?

这些讨论既有其针对性,也有它的一般性,有些解释也许可以直接迁移到对glove模型和skip gram模型的词向量性质的诠释中,读者可以自行尝试。

围绕着这些问题的讨论,本文提出了一个新的类似glove的词向量模型,这里称之为simpler glove,并基于斯坦福的glove源码进行修改,给出了本文的实现,具体代码在Github上。

点击阅读全文...

11 May

【致敬】费曼诞辰100年

费曼 - 图片来自于百度百科

费曼 - 图片来自于百度百科

2018年5月11日,是费曼诞辰100周年。

首先看到这个信息,是昨晚凌晨在“京师物理”公众号上的《纪念费曼|费曼的十大贡献》一文。我本身也算是个费曼迷,不过我对这些生日生肖信息完全记不住,我比较深刻的是费曼的故事,包括科学的和生活的。

点击阅读全文...