12 Aug

“Cool Papers + 站内搜索”的一些新尝试

《Cool Papers更新:简单搭建了一个站内检索系统》这篇文章中,我们介绍了Cool Papers新增的站内搜索系统。搜索系统的目的,自然希望能够帮助用户快速找到他们需要的论文。然而,如何高效地检索到对自己有价值的结果,并不是一件简单的事情,这里边往往需要一些技巧,比如精准提炼关键词。

这时候算法的价值就体现出来了,有些步骤人工来做会比较繁琐,但用算法来却很简单。所以接下来,我们将介绍几点通过算法来提高Cool Papers的搜索和筛选论文效率的新尝试。

相关论文

站内搜索背后的技术是全文检索引擎(Full-text Search Engine),简单来说,这就是一个基于关键词匹配的搜索算法,其相似度指标是BM25

点击阅读全文...

7 Dec

从局部到全局:语义相似度的测地线距离

前段时间在最近的一篇论文《Unsupervised Opinion Summarization Using Approximate Geodesics》中学到了一个新的概念,叫做“测地线距离(Geodesic Distance)”,感觉有点意思,特来跟大家分享一下。

对笔者来说,“新”的不是测地线距离概念本身(以前学黎曼几何的时候就已经接触过了),而是语义相似度领域原来也可以巧妙地构造出测地线距离出来,并在某些场景下发挥作用。如果乐意,我们还可以说这是“流形上的语义相似度”,是不是瞬间就高级了不少?

论文梗概

首先,我们简单总结一下原论文的主要内容。顾名思义,论文的主题是摘要,通常我们的无监督摘要是这样做的:假设文章由$n$个句子$t_1,t_2,\cdots,t_n$组成,给每个句子设计打分函数$s(t_i)$(经典的是tf-idf及其变体),然后挑出打分最大的若干个句子作为摘要。当然,论文做的不是简单的摘要,而是“Opinion Summarization”,这个“Opinion”,我们可以理解为实现给定的主题或者中心$c$,摘要应该倾向于抽取出与$c$相关的句子,所以打分函数应该还应该跟$c$有关,即$s(t_i, c)$。

点击阅读全文...

8 Jul

【个人翻译】变暖的地球对冷血动物来说过热?

翻译语录:
这是一篇关于气候变暖对变温动物的影响的文章。原文很长,来自“科学美国人”网站,本文有所删减。
在人类不断报道气候变化对人类所造成的影响的时候,自然界的其他生物也在受着气候的影响。也许,自然界的其他生物才是最大的受害者。无论如何,为了我们,为了自然,为了地球,为了后代,我们都应该自觉地去减少温室效应。只要人人都节约一点点,世界就会多一片绿色、一片蓝天!

点击阅读全文...

9 Jan

增强typecho的搜索功能

科学空间是使用typecho程序搭建的博客,侧边栏提供了搜索功能,然而typecho内置搜索功能仅仅是基于字符串的全匹配查找,因此导致很多合理的查询都没法得到结果,比如“2018天象”、“新词算法”都没法给出结果,原因就是文章中都不包含这些字符串。

于是就萌生了加强搜索功能的想法,之前也有读者建议过这个事情。这两天搜索了一下,本来计划用Python下的Whoosh库来建立一个全文检索引擎,但感觉整合和后期维护的工作量太大,还是放弃了。后来想到在typecho自身的搜索上加强,在公司同事(大佬)的帮助下,完成了这个改进。

由于是直接修改typecho源文件实现的改进,因此如果typecho升级后就可能被覆盖,因此在这里做个备忘。

探索

通过在Github检索我发现,typecho的搜索功能是在var/Widget/Archive.php中实现的,具体代码大概在1185~1192行:

点击阅读全文...

18 Jul

日全食多路联合直播频道

正式直播活动计划于北京时间7月22日7时30分开始,11时30分结束,持续约4个小时。

(观看请安装PPlive插件,只能用IE或者IE内核浏览器观看)

 

简介:

点击阅读全文...

23 Jul

关于光的传播定律

Long Long Ago,有着一个庞大的国家,它的名字叫宇宙。那里有着无数的子民,其中一个庞大的家族叫做“光”。这些子民“光”,并没有受到任何法律的约束,不过要受到三个“定律”的限制,它们是——光的直线传播定律、反射定律、折射定律

光的直线传播定律

我们已经知道,在均匀的媒质中,光的传播路径是一条直线。这是人们从实践中总结出来的,而直线本身的定义也是由光学的观察而产生。在点光源的照射下,物体的影子,相当于用直线所作的几何投影。

图片说明:光的传播

图片说明:光的传播

点击阅读全文...

1 Aug

椭圆的周长与面积

椭圆面积和周长的求法,看上去没有什么区别。不过实际上它们的难度有着天壤之别。

椭圆所包围的面积是$S=\pi ab$,这里的a和b是半长轴和半短轴。仅根据椭圆标准方程就可以推导出来。

目前还没有找到椭圆周长的一般公式,要想精确求解,只有代入以下无穷级数:
$$C=2\pi a [1 - (1/2)^2 (\frac{c}{a})^2 - ({1\cdot 3}/{2\cdot 4})^2{c^4}/{3a^4} - ({1\cdot 3\cdot 5}/{2\cdot 4\cdot 6})^2{c^6}/{5a^6}-...]$$
可以写成:
$$C = 2\pi a \sum_{n=0}^{\infty} { - [\prod_{m=1}^n ({2m-1}/{2m})]^2 {c^{2n}}/{a^{2n}(2n - 1)}}$$

距离c 叫做椭圆的线性离心率,等于从中心到任一焦点的距离

点击阅读全文...

2 Aug

【NASA每日一图】NGC 6559 的恒星,尘埃和星云

说明:

图片显示的是在NGC 6559中恒星,尘埃和星云。

点击阅读全文...