“Cool Papers + 站内搜索”的一些新尝试
By 苏剑林 | 2024-08-12 | 15087位读者 | 引用在《Cool Papers更新:简单搭建了一个站内检索系统》这篇文章中,我们介绍了Cool Papers新增的站内搜索系统。搜索系统的目的,自然希望能够帮助用户快速找到他们需要的论文。然而,如何高效地检索到对自己有价值的结果,并不是一件简单的事情,这里边往往需要一些技巧,比如精准提炼关键词。
这时候算法的价值就体现出来了,有些步骤人工来做会比较繁琐,但用算法来却很简单。所以接下来,我们将介绍几点通过算法来提高Cool Papers的搜索和筛选论文效率的新尝试。
相关论文
站内搜索背后的技术是全文检索引擎(Full-text Search Engine),简单来说,这就是一个基于关键词匹配的搜索算法,其相似度指标是BM25。
从局部到全局:语义相似度的测地线距离
By 苏剑林 | 2022-12-07 | 30187位读者 | 引用前段时间在最近的一篇论文《Unsupervised Opinion Summarization Using Approximate Geodesics》中学到了一个新的概念,叫做“测地线距离(Geodesic Distance)”,感觉有点意思,特来跟大家分享一下。
对笔者来说,“新”的不是测地线距离概念本身(以前学黎曼几何的时候就已经接触过了),而是语义相似度领域原来也可以巧妙地构造出测地线距离出来,并在某些场景下发挥作用。如果乐意,我们还可以说这是“流形上的语义相似度”,是不是瞬间就高级了不少?
论文梗概
首先,我们简单总结一下原论文的主要内容。顾名思义,论文的主题是摘要,通常我们的无监督摘要是这样做的:假设文章由$n$个句子$t_1,t_2,\cdots,t_n$组成,给每个句子设计打分函数$s(t_i)$(经典的是tf-idf及其变体),然后挑出打分最大的若干个句子作为摘要。当然,论文做的不是简单的摘要,而是“Opinion Summarization”,这个“Opinion”,我们可以理解为实现给定的主题或者中心$c$,摘要应该倾向于抽取出与$c$相关的句子,所以打分函数应该还应该跟$c$有关,即$s(t_i, c)$。
【个人翻译】变暖的地球对冷血动物来说过热?
By 苏剑林 | 2009-07-08 | 32618位读者 | 引用增强typecho的搜索功能
By 苏剑林 | 2018-01-09 | 67175位读者 | 引用科学空间是使用typecho程序搭建的博客,侧边栏提供了搜索功能,然而typecho内置搜索功能仅仅是基于字符串的全匹配查找,因此导致很多合理的查询都没法得到结果,比如“2018天象”、“新词算法”都没法给出结果,原因就是文章中都不包含这些字符串。
于是就萌生了加强搜索功能的想法,之前也有读者建议过这个事情。这两天搜索了一下,本来计划用Python下的Whoosh库来建立一个全文检索引擎,但感觉整合和后期维护的工作量太大,还是放弃了。后来想到在typecho自身的搜索上加强,在公司同事(大佬)的帮助下,完成了这个改进。
由于是直接修改typecho源文件实现的改进,因此如果typecho升级后就可能被覆盖,因此在这里做个备忘。
探索
通过在Github检索我发现,typecho的搜索功能是在var/Widget/Archive.php
中实现的,具体代码大概在1185~1192行:
日全食多路联合直播频道
By 苏剑林 | 2009-07-18 | 17020位读者 | 引用椭圆面积和周长的求法,看上去没有什么区别。不过实际上它们的难度有着天壤之别。
椭圆所包围的面积是$S=\pi ab$,这里的a和b是半长轴和半短轴。仅根据椭圆标准方程就可以推导出来。
目前还没有找到椭圆周长的一般公式,要想精确求解,只有代入以下无穷级数:
$$C=2\pi a [1 - (1/2)^2 (\frac{c}{a})^2 - ({1\cdot 3}/{2\cdot 4})^2{c^4}/{3a^4} - ({1\cdot 3\cdot 5}/{2\cdot 4\cdot 6})^2{c^6}/{5a^6}-...]$$
可以写成:
$$C = 2\pi a \sum_{n=0}^{\infty} { - [\prod_{m=1}^n ({2m-1}/{2m})]^2 {c^{2n}}/{a^{2n}(2n - 1)}}$$
距离c 叫做椭圆的线性离心率,等于从中心到任一焦点的距离
最近评论