唯美星空·梦幻天国(KAGAYA加贺谷穰作品)
By 苏剑林 | 2010-02-14 | 50664位读者 | 引用《积分公式大全》网络版本
By 苏剑林 | 2010-10-06 | 20933位读者 | 引用为了方便各位读者查阅,BoJone特意制作了这个积分公式表的电子版本。
数学公式采用JsMath技术显示,为了能够更清晰地显示数学公式,推荐读者下载TeX-fonts字体。
原著的具体说明和下载,请点击
最近的那些事儿...
By 苏剑林 | 2011-07-05 | 15609位读者 | 引用[电子书]《最小作用量原理与物理学的发展》
By 苏剑林 | 2013-08-21 | 49128位读者 | 引用刚看完了电影《转山》,挺感动的,总觉得好像不写点东西就对不起这部电影了。
这还需要从上学期选公选课谈起。上学期我选择的公选课是数据库,而体育课则是太极,接近期末考的时候又重新选公选课了,我想选修一门轻松点、惬意点的课程,刚开始是选择了书法,后来看到了“自行车出行与户外旅游”,有点心动,再看上课老师,原来就是我们的太极老师,上了一学期的太极,跟他有些熟悉,也觉得他很好相处,就觉得选择这门课程了。
上一周二是这门课程是第一次课,老师讲得很精彩,而事实上,我唯一能够全程专心听课的就只有两门课程,一门就是这个公选课,另外就是马克思列宁主义(奇怪吧?确实是,马列老师讲得真的很精彩,我几乎没有分过神)。《转山》这部电影也是上公选课的时候老师推荐的,是根据同名小说改编的。大体的情节是一个台湾年轻人,只身踏上骑自行车从丽江到拉萨的旅途。影片描绘了他路上的崎岖行程,描绘了一路上的风土人情,让人颇为深刻。
两个惊艳的python库:tqdm和retry
By 苏剑林 | 2016-08-13 | 67147位读者 | 引用Python基本是我目前工作、计算、数据挖掘的唯一编程语言(除了符号计算用Mathematica外)。当然,基本的Python功能并不是很强大,但它胜在有巨量的第三方扩展库。在选用Python的第三方库时,我都会经过仔细考虑,希望能挑选出最简单的、最直观的一个(因为本人比较笨,太复杂用不了)。在数据处理方面,我用得最多的是Numpy和Pandas,这两个绝对称得上王者级别的库,当然不能不提的是Scipy,但我很少直接用它,一般会通过Pandas间接调用了;可视化方面不用说是Matplotlib了;在建模方面,我会用Keras,直接上深度学习模型,Keras已经成为相当流行的深度学习框架了,如果做文本挖掘,通常还会用到jieba(分词)、Gensim(主题建模,包含了诸如word2vec之类的模型),机器学习库还有流行的Scikit Learn,但我很少用;网络方面,写爬虫我用requests,这是个人性化的网络库,如果写网站,我会用bottle,这是个单文件版的迷你框架,一切由自己定义,当然,我也不会去写什么大型网站,我就写一个简单的的接口那样而已;最后如果要并行的话,一般直接用multiprocessing。
不过,以上都不是本文要推荐的,本文要推荐的是两个可以渗透到日常写代码的库,它实现了我们平时很多时候都需要的功能,但是不用增加什么代码,绝对让人眼前一亮。
【不可思议的Word2Vec】 4.不一样的“相似”
By 苏剑林 | 2017-05-01 | 143240位读者 | 引用相似度的定义
当用Word2Vec得到词向量后,一般我们会用余弦相似度来比较两个词的相似程度,定义为
$$\cos (\boldsymbol{x}, \boldsymbol{y}) = \frac{\boldsymbol{x}\cdot\boldsymbol{y}}{|\boldsymbol{x}|\times|\boldsymbol{y}|}$$
有了这个相似度概念,我们既可以比较任意两个词之间的相似度,也可以找出跟给定词最相近的词语。这在gensim的Word2Vec中,由most_similar函数实现。
等等!我们很快给出了相似度的计算公式,可是我们居然还没有“定义”相似!连相似都没有定义,怎么就得到了评估相似度的数学公式了呢?
要注意,这不是一个可以随意忽略的问题。很多时候我们都不知道我们干的是什么,就直接去干了。好比上一篇文章说到提取关键词,相信很多人都未曾想过,什么是关键词,难道就仅仅说关键词就是很“关键”的词?而如果想到,关键词就是用来估计文章大概讲什么的,这样我们就得到一种很自然的关键词定义
$$keywords = \mathop{\text{argmax}}_{w\in s}p(s|w)$$
进而可以用各种方法对它建模。
回到本文的主题来,相似度怎么定义呢?答案是:看场景定义所需要的相似。
最近评论